Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

机箱群集概述

机箱群集在 SRX 系列防火墙上提供高可用性,其中两台设备作为单个设备运行。机箱群集包括 SRX 系列防火墙之间的配置文件和动态运行时会话状态同步,这是机箱群集设置的一部分。

机箱群集概述

Junos OS 通过使用机箱群集在 SRX 系列防火墙上提供高可用性。SRX 系列防火墙可配置为在群集模式下运行,其中一对设备可以连接在一起并配置为像单个节点一样运行,从而提供设备、接口和服务级别冗余。

对于充当有状态防火墙的 SRX 系列防火墙,保留两台设备之间的流量状态非常重要。在机箱群集设置中,如果发生故障,则需要会话持久性,以便即使故障设备正在转发流量,也不会丢弃已建立的会话。

配置为 机箱群集时,两个节点相互备份,一个节点充当主设备,另一个作为辅助设备,确保在发生系统或硬件故障时进程和服务的有状态故障切换。如果主设备发生故障,辅助设备将接管流量处理。群集节点通过称为控制链路和结构链路的两个链路连接在一起,机箱群集中的设备可同步群集中的配置、内核和 PFE 会话状态,以促进高可用性、有状态服务故障切换和负载平衡。

启用机箱群集不需要单独的许可证。但是,某些 Junos OS 软件功能需要许可证才能激活该功能。有关更多信息,请参阅 了解机箱群集许可要求、在 机箱群集中的 SRX 系列设备上安装许可证在机箱群集中的 SRX 系列设备上验证许可证。有关许可证管理的一般信息,请参阅瞻博网络许可指南。有关详细信息,请参阅 SRX 系列服务网关 的产品介绍,或联系您的瞻博网络客户团队或瞻博网络合作伙伴。

机箱群集的优势

  • 防止导致连接中断的单个设备故障。

  • 将分支机构和远程站点链接连接到大型公司办公室时,在设备之间提供高可用性。通过利用机箱群集功能,企业可以在发生设备或链路故障时确保连接。

机箱群集功能

机箱群集功能包括:

  • 弹性系统架构,具有用于整个集群的单个活动控制平面和多个数据包转发引擎。此体系结构提供群集的单个设备视图。

  • 群集内节点之间的配置和动态运行时状态同步。

  • 监控物理接口,并在故障参数超过配置的阈值时进行故障切换。

机箱群集模式

机箱群集可配置为主动/主动或主动/被动模式。

  • Active/passive mode:在主动/被动模式下,传输流量通过主节点,而备份节点仅在发生故障时使用。发生故障时,备份设备将成为主设备并接管所有转发任务。

  • Active/active mode:在主动/主动模式下,传输流量始终通过群集的两个节点。

机箱群集的工作原理是什么?

各个节点上的控制端口连接在一起,形成一个控制平面,同步配置和内核状态,以促进接口和服务的高可用性。

各个节点上的数据平面通过交换矩阵端口连接,形成一个统一的数据平面。

创建机箱群集时,各个节点上的控制端口连接起来形成一个控制平面,用于同步配置和内核状态,以促进接口和服务的高可用性。

同样,各个节点上的数据平面通过结构端口连接,形成统一的数据平面。

结构链路允许管理跨节点流处理和管理会话冗余。

控制平面软件在主动或备份模式下运行。配置为机箱群集时,两个节点相互备份,一个节点充当主设备,另一个作为辅助设备,确保在发生系统或硬件故障时进程和服务的有状态故障切换。如果主设备发生故障,辅助设备将接管流量处理。

数据平面软件在主动/主动模式下运行。在机箱群集中,会话信息会在流量遍历任一设备时更新,并且此信息通过交换矩阵链路在节点之间传输,以确保在发生故障切换时不会丢弃已建立的会话。在主动/主动模式量可能会在一个节点上进入群集,然后从另一个节点出口。当设备加入群集时,它将成为该群集的节点。除了唯一的节点设置和管理 IP 地址外,群集中的节点共享相同的配置。

在任何给定时刻,群集都可能处于以下状态之一:保留、主要、辅助保留、辅助、不合格和禁用。任何事件都会触发状态转换,例如接口监控、SPU 监控、故障和手动故障切换。

IPv6 群集支持

除了对主动/被动(故障切换)机箱群集配置的现有支持之外,还可以将运行 IP 版本 6 (IPv6) 的 SRX 系列防火墙部署在主动/主动(故障切换)机箱群集配置中。接口可以配置为 IPv4 地址和/或 IPv6 地址。通讯簿条目可以包括 IPv4 地址、IPv6 地址和域名系统 (DNS) 名称的任意组合。

机箱群集支持通用路由封装 (GRE) 隧道,用于通过内部接口 gr-0/0/0 路由封装的 IPv4/IPv6 流量。此接口由 Junos OS 在系统启动时创建,仅用于处理 GRE 隧道。请参阅 安全设备的接口用户指南

SRX 机箱群集用例

企业和服务提供商网络在客户边缘网络层采用各种冗余和弹性方法。由于此层代表 Internet 的入口或对等点,因此其稳定性和正常运行时间非常重要。客户交易信息、电子邮件、IP 语音 (VoIP) 和站点到站点流量都可以利用这个公共网络的单一入口点。在站点到站点 VPN 是客户站点和总部站点之间唯一互连的环境中,此链接变得更加重要。

传统上,使用具有隐蔽配置的多个设备在此网络层提供冗余,结果好坏参半。在这些配置中,企业依靠路由和冗余协议来实现高度可用和冗余的客户边缘。这些协议识别故障的速度通常很慢,并且通常不允许正确处理有状态流量所需的同步。鉴于通过边缘(传入/传出 Internet 或客户站点之间)的相当数量的企业流量是有状态的,因此此网络层配置中的一个持续挑战是确保在发生故障转移或恢复时会话状态不会丢失。

配置冗余设备的另一个挑战是需要配置、管理和维护具有不同配置的单独物理设备。同步这些配置也可能是一项挑战,因为随着安全措施的需求和复杂性的增加,配置不匹配的可能性也随之增加。在安全的环境中,不匹配的配置可能会导致连接中断等简单问题,或导致全面安全漏洞等复杂且代价高昂的问题。客户边缘的任何异常事件都会影响正常运行时间,从而影响服务客户的能力,或者可能影响保护客户数据安全的能力。

冗余客户边缘配置问题的答案是引入状态感知群集架构,允许两个或多个设备作为单个设备运行。这种架构中的设备能够在所有设备之间共享会话信息,以实现近乎瞬时的故障转移和有状态流量的恢复。此空间成功的关键衡量标准是群集在保持活动会话状态的同时故障转移和恢复流量的能力。

使用示例中所述的 SRX 机箱群集配置:将 SRX 系列服务网关配置为全网状机箱群集 将减少系统停机时间。

有效集群架构中的设备也可以作为单个设备进行管理;共享单个控制平面。此功能至关重要,因为它可以减少与管理多个设备相关的运营支出。您可以通过单个管理点管理提供相同功能的多个设备,而不是使用不同的配置和管理门户管理和操作单独的设备。

最后,在群集配置中,设备能够监控活动接口以确定其服务状态。有效的集群会主动监控所有收入接口,如果检测到故障,应故障转移到备份接口。这应该以近乎即时的间隔完成,以尽量减少服务故障(客户呼叫中断等)的影响。

机箱群集限制

SRX 系列防火墙具有以下机箱群集限制:

Chassis Cluster

  • 不支持组 VPN。

  • 在机箱群集中的所有 SRX 系列防火墙上,都支持版本 5 和版本 8 的流量监控。但是,不支持版本 9 的流监视。

  • 当 SRX 系列防火墙在机箱群集模式下运行并在 SPC 或 I/O 卡 (IOC) 中遇到任何 IA 芯片访问问题时,将激活次要 FPC 告警以触发冗余组故障切换。

  • 在 SRX5400、SRX5600 和 SRX5800 设备上,只能在主设备上收集屏幕统计数据。

  • 在 SRX4600、SRX5400、SRX5600 和 SRX5800 设备上,在大型机箱群集配置中,如果使用的逻辑接口超过 1000 个,建议将群集检测信号计时器从触发故障切换前的默认等待时间增加。在全容量实现中,我们建议通过在层次结构中[edit chassis cluster]修改 heartbeat-thresholdheartbeat-interval 值将等待时间增加到 8 秒。

    heartbeat-interval值的heartbeat-threshold乘积定义故障转移之前的时间。默认值(heartbeat-threshold3 拍和 heartbeat-interval 1000 毫秒)产生 3 秒的等待时间。

    要更改等待时间,请修改选项值,使产品等于所需的设置。例如,将 设置为 heartbeat-threshold 8 并保持默认值 heartbeat-interval (1000 毫秒)将产生 8 秒的等待时间。同样,将 设置为 heartbeat-threshold 4 和 heartbeat-interval 2000 毫秒也会产生 8 秒的等待时间。

  • 在 SRX5400、SRX5600 和 SRX5800 设备上,机箱群集接口上不会反映八队列配置。

Flow and Processing

  • 如果在 reth 接口上使用数据包捕获,则会创建两个文件,一个用于入口数据包,另一个用于基于 reth 接口名称的出口数据包。这些文件可以使用Wireshark或Mergecap等工具在设备外部合并。

  • 如果在 reth 接口上使用端口镜像,则无法将 reth 接口配置为输出接口。必须使用物理接口作为输出接口。如果使用命令 set forwarding-options port-mirroring family inet output 将 reth 接口配置为输出接口,则会显示以下错误消息。

    Port-mirroring configuration error. Interface type in reth1.0 is not valid for port-mirroring or next-hop-group config

  • 当 SRX 系列防火墙在机箱群集模式下运行并遇到任何 IA 芯片(IA 芯片是瞻博网络 SPC1 和 IOC1 的一部分。它直接影响 SPC 或 I/O 卡 (IOC) 中的 SPC1/IOC1 控制平面)访问问题,激活次要 FPC 告警以触发冗余组故障切换。

  • 在机箱群集中的 SRX 系列防火墙上,配置两个逻辑系统时,扩展限制会超过 13,000,这非常接近标准扩展限制 15,000,结果收敛时间为 5 分钟。出现此问题的原因是组播路由学习需要更多时间,路由数增加。

  • 在机箱群集中的SRX4600、SRX5400、SRX5600和SRX5800设备上,如果运行 LACP 进程 (lacpd) 的主节点正常或不正常重新启动,则新主节点上的 lacpd 可能需要几秒钟才能启动或重置接口和状态机,以恢复意外的同步结果。此外,在故障转移期间,当系统处理流量数据包或内部高优先级数据包(删除会话或重新建立任务)时,来自对等方(交换机)的中等优先级 LACP 数据包会在等待队列中被推掉,从而导致进一步的延迟。

SRX300、SRX320、SRX340、SRX345、SRX380、SRX1500、SRX1600、SRX2300和SRX4300设备支持流监控。

Installation and Upgrade

  • 对于 SRX300、SRX320、SRX340、SRX345 和 SRX380 设备,该 reboot 参数不可用,因为群集中的设备会在带内群集升级 (ICU) 后自动重新启动。

Interfaces

  • 在 lsq-0/0/0 接口上,不支持链路服务 MLPPP、MLFR 和 CRTP。

  • 在 lt-0/0/0 接口上,不支持用于 RPM 的 CoS。

  • 不支持 3G 拨号器接口。

  • 不支持在 ae 接口上排队。

Layer 2 Switching

  • 在 SRX 系列防火墙故障切换中,第 2 层交换机上的接入点将重新启动,所有无线客户端将断开连接 4 到 6 分钟。

MIBs

  • 不支持机箱群集 MIB。

Monitoring

  • 对于 SRX300、SRX320、SRX340、SRX345、SRX380、SRX1500、SRX1600、SRX2300和SRX4300设备,每个群集可配置的最大监控 IP 数为 64。

  • 在 SRX300、SRX320、SRX340、SRX345、SRX380、SRX1500、SRX1600、SRX2300 和 SRX4300 设备上,如果在流模式下配置日志记录,则无法将日志发送到 NSM。无法发送日志,因为安全日志不支持为 fxp0 接口配置源 IP 地址,并且流模式下的安全日志目标无法通过 fxp0 接口路由。这意味着您不能在与 fxp0 接口相同的子网中配置安全日志服务器,也不能通过 fxp0 接口路由日志服务器。

IPv6

  • IPv6 目标不支持冗余组 IP 地址监控。

GPRS

  • 在 SRX5400、SRX5600 和 SRX5800 设备上,每个 GTP 配置文件的 APN 或 IMSI 筛选器必须限制为 600。过滤器的数量与 IMSI 前缀条目的数量成正比。例如,如果一个 APN 配置了两个 IMSI 前缀条目,则过滤器的数量为 2。

MIBs

  • 不支持机箱群集 MIB。

Nonstop Active Routing (NSR)

  • NSR 可以保留接口和内核信息,并通过在备份路由引擎上运行路由协议进程 (RPD) 来保存路由协议信息。但是,大多数 SRX 平台尚不支持 NSR。因此,在辅助节点上,没有现有的 RPD 守护程序。发生 RG0 故障转移后,新的 RG0 主服务器将具有新的 RPD,需要与对等设备重新协商。只有版本 17.4R2 或更高版本的SRX5000平台才能支持 NSR。

从 Junos OS 12.1X45-D10 及更高版本开始,reth 接口支持流监控、数据包捕获和端口镜像等采样功能。

更改历史记录表

功能支持由您使用的平台和版本决定。使用 功能资源管理器 确定您的平台是否支持某个功能。

释放
描述
12.1×45
从 Junos OS 12.1X45-D10 及更高版本开始,reth 接口支持流监控、数据包捕获和端口镜像等采样功能。