Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

网络运维

将 CSO 部署为本地部署时,了解网络的运行方式以及正在使用的协议会很有帮助。在使用云托管部署时,概念都是相同的,但细节和控制对订阅者来说是不可见的;它们是在云中安装 CSO 的团队的责任。

与大多数网络一样,Contrail SD-WAN 解决方案通常在两个平面上运行:

  • 控制平面 – OAM 和路由流量

  • 数据(转发)平面 - 用户流量

Control Plane Operation

Contrail SD-WAN 解决方案的控制平面以 CSO 平台为中心。具体来说:

  • CSO 的网络服务控制器 (NSC) 层使用 VRR 实现控制平面。

  • 所有租户中的所有站点都与 VRR 建立 MP-IBGP 对等互连。

  • CSO 对所有租户使用单个专用 AS 编号,并带有用于租户分离的路由目标。

  • 租户路由分离由 VRR 和使用 BGP 扩展社区的多租户中枢设备提供。

VRR 设计

所有 CSO 部署都包含一个或多个 VRR 实例,这些实例可为 SD-WAN 环境提供控制平面功能。 图 1 显示了一个常规示例,其中每个站点的本地设备都与 VRR 对等。

图 1:控制平面 - 单 VRR 设计 Control Plane - Single vRR Design

图 2 显示了 VRR 的 CLI 输出示例。

图 2:VRR Sample CLI Output from vRR 的 CLI 输出示例

控制平面弹性

CSO 3.3 及更高版本支持安装多个 VRR 以提供冗余和扩展。CSO 将 VRR 分成两个冗余组 (RG),并使单个虚拟 IP 地址对网络可见。作为站点配置的一部分,CSO 会在设备与每个 RG 中的 VRR 之间建立 BGP 对等会话。如果主 VRR 发生故障或连接断开,第二个 VRR 将继续接收和播发所连接站点的 LAN 路由,从而提供冗余。此设计如 图 3 所示。

图 3:控制平面 - 多 VRR 设计 Control Plane - Multi-vRR Design

路由分配和分离

Contrail SD-WAN 解决方案使用 Junos OS 虚拟路由和转发 (VRF) 实例以及 MP-BGP 路由目标,来提供租户路由分离并实现多租户。

以 MPLS VPN 环境为例,可以很好地说明这些概念。如 图 4 所示,系统为每个客户分配了一个唯一的路由目标值,客户 VPN 的所有站点都使用该路由目标值。当路由器播发客户的路由信息时,它会根据客户 VRF 发起播发的路由器附加相应的路由目标值。接收路由器使用附加的路由目标值来标识应将接收到的路由信息放入的客户 VRF。

图 4:路由分离示例 - MPLS VPN Route Separation Example - MPLS VPNs

MPLS VPN 中心辐射型环境使用路由目标的方式不同,如 图 5 所示。对于每个客户,每个分支 VRF 在发送路由信息时附加相同的路由目标值。接收路由器接受具有相同路由目标值的路由,并将其安装到集线器 VRF 中。相比之下,中枢 VRF 在发送路由信息时附加不同的路由目标值,接收路由器接受具有相同路由目标值的路由并将其安装到分支 VRF 中。

使用此设置后,只有中心 VRF 接受来自分支 VRF 的路由,并且只有分支 VRF 接受来自中心 VRF 的路由。使用此方法,分支站点只需要很少的路由信息(可能只是默认路由),因为它们只需要可访问中枢站点,从而保持路由表较小且无流失。

图 5:路由分离示例 - 中心辐射型 MPLS VPN Route Separation Example - Hub-and-Spoke MPLS VPN

上面的中心辐射型示例提供了一个良好的基础,因为 Contrail SD-WAN 解决方案在将流量从一个站点转发到另一个站点时,或在将流量分流到本地互联网时,以相同的方式实现路由分配和分离。

图 6 显示了一个分支站点示例,其中分支设备配置了两个叠加隧道和本地分支,所有流量都流出同一个接口。每个流量路径都有自己的 VRF,并且会在分支站点和中枢站点适当分配路由目标,以确保正确的租户路由分离。

图 6:路由分离 - SD-WAN 辐射站点 Route Separation - SD-WAN Spoke Site

APBR 和 SLA 管理 - 控制平面

通过基于策略的高级路由 (APBR),您可以定义每个应用(组)的路由行为和路径选择。APBR 机制根据已知应用和用户定义的应用签名对会话进行分类,并使用策略意图为应用确定最佳可能路由。基于应用的动态路由可以根据应用定义的 SLA 参数来定义动态切换 WAN 链路的策略。

Real-Time Optimized - AppQoE

从版本 3.3.1 开始,CSO 支持应用体验质量 (AppQoE),这是一种数据平面级别的机制,可提供更好的可扩展性和更快的决策。AppQoE 与 APBR 协同工作,在设备级别发挥作用;也就是说,设备自己对可用的 WAN 链路执行 SLA 测量,然后将应用流量动态映射到最能满足应用 SLA 要求的路径。这一切都无需 CSO 控制器分发特定于 SLA 的路由即可完成。

使用 AppQoE,当发生 SLA 违规时,只有与报告 SLA 违规的应用对应的流量才会移动到备用链路;使用该链路的任何其他流量不受影响。

使用实时优化的 SLA 管理时,只需要默认的 VRF,如 图 7 所示。默认 VRF 跨所有链路使用 ECMP。每个 SLA 的下一跃点选择发生在数据路径中(在数据平面部分中介绍)。

图 7:实时优化 (AppQoE) 路由架构 Real-Time Optimized (AppQoE) Routing Architecture

在这种情况下,MPLS 标签仅用于标识租户。

注意:

当租户的 SD-WAN 模式设置为 实时优化时,将启用 AppQoE。这是 SD-WAN 部署的默认模式。

有关 AppQoE,请注意以下几点:

  • 仅在 SRX 和 vSRX 虚拟防火墙设备上受支持。

  • 两端必须使用相同的 Junos OS 版本和配置。

  • 支持多宿主。

数据平面运维

本节讨论如何在中心辐射型拓扑中转发数据包。

当辐射站点的用户通过本地 CPE 设备发送流量,且数据包未在本地交换或直接发送到互联网时,它将通过隧道发送到中枢设备。来自客户 LAN 的此数据包首先封装在 MPLSoGRE 报头中,其中 GRE 目标作为中枢设备的 WAN 链路之一。MPLSoGRE 报头中的 MPLS 标签标识用于在中枢站点转发数据包的 VRF。生成的数据包标头如 图 8 所示。

图 8:数据包标头 - MPLSoGRE Packet Header - MPLSoGRE

如果分支站点和中心站点之间的隧道配置为使用 IPsec,则 MPLSoGRE 数据包将进一步加密并封装在使用隧道模式的 IPsec 报头中。生成的数据包标头如 图 9 所示。

图 9:数据包标头 - MPLSoGREoIPsec Packet Header - MPLSoGREoIPsec

在集线器上,首先解密 IPsec 标头。生成的数据包的 MPLSoGRE 报头用于终止 GRE 隧道,并在相应的 VRF 中执行查找(使用 MPLS 标签进行标识)。然后,根据 VRF 中的路由查找,数据包会转发到另一个辐射站点或从 SD-WAN 环境之外。如果转发到另一个分支,则中枢设备会如上所述封装数据包。

Design Options

图 10 说明了使用上述数据包标头通常如何部署隧道。鉴于需要通过公共网络进行安全的数据包传输,GREoIPSec 隧道通常通过互联网路径使用。GRE 隧道通常用于 MPLS 路径,但也可以根据需要使用 GREoIPSec 选项。

图 10:隧道设计方案 Tunnel Design Options

APBR and SLA Management - Data Plane

如前所述,租户可以为应用流量选择一种 SD-WAN SLA 管理模式:

  • 实时优化 – 使用 AppQoE 进行设备级 SLA 管理

AppQoE 是一种数据平面级机制,可提供更好的可扩展性和更快的决策。使用 AppQoE,链路切换发生在设备数据路径中的应用级别;设备本身跨可用的 WAN 链路执行 SLA 测量,而无需 CSO 控制器。

使用两种类型的内联探测进行链路监控:

  • 无源探头

    • 随应用流量同行的内联探针

    • 模拟应用程序流的突发性

    • 启用对应用会话的 RTT、抖动、数据包丢失的监控

    • 用于监控当前使用的路径是否符合 SLA,检测 SLA 违规

  • 有源探针

    • 定期探测(基于配置),收集所有潜在路径上的 SLA 数据

    • 用于确定流量的原始最佳路径

    • 用于监控备用路径

注意:

当租户的 SD-WAN 模式设置为 实时优化时,将启用 AppQoE。

Tunnel Liveliness

为避免黑洞流量,会在叠加网络中强制执行适当的存活度检查。Contrail SD-WAN 解决方案使用两种机制来确保活跃性:

  • IPsec 失效对等体检测 (DPD),使用它

  • GRE 激活

网状标签和动态网状 VPN

正如在部署模型讨论中提到的,动态网格是瞻博网络在 CSO 内实现的全网状 VPN,有助于节省资源。本节介绍网状标记及其启用的动态网状 VPN 的作。

Mesh Tags

网状标签是在 CSO 中的加载过程中应用于 CPE 和集线器设备的 WAN 接口的基于文本的标签。CSO 附带两个默认网格标记:Internet 和 MPLS。您可以使用 CSO 管理门户创建自己的网格标签。只能在共享相同网格标记的 WAN 接口之间形成按需或动态 VPN。

以下讨论解释了网格标签的工作原理以及它们适用的一些用例。

如上所述,每个站点的 CPE 设备的每个 WAN 接口都会应用一个网状标签。在 NFX150 和 NFX250 等辐射设备以及大多数 SRX 系列防火墙上,每个 WAN 接口只能应用一个网状标记。在提供商中心和企业中心设备(如 SRX4x00 系列设备)上,由于设备的 VPN 功能增强,可以将多个网状标记应用于每个接口。

以下列表有助于说明网状标签和动态网状 VPN 发挥作用的各种用例。

  • Connecting Different Underlay Links

  • Site-to-Site Tunnels Based on Capacity

  • Geo-Based Meshing

  • With Dual CPE

  • Dynamic Mesh Load Balancing

  • Redundant Link

Dynamic Mesh VPNs

图 11 显示了三个分支站点之间的动态网状 VPN 拓扑,并描述了站点到站点 VPN 的建立方式。

图 11:动态网格作 Dynamic Mesh Operation
1

使用 ZTP 调配的站点和到中枢站点的隧道。站点到站点流量通过站点到中心数据隧道。

4

CSO 在站点对之间按需配置站点到站点隧道。

阿拉伯数字

CSO 从设备接收包含流量速率详细信息的系统日志消息。

5

站点到站点流量现在切换到新形成的站点到站点隧道。

3

CSO 认识到凤凰城站点 1 和休斯顿站点 2 之间的流量超过了 KPI 阈值。

 
注意:

CSO 还使用流量阈值和系统日志消息来控制和自动执行隧道删除。

互联网分支

虽然发往互联网的流量可以通过叠加隧道和中央站点发送,但这些隧道通常用于支持站点到站点流量。对于非 SD-WAN 目标,本地分支提供了将流量从本地本地设备直接发送到互联网的选项。本地分支允许租户在每个站点上以最佳方式使用其网络带宽,并避免产生将所有流量传输到中央站点的成本。

本地分离是 SD-WAN 部署中的一项重要功能,因为如今许多企业都在使用托管在企业网络之外的 SaaS 服务。由于这些 SaaS 应用程序中的大多数都使用 SSL 作为传输,并且还支持与企业 AAA 系统进行单点登录,因此尽管直接通过 Internet 发送流量,但安全问题已得到解决。

WAN Interface Options

本地设备的 WAN(MPLS 和互联网)接口可以任意组合支持隧道和本地分支流量:

  • 仅隧道流量

  • 隧道和本地分支流量

  • 仅本地分支流量

Design Options

根据设计要求,有多种方式可用于实现本地分线。

Breakout at Spoke

辐射站点的本地分支允许用户直接访问互联网,而无需通过叠加网络向中枢发送流量,从而有助于节省隧道带宽。此选项可在 Internet 或 MPLS WAN 链路上实施。 图 12 说明了这一概念。

图 12:分支 Local Breakout at Spoke的本地分支

使用本地分支时,可以指定基于接口或基于池的 NAT。

Breakout at Provider Hub (Central Breakout)

提供商中心站点的中央分支可实现中心辐射型部署,其中分支站点将传往互联网的流量通过叠加网络转发到提供商中心设备,然后提供商中心设备将流量转发到互联网,如 图 13 所示。

图 13:Hub Local Breakout at Hub 的本地分支

中心站点的中央分支启用方式与分支站点不同。它可以通过第 2 阶段模板在 CSO 中手动配置。

还可以通过 Enterprise Hub 站点向分支站点提供中央分支线。在此方案中,企业中心可以使用底层网络进行转发,或者可以从数据中心部门接收默认路由并将其传播到分支。

当通过默认路由方法在提供商中心和企业中心同时提供中央分支时,使用 BGP 本地优先级优先选择来自企业中心的默认路由。

Cloud Breakout

面向 Internet 的流量的另一个分支选项是云分支,可用于分支站点和企业中心站点。启用云分支时,分支站点或企业中心站点会将传向 Internet 的流量转发到 Zscaler,以便在将其发送到 Internet 之前进行进一步的与安全相关的处理。Zscaler 帐户必须处于活动状态且可访问,然后才能通过分支发送流量。

Usage Notes for Cloud Breakout

  • 云突破支持使用用于 WAN 链路的公共 IP 地址的通用路由封装 (GRE) 隧道。

  • 使用 GRE 隧道时,CPE 设备不能位于 NAT 后面。

  • 配置云分支设置时,可以指定 IPsec 第 1 阶段参数、第 2 阶段参数和域名。

  • 您可以为云分支节点指定 IP 地址或主机名验证。

  • CSO 会自动填充 FQDN、预共享密钥和 WAN 链路信息,并提供更改自动填充值的选项。

  • CSO 支持 SD-WAN 分支站点的 WAN 链路与云分支节点之间的高可用性。

  • WAN 链路节点可以配置为主动/被动或主动/主动。

  • SD-WAN 分支站点和云分支节点之间最多可以定义两个 WAN 链路。

Order of Preference for Scenarios with Multiple Breakout Options

如果分支站点的 CPE 有多个分支选项可用,且未指定分支策略,则分支的优先顺序为:

  1. 数据中心部门/企业中心

  2. 本地分支/云分支

  3. 提供商中心(中部)

如果企业中心站点有多个分支选项可用,则分支流量的优先顺序为:

不使用 SD-WAN 策略:

  1. 数据中心部门

  2. 枢纽

借助 SD-WAN 策略:

  1. 本地分支/云分支

  2. 数据中心部门

  3. 提供商中心(中部)

Use Cases for Local Breakout

本地分支的一些用例如下所述。

Service Provider Data Center

在此用例中,企业客户使用服务提供商的 SD-WAN 服务实现站点到站点互连。客户还可以使用服务提供商数据中心外托管的增值服务。

在分支站点上,本地设备的面向 MPLS 的 WAN 接口配置为支持隧道和本地分支流量。如 图 14 所示,流量按如下方式流经网络:

  • 站点间 (SD-WAN) 流量使用叠加隧道在 MPLS 网络中传输。

  • 传往 DC 的流量使用本地分支并直接通过底层 MPLS 网络传输。

图 14:来自电信云 Local Breakout at Spoke to DC Located in Telco Cloud的分支到数据中心的本地分支

作为此方案的变体,数据中心可以位于 MPLS 网络的其他位置,可能位于 POP 处,如 图 16 所示。在这种情况量大致与上述相同。

图 15:从分支到位于 POP Local Breakout at Spoke to DC Located at POP 的数据中心的本地分支

作为此方案的另一种变体,源自 DC 的流量可以使用叠加隧道,在中枢设备上分线,然后加倍返回 DC,如 图 16 所示。

图 16:从位于 POP Local Breakout at Hub to DC Located at POP 的 Hub 到 DC 的本地分支

此选项有一些缺点:

  • 它会使用更多的隧道带宽。

  • 当分支站点的本地设备处理和封装更多流量时,这可能会增加延迟。

  • 这会增加集线器设备上的负载。

  • 它会创建一条次优路径,导致流量通过隧道流向中枢设备,但必须加倍返回才能到达数据中心。

但是,它也有一些优点:

  • 通过使用叠加隧道,传往数据中心的流量可以利用 SLA 服务并动态选择最佳路径,从而提高这些应用的网络性能。

  • 可以集中提供其他安全功能。

Migration to SD-WAN

在此用例中,企业客户拥有多个大型站点,并使用服务提供商的现有 MPLS 服务在站点之间提供完整网格。客户希望迁移到 SD-WAN,并且实施很可能是渐进式的。然而,始终保持站点之间的连接至关重要。

图 17 展示了正在进行迁移的场景。站点 3 和站点 4 中已添加 SD-WAN 功能,而其他站点尚未迁移。在每个启用 SD-WAN 的站点上,本地设备面向 MPLS 的 WAN 接口都配置为支持隧道和本地分支流量。流量按如下方式流经网络:

  • 支持 SD-WAN 的站点之间的流量可以使用叠加隧道。

  • 启用 SD-WAN 的站点与旧站点之间的流量使用本地分支并直接通过底层 MPLS 网络传输。

图 17:支持迁移到 SD-WAN Local Breakout to Support Migration to SD-WAN 的本地分支

在这种情况下,本地分支是在迁移站点和旧站点之间保持连接的关键。

Local breakout and NAT

当流量从租户 VRF 流向 Internet 时,通常必须使用 NAT 从租户的专用网络空间转换为 Internet(公共)网络空间。

在分支站点,本地设备可以使用自动 NAT 在所有本地分支流量上自动执行源 NAT。在中心站点,自动 NAT 不可用;但是,CSO UI 支持手动为这些本地设备创建 NAT 规则。

Local Breakout and DNS

将本地设备配置为 LAN 分段的 DHCP 服务器,可以指定终端主机的 DNS 服务器信息。对于启用了本地分支的站点,通常建议指定多个名称服务器:用于企业域名解析的内部服务器,以及用于向 Internet 发送的本地分支流量的公共或 ISP 服务器。

网络安全

SD-WAN 架构的重要安全考虑因素之一是为静态数据和动态数据提供安全性。数据安全性已得到增强,允许对数据和 OAM 隧道使用多级 PKI。这允许 CSO 从 CA 服务器接收多级 CA 证书,将多个 CA 证书推送到 CPE 设备,续订和撤消 CPE 设备上的多个 CA 证书。

从 CSO 4.1 版开始,CSO 支持简单证书注册协议 (SCEP)。这使 CSO 能够:

  • 充当 SCEP 服务器

  • 充当 SCEP 负责人

    • 证书撤消

    • 证书自动续期

  • 将证书部署到 CPE/站点

  • 管理 CPE 上的证书(站点)

  • 为 CA 服务器信息提供 GUI 支持

  • 站点/CPE 证书续订

  • Microsoft CA/NDES 支持

  • 每个站点/CPE 的代理证书

提供了后端 API,用于以编程方式访问 PKI 功能。

Data Plane

数据平面连接可配置为使用具有基于 PKI 身份验证的 IPsec。使用时,本地设备会先对流量进行加密,然后通过网络将流量传输到远程站点,并使用公钥-私钥对处理身份验证。

Management and Control Plane

CSO 使用 SSH 连接到并配置本地设备,以便进行控制台和 NETCONF 连接。从 CSO 4.0 版开始,专用 OAM 叠加隧道有助于增强本地设备与 CSO 之间的安全端到端通信。图 18 所示的 IPsec 加密和 PKI 验证的 OAM 隧道使本地辐射设备能够通过网络安全地将管理、路由和记录流量发送到提供商中枢。然后,中枢将流量转发给 CSO。

图 18:管理和控制平面安全 - 安全 OAM 网络 Management and Control Plane Security - Secure OAM Network

有关详细信息,请参阅本指南前面的 “安全和冗余 OAM 网络 ”部分。