Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

对QFX5120设备进行故障排除

警报类型和严重性级别

QFX 系列交换机支持不同的告警类型和严重性级别。 表 1 提供了可帮助您监控设备的报警术语和定义列表。

表 1:报警术语和定义

术语

定义

报警

提醒您注意可能妨碍正常操作的情况的信号。在设备上,报警指示器可能包括 LCD 面板和设备上的 LED。液晶显示屏(如果设备上存在)显示机箱报警消息计数。闪烁琥珀色或黄色 LED 表示机箱组件出现黄色报警情况。

报警情况

触发警报的故障事件。

报警严重性级别

警报的严重性。严重程度可以是重度(红色)或轻微(黄色)。

  • 主要(红色)— 表示设备上由以下情况之一导致的严重情况。红色报警情况需要立即采取行动。

    • 一个或多个硬件组件出现故障。

    • 一个或多个硬件组件已超过温度阈值。

    • 接口上配置的报警条件触发了严重警告。

  • 次要(黄色或琥珀色)- 表示设备上的非严重情况,如果未选中,可能会导致服务中断或性能下降。黄色报警情况需要监控或维护。例如,缺少救援配置会生成黄色系统警报。

报警类型

报警包括以下类型:

  • 机箱报警 — 由设备上的物理状况(如电源故障或组件温度过高)触发的预定义报警。

  • 接口报警 — 您配置用于在接口链路关闭时提醒您的告警。适用于 ethernetfibre-channelmanagement-ethernet 接口。您可以为链路关闭情况配置红色(主要)或黄色(次要)警报,也可以忽略该情况。

  • 系统警报 - 可能因缺少救援配置、未能安装许可软件功能的许可证或磁盘使用率过高而触发的预定义警报。

机箱报警消息

机箱报警指示设备或其某个组件出现故障。机箱报警是预设的,无法修改。

QFX5100、QFX5110、QFX5210 和 QFX5120 设备上的机箱报警具有两个严重性级别:

  • 主要(红色)— 表示设备上由 表 2 中所述情况之一导致的严重情况。红色报警情况需要立即采取行动。

  • 次要(黄色)- 表示设备上的非严重情况,如果未选中,可能会导致服务中断或性能下降。黄色报警情况需要监控或维护。

表 2 介绍了 QFX5100、QFX5110、QFX5200、QFX5210 和 QFX5120 设备上的机箱报警消息。

表 2:机箱报警消息

组件

报警类型

CLI 消息

建议的操作

球迷

主要(红色)

Fan Failure

更换风扇模块并向客户支持报告故障。

Fan I2C Failure

检查系统日志中是否有以下错误消息之一,并将该消息报告给客户支持:

  • CM ENV Monitor: Get fan speed failed.

  • fan-number is NOT spinning @ correct speed,其中 fan-number 可以是 1、2、3、4 或 5。

Fan fan-number Not Spinning

卸下并检查风扇模块是否有障碍物,然后重新插入风扇模块。如果问题仍然存在,请更换风扇模块。

次要(黄色)

Fan/Blower Absent

检查系统日志中的错误消息 fan-number Absent,其中 fan-number 可以是 1、2、3、4 或 5。

将风扇模块安装在没有风扇模块的插槽中。

电源

主要(红色)

PEM pem-number Airflow not matching Chassis Airflow

将电源更换为支持与机箱支持的相同气流方向的电源。

PEM pem-number I2C Failure

检查系统日志中是否有以下错误消息之一,并将该消息报告给客户支持:

  • I2C Read failed for device number,其中 number 数字范围为 123 到 125。

  • PS number: Transitioning from online to offline,其中电源 number 为 1 或 2。

PEM pem-number is not powered

检查电源线连接并重新连接(如有必要)。

PEM pem-number is not supported

将电源更换为受支持的电源。

PEM pem-number Not OK

指示传入交流电源或输出直流电源有问题。向客户支持报告错误。

次要(黄色)

PEM pem-number Absent

卸下其中一个电源后重新启动交换机。交换机可以使用单个电源继续运行。

更换卸下的电源并重新启动交换机。

PEM pem-number Power Supply Type Mismatch

检查同一机箱中是否混合使用交流和直流电源。仅使用交流电源或直流电源重新启动交换机。

PEM pem-number Removed

更换卸下的电源或重新启动交换机。交换机可以使用单个电源继续运行。

温度传感器

主要(红色)

sensor-location Temp Sensor Fail

检查系统日志中是否有以下错误消息,并将该消息报告给客户支持:

Temp sensor sensor-number failed,范围 sensor-number 从 1 到 10。

sensor-location Temp Sensor Too Hot

检查其他设备上的环境条件和警报。确保环境因素(如设备周围吹动的热空气)不会影响温度传感器。如果情况仍然存在,设备可能会关闭。

次要(黄色)

sensor-location Temp Sensor Too Warm

检查其他设备上的环境条件和警报。确保环境因素(如设备周围吹动的热空气)不会影响温度传感器。

路由引擎

次要(黄色)

RE RE number /var partition usage is high

清理交换机上的系统文件存储空间。有关详细信息,请参见 Cleaning Up the System File Storage Space

主要(红色)

RE RE number /var partition is full

清理交换机上的系统文件存储空间。有关详细信息,请参见 Cleaning Up the System File Storage Space

次要(黄色)

Rescue configuration is not set

使用 request system configuration rescue save 命令设置救援配置。有关详细信息,请参见 Setting or Deleting the Rescue Configuration

Feature usage requires a license

License for feature expired

为警报中指定的功能安装所需的许可证。有关详细信息,请参见 Software Features That Require Licenses on the QFX Series

管理以太网接口

主要(红色)

Management Ethernet 1 Link Down

检查电缆是否连接到管理以太网接口,或者电缆是否有故障。如果需要,请更换电缆。

在同时提供 em0 和 em1 管理接口的型号上,必须连接这两个接口。如果两个接口均未连接,则会引发告警。但是,警报对服务没有影响。

如果您无法解决问题,请使用案例管理器链接打开支持案例,电话为 https://www.juniper.net/support/ 或致电 1-888-314-5822(美国免费电话或 1-408-745-9500(美国境外)。

为 QFX 系列交换机创建紧急启动设备

开始之前,您需要从 https://www.juniper.net/customers/support/ 下载设备和 Junos OS 版本的安装介质映像。

如果设备上的 Junos OS 因某种原因损坏导致软件无法正常加载,您可以使用紧急启动设备对主磁盘重新分区并加载全新安装的 Junos OS。 使用以下过程创建紧急启动设备。

注意:

您可以在其他瞻博网络设备或任何支持 Linux 的笔记本电脑或台式 PC 上创建紧急启动设备。创建紧急启动设备的步骤因设备而异。

要创建紧急启动设备:

  1. 使用 FTP 将安装介质映像复制到设备上的 / var/tmp 目录中。
  2. 将 USB 存储设备插入 USB 端口。
  3. 从 CLI 中,启动外壳程序:
  4. 使用 gunzip 命令解压缩图像文件。
  5. 使用 su 以下命令切换到 root 帐户:
    注意:

    密码是设备的根密码。如果您以 root 用户身份登录到设备,则无需执行此步骤。

  6. 在设备上输入以下命令:

    设备将安装介质映像写入 USB 存储设备:

  7. 注销外壳:

使用 QFX 系列交换机上的紧急启动设备恢复安装

如果设备上的 Junos OS 因某种方式损坏导致软件无法正确加载,您可能需要使用紧急启动设备(例如 USB 闪存驱动器)执行恢复安装,以恢复默认出厂安装。恢复软件后,需要恢复设备配置。您可以像出厂时那样创建新配置,或者如果保存了之前的配置,则只需将该文件还原到设备即可。

如果可能,在执行恢复安装之前,应尝试执行以下步骤:

  1. 确保您有要在安装期间使用的紧急启动设备。有关如何创建紧急启动设备的信息,请参阅 为 QFX 系列交换机创建紧急启动设备

  2. 将文件 / config/juniper.conf.gz 中的现有配置从设备复制到远程系统(如服务器)或紧急启动设备。为了提高安全性,您还可以将备份配置(名为 / config/juniper.conf.n 的文件,其中 n 是 0 到 9 的数字)复制到远程系统或紧急启动设备。

    您可以使用系统快照功能完成此步骤。系统快照功能拍摄当前用于运行 QFX 系列交换机的文件(/ config/var 目录的完整内容,包括正在运行的 Junos OS、活动配置和救援配置)的“快照”,并将所有这些文件复制到内存源中。请参阅 创建快照并使用它来启动 QFX 系列交换机

    注意:

    QFX10000 和 QFX5200 交换机不支持系统快照。

    谨慎:

    恢复安装过程会完全覆盖内部闪存的全部内容。

  3. 根据需要将任何其他存储的文件复制到远程系统。

要重新安装 Junos OS:

  1. 连接到设备的控制台端口(直接或通过控制台服务器)。

  2. 将紧急启动设备插入 QFX 系列交换机。

  3. 重新启动或重启设备。

  4. 设备重新启动后,按住 Esc 键,直到启动选项菜单打开。

    注意:

    如果您错过按 Esc 以打开启动选项菜单,则可能必须多次重新启动或重启设备。

  5. 在引导选项菜单中,选择 引导管理器

  6. 在“启动管理器”菜单中,选择紧急启动设备。在此示例中,紧急启动设备是 USB 设备。

    注意:

    在更高版本中,“启动管理器”菜单可能会为同一 USB 恢复设备显示两个不同的条目。选择 EFI USB 设备 条目。

    此时将打开 Juniper Linux Installer 或 GNU GRUB 菜单。菜单和选项可能因平台和版本而略有不同。

  7. 如果紧急启动设备上安装了出厂的 Junos OS 软件,软件会提示您使用以下选项:

    选择 安装瞻博网络 Linux 平台 ,从紧急启动设备安装 Junos OS 软件。

    注意:

    根据平台和版本的不同,您可能会看到不同的条目,如“安装瞻博网络 Linux”、“安装瞻博网络 Linux 平台”或 “安装支持安全启动的瞻博网络 Linux”。

  8. 设备从紧急启动设备复制软件,偶尔显示状态消息。复制软件最多可能需要 12 分钟。

  9. 将软件复制到设备后,设备将从刚刚安装软件的内部闪存重新启动。

    注意:

    如果“启动管理器”菜单同时包含 SSD 驱动器和 EFI HDD 设备条目,请手动选择 EFI HDD 设备 选项。

    重新启动完成后,设备将显示 Junos OS 登录提示:

  10. 像设备出厂时一样创建新配置,或将以前保存的配置文件还原到设备。

  11. 卸下紧急启动设备。