シャーシクラスター内のグローバルレベルオブジェクトの監視
機能エクスプローラーを使用して、特定の機能のプラットフォームとリリースのサポートを確認します。
プラットフォームに関連する注意事項については、「 プラットフォーム固有の監視オブジェクトの動作 」セクションを参照してください。
シャーシクラスターとして設定されたデバイスで作業する際に監視するオブジェクトには、グローバルレベルのオブジェクトや冗長性グループに固有のオブジェクトなど、さまざまなタイプがあります。このセクションでは、グローバル レベルのオブジェクトの監視について説明します。
SPU監視について
SPU監視は、SPUと中央点(CP)の状態を追跡します。各SPCのシャーシマネージャーは、SPUと中央点を監視し、ルーティングエンジンがシャーシ化された状態でハートビートを維持します。この階層型監視システムでは、シャーシがハードウェア障害検出の中心となります。SPU監視はデフォルトで有効になっています。
ノード上の永続的なSPUとセントラルポイントの障害は、致命的なパケット転送エンジン(PFE)障害とみなされます。この場合、冗長性グループ x の優先度を0に下げることで、ノードのPFEがクラスターで無効になります。
中央点障害が発生すると、セカンダリ ノードへのフェイルオーバーがトリガーされます。すべてのSPCとすべてのI/Oカード(IOC)を含む、障害が発生したノードのPFEが自動的に再起動されます。セカンダリ中央点にも障害が発生した場合、プライマリデバイスがないため、クラスターは立ち上げることができません。データプレーン(冗長性グループ x)のみフェイルオーバーされます。
単一のSPUに障害が発生した場合、冗長性グループ x からセカンダリノードへのフェイルオーバーが発生します。障害が発生したノード上のすべてのIOCとSPCが再起動され、冗長性グループ x がセカンダリノードにフェイルオーバーされます。セカンダリノードへのフェイルオーバーは自動的に行われ、ユーザーの介入は必要ありません。障害が発生した(以前の)プライマリ ノードに障害のあるコンポーネントが復元された場合、フェールバックは冗長性グループ x のプリエンプト設定によって決定されます。デッドSPUの検出間隔は30秒です。
このイベントは、新しい現場交換可能ユニット(FRU)が必要であることを示すアラームをトリガーします。
フロー監視を理解する
フロー監視は、フローされたプロセスの正常性を追跡します。フロー監視はデフォルトで有効になっています。
ノードで永続的なフロー障害が発生した場合、致命的なパケット転送エンジン(PFE)障害とみなされます。この場合、冗長性グループ x の優先度を0に下げることで、ノードのPFEがクラスターで無効になります。
フロー プロセスが失敗すると、冗長性グループ x からセカンダリ ノードへのフェイルオーバーが発生します。セカンダリノードへのフェイルオーバーは自動的に行われ、ユーザーの介入は必要ありません。障害が発生した(以前の)プライマリ ノードに障害のあるコンポーネントが復元された場合、フェールバックは冗長性グループ x のプリエンプト設定によって決定されます。
ローカル ノードで SPC およびフローの監視が失敗すると、データプレーン冗長性グループ RG1+ は、良好な状態のもう一方のノードにフェイルオーバーします。ただし、コントロールプレーンRG0はフェイルオーバーせず、障害が発生する前と同じノード上でプライマリ状態のままです。
コールド同期監視について
SPUまたはフローの起動時にデータプレーンランタイムオブジェクト(RTO)を同期するプロセスは、 コールド同期と呼ばれます。すべてのRTOが同期されると、コールド同期プロセスが完了し、必要に応じて、ノード上のSPUまたはフローがプライマリノードを引き継ぐ準備が整います。すべてのSPUまたはノード上のフローのコールド同期状態を監視するプロセスは 、コールド同期監視と呼ばれます。プリエンプトが有効になっている場合、コールド同期監視は、SPUのコールド同期プロセスが完了するか、ノード上でフローが完了するまで、ノードがプライマリロールを引き継ぐのを防ぐことに注意してください。コールド同期監視はデフォルトで有効になっています。
ノードが再起動されたとき、またはSPUまたはフローが障害から復帰したとき、すべての冗長性グループ 1+ の優先度は0になります。SPUまたはflowdが立ち上がると、ミラーSPUまたは他のノードのflowdでコールド同期プロセスの開始を試みます。
これがクラスター内の唯一のノードである場合、新しいノードがクラスターに加わるまで、すべての冗長性グループ 1+ の優先度は0のままになります。優先度は 0 ですが、デバイスはインターフェイス経由でトラフィックを送受信できます。優先度が 0 の場合は、障害が発生した場合にフェイルオーバーできないことを意味します。新しいノードがクラスターに参加すると、すべてのSPUまたはフローが立ち上がると、既存のノードのミラーSPUまたはフローとコールド同期プロセスが開始されます。
すでに稼働しているノードのSPUまたはフローが、SPUからのコールド同期要求またはピアノードのフローを検出すると、コールド同期プロセスが完了したことを示すメッセージをシステムに投稿します。新しく参加したノードのSPUまたはフローは、同様のメッセージを投稿します。ただし、このメッセージを投稿するのは、すべてのRTOが学習され、コールド同期が完了した後に限られます。すべてのSPUまたはフローから完了メッセージを受信すると、インターフェイスなどの監視対象コンポーネントに他に障害がない場合、冗長性グループ 1+ の優先度は各ノードで設定された優先度に移動します。このアクションにより、冗長性 1+ グループの既存のプライマリノードが常に設定された優先度に優先されます。後でクラスターに参加するノードは、すべてのSPUまたはフローがコールド同期プロセスを完了した後にのみ、設定された優先度に移動します。このアクションにより、新しく追加されたノードがプライマリロールを引き継ぐ前に、すべてのRTOで準備が整っていることが保証されます。
SPUの交換または拡張によるコールド同期監視について
SRX5600またはSRX5800が シャーシクラスターの一部である場合、デバイス上のサービス処理カード(SPC)をSPC2またはSPC3と交換する場合、すべての冗長性グループを1つのノードにフェイルオーバーする必要があります。
このシナリオでは、以下のイベントが発生します。
SPC2がノード(セカンダリノードであるノード1など)にインストールされている場合、ノード1はシャットダウンされ、SPC2をインストールできるようになります。
ノード1の電源が投入されてクラスターに再参加すると、ノード1のSPUの数が、プライマリノードであるノード0のSPUの数よりも多くなります。現在、1つのノード(ノード0)にはまだ古いSPCがあり、もう一方のノードには新しいSPC2があります。SPC2 はカードあたり 4 つの SPU を持ち、古い SPC はカードごとに 2 つの SPU があります。
コールド同期プロセスは、ノード0の合計SPU数に基づきます。ノード0のSPUに対応するノード1のSPUがコールド同期を完了すると、ノード1はコールド同期の完了を宣言します。ノード1の追加SPUには対応するノード0のSPUがないため、同期するものは何もなく、ノード0からノード1へのフェイルオーバーは問題を引き起こしません。
SPU監視機能は、すべてのSPUを監視し、SPUに障害があった場合は報告します。
例えば、もともと両方のノードに 2 つの既存の SPC があり、ノード 1 で両方の SPC を SPC2 に置き換えたとします。これで、ノード0に4つのSPUとノード1に8つのSPUがあります。SPU監視機能は、ノード0の4つのSPUとノード1の8つのSPUを監視します。ノード1でこれら8つのSPUのいずれかに障害が発生した場合でも、SPU監視は、SPU障害があることをジュニパーサービス冗長プロトコル(jsrpd)プロセスに報告します。jsrpdプロセスは、シャーシクラスタリングを制御します。
ノード1でフェイルオーバーの準備が整ったら、ノード1に対してすべての冗長性グループフェイルオーバーを手動で開始できます。ノード0は、SPCをSPC2に置き換えるためにシャットダウンされます。交換後、ノード0とノード1のハードウェア設定はまったく同じになります。
ノード0の電源が投入され、クラスターに再び参加すると、システムは通常のシャーシクラスターとして動作します。
シャーシクラスター内のファイアウォールでコールド同期プロセスがまだ進行中で、制御リンクがダウンしている場合、ノードがセカンダリ状態からプライマリ状態に移行するまでに30秒の遅延が予想されます。
プラットフォーム固有の 監視オブジェクトの 動作
機能エクスプローラーを使用して、特定の機能のプラットフォームとリリースのサポートを確認します。
プラットフォーム上でのプラットフォーム固有の動作を確認するには、以下の表を使用してください。
| プラットフォーム |
違い |
|---|---|
| SRXシリーズ |
|