このページの目次

NorthStar コントローラのログファイル
空のトポロジ
NTADバージョン
不正なトポロジー
LSPの欠落
LSP コントローラのステータス
PCEP 非対応の PCC
LSP が保留中またはPCC_PENDING状態でスタックしている
非アクティブな LSP
PCS がトポサーバーと同期していない
消える変化
クライアント側の問題の調査
帯域幅サイジングスケジュールタスクの不完全な結果
NorthStarとHealthBotとの統合のトラブルシューティング
NorthStar Controllerデバッグファイルの収集
リモートSyslog
SNMP収集の規模を拡大する

NorthStar コントローラトラブルシューティングガイド

このドキュメントには、明らかな問題がNorthStarコントローラまたはルータに起因するものかどうかを判断するための戦略が含まれており、NorthStarコントローラに起因すると識別された問題のトラブルシューティング手法を提供します。

トラブルシューティングの調査を開始する前に、すべてのシステムプロセスが稼働していることを確認してください。プロセスのサンプルリストを以下に示します。実際のプロセスのリストは異なる場合があります。

「実行中」ではなく「停止済み」と表示されているプロセスを再起動します。

メモ：

すべてのプロセスを停止、開始、または再起動するには、、 service northstar start、および service northstar restart のコマンドを使用しますservice northstar stop。

NorthStar Controller Web UI からシステムプロセスのステータス情報にアクセスするには、[>Administration] に移動して More Optionsを選択しますSystem Health。

各システムプロセスの現在のCPU%、メモリ使用量、仮想メモリ使用量、およびその他の統計が表示されます。図 1 に例を示します。

メモ：

実行中のプロセスのみがこの画面に含まれます。

図1:プロセスステータスの表示 Process Status Display

表 1 に、「プロセス状況」テーブルに表示される各フィールドを示します。

表 1: プロセスステータスフィールドの説明
フィールド	の説明
プロセス	NorthStar Controller プロセスの名前。
Pid	プロセス ID 番号。
ユーザー	このプロセスに関する情報にアクセスするために必要なNorthStar Controllerユーザー権限。
グループ	このプロセスに関する情報にアクセスするには、NorthStar Controllerユーザーグループの権限が必要です。
CPU%	このプロセスによって現在使用されている CPU の現在の割合を表示します。
メモリ	このプロセスによって現在使用されているメモリの現在の割合を表示します。
仮想メモリ	このプロセスで使用されている現在の仮想メモリを表示します。
CPU 時間	プロセスの命令を処理するために CPU が使用された時間
Cmd	システムプロセスの特定のコマンドオプションを表示します。

トラブルシューティング情報は、次のセクションで説明します。

NorthStar コントローラのログファイル

トラブルシューティング作業を通して、さまざまなNorthStar Controllerログファイルを表示すると役立つ場合があります。ログファイルにアクセスするには:

NorthStar Controller Web UIにログインします。
[>] に移動しMore Options、[] を選択しますLogs。 Administration

NorthStar システムのログおよびメッセージ・ファイルのリストが表示されます。その切り捨てられた例を図 2 に示します。

図2:システムログファイルとメッセージファイルのサンプル
表示するログ・ファイルまたはメッセージ・ファイルをクリックします。

ログファイルの内容がポップアップウィンドウに表示されます。
別のブラウザウィンドウまたはタブでファイルを開くには、ポップアップウィンドウ内をクリックします View Raw Log 。
ポップアップウィンドウを閉じて、ログファイルとメッセージファイルのリストに戻るには、ポップアップウィンドウの右上隅にある [X ] をクリックします。

表 2 に、PCS および PCE の問題の特定とトラブルシューティングに最もよく使用される NorthStar Controller ログファイルを示します。

表 2: 上位 NorthStar コントローラのトラブルシューティングログファイル
ログファイル	説明	場所
pcep_server.log	PCEPサーバに関連するログエントリ。PCEP サーバは PCEP セッションを維持します。ログには、PCC と PCE 間の双方向の通信に関する情報が含まれています。詳細な PCEP サーバロギングを設定するには、次の手順を実行します。 NorthStar Controller CLI から、.`pcep_cli` タイプ `set log-level all`。 Ctrl-C キーを押して終了します。	/var/log/jnc
pcs.log	PC に関連するログエントリ。PCS はパスの計算を担当します。このログには、プロビジョニング命令など、Toposerver から PC によって受信されたイベントが含まれます。また、PCの正常な起動を妨げる通信エラーや問題の通知も含まれています。	/opt/northstar/logs
toposerver.log	トポロジー・サーバーに関連したログ項目。トポロジー・サーバーは、トポロジーの保守を担当します。これらのログには、PCS とトポサーバー、トポサーバーと NTAD、およびトポサーバーと PCE サーバー間のイベントのレコードが含まれています	/opt/northstar/logs

表 3 に、トラブルシューティングに役立つその他のログファイルを示します。表 3 のすべてのログ・ファイルは、 /opt/northstar/logs ディレクトリーの下にあります。

表 3: NorthStar コントローラのトラブルシューティング用の追加ログファイル
ログファイル	説明
cassandra.msg	cassandra データベースに関連するイベントをログに記録します。
ha_agent.msg	HA コーディネーターログ
mlAdaptor.log	トランスポートコントローラーログへのインターフェイス。
net_setup.log	構成スクリプトログ。
nodejs.msg	nodejs に関連するイベントをログに記録します。
pcep_server.log	PCC と PCE 間の双方向通信に関連するログファイル。
pcs.log	PCS に関連するログファイル (PCS がトポサーバーから受信したイベントと、プロビジョニング命令を含むトポサーバーから PCS へのイベントが含まれます)。このログには、通信エラーや、PCSの正常な起動を妨げる問題も含まれています。
rest_api.log	REST API リクエストのログファイル。
toposerver.log	トポロジー・サーバーに関連したログ・ファイル。 PC とトポロジー・サーバー、トポロジー・サーバーと NTAD、およびトポロジー・サーバーと PCE サーバー間のイベントのレコードが含まれます。メモ： pcshandler.log ファイルに転送されたメッセージは、pcs.log ファイルにも転送されます。

Junos VM に関連するログを表示するには、ルーターへの telnet セッションを確立する必要があります。Junos VM のデフォルト IP アドレスは 172.16.16.2 です。Junos VM は、必要な BGP、ISIS、または OSPF セッションを維持する役割を担います。

空のトポロジ

図 3 は、ルーターからトポロジーサーバーへの情報フローを示しています。その結果、NorthStar Controller UI にトポロジーが表示されます。トポロジ表示が空の場合は、このフローが中断されている可能性があります。フローが中断された場所を見つけることは、問題解決プロセスの指針となります。

図3: トポロジ情報フロー Topology Information Flow

トポロジーはルーターから始まります。NorthStar Controllerがトポロジーを受信するには、ネットワーク内のルーターの1つからJunos VMへのBGP-LS、ISIS、またはOSPFセッションが必要です。また、Junos VMとToposerverの間には、確立されたネットワークトポロジー抽象デーモン(NTAD)セッションが必要です。

これらの接続を確認するには:

次の例に示すように、NorthStar Controller CLI を使用して、Toposerver と Junos VM 間の NTAD 接続が正常に確立されたことを確認します。
メモ：
ポート450は、Junos VMからトポサーバーへの接続に使用されるポートです。

次の例では、NTAD 接続が確立されていません。

Junos VM にログインして、NTAD がトポロジのエクスポートを有効にするように設定されているかどうかを確認します。以下のgrepコマンドにより、Junos VMのIPアドレスが表示されます。

topology-exportステートメントが指定されていない場合、Junos VM はデータをトポサーバーにエクスポートできません。

Junos OSコマンドを使用して show 、Junos VMとルーター間のBGP、ISIS、またはOSPFの関係がアクティブかどうかを確認します。セッションがアクティブでない場合、トポロジー情報をJunos VMに送信できません。
Junos VM で、lsdist.0 ルーティングテーブルに次のエントリがあるかどうかを確認します。
lsdist.0のルーティングテーブルにゼロしか表示されない場合、送信できるトポロジーはありません。トポロジー取得の設定に関する『NorthStar Controllerスタートアップガイド』セクションを参照してください。
lsdist.0のルーティングテーブルに少なくとも1つのリンクがあることを確認します。Topoサーバーは、少なくとも 1 つの NTAD リンクイベントを受け取った場合にのみ、初期トポロジを生成できます。他のノードとのIGP隣接関係のない単一ノードで構成されるネットワーク(たとえば、ラボ環境で可能)では、Toposerverはトポロジを生成できません。図 4 は、初期トポロジを作成するための Toposerver の論理プロセスを示しています。

図4: 初期トポロジ作成の論理プロセス

この理由で初期トポロジを作成できない場合、toposerver.logは次の例のようなエントリを生成します。

NTADバージョン

SR LSP がプロビジョニングされておらず、pcs.logに次の例のようなメッセージが表示される場合:

NTADのバージョンが正しくない可能性があります。NTADバージョンの詳細については、NorthStarコントローラのインストールを参照してください。

不正なトポロジー

Toposerver の重要な機能の 1 つは、NTAD リンクイベントからの送信元と宛先の IPv4 Link_Identifiersを照合することによって、ルーターからの単方向リンク(インターフェイス)情報を双方向リンクに関連付けることです。NorthStar UIに表示されるトポロジーが正しくないと思われる場合は、Toposerverが双方向リンクの生成とメンテナンスをどのように処理するかを理解しておくと役立つ場合があります。

双方向リンクの生成と維持は複雑なプロセスですが、以下の重要なポイントをご紹介します。

各双方向リンクを構成する 2 つのノードでは、最初に割り当てられた(したがってノード ID 番号が小さい)ノード ID にノード A 指定が与えられ、もう一方のノードにはノード Z 指定が与えられます。

メモ：
ノード ID は、トポサーバーが最初に NTAD からノードイベントを受信するときに割り当てられます。
ノード ID がクリアされて再割り当てされるたびに (Toposerver の再起動中やネットワークモデルのリセット中など)、ノード ID、したがって A と Z の指定が変更される可能性があります。
Toposerver は、ネットワーク内のリンクが追加または変更されると、リンク更新メッセージを受信します。
Toposerver は、リンクがネットワークから削除されると、リンク撤回メッセージを受信します。
リンク更新およびリンク取り消しメッセージは、ノードの運用状況に影響を与えます。
ノードの運用ステータスとプロトコル(IGP 対 IGP と MPLS)によって、リンクを使用して LSP をルーティングできるかどうかが決まります。リンクを使用してLSPをルーティングするには、動作ステータスUPとMPLSプロトコルの両方がアクティブである必要があります。

LSPの欠落

トポロジーが正しく表示されているにもかかわらずLSPが欠落している場合は、図5に示すように、PCCからトポサーバーへの情報フローを確認します。その結果、NorthStar Controller UIにトンネルが追加されています。フローは PCC での設定から始まり、LSP アップデートメッセージが PCEP セッションを介して PCEP サーバに渡され、次に AMQP(アドバンストメッセージキューイングプロトコル)接続を介してトポサーバに渡されます。

図 5: LSP 情報フロー LSP Information Flow

これらの接続を確認するには:

toposerver.logを見てください。ログは、PCEP サーバとの接続が失われたか、正常に確立されなかったことを検出すると、15 秒ごとにメッセージを出力します。次の例では、トポサーバと PCEP サーバ間の接続がダウンとしてマークされていることに注意してください。

NorthStar コントローラの CLI を使用して、この例に示すように、PCC と PCEP サーバ間の PCEP セッションが正常に確立されたことを確認します。
メモ：
ポート 4189 は、PCC から PCEP サーバーへの接続に使用されるポートです。

セッションが確立されたことを知ることは有用ですが、必ずしもデータが転送されたことを意味するわけではありません。

PCEPサーバがPCCからLSPについて学習したかどうかを確認します。

出力の右端の列には、学習されたLSPの数が表示されます。この数値が 0 の場合、LSP 情報は PCEP サーバに送信されませんでした。その場合は、『NorthStar Controller Getting Started Guide』の説明に従って、PCC 側の設定を確認してください。

LSP コントローラのステータス

LSP Controller Status のコントローラステータスは、(NorthStar コントローラ GUI の)ネットワーク情報テーブルのトンネルタブの列で確認できます。

表 4 に、さまざまなコントローラのステータスとその説明を示します。

表 4: LSP コントローラのステータス
コントローラのステータス	は、
失敗しました	NorthStar Controller は LSP のプロビジョニングに失敗しました。
保留中	PCS は、LSP プロビジョニングオーダーを PCEP サーバーに送信しました。PCS は PCEP サーバからの応答を待機しています。
PCC_PENDING	PCEP サーバが LSP プロビジョニングオーダーを PCC に送信しました。PCS は PCC からの応答を待っています。
NETCONF_PENDING	PCS が LSP プロビジョニング命令を netconfd に送信しました。PCS は netconfd からの応答を待っています。
PRPD_PENDING	PCS は、BGP ルートをプロビジョニングするために、PRPD クライアントに LSP プロビジョニングオーダーを送信しました。PCS は、PRPD クライアントからの応答を待機しています。
SCHEDULED_DELETE	PCS は LSP の削除をスケジュールしました。PCS は削除プロビジョニング順序を PCC に送信します。
SCHEDULED_DISCONNECT	PCS は LSP を切断するようにスケジュールしました。LSP はシャットダウンステータスに移行します。LSP は、永続状態が関連付けられた NorthStar データストアに保持され、CSPF の計算では使用されません。
NoRoute_Rescheduled	PCS は LSP のパスを見つけていません。PCS は LSP を定期的にスキャンし、ルーティングされていない LSP のパスを見つけてから、再プロビジョニングをスケジュールします。
FRR_DETOUR_Rescheduled	PCS は LSP を迂回し、LSP の再プロビジョニングを再スケジュールしました。
Provision_Rescheduled	PCS は、プロビジョニングされる LSP をスケジュールしました。
Maint_NotHandled	LSPはNorthStarによって制御されていないため、LSPは継続的なメンテナンスイベントの一部ではありません。
Maint_Rerouted	PCS はメンテナンスのため LSP を再ルーティングしました。
Callsetup_Scheduled	PCS は、イベントの開始時に LSP をプロビジョニングする必要があります。
Disconnect_Scheduled	イベントが終了したら、PCS は LSP を切断する必要があります。
パスが見つかりません	PCS は LSP のパスを見つけることができませんでした。
ダウン LSP で見つかったパス	PCEP サーバーは LSP がダウンしていることを報告しましたが、PCS は LSP のパスを見つけました。
パスインクルードループ	SR-LSP には 1 つ以上のループがあります。
Maint_NotReroute_DivPathUp	スタンバイパスがすでに稼働しているため、メンテナンスイベントによって LSP が再ルーティングされることはありません。
Maint_NotReroute_NodeDown	メンテナンスイベントはLSPのエンドポイント向けであるため、LSPは再ルーティングされません。
PLANNED_LSP	LSP はプロビジョニングする必要がありますが、まだプロビジョニングキューにありません。
PLANNED_DISCONNECT	LSP は切断する必要がありますが、まだプロビジョニングキューにありません。
PLANNED_DELETE	LSP は削除する必要がありますが、まだプロビジョニングキューにありません。
Candidate_ReOptimization	PCS は、LSP を再最適化の候補として選択しました。
アクティベート(used_by_primary)	LSP のセカンダリパスがアクティブになります。
Time_Expired	LSP のスケジュールされたウィンドウが期限切れになりました。
PCEP_Capability_not_supported	PCEP がデバイスでサポートされていないか、サポートされている場合でも、PCEP が設定されていないか、無効になっているか、またはデバイスで正しく設定されていない可能性があります。
非アクティブ化	NorthStar Controllerは、セカンダリLSPを非アクティブ化しました。
NS_ERR_NCC_NOT_FOUND	NorthStar コントローラは、Netconf Connection Client(NCC)を使用してデバイスへのNetconf接続を確立できません。回避策: NorthStarサーバーでNetconfを再起動します。 [root@pcs-1 templates]# `supervisorctl restart netconf` netconf:netconf: stopped netconf:netconf: started
SR LSPのプロビジョニングには、LSPステートフルSR機能が必要	SR LSPをプロビジョニングするには、CLIを使用してJunosデバイスで次のコマンドを設定する必要があります。 set protocols pcep pce <name> spring-capability

PCEP 非対応の PCC

トポロジーサーバは、ノードを PCEP 対応にするために、PCEP セッションを TED からのトポロジ内のノードに関連付けます。PCC が PCEP セッションを確立するために使用する IP アドレスが、トポサーバが TED から自動的に学習した IP アドレスでない場合、このトポサーバ機能は妨げられます。例えば、管理 IP アドレスを使用して PCEP セッションが確立された場合、トポサーバは TED からその IP アドレスを受信しません。

PCC は、PCEP セッションを正常に確立すると、PCC_SYNC_COMPLETE メッセージをトポサーバに送信します。このメッセージは、同期が完了したことを NorthStar に示します。以下は、対応するtoposerverログエントリのサンプルで、NorthStarが認識する場合と認識しない場合があるPCC_SYNC_COMPLETEメッセージとPCEP IPアドレスの両方を示しています。

認識されないIPアドレスの問題を修正するためのいくつかのオプションは次のとおりです。

>に移動して、NorthStar Web UI More Options のデバイスプロファイル> Administration Device Profile認識できないIPアドレスを手動で入力します。
ルーターで発信されている LSP が少なくとも 1 つあることを確認し、これにより Toposerver が PCEP セッションを TED データベース内のノードに関連付けることができます。

IP アドレスの問題が解決され、Toposerver が PCEP セッションをトポロジ内のノードに正常に関連付けることができると、PCS ログで確認できるように、PCEP IP アドレスがノード属性に追加されます。

LSP が保留中またはPCC_PENDING状態でスタックしている

ノードがPCEP対応として正しく確立されると、LSPのプロビジョニングを開始できます。LSP コントローラのステータスは、Web UI ネットワーク情報テーブル(コントローラのステータス列)のトンネルタブに表示されるように、保留中またはPCC_PENDINGを示すことができます。このセクションでは、これらのステータスを解釈する方法について説明します。

LSP がプロビジョニングされると、PCS サーバは LSP のすべての要件を満たすパスを計算し、プロビジョニング順序を PCEP サーバに送信します。このプロセスの実行中に、次の例のようなログメッセージが PCS ログに表示されます。

この時点では、LSP コントローラのステータスは PENDING であり、プロビジョニング命令は PCEP サーバに送信されましたが、確認応答はまだ受信されていないことを意味します。LSP が PENDING でスタックしている場合は、PCEP サーバに問題があることを示しています。PCEPサーバーにログインし、考えられるトラブルシューティング値の追加情報を提供できる詳細ログメッセージを設定できます。

PCEPサーバには、有用な情報を表示できるさまざまな show コマンドもあります。Junos OSの構文と同様に、を入力する show ? とコマンドオプション show が表示されます。

PCEP サーバは、プロビジョニング順序を正常に受信すると、次の 2 つのアクションを実行します。

注文が PCC に転送されます。
確認応答を PCS に送り返します。

PCEP サーバログには、次の例のようなエントリが表示されます。

LSP コントローラのステータスが [PCC_PENDING] に変わり、PCEP サーバがプロビジョニング命令を受信して PCC に転送したが、PCC がまだ応答していないことを示します。LSP が PCC_PENDING でスタックしている場合は、PCC に問題があることを示しています。

PCC がプロビジョニング順序を正常に受信すると、PCEP サーバに応答が送信され、PCEP サーバが応答を PCS に転送します。PCS がこの応答を受信すると、LSP コントローラのステータスが完全にクリアされ、LSP が完全にプロビジョニングされており、PCEP サーバまたは PCC からのアクションを待機していないことを示します。その後、動作ステータス([運用ステータス]列)がトンネルの状態を示すインジケータになります。

PCS ログには、次の例のようなエントリが表示されます。

非アクティブな LSP

LSP プロビジョニング順序が正常に送信および確認され、コントローラのステータスがクリアされた場合でも、LSP が稼働していない可能性があります。LSP の動作ステータスが DOWN の場合、PCC は LSP にシグナリングできません。このセクションでは、LSP の運用ステータスが DOWN になる理由をいくつか考えていきます。

使用率は、DOWN でスタックしている LSP に関連する重要な概念です。利用には 2 つのタイプがあり、特定の時点では互いに異なっていてもかまいません。

ライブ使用率—このタイプは、LSPパスをシグナリングするためにネットワーク内のルーターによって使用されます。このタイプの使用率は、NTADを介してTEDから学習されます。次の例のような PCS ログエントリが表示される場合があります。特に、リンク上のRSVP使用率をアドバタイズする予約可能な帯域幅(reservable_bw)エントリに注意してください。

計画使用率—このタイプは、パス計算のためにNorthStar Controller内で使用されます。この使用率は、ルーターがLSPをアドバタイズし、LSP帯域幅とLSPが使用するパスをNorthStarに通信するときに、PCEPから学習されます。次の例のような PCS ログエントリが表示される場合があります。特に、リンク上のRSVP使用率をアドバタイズする帯域幅(bw)とレコードルートオブジェクト(RRO)エントリに注意してください。

2 つの使用率が互いに十分に異なるため、パスの計算の成功やシグナリングに干渉する可能性があります。たとえば、計画された使用率がライブ使用率よりも高い場合、PCS がパスの余地がないと見なしてパスを計算できないというパス計算の問題が発生する可能性があります。ただし、計画された使用率は実際のライブ使用率よりも高いため、余地が十分にある可能性があります。

また、計画された使用率がライブ使用率よりも低くなる可能性もあります。その場合、PCCはパスの余地がないと判断するため、パスをシグナリングしません。

Web UI トポロジマップで使用率を表示するには、[トポロジ] ビューの左側のペインにある [オプション] に移動します。RSVP ライブ使用率を選択した場合、トポロジマップにはルータからのライブ使用率が反映されます。RSVP使用率を選択した場合、トポロジマップには、計画されたプロパティに基づいてNorthStarコントローラによって計算される計画された使用率が反映されます。

Web UI のより優れたトラブルシューティングツールは、[ダッシュボード] ビューの [ネットワークモデル監査] ウィジェットです。[RSVP 使用率のリンク] 行項目は、ライブ使用率と計画使用率の間に不一致があるかどうかを反映します。存在する場合は、Web UI から [ネットワークモデルの同期] を実行して Administration 、> System Settingsに移動し、結果のウィンドウの右上隅をクリックして Advanced Settings みることができます。

メモ：

右上隅のボタンがと Advanced Settingsを切り替えますGeneral Settings。

PCS がトポサーバーと同期していない

PCS が Toposerver と同期しなくなり、LSP の状態が一致しない場合、同期を復元するには、PCEP プロトコルを非アクティブ化してから再アクティブ化する必要があります。NorthStar サーバーで次の手順を実行します。

注意：

次の手順に従うことに注意してください。

問題がある PCC だけでなく、すべての PCC の PCEP セッションを強制終了します。
すべてのユーザーデータが失われるため、再入力が必要になります。
再同期により本番システムに影響する。

PCE サーバーを停止し、PCC が残留 LSP をすべて削除するまで 10 秒間待ちます。
PCE サーバーを再起動します。
トポサーバーを再起動します。
メモ：
Toposerverを再起動する別の方法は、NorthStar Controller web UI(Administration>System Settings、詳細)からネットワークモデルのリセットを実行することです。および Reset Network Model 操作の詳細についてはSync Network Model、「消える変更」セクションを参照してください。

消える変化

Web UI では、トポロジをライブネットワークと同期するための 2 つのオプションを使用できます。これらのオプションはシステム管理者のみが使用でき、最初に > System Settingsに移動しAdministration、結果のウィンドウの右上隅をクリックAdvanced Settingsすることでアクセスできます。

メモ：

右上隅のボタンがと Advanced Settingsを切り替えますGeneral Settings。

図 6 に、表示される 2 つのオプションを示します。

図 6: 同期操作

Web UI で [ネットワークモデルのリセット] を実行すると、データベースに加えた変更が失われることに注意してください。マルチユーザー環境では、1 人のユーザーが他のユーザーに気付かれることなくネットワークモデルをリセットする可能性があります。リセットが要求されると、要求は PCS サーバーからトポサーバーに送信され、PCS ログには次の内容が反映されます。

Toposerver ログには、データベース要素が削除されていることが反映されます。

トポロジーノードとリンクを取得するためにJunos VMとの同期を要求し、LSPを取得するためにPCEPサーバーとの同期を要求します。このようにして、Toposerver はトポロジを再学習しますが、ユーザーの更新が欠落しています。図 7 は、トポロジーのリセット要求から Junos VM および PCEP サーバーとの同期要求までのフローを示しています。

図 7: モデル要求 Reset Model Request

のリセット

同期リクエストを受信すると、Junos VMとPCEPサーバーは、現在のライブネットワークを反映したトポロジーの更新を返します。PCS ログには、次の情報がデータベースに追加されていることが示されます。

図 8 は、Junos VM と PCEP サーバーからトポサーバーと PC にトポロジーの更新が返される様子を示しています。

図 8: ネットワークモデルの Model Updates Using Reset Network Model

リセットを使用したモデルの更新

トポロジを最初からやり直す場合は [ネットワークモデルのリセット] を使用する必要がありますが、稼働中のネットワークと同期するときにユーザープランニングデータを失いたくない場合は、代わりに [ネットワークモデルの同期] 操作を実行します。この操作では、PCS は引き続きトポロジ同期を要求しますが、Toposerver は既存の要素を削除しません。図 9 は、PC から Junos VM および PCEP サーバーへのフローと、更新が Toposerver に戻される様子を示しています。

図 9: 同期ネットワークモデル Synchronization Request and Model Updates Using Sync Network Model

を使用した同期要求とモデルの更新

クライアント側の問題の調査

問題の原因を探していて、システムのサーバー側で見つからない場合は、クライアント側で見つけるのに役立つデバッグフラグがあります。このフラグは、サーバーとクライアントの間で交換された内容に関する詳細なメッセージを Web ブラウザー・コンソールで有効にします。たとえば、更新が Web UI に反映されないことがあります。これらの詳細なメッセージを使用すると、サーバーが実際に更新を送信していないなど、サーバーとクライアントの間で発生する可能性のある通信ミスを特定できます。

このデバッグフラグを有効にするには、Web UI の起動に使用する URL を次のように変更します。

メモ：

すでに Web UI を使用している場合は、ログアウトする必要はありません。URLに追加 ?debug=true してを押す Enterだけです。UI がリロードされます。

図 10 は、詳細なデバッグ・メッセージを含む Web ブラウザー・コンソールの例を示しています。

図 10: デバッグメッセージ Web Browser Console with Debugging Messages

を含む Web ブラウザーコンソール

コンソールへのアクセスはブラウザによって異なります。図 11 に、Google Chrome でコンソールにアクセスする例を示します。

図 11: Google Chrome コンソール Accessing the Google Chrome Console

へのアクセス

帯域幅サイジングスケジュールタスクの不完全な結果

帯域幅サイジングスケジュールタスクを実行しても、帯域幅サイジングが有効なすべてのLSPの統計情報が公開されない場合は、スケジュールされた期間に、帯域幅サイジングが有効なすべてのLSPのトラフィック統計が収集されているかどうかを確認します。トラフィック統計が利用できない場合、それらのLSPの帯域幅統計はサイズ変更できません。

NorthStar Collector Web UIを使用して、トラフィック統計が収集されているかどうかを判断できます。

ネットワーク情報テーブルの [トンネル] タブを開きます。
サイズ変更されていない LSP を選択します。
右クリックしてを選択します View LSP Traffic。
左上隅のをクリックし custom 、スケジュール期間を入力して、をクリックします Submit。

NorthStarとHealthBotとの統合のトラブルシューティング

NorthStar で HealthBot へのデバイスの更新が失敗した場合は、まず NorthStar Web アプリケーションサーバーログにエラーがないかどうかを確認します。

HealthBot API サーバーのログは、HealthBot へのデバイスの更新が失敗した場合に役立つ情報も提供する場合があります。

RPM プローブデータと LDP 要求統計収集が機能しているかどうかを確認するには、IAgent コンテナログにアクセスします。IAgent は RPM データ(リンク遅延)に使用され、LDP は統計情報を収集を要求します。

JTI LSPとインターフェイス統計データの収集が機能しているかどうかを確認するには、fluentdコンテナログにアクセスします。JTIデータの収集にはネイティブGBPが使用されます。

統計データが HealthBot サーバから PC に通知されているかどうかを判断するには、PCS ログにアクセスしてライブ統計通知情報を確認します。

NorthStar Controllerデバッグファイルの収集

NorthStar コントローラの問題を解決できない場合は、NorthStar コントローラデバッグユーティリティで生成されたデバッグファイルを評価のためにJTACに転送することをお勧めします。現在、すべてのデバッグファイルは u/wandl/tmp ディレクトリの下のサブディレクトリにあります。

デバッグファイルを収集するには、NorthStar Controller CLI にログインし、コマンド u/wandl/bin/system-diagnostic.sh filenameを実行します。

出力が生成され、.tbz2 デバッグファイルの /tmp ディレクトリfilenameから使用できます。

リモートSyslog

NorthStar プロセスのほとんどは /etc/rsyslog.conf で定義されている rsyslog を使用します。rsyslog の使用の詳細については、Linux システムで実行されている特定の rsyslog バージョンについて、 http://www.rsyslog.com/doc を参照してください。

SNMP収集の規模を拡大する

5 分のポーリング間隔内で SNMP 収集の規模を拡大するには、以下のタスクを実行します。

viなどのテキスト編集ツールを使用して、ファイルを開いて supervisord_snmp_slave.conf 編集します。

構成ファイルが開きます。

次のコマンドを追加して、スレッドの数を 100 から 200 に増やします。

前のワーカーを複製して、さらにワーカー (たとえば、worker3) を追加します。

グループステートメントにワーカーを追加します。

ベストプラクティス:
追加できるワーカーの数は、CPU のコア数以下である必要があります。
スーパーバイザーでを再起動します collector:* group 。
ワーカー 1、ワーカー 2、およびワーカー 3 のスーパーバイザーの状態を表示して、それらが稼働していることを確認します。
出力にいくつかの worker 1 プロセスが表示され、worker2 と worker3 にはそれぞれ 1 つの親プロセスのみが表示されることを確認します。

スケーラビリティを高めるためにスレッド数を増やすには、次のタスクを実行します。
1. viなどのテキスト編集ツールを使用して、ファイルを開いて data_gateway.py 編集します。
  
  構成ファイルが開きます。
2. プール内のスレッド数を 10 から 20 に増やします。
3. collector_main:data_gatewayプロセスを停止し、プロセスを再開します。
スケーラビリティを高めるためにスループットを向上させるには、次のタスクを実行します。
1. viなどのテキスト編集ツールを使用して、ファイルを開いて es_publisher.cfg 編集します。
  
  構成ファイルが開きます。
2. 以下のパラメータを設定します。
  メモ：
  1回の操作でElasticSearchデータベース(batch_size)に送信されるレコードの最大数は5000ですが、SNMP統計pool_sizeを収集するために実行できるスレッドの最大数(スレッドプール内)は20です。
ポーリングごとにより多くのルーターインターフェイスからデータを収集するには、以下のタスクを実行します。
1. NorthStar Controller GUIのデバイスプロファイル(デバイスプロファイル>管理)ページに移動します。
2. デバイスリストで、ルーターを選択し、変更をクリックします。
  
  [デバイスの変更] ページが表示されます。
3. [ユーザー定義プロパティ] タブの [名前] 列で、プロパティの名前を bulk_size に指定します。[値] 列で、バルクサイズを 100 に設定します。
  
  バルクサイズは、ネットワークがポーリングされるたびに収集されるインターフェイスの数を示します。
4. [ 変更] をクリックします。
  
  [デバイスプロファイル(Device Profile)] ページにリダイレクトされ、変更が保存されたことを示す確認メッセージが表示されます。