ITエンジニアが仕事に対して思うこと

ITエンジニアとして働く中で感じたことを、現場の温度感そのままに言語化するブログです。設計・実装・運用のリアル、学び続ける負荷、品質とスピードのせめぎ合い、コミュニケーションの難しさなど、きれいごとだけでは語れない「仕事の実態」を整理します。誰かを責めるのではなく、なぜそうなるのかを構造で捉え、明日から少し楽に、少し強く働ける視点を提供します。新人から中堅、マネジメントまで参考に。

平成30年度秋期ネットワークスペシャリスト試験午後Ⅰ問2過去問題解説【改訂版】サクラ先輩と学ぶ!「沈黙の警報」ミステリーケーブルが切れたのに、なぜ監視サーバは気づかなかったのか? 【動画解説付き】

            [https://www.youtube.com/watch?v=UKW4eBzdMHo:embed:cite]

ネットワークトラブルの謎に挑む!ケーブルが切れたのに、なぜ監視サーバは沈黙したのか?平成30年度ネットワークスペシャリスト試験の午後I問2を題材に、冗長化の落とし穴やUDPの弱点を分かりやすく解説します。VRRPやSTPの挙動、そして確実な障害検知に欠かせない「SNMPインフォーム」の仕組みをサクラ先輩と一緒に学びましょう。通信の確実性というネットワークの基本が身につく内容です。 まず学習の出発点となるのは、ネットワークの冗長化と監視を支えるVRRPPing監視の仕組みです。VRRPはデフォルトゲートウェイの信頼性を高めるためのプロトコルであり、稼働中のマスタールータが「VRRPアドバタイズメント」と呼ばれる生存報告メッセージを定期的に送出することで、バックアップ機への切り替えを制御しています。これに対し、監視サーバが各ネットワーク機器に対してICMPのEcho Requestを送り、その返答であるReplyを確認するのがPingによる死活監視です。しかし、ネットワーク内でケーブル断線などの事故が発生した際、これらの仕組みだけでは捉えきれない「魔の空白時間」が存在します。それはレイヤ2のループを防止するSTP(スパニングツリープロトコル)の再計算によって引き起こされます。冗長化された構成では、障害を検知したスイッチが代替経路を有効化するためにリスニング、ラーニングといった中間状態を経て、最終的に通信可能なフォワーディングへ移行するまでに30秒から50秒ほどの時間を要します。この再構築の最中は、ネットワーク内でのデータ転送が一時的にストップしてしまいます。ここで重要になるのが、障害通知に使われるプロトコルであるUDPの特性です。Syslogや通常のSNMPトラップは、信頼性よりも効率を重視した「投げっぱなし」の通信方式であるUDPを採用しています。そのため、STPが再計算を行っている間に送信された異常検知ログは、到達確認も行われず、ネットワークの中で再送されることもなく消失してしまいます。この課題を解決するための機能がSNMPインフォームです。これは従来のトラップとは異なり、監視サーバからの確認応答であるACKを要求します。もしACKが返ってこなければ、送信側の機器はメッセージを保持し、STPの再構築が完了して通信が復旧したタイミングで再び再送を試みます。また、監視手法には一定間隔で機器に状態を尋ねるポーリングもありますが、これは設定した間隔によっては異常検知が大幅に遅れるという弱点があります。確実な監視体制を構築するには、プロトコルの特性とネットワークの状態を多角的に理解することが不可欠です。現代ではテレメトリやSDNといった高速な切替を可能にする最新技術も登場していますが、「通信の確実性」という基礎的な考え方の本質は今も変わりません。