私も経験したネットワーク障害

Doblogの皆さんも大変なようですね。

そういう私も、10月3日の日曜日、勤務先のネットーワーク障害で1日をつぶしてしまいました。

日曜日、勤務は休みで出かけていました。
その出先で最初の連絡が入ったのは、9時30分頃の事です。内容は、

「1部の部署の何台かのPCでネットワークエラーが出ている。」と言うものでした。

その時は、その何台かのPCを接続しているHUBの故障かなと思い、HUBのランプが点灯しているか確認してもらったところ、ランプがついていると言う返事でした。

その時点では何台かの局所的なネットワークのエラーだったので、自分の用事が11時頃には終わるため昼過ぎに戻るとの返事をしましたが、その電話を切った5分後にまた携帯に連絡が入り
「ネットワーク障害が別の部署にも広がっている」と言う事でした。

今日は、日曜日なので通常の業務は行われていませんが、早くその原因を突き止めなくてはと用事を切り上げ、勤務先に戻る事にしたのです。

まず戻ってすぐ、ナットワークサーバのある部屋に行き、サーバ室の基幹のHUBを確認した。ランプの点滅も正常に見えたため、まず第1報のあった部署に行く事にした。

その部署には、二系統のネットワークが入っており、有線のLANと無線のLANで動いている。
確かに有線のLANはネットワークエラーを起こしており、無線LANの方は正常に動作していた。有線のLANのHUBは正常に動作しておりここだけの問題ではないと言う結論になった。

また、ここで頭が少し混乱してしまった。そこでまたサーバ室に戻り、サーバの確認をすると、動きがおかしくなっているようであった。
サーバはバックアップを含め8台が動いているのであるが、サーバ同士でpingを打つとpingが通ったり通らなかったりする。また他の部署のルーティングしているネットワークもダウンしていると言う事であった。

ここで考えたのは、何らかの原因でネットワークのループを作っているのではないかと言う事である。誰かが接続した機器の設定或いはHUBなどの接続ミスでネットワーク上を行き場の無いデータがHUBの間を行き来しているのだろうと。

そこで基幹のHUBの接続されたケーブルを抜き差しして、とにかく原因となる接続を切ろうと考えた。
しかし、安全のためとスピードの向上を目指し、二重化しさらにネットワークのルーティングを行っていることと、断続的に繋がったり切れたりを繰り返すため、その場所の特定に時間が掛かってしまった。

原因は、最初に異常が起きた部署の無線LANアクセスポイントを結ぶスカッタブルハブが原因だった。
最初確認してはいたのだが、無線LANの通信は正常で、そのハブに直接PCを接続し、ネットワークが繋がっている事を確認したためそのハブは正常と思っていた。ただし、基幹のハブにその無線LANのネットワークと有線LANのネットワークが接続されていた。

10時間後にネットワークを復帰させる事ができたが、この事故が平日の昼までなかったことが不幸中の幸いであった。

インターネットに接続している大部分の人がネットワークは繋がるのが当たり前、少しの時間でも繋がらなくなれば大騒ぎするが、その陰でネットワークを管理している人は、大変な苦労していることを知っていてほしいですね。