Reading Time: 1 minutes

NTTドコモで2021年10月14日午後5時ごろに障害が発生し、全国的に携帯電話回線がつながりにくくなるという事態が発生しました。
完全に復旧したのは同月15日の午後10時で、1日以上も障害が続くという大規模な障害です。

この障害の原因は「コアネットワーク上の輻輳(ふくそう)」とされています。

輻輳はネットワーク障害の原因として広く知られ、一般企業の多くも悩まされています。
輻輳を原因とする障害に対応するために、企業の情シスはできることはなんでしょうか。

詳しく見ていきましょう。

  1. 障害の原因となった輻輳とは
  2. 2021年10月のNTTドコモの通信障害について
  3. 輻輳にどう対応すればいいのか
  4. 輻輳対策に有効な技術とは
  5. 輻輳に早期に対処し、安定したネットワークを実現しよう

障害の原因となった輻輳とは

まずは輻輳の意味を抑えておきましょう。

ネットワークにおける輻輳とは、コンピューターの通信が集中して混雑していることを指します。
ネットワークという道路の幅(帯域幅と言います)が足りず、通信がスムーズに通れない交通渋滞のようなイメージです。

企業では通常、「これくらいの幅があれば、問題なく通信できるだろう」と想定して帯域幅を決めます。

この想定を通信量が超えてしまった場合、輻輳が発生し、通信に遅延が発生するなどの問題が起きてしまいます。

昨今はテレワーク導入などにともないクラウドサービスやインターネットの利用が増加し、気づかぬうちに通信量が過剰になるケースが増えています。

今回はこの輻輳が原因となって大規模な障害となってしまいました。
次の章で概要を見ていきましょう。

2021年10月のNTTドコモの通信障害について

まずは今回の障害の概要をおさえておきます。

障害の概要

10月14日午後5頃、NTTドコモ回線がつながりにくくなるという問題が発生しました。

影響を受けたユーザーは、音声通話が約460万人、データ通信が約830万人でのべ1,290万人にものぼります。

同社が運用する5G回線、4G回線と順番に回復し、最後の3G回線は翌日15日の22時に復旧しました。
障害解決までに、実に約29時間もかかっていたことになります。

障害の原因

NTTドコモの発表では、障害の原因は「ネットワーク工事の切り戻しに伴う信号量増大によるネットワーク輻輳」とされています。

発端となったのは、同社のIoT回線向け管理機能「docomo IoT回線管理プラットフォーム」のメンテナンス工事でした。
この工事が予定よりも長引き、一部のIoT端末などで障害が発生したようです。
そのため、いったん元の状態に戻したところ、接続待ちをしていたIoT機器から一気にNTTドコモのコアネットワーク上に流れこみ、輻輳が発生しました。

このコアネットワークは、NTTドコモと契約する携帯電話やスマホの通信が流れるネットワークです。
ここが渋滞が発生してしまったために、全国のドコモユーザーのスマホや携帯電話もつながりにくくなってしまいました。

想定外の大量の通信が、丸一日以上もの障害に発展してしまったのです。

ここまでの規模とはいかなくとも、多くの企業で輻輳による問題が起きています。
輻輳が起きてしまったときにはどう対応すればよいのでしょうか。

次の章で見ていきましょう。

輻輳にどう対応すればいいのか

ここでは、輻輳が発生したときの調査とその後の対策という2つに分けて考えていきます。

輻輳の調査

実際に障害が発生したとき、輻輳が原因であると突き止めることも難しい作業の一つです。

そのため、通信遅延が起きたときを想定してトラブルシューティングの方法を見ていきます。

通信遅延が発生したとき、まず調べなければならないのは問題の「箇所」と「原因」です。

箇所については、個人のクライアントPCから社内LANと関係ないインターネットまでいろいろなところが問題になり得ます。

また原因についても、輻輳や機器のリソース不足など様々です。

これらを調査するためによく使われるのがSNMPとパケットキャプチャという技術です。

SNMPはネットワークやシステムを監視するためによく使われるプロトコルで、機器の状態やトラフィック量を調べることができます。
幅広く多様な監視ができるため、問題箇所を探るためにもよく使われます。

ただ一方で、トラフィック監視についていえば、詳細な原因を探るのには向いていません。
例えば、とあるネットワーク機器の帯域幅を通信量が超過してしまった、ここで輻輳が発生している、ということまでは分かりますが、この通信は誰が何のために出したものなのか、までは分かりません。

この詳細な情報を得るために使われるのがパケットキャプチャです。
パケットキャプチャは流れているパケットを丸ごと解析し、誰がどこに向けてどんなプロトコルで通信しているのか、といった詳しい情報を調べることができます。

パケットキャプチャはデータ量が膨大になるため、通常時からの監視には向いておらず、障害発生時に原因を調べるのによく使われます。

SNMPやパケットキャプチャを組み合わせて対処するのが一般的です。

調査後の対策

輻輳を調査した結果、応急処置で対応できる場合も多いでしょう。
例えば、社員が業務とは関係ないストリーミングサービスを利用していたことが原因であれば、サービスを使わないよう周知することで、同様の輻輳を防げるでしょう。

一方、業務に関するトラフィックが頻繁に帯域を超過するなら、帯域を見直す必要があります。

この場合も見直しの前に情報収集が欠かせません。

ネットワーク機器が原因の場合もあれば、インターネットの契約帯域の問題かもしれません。

どこで輻輳が発生する可能性が高いのか、どのような時間帯に多くなるのか、どのような種類のトラフィックが多いのか。

このような情報を調査したうえで見直さなければ、同じように輻輳が発生する確率が高くなります。

輻輳対策に有効な技術とは

実は、前の章で紹介したSNMPやパケットキャプチャよりも、簡単に輻輳対策ができる技術があります。
それがxFlowと呼ばれるものです。

xFlowとは

xFlowとは、ネットワークトラフィックの監視・分析を目的とする技術(○○Flow)の総称を指す言葉です。
有名なものでは、NetFlowやsFlowが挙げられます。

もともとは大量の通信を取り扱う通信事業社などで用いられていましたが、現在では手軽にトラフィックの内訳情報を把握する手段として、規模を問わず多くの企業で利用されています。

トラフィックの情報を手軽かつ詳細に取得でき、専門知識なしでも簡単にトラフィックの情報を可視化できます。
ただし、xFlowを活用するには、「フローコレクター」と呼ばれるツールが必要です。

xFlowと従来の測定方法(SNMP・パケットキャプチャ)の違い

トラフィックの監視・分析を目的とした技術は、従来からSNMPやパケットキャプチャなどが存在しています。

ここでは、それぞれの特徴やxFlowとの違いを紹介します。

SNMPとの比較

SNMPは、ネットワークの監視を目的として開発された技術です。SNMPを用いることで、インターフェースごとのトラフィック総量を把握することができます。業界標準規格でありベンダーを問わず利用できる点や、死活監視やパフォーマンス監視も合わせてとても手軽に利用できる点が特徴です。

パケットキャプチャとの比較

パケットキャプチャは、ネットワークを流れるパケットを収集する技術であり、トラフィックの詳細分析を行うことができます。トラフィックの総量だけでなく、パケットのデータ部分も含めた非常に細かい分析ができる点が特徴です。

一方、xFlowとの違いとして、分析を行うためには専門知識や慣れが必要である、および、すべてのパケットを収集するためデータの容量が膨大となる、という点があります。

輻輳に早期に対処し、安定したネットワークを実現しよう

xFlowを活用することで、輻輳の予防から事後対応まで簡単に実施できることをご紹介しました。
もし通信遅延に頻繁に悩まされているようなら、ぜひxFlowでの監視をご検討ください。

NetFlow Analyzerについて

ManageEngine NetFlow Analyzerは、低価格帯で誰でも使えるように最適化されたシンプルでわかりやすい管理画面を備えたフローコレクターです。Cisco、Juniper Networks、Palo Alto、AlaxalA Networks、Allied Telesis、APRESIA Systems、Fortigateなど、NetFlow・sFlowに対応したネットワーク機器を導入した環境でトラフィックの可視化を実現します。

NetFlow Analyzerに関する資料

口頭で細かく相談されたい方は、お気軽に無料のオンライン相談にお申し込みください。

IT運用管理に関する資料ついて

ゾーホージャパンでは、企業のIT運用管理に役立つ資料や動画を無料で公開しています。
ぜひこちらからご覧ください。


フィードバックフォーム

当サイトで検証してほしいこと、記事にしてほしい題材などありましたら、以下のフィードバックフォームよりお気軽にお知らせください。