在宅勤務での通信の問題

インシデント・レビュー - Comcast社の大規模な障害により、米国内の数百万人のユーザが自宅で仕事をすることができなくなる

2021年11月15日
翻訳: 島田 麻里子

この記事は米Catchpoint Systems社のブログ記事 Incident Review - Rolling Comcast Outage Disrupts Work from Home for Millions of Users Across the U.S.の翻訳です。
Spelldataは、Catchpointの日本代理店です。
この記事は、Catchpoint Systemsの許可を得て、翻訳しています。


11月8日(月)及び9日(火)に発生したComcastの連日の停電は、米国全土のユーザに影響を与え、各地でユーザがオフラインになりました。
最初の障害は月曜日の夜にサンフランシスコ湾岸地域で発生しました。
2回目の障害は火曜日の朝に発生し、主に中西部、南東部、東海岸の広い範囲に影響を与えましたが、その影響範囲は広範囲に及びました。

3,100万人以上のブロードバンドインターネット加入者を抱える米国で最も人気のあるケーブルネットワークの停止は、遠隔地に住む人々に深刻な影響を与えました。
何百万人ものユーザが、いつもなら朝のオンラインミーティングに臨むところを、インターネットに接続できなかったのです。

多くの人が、おそらく携帯電話のネットワークを経由して、ツイッターで不満を訴えました。

その後も、全国のユーザに散発的な障害が発生しました。

以前であれば、Xfinityの障害は、もちろんビジネスの世界に大きな影響を与えることはありませんでした。
しかし、アメリカではかなりの割合の人が自宅で仕事をしているため、このような規模でComcastのネットワークバックボーンが停止すると、すぐにPriority 1(P1)の影響を受け、事業継続に重大な支障をきたすことになります。

CatchpointはComcastの障害をリアルタイムで検知

Catchpointのオブザーバビリティ・ネットワークは、国内に広く分散しており、障害が可用性と信頼性に与える影響の深刻さをリアルタイムで検出しました。
Catchpointは様々なタイプのオブザーバ(訳注: 計測ノード)を擁しているため、バックボーン、ラストマイル、エンドポイントのオブザーバを経由した多点三角測量を用いて問題に対処することができました。
このような可視性を得た企業は、リモートワーカーに問題を警告し、フェイルオーバーのオプション(別のISPや4Gルーターなどへの接続)をアドバイスし、サービスが回復したときには直ちに警告を発して、ビジネスをできるだけ早く正常に戻すことができました。

Comcastのパフォーマンスチャート
稼働率の低下を示すCatchpoint社のアクティブ・オブザーバのパフォーマンス・チャート(Catchpoint社)
ピッツバーグのラストマイルオブザーバからのウォーターフォール
ピッツバーグ(ペンシルバニア州)のラストマイルオブザーバからのウォーターフォール。接続タイムアウトを示す(Catchpoint社)

Catchpoint社のエンドポイント・オブザーバビリティソリューションで在宅勤務ユーザへの影響を明らかに

自社の点在する従業員のサービス品質を確保するためにCatchpointもエンドポイント・オブザーバを利用しています。
今回の障害では、従業員の複数のエンドポイントで問題が検出されました。

停電によって問題が発生した、Xfinityのユーザであり、米国全土に点在しているAmy T. (マサチューセッツ州)、Jeena J. (カリフォルニア州)、Greg C. (ニューヨーク州)の3人の社員について見てみましょう。
Microsoft Teamsは、重要なコラボレーションツールであり、多くの人にとって、円滑なビジネス運用のために頼っているツールです。
それぞれの社員は、深刻さの度合いは異なるものの、Microsoft Teamsのパフォーマンスに問題を抱えていました。

次のダッシュボードからわかるように、11月9日火曜日のMicrosoft Teamsに対する平均的なパケットロスは1%なのですが、Amyのところではピーク時には65%のパケットロスが発生していました。

火曜日のMicrosoft Teamsのパケットロスを示すダッシュボード(Catchpoint社)
エンドポイントデータによると、11月8日月曜日にCatchpoint社の社員が使用したMicrosoft Teamsで65%のパケットロスが発生していた(Catchpoint社)

Microsoft Teamsへのアクセスに関しては、社員の経験は様々でした。
下のスクリーンショットからもわかるように、ビデオストリーミングの品質に影響が出ていました。
Jeenaはホップ数が変化し、Gregは高いRTTの影響を受け、Amyは高いレベルのエンドツーエンドのパケットロスを経験しました。

エンドポイントの測定では、MSFTチームに到達するまでの様々な経験が示されています(Catchpoint社)

また、別の社員からは、停電中にZoomの通話が中断されたとの報告がありました。
もし彼がお客様へのプレゼンテーションの最中であったり、同様に重要なことをしていたとしたら、その影響を想像してみてください。

ブラックボックスの中を覗いてみたいと思いませんか?

Catchpoint社は、デバイスメトリクスのみを提供する他のエンドポイント監視ベンダーと比較して、オブザーバビリティ・ソリューションとして独自の強みを持っており、Comcastの障害時に在宅勤務のユーザが経験したような問題を検出するのに適しています。
デバイス・パフォーマンス監視、ネットワーク・パフォーマンス監視、アプリケーション・パフォーマンス監視、ITインフラストラクチャ監視などのポイント・ソリューションでは、問題の特定には役立ちません。
デバイス・パフォーマンス監視は、特定のアプリケーションの使用率の低下を示すことができるかもしれませんが、原因は全く見えません。

しかし、Catchpoint社は現代のデジタル企業のブラックボックスを把握することができます。
これにより、今回のような障害が発生している場所を正確に指摘することができ(当社のバックボーン・オブザーバが最初に問題を検出しました)ほぼリアルタイムでITチームに警告することができます。
つまり、P1の必要はなく、Xfinityのリレーションシップ・マネージャーと協力して、最新情報を入手し、問題を解決し、サービスクレジットを申請すればよいのです。