SpeedData

障害対策

予期せぬ事態への備え:AJIOとJioの障害から学ぶ教訓

2024年12月23日
著者: Eknath Reddy, Ankit Kumar, Nilabh Mishra, Denton Chikura
翻訳: 逆井 晶子

この記事は米Catchpoint Systems社のブログ記事「Preparing for the unexpected: Lessons from the AJIO and Jio Outage」の翻訳です。
Spelldataは、Catchpointの日本代理店です。
この記事は、Catchpoint Systemsの許可を得て、翻訳しています。


ここ数ヶ月だけで、さまざまな理由による大規模なサービス停止が相次いでいます。
サーバーの不具合、ネットワークの問題、さらにはインターネット史上最大級の障害であった設定のアップデートなどです。
これらのインシデントから、私たちのデジタル世界がいかに脆弱であるかを思い知ります。
しかし、これらの障害を引き起こしているのはソフトウェア関連の問題だけではありません。
火災に関連する2つの不幸な事故により、アジア太平洋地域の主要なWebサイトがダウンしました。

2024年9月10日、シンガポールのデータセンターで火災が発生し、Alibaba Cloudに大きな障害が発生しました。
これにより、TikTok、ByteDance、Lazadaなどの大手企業のサービスに影響が出ました。
今回は、Reliance傘下のAJIOとJioのWebサイトが被害を受け、数百万人のユーザーが買い物、支払い、サービスへのアクセスができなくなりました。
何が起こったのか見てみましょう。

何が起こったのか?

2024年9月17日、Reliance Jioは、インドの複数の地域および世界中でお客様に影響を与える大規模なネットワーク障害が発生しました。
AJIOおよびJioのWebサイトで接続タイムアウトが発生し、障害が発覚しました。
障害は東部標準時間(EDT)の午前5時42分頃に解消されました。

Catchpointで検出したネットワーク障害の概要を示す図
Catchpointが検出したネットワーク障害の概要を示す図
www.ajio.comにアクセスできない状況を示すスクリーンショット
www.ajio.comにアクセスできない状況を示すスクリーンショット
www.jio.comにアクセスできない状況を示すスクリーンショット
www.jio.comにアクセスできない状況を示すスクリーンショット

トレースルートの結果、複数のホップで障害が発生していることが示され、ネットワーク経路上の問題が示唆されました。

トレースルートで複数のホップに障害が発生していることを示す結果
トレースルートで複数のホップに障害が発生していることを示す結果

さらに、影響を受けたのはこれらの2つのサイトだけではありませんでした。
Reliance DigitalのWebサイトも停止し、Akamai Edgesuiteを通じて処理されたエラーメッセージが表示されました。
「リクエストの処理中に問題が発生しました。」

影響の広がり

この障害はJioのネットワークだけに留まらず、他のインターネットサービスプロバイダー(ISP)にも広範囲に影響を及ぼしました。

Pingによるパケットロスを示す散布図
Pingによるパケットロスを示す散布図

上記の散布図は、複数のISPにわたる広範な影響を示しており、問題はReliance Jioを超えて、Airtel、Vodafone、BSNLなどの他のISPにも影響を及ぼしたことを示しています。
Ping Round Trip Time(RTT)の急増は、ネットワーク遅延を示しています。
これは、障害が波及効果を引き起こし、さまざまなネットワークにわたって接続の問題と遅延が発生したことを示唆しています。

障害で地域間ネットワークフローが中断した様子を示す図
障害で地域間ネットワークフローが中断した様子を示す図

このサンキーダイアグラムは、エンドポイントに到達する際の複数のISPにわたる影響を示しています。
障害が地域間のネットワークフローをどのように中断したかが強調されています。

根本原因

ロイター通信によると、Relianceのデータセンターで発生した火災が、全国的な通信障害の原因であると報じました。
Reliance Jioの広報担当者は障害を確認し、問題が完全に解決されたと主張しました。

影響と重要な教訓

Jioは約4億8900万人の加入者を抱えるインドの主要な通信会社であり、この障害の影響は非常に大きなものでした。
多くのユーザーがAJIOでのショッピングや請求書の支払い、重要なサービスへのアクセスができず、ソーシャルメディア上での不満が急速に広まりました。
X(旧Twitter)での激しい抗議、無数のミーム、そして回答と解決策を求めるユーザーからの大量のネガティブなコメントを想像してみてください。

この状況は、火災のような予期せぬ事態によって大規模な障害が発生する可能性を企業が忘れてはならないことを示しています。
このような事態への備えには、事後対応だけでは不十分です。
将来の同様の障害の影響を軽減するには、企業は次の重要な2点に焦点を当てる必要があります。

ネットワーク全体の可視性を確保する
障害が他のISPにまで及んだことは、ネットワークの全体像を把握する重要性を示しています。
CDN、DNS、ISPネットワークなど、外部依存関係を含むインターネットスタック全体のパフォーマンスと状態を把握することが重要です。
これにより、問題の発生場所や原因が内部ネットワークにあるのか外部パートナーにあるのかを迅速に特定することができます。
プロアクティブなモニタリングの重要性
この障害は、インターネットスタック全体でのプロアクティブなモニタリングの必要性を浮き彫りにしました。
パケットロスや一時的な遅延の増加、ネットワークの混雑などの問題を早期に検出することで、大規模な障害に発展する前に対処することができます。

Catchpointでインターネットスタックを可視化

私たちのInternet Performance Monitoring(IPM)プラットフォームは、インターネットスタックに対する深い洞察と広範囲な可視性を提供し、ビジネスが影響を受ける前に問題を発見して修正することができるように設計されています。
私たちのクラウドネイティブプラットフォームは、次のような業界トップクラスの機能を備え、組織全体のイインターネット・レジリエンスを確保します。

世界規模と地域レベルでの比類ない可視性
101か国以上、360以上のプロバイダーから2,700以上のノードを持つ当社のグローバル・オブザーバビリティ・ネットワークを通じて、世界中および地域に並ぶものがない可視性を実現します(常に増え続けています)。
プロアクティブなインシデント管理
パブリックネットワークとプライベートネットワーク、およびアプリケーション層全体で問題をプロアクティブに特定して解決し、ITチームが根本原因を特定して迅速にトリアージできるようにします。
AI搭載ツール
  • Internet Sonar:「問題は自分のせいか、それとも他に原因があるのか?」を迅速に答えるためのツールです。
  • Internet Stack Map:重要なサービスやアプリケーションの問題を即座に把握するためのマップです。

障害対策についてさらに知りたい場合は、私たちのガイドをご覧いただくか、ガイド付きプロダクトツアーでCatchpointをお試しください。