SpeedData

July_19th_global_IT_outage

7月19日の世界規模のIT障害がデジタル世界の問題を浮き彫りに

2024年8月23日
著者: Dritan Suljoti, Eknath Reddy, Anna Jones, Karthik Suresh, Siva Dwivedula
翻訳: 逆井 晶子

この記事は米Catchpoint Systems社のブログ記事「July 19th global IT outage reminds us of digital complexity」の翻訳です。
Spelldataは、Catchpointの日本代理店です。
この記事は、Catchpoint Systemsの許可を得て、翻訳しています。


7月19日(金)執筆時点において、大規模な世界的なサイバー障害が発生しており、世界中でMicrosoftベースのコンピュータに依存している重要なサービスが停止しています。

これは史上最大級の障害の一つと考えられており、世界中で日常生活に影響を及ぼしています。
影響が小規模なもの(たとえば英国では、現地の医師が重病の患者だけを診察し、手書きでメモを書いている)から、大手航空会社の運航停止、緊急サービスの停止、大手銀行や企業の営業停止といった大規模なものまで発生しています。

Yesterday, CrowdStrike released an update that began impacting IT systems globally. We are aware of this issue and are working closely with CrowdStrike and across the industry to provide customers technical guidance and support to safely bring their systems back online.

— Satya Nadella (@satyanadella) July 19, 2024

サイバーセキュリティ企業CrowdStrikeは、この問題の原因が自動ソフトウェア更新の不具合であると発表し、影響を受けたMicrosoftのPCやサーバがオフラインになり、リカバリーブートループに陥って正しく起動しなくなったとしています。

「今日の世界的なIT障害の規模は、最近の歴史において他に類を見ません。
これは、私たちの世界全体がデジタル体験によって支えられており、インターネットが魔法のように絶対に安全でも本質的に回復力があるわけでもないことを如実に示しています」と、CatchpointのCEO兼共同創設者であるMehdi Daoudi氏は述べています。
「また、変更を管理し、制御する必要があることも示唆しています。ソフトウェアを盲目的に更新したり、設定を変更したりしないでください。」

いつでも、ちょっとした見落としや準備不足がシステム、ひいてはビジネスをダウンさせる可能性があります。

このような障害を防ぐだけでなく、障害がもたらす莫大な財務上のリスクを軽減するためには、準備と可視性が鍵となります。
今日の出来事の影響は、サービスの中断だけでなく、世界中で発生する指数関数的な財務損失、つまり数百万ドル、場合によっては数十億ドルの収益損失として測定される可能性があります。
これは、デジタルインフラへの依存度が高まるにつれ、そのインフラが故障したときの費用が莫大になるという重大な脆弱性を浮き彫りにしています。
この問題の解決とサービスの復旧に尽力しているすべての IT プロフェッショナルとチームの皆さんに敬意を表します。

過去24時間内で2度の重大な障害

多くの人々が CrowdStrike に注目している中(CrowdStrikeの正確な規模、影響、波及効果は、サービスではなく不具合のあるソフトウェアが原因であるため、外部から検出するのは難しい)、Catchpointは、過去24時間以内に発生した別の重大な障害を検出しました。
この障害により、一部の企業が2回も影響を受けた可能性があります。

さまざまなニュースサイトが2つの問題を関連付けてニュースを掲載したため、メディアに広範囲な混乱を引き起こしましたが、実際には、この2つの問題は独立しています。

7月18日にCentral USリージョンで発生したインシデントの時間帯にAzure Centralリージョンに依存し、マルチリージョンまたはマルチクラウド戦略を採用していなかったインターネットベースのサービスは影響を受けた可能性があります。
これには、eコマースサイトで使用されるAPIのような依存関係も含まれ、サイトの機能に影響を与えました。
詳細を見ていきましょう。

CatchpointのInternet SonarがAzureに影響を与える当初の問題を検出

2024年7月18日木曜日、CatchpointのInternet Sonarは、Central USリージョン全体で重要なサービスに影響を与えたAzure Servicesの障害を検出しました。
この障害は18:37から22:17 EDTまで続き、特にAzure Functionsを使用しているサイトでHTTP503レスポンスが発生しました。
Catchpointのデータにより、問題がネットワーク問題とは無関係であることを迅速に確認でき、ネットワークチームは不必要なトリアージやさらなるネットワーク関連のトラブルシューティングを回避することができました。

Internet Sonarは、Central USリージョン全体にわたる重要なサービスに影響を与えたAzure Servicesの障害を示す図(Internet Sonar/Catchpoint)
Internet Sonarは、Central USリージョン全体にわたる重要なサービスに影響を与えたAzure Servicesの障害を示しています(Internet Sonar/Catchpoint)

Microsoftサービスへの重大な影響

この期間中、Microsoft 365サービスも影響を受けました。
ユーザーは、SharePoint Online、OneDrive、Teamsなどのビジネスに不可欠なさまざまなMicrosoftサービスにアクセスする際に困難に直面しました。

Catchpointで観測した、2024年7月18日障害発生時のMicrosoftサービスへのアクセス状況の図
Catchpointで観測した、障害発生時のMicrosoftサービスへのアクセス状況の図

OneDriveに保存されているアセットは大きな影響を受け、ユーザーがこれらのファイルにアクセスしようとした際にHTTP503レスポンスが発生しました。

OneDriveに保存されているファイルにアクセスしようとした際に発生したHTTP503レスポンス
OneDriveに保存されているファイルにアクセスしようとした際に発生したHTTP503レスポンス

Microsoft Teamsもこの障害中に中断され、ユーザーはブラウザでTeamsにアクセスする際にHTTP503レスポンスに直面しました。

Microsoft Teamsにアクセスしようとした際に発生したHTTP503レスポンス
Microsoft Teamsにアクセスしようとした際に発生したHTTP503レスポンス

eコマースプロバイダーへの影響

また、一部の主要なeコマースプロバイダーに対してAPIリクエストの失敗が観測され、ユーザーが商品をカートに追加しようとした際に問題が発生しました。

ユーザーが商品をカートに追加しようとした際に発生したHTTP503レスポンス
ユーザーが商品をカートに追加しようとした際に発生したHTTP503レスポンス

主要な障害が示す複雑なデジタル世界

インターネットレジリエンスレポート2024おいて、デジタルまたはインターネットレジリエンスの成功にサードパーティのプラットフォームプロバイダーがどの程度重要かを尋ねたところ、わずか1%の回答者が「全く重要ではない」と回答しました。
一方、77%は、サードパーティプロバイダーが「極めて重要」または「非常に重要」であると回答しました。

過去24時間以内に発生した2つの大規模なIT障害は、今日の高度に複雑なデジタル世界において、いかに相互依存しているかを示しています。
使用されているオペレーティングシステムやサービスは非常に多く、誰かがいつあなたをダウンさせるかわからないのです。
そして、そのときのために準備しておく必要があります。
これらの障害が示すように、複数の原因が積み重なって、その結果として甚大な影響が出る可能性があります。

3つの重要な教訓

#1 - 失敗に備える
事前に準備しておくことが重要です。障害が早期に検出されればされるほど、影響を最小限に抑えるための修復作業が迅速に開始できます。
私たちの顧客は、障害やサービスの低下を積極的に検出し、ベンダー自身の発表よりも早く問題を特定できることが、Catchpointと協力する主な理由の一つであると繰り返し述べています
#2 - 依存関係を理解し、監視する
依存関係を把握しましょう。
CatchpointのInternet Stack Mapを使用すれば、それを正確に行うことができます。
例えば、CNNのホームページを読み込むには600以上の依存関係があります。
この最新の大規模な障害が示すように、インターネットは無謬ではありません。
セキュリティソフトウェアからクラウドサービスまで、私たちは明らかにサードパーティに大きく依存しています。
システム管理者や運用チームが必要な休息を取るために、そして事前にインシデントの影響を軽減するために、監視のギャップをなくすことが重要です。
外部および内部のすべてのコンポーネントの出力とパフォーマンスを監視することで、インターネットの耐障害性を確保しましょう。
#3 - 変更を信頼し、確認する
これらの障害は、変更を管理し、制御する必要があることを思い出させてくれます。
おそらく最も重要な教訓は、ソフトウェアを盲目的に更新したり、設定を変更したりしないことです。
ソフトウェアの変更を制御し、常にグローバルに展開する前にテストしてください。
最終的には、セキュリティサービスからウェブパフォーマンスに至るまで、すべての重要なサービスに対してフェイルオーバー戦略を開発することが、今日の複雑で相互依存的なデジタル世界において不可欠です。

リソース