SpeedData

マイクロ障害による被害

暗闇に捕まるな:LumenとAWSのマイクロ障害から学ぶ教訓

2024年10月4日
著者: Dritan Suljoti, Eknath Reddy, Denton Chikura
翻訳: 逆井 晶子

この記事は米Catchpoint Systems社のブログ記事「Don’t get caught in the dark: Lessons from a Lumen & AWS micro-outage」の翻訳です。
Spelldataは、Catchpointの日本代理店です。
この記事は、Catchpoint Systemsの許可を得て、翻訳しています。


CrowdStrikeの最近の大規模な障害のようなインシデントがニュースの見出しを飾る一方で、インターネットのレジリエンスを確保するために現場で作業している私たちは、ほとんどの問題が必ずしもグローバルなものではなく、地理的、自律システム、またはその他の要因によって局所的に発生することを知っています。

マイクロ障害―これらのつかみどころのない局所的なインシデント―は、オブザーバビリティに対する最も持続的な脅威となる可能性があります。
規模が小さいためニュースやステータスページに載ることなく、特定の地域、サービス、ユーザーに影響を与え、破壊的な影響を与える可能性があります。

これが、Amazon Web Services (AWS)の話に繋がります。

今週、AWSは多くのユーザーに認識されなかったマイクロ障害を経験しました。
このマイクロ障害はAWSのステータスページには反映されていませんでしたが、彼らのグローバルクラウド市場におけるシェアを考えると、マイクロ障害であっても広範な影響を及ぼす可能性があります。

CatchpointのInternet Sonar(インターネットパフォーマンス監視プラットフォームの一部)は、この障害とお客様への影響を検出しました。

詳細を見てみましょう。

何が起こったのか?

8月14日水曜日の8:00から8:25 UTCの間、CatchpointのInternet Sonarは、CenturyLink AS209とLumen (レベル3) AS3356上の複数の地点から、S3、EC2、CloudFront、Lambdaを含む複数のAWSサービスに影響を与える接続タイムアウトを検出しました。

この出来事は100%の障害を引き起こさなかったものの、これらの地点でAWSサービスにアクセスする際に重大な影響がありました。

インターネットソナーダッシュボード
インターネットソナーダッシュボード

AWSのマイクロ障害の影響を示すインターネットソナーダッシュボードでは、複数のAWS地域で発生した接続問題が検出され、複数のサービスに影響が及んでいる様子が確認できます。

ウォーターフォールレコード (Amazon CloudFront)
ウォーターフォールレコード (Amazon CloudFront)
ウォーターフォールレコード (Amazon EC2)
ウォーターフォールレコード (Amazon EC2)

ウォーターフォールレコードには、接続時間によるテスト失敗が示されており、インターネットソナーによるAWS障害の根本原因の指摘も含まれています。

ダウンタイム
複数の地域で様々なサービスにわたるダウンタイムが発生していることを示す図

さらなる調査により、接続タイムアウトは主にLevel 3 AS3356とCenturyLink AS209から発信されたり、通過したりしたトラフィックで発生したことが判明し、ピアリングの問題が考えられます。

ピアリング問題の根本的な原因は不明ですが、これらの2つのLumen ASから影響を受けたのはAWSのみであることが分かっています。

各ISPのダウンタイムの割合を示す図
各ISPのダウンタイムの割合を示す図
AWSサービスに影響を与えたトラフィック図<
AWSサービスに影響を与えたトラフィック図

重要な教訓

AWSのマイクロ障害は、クラウドインフラの複雑さを改めて浮き彫りにしました。
このインシデントから得られる重要な教訓を以下にまとめます。

#1 - インターネットは脆弱である

このインシデントは、デジタルサービスのスタックはコードだけではないことを強く思い出させます。
スタックには、実行しているクラウドプラットフォーム、ネットワーク、BGPピアリング、DNSなど、いわゆるインターネットスタックが含まれます。
これは、すべてのデジタルユーザーエクスペリエンスを支える技術、システム、サービスの複雑な集合体です。

インターネットスタックの1つのレイヤーに焦点を当てると、狭く不透明な視界が生じ、最終的にエンドユーザーやビジネスに害を及ぼす可能性があります。

障害は、アプリケーション自体、ネットワーク、BGPなどのルーティング問題など、どのレイヤーからも発生する可能性があります。
各レイヤーに潜在的な脆弱性があり、それが組み合わされると、重大な中断につながる可能性があります。

#2 - ステータスページは完全ではない

ステータスページは、サービスの状態を必ずしも正確に反映しているとは限りません。
このインシデントの間、AWSの公式ステータスページは、サービスに影響を与える問題を反映していませんでした。

AWSの公式ステータスページ
AWSの公式ステータスページ

もちろん、各クラウドプロバイダーには、障害がステータスページに更新するべきかを決定する独自の基準やプロセスがあります。
彼らは意図的に情報を隠しているわけではありません。
プロバイダーは、お客様からの苦情から障害や速度低下に気づくこともあるのです。

ITに携わる人なら誰でも、問題がユーザーに影響を与えないと思っていたのに、影響を与えていたことが後から判明する経験したことがあるでしょう。
これにより、問題の認識が遅れたり、場合によっては全く認識されないことがあります。

パフォーマンスの低下や速度低下に関しては、懸念が大きくなります。
これらの問題は、ステータスページに掲載されることはほとんどありませんが、ユーザーエクスペリエンスに深刻な影響を与える可能性があります。
インターネットの障害によるコストを考慮すると、問題解決が遅れるだけで非常に高額な代償を払うことになります。
クラウドプロバイダーが問題を報告するまで待つ場合、さらに時間がかかるかもしれません。

#3 - クラウドホスティングされた観測プラットフォームに頼りすぎないこと

クラウド上にホスティングされた観測プラットフォームにのみ頼ることは、大きなリスクを伴います。

もし基盤となるクラウドプロバイダーが障害を経験した場合、システムを監視・管理する能力が損なわれ、誤検出や重要な問題の見逃しに繋がる可能性があります。
これにより、組織は潜在的な問題を見過ごしてしまうため、予期しない障害に対する脆弱性が高まります。

AppDynamics、Dynatrace、New Relic、Splunk、Datadogのような人気のあるプラットフォームはすべてAWS上でホスティングされているため、これらもAWSの障害に影響を受けやすくなっています。
また、これらの合成監視ソリューションの多くは主にAWSの場所からテストを実行するため、AWSからAWSを監視していることになります。
これでは、問題が発生しない方がおかしいと言えるでしょう。

このリスクを軽減し、誤検出の可能性を減らすためには、観測戦略を多様化し、単一障害点を避けることが重要です。

#4 - 常にバックアッププランを持つ、または明確にコミュニケーションを取る

クラウド環境では、大規模か小規模かに関わらず、障害は避けられません。
したがって、ベンダーのサービスが停止した際のバックアッププランを持つことが不可欠です。
もちろん、すべての企業がマルチクラウドやハイブリッドインフラストラクチャを導入できるわけではありません。
そのため、バックアップが現実的でない場合は、次善策としてユーザーとの明確で積極的なコミュニケーションを確保することが重要です。

問題についての透明性や解決に向けたステップを示すことで、障害が発生している間でも信頼を維持することができます。

予期せぬ事態に備え、効果的にコミュニケーションを取ることで、障害の影響を軽減し、ユーザーに情報を伝え続け、関心を維持することができます。

インターネットスタックの独立したプロアクティブな監視が不可欠

このインシデントは、クラウドサービスの独立した監視の必要性を強調しています。
クラウドサービスに問題が発生したときに、誰かに通知を頼ることはできません。

ユーザーはクラウドプロバイダーではなく、あなたに責任を問います。

もしクライアントが企業であり、SLA(サービスレベル契約)を締結している場合、このような障害は契約違反につながる可能性があります。
わずか25分のダウンタイムであっても、SLAに対する0.06%の損害を引き起こすことがあります。
プロバイダーが問題を認識していないと、ユーザーは劣悪な状態を強いられ、説明もなく放置されてしまいます。
後になって説明があったとしても、評判や収益に対するダメージはすでに発生しているかもしれません。

ここで、Catchpoint IPMが登場します。

私たちは、インターネットスタック全体にわたる深く広範な可視性を提供するプラットフォームをゼロから構築しました。
これにより、ビジネスに影響が出る前に障害を検出し、解決することが可能です。
私たちのクラウドネイティブプラットフォームは、以下の業界をリードする機能と能力により、組織全体でのインターネットレジリエンスを確保します:

AWSの障害は、インターネットの脆弱性と複雑さを再認識させるものです。
見過ごされがちなマイクロ障害から、注目を集める大規模な障害まで、クラウドプロバイダーのステータスページに依存するのは非常にリスクの高い選択です。
インターネットソナーのようなIPMツールを利用しない限り、暗中模索の状態で運営することとなり、ユーザー、評判、そして資金がリスクにさらされることになります。

障害を防ぐ方法については、当社のガイドで詳細を学ぶ、あるいは、Catchpointのガイド付き製品ツアーを通じて体験してみてください。