システム障害による痛手

インシデント・レビュー - AWSの障害でAmazonを含む主要なオンラインサービスがクラッシュ

2021年12月9日
翻訳: 島田 麻里子

この記事は米Catchpoint Systems社のブログ記事 Incident Review – AWS Outages Crash Major Online Services – Including Amazonの翻訳です。
Spelldataは、Catchpointの日本代理店です。
この記事は、Catchpoint Systemsの許可を得て、翻訳しています。


以下は、2021年12月8日に発生したAWSの障害では、Amazon Web Servicesの障害についての分析です。

Amazon Web Servicesの障害により、Amazon、Amazon Prime、Amazon Alexa、Venmo、Disney+、Instacart、Roku、Kindle、複数のオンラインゲームサイトなどの主要なオンラインサービスが停止し、数百万人のユーザーが影響を受けました。
この障害は、2021年12月8日にUS-EAST-1リージョン(米国東部(バージニア北部))で発生したもので、ブログ公開時点ではまだ継続中です。

AWSは、米国東部時間午後12時37分に、サービス・ヘルス・ダッシュボードに以下の内容の通知を公開しました。

US-EAST-1リージョンの複数のAWS APIに影響が出ています。
この問題は、当社の監視およびインシデント対応ツールの一部にも影響を及ぼしており、更新情報の提供が遅れています。
根本的な原因を特定し、復旧に向けて積極的に取り組んでいます。

また、サービスダッシュボードには、US-EAST-1リージョンのAmazon Connect、Amazon DynamoDB、Amazon Elastic Compute Cloud、およびAWS Support Centerに関する問題が記載されていました。
ホリデーショッピングシーズンの真っ只中に発生したこの障害は、オンラインショッピングの利用者だけでなく、倉庫、配送業者、Amazon Flexの従業員が利用するアプリにも影響を与えました。
当然のことながら、ソーシャル・メディアには多くの反響が寄せられました。

Amazon is DOWN worldwide! Christmas is canceled.

— Stacy Liberatore (@stacyliberatore) December 7, 2021

Amazon is down. I guess this is the divine intervention that my bank account needed for the holidays. 😩 #amazon #amazondown pic.twitter.com/snskZBnHvi

— 🤍Ebony🤍 (@nurse_ebony_) December 7, 2021

これは、AWSがここ数ヶ月で経験した最初の重大な障害ではありません。
US-EAST-1リージョンでは、2021年9月にパフォーマンスの問題が報告されました。
また、2020年11月には、Amazon KenesisのAPIのエラーが原因で、大きな障害が発生しました。

CatchpointはAWSの障害をいち早く検知し、警告を発す

Catchpointでは、AWSの発表よりもかなり早い、米国東部時間午前10時33分頃から、AWSサーバーの接続問題を確認しました。
504 - Gateway time outのエラーは、サーバーがアップストリームの応答を受け取っていないことを示していました。

これらの504エラーはAmazon.comにも影響を与え、何千人ものユーザーが休日の買い物が突然中断されたと報告しています。

AmazonサイトのHTMLページに対する504エラーレスポンスを示すウォーターフォールグラフ(Catchpoint)
AmazonサイトのHTMLページに対する504エラーレスポンスを示すウォーターフォールグラフ(Catchpoint)

また、AWSのAPIに障害が発生していることも確認しました。

AWS上でホストされているサービスのテスト失敗を示す散布図(Catchpoint)
AWS上でホストされているサービスのテスト失敗を示す散布図(Catchpoint)

オブザーバビリティは、ビジネスとログ、メトリクス、トレースを相関させることができますが、もしも御社のアクティブ(Synthetic) モニタリングツールが影響を受けた同じクラウド上でホストされている場合は、目的を達成できないでしょう。
バックボーンとラストマイルネットワークからのアクティブ監視により、クラウドの内外での問題を検出することができます。
AWSはステータスアップデートの中で、監視ツールの一部が障害の影響を受けたことに言及しており、これにより解決がさらに遅れることになりました。

監視やインシデント対応に影響が出た過程に関するAWSからのお知らせ(AWS)
監視やインシデント対応に影響が出た過程に関するAWSからのお知らせ(AWS)

エンドユーザの拠点やネットワークからの観測性の必要性については、こちらで詳しく説明しています。

AWSの停止による可用性とテスト時間への影響
AWSの停止による可用性とテスト時間への影響

パブリッククラウド上で稼働している監視ベンダーでさえもサービスに影響を与えないということはありません!

2021年は障害が多発し続ける年となっています。
今回の障害に限って言えば、最近、多くのクラウド事業者がサービスに影響を与えるような重大な障害に見舞われています。
公共インフラの信頼性は向上しているかもしれませんが、障害の影響を最小限に抑える唯一の方法は、お客様に影響が及ぶ前に障害を早期に発見し、トラブルシューティングを迅速に行い、収益やブランドへの悪影響を回避することです。

企業が自社サービスの安全性を確保するために依存している監視ベンダーの多くが、パブリッククラウドのインフラ上で監視システムを運用していることは非常に気になるところです。
各社のステータスページによると、今回のAWSの障害は、以下の監視ベンダーに影響を与えているようです。

この状況は非常に問題です。
パブリッククラウドのインフラに障害が発生し、それらのサービスを監視することになっている監視ベンダーにも障害が発生しています。
なぜなら、大規模な障害が発生したばかりのパブリッククラウドのインフラと同じ場所でシステムを運用しているからです!

Catchpoint社は重要なシステムにパブリックインフラを使用していないため、パブリッククラウドの停止による影響を受けることはありませんのでご安心ください。

2021年の重大インシデントに関する詳しい情報は、新レポートをご覧ください。
詳細な分析結果に加え、障害を予防、準備、対応するためのベスト・プラクティスのチェックリストも掲載されています。

“2021 Internet Outages: A compendium of the year’s mischiefs and miseries – with a dose of actionable insights.”をダウンロード