SpeedData

Adobe Tag Managerのエラー

Adobe Experience Cloudの障害:サードパーティサービスに依存することの影響

2024年1月23日
翻訳: 島田 麻里子

この記事は米Catchpoint Systems社のブログ記事「Adobe Experience Cloud Outage: The Impact of Relying on Third-party Services」の翻訳です。
Spelldataは、Catchpointの日本代理店です。
この記事は、Catchpoint Systemsの許可を得て、翻訳しています。


2023年12月8日、アメリカ東部標準時間午前8時から9日午前1時45分まで、Adobe Experience Cloudで障害が発生しました。

これほど大規模なサードパーティの障害は、2018年のダブルクリックの障害以来見られませんでした。

Adobe Analyticsによると、Experience Cloud内で複数のサービスが数時間にわたって停止したとのことです。
様々なサービスの障害は、開始と終了の時間が異なり、障害時間もまちまちでした。
これらの時間は、Adobeがステータスページを更新した時間や障害について、顧客に通知した時間を反映していないことに注意してください。

Adobe Analyticsのレポート

このようなサービスが18時間ダウンした場合のコストは、Adobeにとってもその顧客にとっても、あっという間に膨れ上がります。
両者はサービスの中断による収益の損失やブランドの評判の低下といった影響を受けます。
その上、Adobeは何百万もの顧客に対してSLA違反を引き起こすリスクもあるのです。

Catchpointのインターネット・ソナーは、この障害を検出した最初で唯一のツールであり、Thousand EyesやDowndetectorなどの他社製品を大幅に上回っていました。
この事件は、インターネット・ソナーに関する当社の主張を立証するだけでなく、インターネットの複雑性と脆弱性の増大に対処するためのCatchpointのインターネット・パフォーマンス・モニタリング(IPM)プラットフォームの重要性を浮き彫りにしています。

さて、「何を」と「どれだけ」を理解したところで、インシデント・レビューに飛び込みましょう。

障害の検知方法

CatchpointのIPMプラットフォームは、少なくとも3つの異なる方法で障害を発見しました。

以下は、上記3つの分野それぞれについての見解です。

インターネット・ソナー(サービス障害の検出と相関関係)

インターネット・ソナーは、Adobe Experience CloudのサービスであるAdobe Tag Managerを監視しています。
12月8日(金)午前8時3分(アメリカ東部標準時)、インターネット・ソナーは世界中の多数の都市からタイムアウトエラーを検出しました。
インターネット・ソナーのアラートは、障害が短期的な異常値ではなく、重大なインシデントであることが確認された時点で、アメリカ東部標準時の午前8時20分に顧客に通知されました。

インターネットソナーのマップ グラフ

インターネット・ソナーは、Adobe Tag Managerの障害を素早く検出しました。
このタグが設定されているサイトは、読み込みに100~200秒かかるものもあり、非常に時間がかかっていました。

インターネットソナーは、顧客によって実行された Syntheticテストの失敗についてもインテリジェントな相関を実施しました。
下のスクリーンショットは、Adobe Tag Manager を使用する顧客のサービスに対するCatchpoint Syntheticテストのレコードページを示しており、インターネット・ソナーはテストの失敗と Adobe Tag Managerの障害を相関させています。

ウォーターフォールチャート

インターネット・ソナーは、「自社のサービスに問題が生じているのは、自社のアプリケーションやインフラに問題があるからなのか、それとも自社のサービス提供に依存しているインターネットスタック内のサードパーティ・サービスに問題があるからなのか」という疑問に答えることを可能にします。

Adobe Experience Platformのプロアクティブな監視

Adobeに依存しているCatchpointのeコマースの顧客の多くでも、Catchpointプラットフォーム上で実行するsyntheticテストに複数の障害が発生し始めました。

テストの失敗 その1:HTTP 404 Not Found

Journey Optimizer(Adobe Experience Platform上のアプリケーション)の失敗の根本原因は、リクエスト「https://auth.services.adobe.com/signin」がHTTP 404を返したため、ログインができなかったことです。

Adobeに依存しているあるeコマースの顧客は、Adobe Experienceプラットフォームを広範に監視しています。
彼らのExperience Cloudの一部である「Adobe Journey Optimizer」のsyntheticテストでは、大きな影響が見られました。

散布図

HTTPレスポンスは以下のようになりました。
{"errorCode": "invalid_resource_id", "errorMessage": "Could not find resource for id v:2,s,f,bg:eclogin,..."}.

テストデータ

テストの失敗 その1:TCPタイムアウトエラー

Launch.jsのJavaScriptリクエストに対するTCPタイムアウトエラーの発生です。

HTTPリクエスト: https://assets.adobedtm.com/a7d65461e54e/6e9802a06173/launch-43baf8381f4b.min.js

HTTPリクエストの散布図

インシデント発生時刻:2023年12月8日 05:04:37(太平洋時間)
状況:継続中
影響を受けた地域:グローバル

Catchpointプロフェッショナル・サービスが顧客に代わって分析を実施

大手小売業者や eコマースの顧客のWeb サイトを監視・分析しているCatchpointプロフェッショナル・サービスは、Adobeの障害に起因するいくつかの不具合に気づきました。

テストの失敗 その1:接続時間の長さが原因のテストタイムアウト

assests.adobedtm.comの接続時間が長いためにテストタイムアウトの影響を受け、複数のテストで失敗が確認されました。

散布図 ウォーターフォールチャート

また、サーバーからの応答も見られませんでした。

サーバのレスポンスタイムとウェイトタイム リージョンごとの散布図

テストの失敗 その2:ウェイトタイムの増加

Catchpointは「assets.adobedtm.com」からのリクエストのウェイトタイムの増加を示すホストチャートに気付きました。

ホストチャート

ウォーターフォールデータには、Adobeからの特定のリクエストに対する503 - Service Unavailableエラーも表示されました。

ウォーターフォールデータ

テストの失敗 その3:テストの失敗とパフォーマンスの低下

また、Adobeのリクエストの失敗によるテストの失敗やパフォーマンスの低下にも気づきました。

パフォーメンスの低下 リクエストの失敗データ

また、WebPageTest(WPT)の結果も使用しました。
Adobeアセットのタイムアウト後にのみ、ページ上のコンテンツがユーザに表示されることに注意してください。

WebPageTestの結果

リアルユーザ・モニタリング(RUM)のデータから、エンドユーザへの影響が明らかになりました。

WebPageTestの結果

インターネット・ソナーが必要な理由

ソーシャルメディア上のネガティブな投稿によって、サービスやサイトがダウンしていることを知るのを待つことを想像してみてください。
今なら、その必要はありません。

このような障害に関しては、「自社なのか、他の何かなのか?」という質問に答えるのに役立つツールを持つことが非常に重要です。
インターネットの障害原因を一目でピンポイントに特定できるツール、つまり、責任追及もなく、作戦会議室もなく、インテリジェントで信頼できるインターネット健全性情報だけで、インシデントの検出を加速するのです。

インターネット・ソナーの特徴

Google CloudのSRE担当Reliability AdvocateであるSteve McGhee氏が、Catchpointの「2023 SREレポート」の結論で強調したように、専門家が自分のタスクを最善の方法で達成するために、決して単一のソリューション、ツール、プラットフォームに依存しないのには理由があります。

熟練した労働力、あるいは「オペレーション」に関しては、チームが適切なタイミングで適切なツールに手を伸ばせるようにしたいのであって、将来必要になると思われるものについての早期の決定が妨げにならないようにしたいのです」

Steveは上記のように書いています。

インターネット・ソナーの詳細については、オンデマンド製品デモビデオをご覧ください。
また、Catchpointを使用したAdobe製品スイートのモニタリングのベストプラクティスについては、近日公開予定のブログ記事にご期待ください。