AIツールが失敗する時：AIの依存関係を可視化し先手を打つ方法

AI依存時代の備え方

2025年3月20日
著者: Ankit Kumar
翻訳: 永　香奈子

この記事は米Catchpoint Systems社のブログ記事「When AI tools fail: How to map your AI dependencies for proactive visibility」の翻訳です。
Spelldataは、Catchpointの日本代理店です。
この記事は、Catchpoint Systemsの許可を得て、翻訳しています。

AIプラットフォームは、過去数か月にわたって複数のサービス中断を経験しています。

ChatGPTまたダウン？ — うそだろ、ChatGPTがまたダウン？？しかも仕事中に？ってことは…自分で考えなきゃいけないってこと？！

ChatGPT、Gemini、Perplexityがダウンしたとき、ミームが飛び交うのを私たちは皆見てきました。
最初は面白いですが、その後に現実が突きつけられます。
もしあなたが仕事やビジネスでAIツールに依存している場合、こうした障害は一日を完全に止めてしまうこともあります。

しかも、たまに発生する不具合というだけではありません。
異なるプラットフォームでAIサービスが失敗するという明確なパターンが存在します。

2025年2月5日 - 2月6日: GoogleのGeminiで23時間に及ぶ障害が発生し、「Add File（ファイルを追加）」および「Link File（ファイルをリンク）」機能に影響が出ました。
この障害により、ユーザはAI駆動のワークフローにファイルを添付することができなくなりました。
回避策がないため、Geminiのファイル処理機能に依存している企業では生産性の低下を招きました。
2025年1月23日: ChatGPTおよび複数のOpenAI APIでエラー率が上昇し、「bad gateway（不正なゲートウェイ）」エラーがユーザに表示されました。
ChatGPTを自動化、カスタマーサービス、コンテンツ生成に活用していた企業では、対応に追われました。
2025年1月23日: PerplexityのAPIで大規模な障害が発生し、タイムアウトやAI機能に依存するアプリケーションの中断が起きました。
2024年12月26日: ChatGPT、Soraのビデオ作成、プラスエージェント、リアルタイム音声、バッチ、DALL-E APIなど、OpenAIの多数のサービスで90％を超えるエラー率が発生しました。
2024年6月4日: この日、OpenAIのChatGPT、AnthropicのClaude、Perplexityなど複数のAIプラットフォームで同時に障害が発生しました。
世界中のユーザが影響を受け、SNS上では大規模な議論が巻き起こりました。

今や、AIへの依存が「可能性」ではなく「確実なもの」となりました。
これらのシステムが失敗すると、私たちは対応に追われることになります。
本当の考えなければならないことは、「次の障害に先んじて、どうすれば備えられるのか？」です。

AIの障害がもたらす収益への影響

その数値は大きく、さらに拡大し続けています。
2025年には、世界全体のAI投資額が5,000億ドルを超える見込みです。
多くの企業にとって、ChatGPTのようなAIアプリはもはや「選択肢」ではなく、「ミッションクリティカル（業務上不可欠）」な存在となっています。

Gartnerの報告によると、現在70％の企業が、大規模言語モデル（LLM）を、カスタマーサービスの自動化、マーケティングのパーソナライズ、リアルタイムのデータ処理といった日常業務に活用しています。
これらのAIシステムがオフラインになると、それは単なる小さな不便では済みません。
金融業界では、AIのダウンタイムが数時間続くだけで、取引の機会損失や不正検知の失敗により、数百万ドルの損失につながる可能性があります。

eコマースにおいては、チャットボットやレコメンデーションエンジンが停止すれば、カート放棄やコンバージョンの減少を引き起こし、つまりは実際の収益の損失を意味します。
しかし、損害は収益の損失にとどまりません。
企業は、ワークフローの効率化のためにAIによる自動化にますます依存しており、障害が発生すると、従業員は手動のプロセスに戻らざるを得なくなり、生産性が大きく低下します。

これは特にカスタマーサポートにおいて顕著であり、AIチャットボットが大量の問い合わせ対応を担っています。
障害により企業が人間のオペレーターに切り替えざるを得なくなると、コールセンターの待ち時間が増加し、応答時間が延び、顧客満足度の低下につながります。
AIの障害がビジネスに与える影響を懸念しているのであれば、今こそAIへの依存関係を見直し、障害に先手を打つためのツールに投資すべき時です。

可視化の必要性：AIの依存関係をマッピングする

どれほど優れたモニタリング戦略を採用していても、AIの障害は特有の課題を伴います。
何かが壊れていることには気づけても、それが「どこで」あるいは「なぜ」壊れたのかまでは分からないことが多いのです。
問題を正確に特定するには、アプリケーション層であれ、インターネットスタックといった基盤層であれ、AIの依存関係に対して実行可能なインサイトを得られるツールが必要です。

eコマースにおけるAIの依存関係：ケーススタディ

カスタマーサポートにAIチャットボットを活用しているeコマース企業を考えてみましょう。
この企業は、シームレスなショッピング体験を提供するために、いくつかの主要なコンポーネントに依存しています。

フロントエンドCDN: ユーザへの高速なコンテンツ配信を保証します。
分散型ハイパースケーラー: 動的コンテンツのオリジンサーバとして機能します。
検索および出品者向けAPI: ユーザに関連する商品データを取得します。
OpenAI APIによって駆動されるチャットボット: 顧客からの問い合わせに対応し、リアルタイムでサポートを提供します。

チャットボットは、カスタマーサポートのワークフローにおいて重要な役割を果たしています。
買い物客がチャットボットとやり取りすると、そのリクエストは外部のAPIに転送され、そのAPIがOpenAIのAPIと連携して応答を生成します。
つまり、チャットボットの機能は完全にOpenAIのAPIに依存しています。

Chatbotの機能 — eコマースのチャットボットシステムにおける、ユーザ、外部API、OpenAIのAPI間のやり取りを示すフローダイアグラム

OpenAIのAPIが停止すると、チャットボットは機能しなくなり、顧客はサポートを受けられなくなります。
これはユーザを苛立たせるだけでなく、売上の損失や顧客との関係の悪化にもつながる可能性があります。

AIの依存関係を可視化し、障害に先んじて対応する方法

上記のeコマースの例では、チャットボットがOpenAIのAPIに依存していることが、AIの依存関係を可視化する重要性を浮き彫りにしています。
障害が発生した際に、どこに問題があるのかを正確に把握できるかどうかで、数分のダウンタイムで済むか、数時間の売上損失を被るかが分かれます。
AIの依存関係を可視化することで、障害の根本原因を迅速に特定し、ダウンタイムを短縮し、売上の損失を最小限に抑えることができます。

以下にその方法を示します。

1.AIの依存関係を可視化する

まず、AIツールが依存しているすべてのサービスやAPIのマップを作成することから始めましょう。
たとえば、チャットボットがOpenAIのAPIに依存している場合、それを依存関係マップに含める必要があります。
インターネットスタックマップのようなツールを使えば、これらの接続を視覚的に把握できるため、障害が発生した際にどこで問題が起きているのかを特定しやすくなります。

上記の例では、eコマースのケーススタディにおけるインターネットスタックマップビューにおいて、他のすべてのサービスは正常に動作している一方で、OpenAIのAPI（赤でハイライト表示）が影響を受けており、それがチャットボットのやり取りに影響を与えていることが示されています。

2.ワークフローをカスタマイズする

すべてのAIシステムは独自の構成を持っているため、依存関係マップは自社特有のアーキテクチャを反映すべきです。
CDNやDNSプロバイダ、オリジンサーバーといった主要なコンポーネントを特定し、それらがマップに含まれていることを確認してください。
このようにカスタマイズすることで、自社の構成に特有の問題にも対応できるようになります。

3.データを相関させて迅速な洞察を得る

合成テストとリアルタイムの障害データを組み合わせて活用できる監視ツールを使用しましょう。
これらのデータを相関させることで、問題がAIプロバイダ（例：OpenAI）にあるのか、自社インフラにあるのかを迅速に判断できます。
これにより、問題の診断にかかる時間を短縮でき、不要な緊急対応（ウォールーム）の回避やコスト削減にもつながります。

より迅速な復旧、より少ない中断

AIの障害は、この相互接続された世界において私たちがいかに脆弱であるかを思い出させてくれます。
これらのシステムが停止すると、特に売上を失っていたり、顧客を遠ざけていたりする場合、1分1秒が非常に重要になります。
そのため、画期的なユーザーインターフェースで最近アップデートされたインターネットスタックマップは、インシデント対応におけるゲームチェンジャーとなるのです。

何が、どこで壊れたのかを即座に明確に把握でき、MTTI（平均調査時間）とMTTR（平均復旧時間）の短縮に貢献します。
インターネットスタックマップがどのように中断を未然に防ぐ手助けとなるか、ぜひデモを予約してご確認ください。

主要なAIツールについて詳しく知りたい方はこちら

当社のベンチマークレポートで、主要なAIツールの実力をご確認ください。

Redirect	?
App cache	?
DNS lookup	?
TCP Connection	?
First Byte Download	?
DOMContentLoaded	?
Load	?