その1分間はおいくらですか?
障害復旧までの時間を短縮し、コストを削減する
2023年2月21日
翻訳: 島田 麻里子
この記事は米Catchpoint Systems社のブログ記事 How Much Does That Minute Cost?の翻訳です。
Spelldataは、Catchpointの日本代理店です。
この記事は、Catchpoint Systemsの許可を得て、翻訳しています。
ネットワークの障害は、一般によくあることですが、そのコストは高くつきます。
通常、人々が思っているよりはるかに高額です。
そう、確かにネットワークはダウンし、企業は損失を被っていますが、その損失がどれほどのものか、あなたは本当に理解していますか?
また、障害発生時の1分あたりのコストは、実際にどのくらいになるのでしょうか?
それは多くの人が考えている以上に、かなり簡単に軽減できるものなのです。
最近のFAA( Federal Aviation Administration……アメリカ連邦航空局)
の障害について考えてみましょう。
2023年1月11日の早朝、FAAのNOTAMシステムがダウンしました。
これは航空管制のような絶対的に重要なFAAのシステムではないのですが、それでも航空交通をほぼ停止させることができてしまったのです。
現代のネットワークがいかに相互接続(相互依存)されているかを示す例として、NOTAMの不具合により、米国のほぼ全ての飛行機が離陸できなくなったことが挙げられます。
これは、NOTAMが、パイロットが出発プロセスの一部として確認するよう訓練されている重要な安全情報を提供していたためです。
それはFAAの多くのシステムの中で極めて重要なものであるわけではないのですが、飛行の安全性に大きな影響を与えるものであり、利用できるようにする必要があるのです。
さらに悪いことに、航空管制のように地域的なものではなく、全国的なものであるため、障害が発生すると一地域だけでなく、国全体に影響を及ぼすことになるのです。
この障害は約90分とかなり早く解決されましたが、それでも全米の空港は大混乱に陥りました。
報道によると、約7000便が遅延、1100便が欠航し、1日に飛行機で移動する170万人の人々に深刻な影響を及ぼしました。
フライトのキャンセルや遅れがもたらすコストは、おそらく確定できるでしょうが、旅行の混乱がもたらすノックオン効果(連鎖反応)による経済的コストは、文字通り計り知れないものがあります。
この90分間の障害のコストは数億ドル規模であることは確実で、これは、1分間に100万ドルをはるかに超える計算になります。
障害発生時の平均コスト
高いと思われるかもしれませんが、実際は皆さんが思っているほど珍しいことではありません。
よく引用される(そして古い)2014年当時のGartner社の分析では、障害の平均コストは5,600ドル/分(インフレを考慮すると現在では6,700ドル)であるとされています。
また、同報告書では、大企業ではコストが9,000ドル/分に近く、今日のドルで約11,000ドルになる可能性が高いと指摘しています。
さらに、生産性の低下や評判の低下など、ロングテール効果の考慮はされていません。
Dun & Bradstreet社によると、フォーチュン誌に掲載された500社のうち、59%の企業が毎週最低1.6時間のダウンタイムを経験しているということに留意してください。
1週間あたり平均643,200ドルから1,056,000ドルのコストになります。
つまり、これはどういうことなのか?
ごく簡単に言えば……
分単位が重要です!
毎分数万ドルの損失を出している場合は、障害を解決することが重要です。
しかし、障害を迅速に解決するというのは絶対不可欠なことです。
そして、それらを未然に防ぐことができることは、ITにとってだけでなく、企業の利益にとっても聖杯のようなものなのです。
(訳注……「聖杯」 困難な探求であることの例え)
インターネットは壊れやすく、複雑で、相互に結びついています。
私たちのシステム、ネットワーク、アプリケーション、インターネットは、現実の問題として、障害発生時に迅速に復旧できるレジリエンス(回復力)を備えている必要があります。
しかし、ITチームの対処法次第では、文字通り数百万ドルの節約に繋がる可能性があります。
MTTR(平均修復時間)の計算
ネットワークの問題が発見された後の解決方法は、そのネットワークや問題によって異なります。
そして、率直に言って、そこで得られる時間はそれほど多くはありません。
問題を解決するためのベストプラクティスはあるかもしれませんが、アプリケーションを再起動したり、ルーティングテーブルを再設定したりしなければならない場合、一般的にそのプロセスを高速化することはできません。
しかし、MTTRの計算の最も大きな要素の1つは、ITチームに問題があることを認識させ、最初の段階で診断できるようにすることである、ということを忘れないでください。
これらのアラートと診断のステップは、可能な限り高速化することができますし、そうする必要があります。
アラートを迅速かつ効果的に行う4つの方法
アラートとは、「何か問題が起きている」という事実を、「何かできる人」に伝えることです。
これはMTTI(Mean Time To Identification)と呼ばれることもあり、何が問題で、どのチームがそれに対応するのが最適なのかを把握するためのものです。
責任を回避するためではなく、自分たちに責任がない・あるいは解決できない問題であれば、責任を持つチームに迅速に警告を出すことが最善の策であるため、Mean Time To Innocenceの「MTTI」という略語を使うところもあるのです。
その貴重な時間の大半が無駄になってしまうことは多いのです。
アラートを迅速かつ効果的に行うために、できることはいくつもあります。
1. サービスに影響が出る前に、問題の発生を察知する閾値を設定する
トラフィックの速度が低下した場合、それが停止するまで待たずに、ITチームにアラートを出しましょう。
何が問題になっているかを早めに示すことで、障害になる前に修理できる可能性が高くなるのです。
そうすれば、全てのお金を節約することができます!
2. アラートを適切な人、つまり物事を解決できる人に送る
障害の内容によって、誰にアラートを出すかが決まりますが、適切な人に通知することが絶対条件です。
Webサイト以外の業務を行うチームが1つでもあれば、Webサイトの問題についてはIT部門の全員ではなく、そのチームにアラートを出すようにしましょう!
間違った人にアラートを出すと、アラートを出すべき人を探すのに時間がかかり、そもそもその人がアラートの対処方法を理解する専門知識を持っているのかどうかも分からなくなります。
「最初は重要でないように思えた」アラートを誰かが無視したために、障害が不必要に拡大したケースは少なくありません。
しかし、間違っても一人にしかアラートを送らないようなことはしないでください(トイレやタバコ休憩をしている人がいるかもしれません)。
緊急のアラートに即座に対応できるようなチームが必要です。
3. 修理役たちがたった今使っている媒体を通じて、そのアラートを送る
つまり、Slack、Teams、チケットシステムなど、彼らが仕事をするときに見ている可能性の高いものです。
また、仕事中ではない時には、自動応答電話にメッセージを送ったり、ポケベルメッセージ(そう、ポケットベルはまだ使われているのです)やその他の方法を使って、緊急の連絡として受け止めてもらってください。
緊急時にメールでは間に合いません!
そのためにはたいてい、通知、コラボレーション、設定、分析などの幅広いアプリケーションと統合できるインターネットパフォーマンス監視やオブザーバビリティのソリューションが必要です。
可能な限り、従業員が現在使用している、使い慣れたツールを使用しましょう。
4. アクション可能なデータでアラートを送る
差し迫った問題が何であるか、またその深刻さを明確にしましょう。
受け手は、何が問題なのか、それに対して何を期待されているのかを正確に把握できることを求められています。
1分あたり10,000ドルもするようなわかりにくいアラートで、従業員が困惑するようでは困ります。
診断スピードを上げる5つの方法
もちろん、アラートは解決プロセスの最初の部分に過ぎません。
さらに重要なのは、どこに問題があり、それを解決するためにどのようなアクションが必要かを判断する「診断」を加速させることです。
もちろん、これはネットワークによって大きく異なりますが、最も効果的に短縮できるステップでもあります。
1. インターネットスタック全体をカバーするインターネットパフォーマンス監視ソリューションを使用する
多くのソリューションは、ネットワーク(NPM…Network Performance Monitoring)またはアプリケーション(APM…Application Performance Monitoring)だけを対象としているため、可視性が著しく制限されています。
しかし、多くの場合(特に障害の事前対策に関して)、ユーザがインターネットを経由する経路全体を理解しなければ、問題を特定することはできません。
結局のところ、インターネットは今日、電気と同じくらい極めて重要なツールなのです。
APMでアプリのスタックを監視するだけでは不十分です。
ユーザがインターネット経由でそれらのアプリにアクセスする方法を監視するためには、IPM(Internet Performance Monitoring)が必要です。
さらに、複数のソリューションを切り替えると、MTTRに深刻な影響を与え、何が問題なのかを把握するプロセスが遅くなることが証明されています。
2. 必要な情報を1つのインターフェイスで表示できるソリューションを利用する(できれば1つのダッシュボードで)
人間は、どんなに訓練されていても、すぐに集中力を失ってしまうものです。
インターフェイスを切り替えると、アプリケーションを切り替えるのと同じくらい診断が遅くなることがあります。
トラフィックの遅れが障害に発展する恐れがある場合にトラブルシューティングを行うには、トラフィックに影響を与える全ての要素を1つのインテリジェントな(できればカスタマイズ可能な)ダッシュボードで確認できる必要があります。
これは、問題の原因を察知する上で、大きな違いを生むことになります。
3. リアルタイムのデータを活用する
全てのソリューションがリアルタイムデータを提供するわけではなく、1分あたり10,000ドルと信じられないほど高価になることもあります。
2分でも遅れると、トラブルシューティングが長引き、見るべき情報がわからなくなることがあります。
多くの場合、データのサンプリング速度はカスタマイズ可能ですが、最も重要な詳細は、監視アプリケーションによって制限される場合があります。
例えば、よく知られているオブザーバビリティ・ソリューションの中には、BGPソースから15分ごとにしかデータを提供しないものがあります。
15分前のBGPデータでは、1分1秒を争うときにコストがかかってしまうのです!
これは、データが15分前のものであるだけでなく、変更の影響を確認するためにさらに15分待たなければならないことを意味します。
リアルタイムのBGPピアデータ(あるいは5分遅れのデータだけでも)により、数万円のコスト削減が可能です。
4. できるだけ多くのソースから得た粒度の細かいデータを使用する
前述したように、迅速な診断には、できるだけ多くのネットワークを可視化する必要があり、最近のネットワークはインターネット全体です。
ニューヨークからアクセスできるシステムだからといって、ドバイでダウンしていないとは限りませんし、その地域のユーザ体験を把握しない限り、それを知ることはできないでしょう。
さらに、収集されるデータは可能な限り詳細である必要があります。
通常、悪魔は細部に宿るものであり、5分間隔のデータポイントでは、正確なトラブルシューティングを行うには十分な詳細さではありません。
最後に、そのデータはバラバラに存在してはいけないということです。
いつでも、現在のデータと過去1週間、1ヶ月、1年、数年分のデータを比較できるようにする必要があります。
異常や傾向を把握するためには文脈が必要であり、過去のデータを即座に分析できる必要があります。
アーカイブされたデータを探したり、更新されたデータをあなたの視点から待つことは、あなたの仕事を遅らせ、より多くのコストを費やすだけです。
5. ウォー・ルームは最後の手段であるべき
(訳注……「ウォー・ルーム」ソフトウェアの開発現場において、一定期間メンバーを同じ空間に集め、短期間の開発をするための作業空間)
みんな一緒に集まるというのは、効率が悪いだけでなく、色々な意味でコストがかかります。
全員に通知する時間、全員を集めて会議を開く時間、問題を説明する時間、そしてその時間の1分1分が、障害が発生し続ける数千ドルのコストになるのです。
また、その人たちの一日の時間を奪うというコストもかかります。
ITチームの給与は決して安くはありませんし、ウォー・ルームは生産性の低下という点で、非常に高くつく会議となり得ます。
もし、多くの人を集めずに問題を診断する方法があるのなら、それを試してみてください。
時間を短縮し、コストを最小化する
上記のベストプラクティスに従えば、避けられない障害への対応を最適化することができます。
適切な担当者が、問題を発見し診断するために必要な正しい情報を得ることができるのです―それも迅速に。
MTTRは障害時間と共に短縮されます。
むしろ、障害発生自体をなくすことができるかもしれません。
そして最も重要なことは、時間が短縮されることで、全体のコストが最小化されることです。
間違いなく、ここでの目標は、ミスをしないように速くするということではありません。
障害解決に費やす1分1秒の価値を認識し、可能な限り効率的に対応することが目標です。
上記のアプローチは,MTTRの向上に役立つだけでなく、ITチームの価値を証明する優れた位置付けにあることにも留意してください。
MTTRを分単位ではなくドル単位で把握することで、経営陣にどれだけ節約できたかを簡単に示すことができます。
ITチームが今月5件の障害を解決したという報告書は、ほとんどの経営幹部にとって学術的な関心事です。
しかし、あなたの迅速な対応で毎月何百万ドルも節約できたことを示せば、相手の注目を集めることは間違いないでしょう!
Catchpointの支援についてもっと知る
Catchpointは、上記のようなあらゆる機能で、障害によるコストを軽減するお手伝いをします。
世界最大のグローバル観測網を持つだけでなく、トラブルシューティングを迅速かつ容易にするためのプラットフォームを持ち、しかも既に使用しているアプリケーションにシームレスに統合することができます。
Catchpointを利用した計測・監視サービスについてのお問い合わせはこちら