ネットワーク障害

Rogersの障害は、あなたが考えているよりも高くつきそうです

2022年9月16日
翻訳: 島田 麻里子

この記事は米Catchpoint Systems社のブログ記事 That Rogers Outage is Going to be More Expensive Than You Thinkの翻訳です。
Spelldataは、Catchpointの日本代理店です。
この記事は、Catchpoint Systemsの許可を得て、翻訳しています。


2022年7月8日、カナダの通信会社Rogers Communicationsが、約2日間にわたりカナダの大半の地域に影響を及ぼす大規模な障害に見舞われました。
2021年に無線サーバに数時間影響を与える障害が発生したことがあり、まったく前例がなかったわけではありませんが、今回の障害の広さと深刻さは、一見したところでは、それよりはるかに大きな損害を与えることになりそうです。

何が起きたのか

障害発生から2週間後、Rogers社はCRTC(Canadian Radio-television and Telecommunications Commission/カナダの電気通信規制機関)に対し、ミスとその原因について詳細に説明した文書を発表しました。

簡単に説明すると、7月8日(金)の朝4時頃、誰かがコードの更新に失敗し、コアネットワークがダウンしてしまったのです。
有線と無線のネットワークがそのコアで結合されているため、カナダのほとんどの地域でインターネットとモバイルサービスがダウンし、約1日半の間、その状態が続きました。
Rogers社は少なくとも15時間はサービスの復旧に取りかかることができず、一部のサービスや顧客は障害の後最大4日間もオンラインに戻りませんでした。

このため、個人のお客様だけでなく、企業や911緊急事態システムの一部にも混乱を生じさせました。
また、他の複数の中小通信事業者も、トラフィックの一部または全部をRogersのバックボーンに依存していたため、同様に影響を受けました。
この結果は、現代の生活がいかにインターネットに依存しているかということだけでなく、1つのプロバイダだけに頼ることがいかに危険であるかということ ― 特に、障害が発生しやすいという点について強調しています。

カナダの人の多くは、2021年の障害についてまだ不満を抱いています。
報道によると、この障害の間、Rogersの小売店のスタッフは『カナダで最も信頼できる5Gネットワーク!』と誇らしげに宣言しているウィンドウサインを取り外すよう、静かに要請されたそうです。

様々な影響

カナダ人の多くは、小売店での支払いにInterac(カナダの送金サービス)のデビットカードシステムを利用しており、Interacがオフラインになったことでそれらが停止してしまったのです。
このため、ほとんどの国民が突然現金を探し回ることになりましたが、ほとんどのATMも同じInteracのネットワークに依存しているため、この問題は避けられませんでした。

Fido、Chatr、TekSavvyなどのに依存しているサービスが全面的または部分的にダウンし、数百万人の加入者のモバイルおよび固定インターネットに支障をきたしました。

携帯電話を中心に、多くのカナダ人が911などの緊急サービスを断続的に利用できない状況が続きました。
ほとんどの警察や消防署が911コールセンターは正常に機能していると言っているものの、実際に電話が繋がるかどうかはかけてみるまで分からないため、誰が被害に遭うのかが不透明なことも問題を大きくしていました。
また、非緊急回線にも問題があるとの報告も多くありました。

カナダの国税庁であるRevenue Canadaや、皮肉にもCRTCなどの政府機関から、電話回線がダウンし、多要素認証が機能しないとの報告がありました。
カナダ国境庁の報告によると、障害のため、国境を越える人がCOVID-19ワクチン接種の証明を示すことができるArriveCANアプリが一部の旅行者では機能しなかったため、紙のコピーを提出できない場合、入国を拒否されることになったといいます。
また、Zoomを使った証言ができないため、裁判所も混乱しました。

トロント出身のザ・ウィークエンドのコンサートなど、主要なイベントは中止となりました。
また、カルガリー・スタンピード(ロデオのイベント)のように、POSシステムが影響を受け、現金のみでの販売を余儀なくされたところもあります。
全国の主要な会場では、遅延が予想されるため、チケットをプリントアウトして早めに到着するよう呼びかけていました。

計り知れないコスト

大きな問題は、これがコスト面でどのような意味を持つかということです。

一番計算しやすいのは、Rogers本体に直接かかる費用です。
5日分のサービス料金の払い戻しを保証した後(以前の約束は2日分)、Rogers社はその約1,100万人の加入者からの損失分、約1億7千万ドル (数字はすべてカナダドル)を負担することになったのです。

しかし、これが加入者1人当たり約3.80ドルになることが顧客の怒りを買い、Rogersは加入者1人当たり400ドルを要求する集団訴訟に直面することになりました。
40億ドルを超えるかもしれませんね。

また、Rogersは「コアネットワークの調整により、無線ネットワークと有線ネットワークを分離する」ためのインフラ整備を確約しました。
金融の専門家によると、これには最大2年、5億ドルの費用がかかるといいます。

しかし、カナダの寡占化により、通信量の90%がたった3つのプロバイダー(Rogers、Bell、Telus)を経由しているため、加入者の喪失はおそらく最も少ない懸念事項でしょう。
ほとんどのカナダ人は、これらのプロバイダーのうちの1つか2つにしかアクセスできませんから、競争はあまり重要ではありません。
Rogersが気に入らなければ、どこに行けばいいのでしょうか?

ほとんどのカナダ人は、自分自身や自分のビジネスのためのバックアッププランを持っていない……単純に代替手段を持っていません。
そこはRogersがケアする必要がないため、気にかけてもいないことを意味します。
しかし、以下のように、それは変わろうとしているのかもしれません。

カナダ経済への影響は、もっと見積もるのが難しいです。
ザ・ウィークエンドのコンサート中止は、トロントの5万席以上のRogersセンター(そう、Rogersも所有している)のチケットを全員に払い戻すことを意味しましたが、これは全米で中止されたイベントの一つに過ぎません。

小売業者だけでなく、インターネットに依存したギグエコノミーに従事する労働者の売上損失は、数万ドルから数十万ドルに上る可能性があります。
また、リモートワークの従業員のうち、何人もの人が障害発生中に仕事をすることができず、生産性の低下や給与の浪費など、計り知れない損失が発生しています。
この障害でカナダ全体がどのような損害を被ったのか、文字通り知る術もないのです。

しかし、Rogersはいずれにせよ、その経済的打撃の代償を払うことになるかもしれません。
260億ドルを投じて計画されたShaw Communicationsの買収は、すでに消費者や規制当局の抵抗を受けており、現在では公共性かつ危険性の高いものとなっています。
国民は満足しておらず、政治家は合併を頓挫させると脅しをかけており、これまで費やした時間と資金が無駄になってしまいます。

さらに悪いことに、この障害によって通信の寡占化が浮き彫りになり、多くのカナダ人はRogersの独占に近い状態に怒りを感じています。
障害発生から数週間、カナダの通信産業の国有化や、信頼できるインターネットを国中に提供する新しい王立企業の設立を求める社説が、有力紙複数掲載されました。

このようなことを主張する政治家は、怒れるカナダ国民から支持されることが確実であり、Rogersも恐れをなしたはずです。
もしこれが実際に起これば、彼らの未来は連邦政府との競争か、あるいは法律によって存在を抹消されるかのどちらかになるでしょう。
このままでは、Rogersはどうしたって大変なことになってしまいます。

あなたは次のRogersか?

他の通信事業者、インターネットプロバイダ、ネットワークを持つ大企業は、このすべてを見ながら冷や汗をかいているはずです。
たとえあなたの企業が人口3,500万人の国のほぼすべての人々をつなぐ責任を負う大手通信事業者でなかったとしても、このような大規模な障害は悪夢のようなコストを示しているのです。
あなたの企業が2〜4日間ダウンしたら、どんな請求が来るんでしょう?

幸いなことに(Rogersを除いて)、このような事態は簡単に避けることができます。
ヒューマンエラーを防ぐことはできませんが、それを最小限に抑えるために多くの手順を実行することは簡単にできますし、さらに重要なことは、その結果生じた問題に迅速に対処することです。
ここでは、Rogersのような運命をたどらないために、ITプロフェッショナルが考慮すべきいくつかのヒントを紹介します。

本番前のテスト

そう、それが常識であり、もちろん、Rogersがそうしたと言っているのです。
でも、明らかにちゃんとやっていないですよね?

すべての検査方法が同じであり、有効であるとは限りません。
理想的なのは、ネットワークの変更がエンドユーザにどのような影響を与えるかを、本番稼動前に徹底的にテストできるシステムやソリューションがあることです。
また、本稼働後すぐに同じテストを実行し、想定通りに動作していることを確認する必要があります。

外側からの監視

自分側では問題なく見えても、実際にユーザに届くとは限りません。
どの市民が通じて、どの市民が通じないかを見分けることができなかった911コールセンターのことを思い出してください。
自社ではなく、ユーザの視点からネットワークをテストすることで、どの地域のどのユーザが、どのような機器を使って、どのような問題を抱えているのかをよりよく理解することができます。

ということは、その後に……

問題を迅速に診断し、解決する

Rogersが問題に気づくまで約2時間、解決に至るまで約15時間かかりました。
何が問題なのか、どこで問題が発生しているのか、詳細な情報をすぐに知らせる必要があります。
できれば、エンドユーザに気づかれる前に。

もし、Rogersがほんの1時間のダウンタイムで悪いアップデートを解決していたら、加入者は血のにじむような叫び声をあげていなかったでしょう。
ダウンタイムなしに解決していたとしたら、このような議論は一切なく、Shaw Communicationsとの合併も順調に進んでいたことでしょう。

冗長性とその仕組みについて理解する

Rogersはネットワークに冗長性を持たせているつもりでした。

「我々は、海岸から海岸までのネットワークに構築する様々なレベルの冗長性が、なぜ機能しなかったのか理解できません」
Rogersのアクセスネットワークおよびオペレーション担当SVPであるKye Prigg氏は、CBCのPower & Politicsに出演した際に述べました。

火を使ってテストする前に、システムがどの程度冗長化されているかを理解する必要があります。
つまり、どこがカバーされ、どこが露出しているかを教えてくれるソリューションがあれば、弱点を補強することができます(少なくとも、物事がうまくいかないときにどこから手をつければよいかを知ることができます)。
これはRogersだけでなく、Rogersの下流パートナーも同様に行う必要があったことです。

サードパーティは、あなたが考えているほど信頼できないかもしれません。
サードパーティが障害を起こした場合の影響を軽減するための計画を立てておく必要があります。

まとめ

Rogersは、ネットワーク障害の解決に深刻な支障をきたし、その影響を特に深刻に(そして高くつくように)するような問題の嵐に見舞われました。
しかし、彼らは、星が一直線に並んだときに何が起こるかを教えてくれたのです。

繰り返しになりますが、ヒューマンエラーをなくすことはできませんが、Catchpointのようなソリューションで軽減することは可能です。
ユーザのデジタル体験を監視し、ユーザの視点からネットワーク変更の影響をテスト・測定し、問題が発生したらすぐに知ることで、障害が発生する前に止めることができます。

Catchpointがお客様の組織にどのように役立つのか、ご自身で試してみたいという方には、具体的に説明させていただきます。
(訳注…日本からのCatchpointのご利用についてはSpelldataまでお問い合わせください。)

また、Catchpointのエンジニアが作成した「インターネット障害防止チェックリスト」もご覧ください。
障害防止・軽減戦略の策定や改良に役立ちます。

チェックリストをダウンロード