BGPの先にあるもの 障害を防ぐために
BGPを障害防止にどのように役立てることができるか
2023年5月26日
翻訳: 島田 麻里子
この記事は米Catchpoint Systems社のブログ記事BGP Beyond Preventing Outagesの翻訳です。
Spelldataは、Catchpointの日本代理店です。
この記事は、Catchpoint Systemsの許可を得て、翻訳しています。
BGPの重要性
紙ナプキンの裏に書かれた最初の構想以来、BGPはインターネットに不可欠な要素となっています。
しかし、その普遍性とシンプルさは、あらゆる組織のインターネット・スタックにおける潜在的な弱点でもあります。
オープンでほぼ普遍的なプロトコルであるため、潜在的に悪意のある攻撃のベクトルとなるのです。
また、単純な設定ミスによって同じくらいの問題を引き起こすこともあります(実際、この2つの違いを見分けることはそれ自体が難しいことです)。
しかし、BGPが過小評価されがちなのは、ネットワーク監視や問題分析におけるその利用です。
最近、障害の防止に関するホワイトペーパーを読んでいて、BGPに関するいくつかの具体的なポイントに気づきましたので、紹介します。
悪意か、設定ミスか?
BGPの問題が発生した場合、それが悪意のある第三者による意図的な攻撃なのか、それとも単に適切に設定されていなかっただけなのかを見分けるのは困難です。
BGPがセキュリティを全く考慮せずに設計されているため、これは特に問題となります。
BGPハイジャックは、設定ミスや悪意ある行為の結果であるかもしれませんが、いずれにしてもそれは私たちが皆使用している共通ルーティングシステムへの攻撃です……。
問題は、BGPはセキュリティが大きな関心事となるずっと前に作られたということです。
BGPはすべてのネットワークが信頼できるものだと仮定しています。技術的には、ルートが正当であることを検証するための組み込みセキュリティメカニズムはありません。
Internet Society社 パートナー・エンゲージメント&コミュニケーション・ディレクター Megan Kruse氏
BGPハイジャックは、セキュリティの観点から非常に深刻な脅威となることがあります。
特に、金融機関や医療機関など、顧客データを安全に管理しなければならない企業にとってはなおさらです。
結局のところ、ハイジャックが発生している場合、そのすべてのデータはどこに行くのでしょうか?
そして、その質問に答えられない場合、あなたが負う可能性のある金融的または規制上の罰則はどの程度になるのでしょうか?
このような場合、迅速な対応と解決が極めて重要となります。
悪意と設定ミスの間では、通常後者が問題となります。
しかし、BGPデータを直接見ることで、確実にわかることがあります。
障害防止のホワイトペーパーで語られているように、ヨーロッパの大手バックボーンキャリアであるTeliaは、ネットワークルーティングの問題に悩まされていました。
障害発生時に発表されたIPv4とIPv6のルートと撤退されたルートを確認したところ、この問題はTelia Carrier IP Coreネットワークにおける設定ミスに起因していたことが判明したのです。
ルーティングポリシーを以前のバージョンに戻すだけで問題は解決し、サービスは徐々に回復していきました。
BGPの設定ミスを完全に避けることは不可能ですが、ネットワーク運用者は常識的なルールに従い、MANRSが推奨するベストプラクティスのいくつかを適用するべきです。
これにより、BGPの設定ミスの可能性を最小限に抑えることができます。
訳注…「MANRS―Mutually Agreed Norms for Routing Security」
Internet Society社が世界的に普及をめざす、 BGPルーティングのセキュリティ確保を目的とした活動。
BGPを超えた影響
2021年10月、Facebookのスタッフがルーティンワークである定期メンテナンス作業を行ったところ、予期せぬ問題が発生し、バックボーンネットワークのすべての接続が切断されるという事態が発生しました。
その結果、Facebookのルーターはデータセンターと通信することができなくなりました。
これにより、DNSサーバに向かうBGPルートがネットワークから取り除かれるというセーフティメカニズムが発動しました。
この詳細は障害防止のホワイトペーパーに記載されていますが、この例は、BGPの問題によって他に影響が及んだものがあるため、特に注目されているのです。
サーバルームへのアクセスバッジが機能しなくなったため、ITスタッフがサーバルームにアクセスできず、障害の解決が遅れたという(未確認の)証拠があります。
さらに重要なのは、自動化におけるロジックの問題で、すべてのDNSサーバがBGPアナウンスから外されてしまったことです。
その結果、利用可能なDNSサーバがなく、Facebookは、障害発生時に組織がすべき最もシンプルで最も重要なこと、つまり、ユーザに対し、障害が発生しており、状況を修復するための作業を行っているという通知を出すことができませんでした。
これはBGPの問題の直接的な結果ではありませんが、BGPがネットワーク上のあらゆるシステムにとってどれほど重要であるかということを強調しています。
また、障害の解決が最優先事項である一方で、顧客のケアがそれに続く重要な事項であることを思い出させるものでもあります。
研究によると、プロバイダが問題を把握し、それに取り組んでいることを知るだけで、顧客の不満は大幅に軽減されることが分かっています。
たとえ問題が解決されなかったとしても、情報が提供され、努力がなされたと理解されれば、顧客の感情ははるかに好意的になります。
顧客は(通常は)理性的な人たちであり、怒りの声を上げる猿ではないことを忘れないでください。
あなたが問題を解決しようとしていることがわかれば、驚くほど大目に見てくれるものです。
IT部門は(当然ながら)物事を再び動かすことに集中しますが、障害によって影響を受けたユーザに確実に情報を提供し、少なくとも彼らの苦痛を認識するということには、非常に大きな価値があるのです。
礼儀正しく、思いやりがあり、透明性を持つことには何のコストもかかりません。
それはまた、顧客満足度を大幅に改善し、顧客の離脱を減らすこともできます。
そして透明性は、全体の業界にも追加の利益をもたらすことができます。
BGPデータを使って他の失敗から学ぶ
Facebookの障害について私たちが知っているのは、Facebookチームがこの障害の非常に優れた事後分析を公にしたためです。
実際、これは業界のすべての人が賞賛し、見習うべき傾向です。
大企業の他部門のエンジニアが、当時は自分に直接影響のなかった無関係の部門の人が書いたインシデントを読んで、自分たちのプロセスをより良く変えることがあります。
ここに流通が生まれるのです。
極端な話、業界全体としてこの方向に進んでいくことを期待しているのですが、事後分析を公開することで、一企業の中だけでなく、業界全体にわたって下流の学習効果を最大化することができます。
Facebook元共同創業者 Workplaceプロダクトリード John Egan氏
事後分析は業界全体にとって良いことですが、すべての企業が障害の詳細を報告するわけではありません。
しかし、BGPデータは公開されており、何が起こり、何が問題だったのかについて、時系列で驚くような洞察を得られることがよくあります。
Catchpointの障害防止に関するホワイトペーパーの著者たちは度々、公開されているBGPデータを分析するだけで、様々な異なる組織の障害について、驚くほど多くのことを突き止めることができました。
そして、あなたにも同じことができない理由はありません!
システムやサービスが停止したときに、BGPデータを詳細に調べることで、同じような状況に陥ったときに、やってはいけないことや、より良い対応策を学ぶことができます。
たとえ組織が原因について口を閉ざしていたとしても、何がどこで影響を受けたのか、多くの詳細を理解することができます。
BGPのリスクを軽減する
では、具体的にどのようにして公開されているBGPデータを見ることができるのでしょうか?
また、これらの情報をもとに、組織のBGPリスクを軽減するためにはどうすればよいのでしょうか。
ここで、Catchpointがお役立ちできます。
まず、最も重要なことは、世界最大のユニークなグローバル観測ネットワークを使って、リアルタイムでBGPを監視することです。
2023年2月現在、私たちは5大陸のすべてで140以上のピアからのルーティングデータを受け取り、分析しています。
収集されたBGPデータはRIPE RIS及びRoute Viewsのデータと組み合わされ、Catchpointのインターネット・パフォーマンス(IPM)プラットフォームを通じてお客様に提供されます。
これにより、世界中のあらゆる場所のBGPアクティビティについて、最も包括的なビューが得られます。
また、BGPの問題を特定し解決するために、特別に設計されたCatchpoint独自の機能を利用することができます。
ルートハイジャック検出
Catchpointのコントロールセンターライブラリを介したルートハイジャック検出で、これは顧客のASNリストを保存しています。
GP概要ダッシュボードでは、予期しないASNからアナウンスされた任意のプレフィックスにフラグを立てるため、IT部門はハイジャックの可能性を直ちに警告することができます。
カスタマイズ可能なBGPスマートボード
障害と根本原因をより早く、より少ないクリック数で特定し、MTTRを向上させます。
CatchpointのBGPスマートボードは、IT部門が選択した時間枠のBGPピアイベントデータを調査し、アナウンスメントと撤退を表示し、各イベントの詳細までドリルダウンすることができます。
その結果、トラブルシューティングをより迅速かつ効果的に行うことができます。
高度なBGPダッシュボードとスコアメトリクス
信頼するネットワークの健全性を一目で確認できます。表示される情報には、到達可能性、ハイジャック、ピアの可視性、大量離脱、RPKIの状態、地域別のBGPデータなどがあります。
Catchpointは、トラブルシューティングを迅速かつ簡単に行うことができるプラットフォームで、BGP問題の影響を軽減することができるのです。