SpeedData

包括的なBGPアラート戦略の構築

2022年2月8日
翻訳: 島田 麻里子

この記事は米Catchpoint Systems社のブログ記事 Building a Comprehensive BGP Alerting Strategyの翻訳です。
Spelldataは、Catchpointの日本代理店です。
この記事は、Catchpoint Systemsの許可を得て、翻訳しています。


BGPルートの健全性を確保することは、強固なネットワーク監視戦略の最も重要な部分の1つです。
IPアドレスプリフィックスのいずれかがエンドユーザに到達できない場合、問題の本質をピンポイントで把握するためには、直接的で実用的なデータを使って、できるだけ早く知る必要があります。
このような鋭いリアルタイムのBGPアラート機能がなければ、エンドユーザ体験の問題のトラブルシューティングは非常に難しくなり、平均検出時間(MTTD)や平均解決時間(MTTR)の増加に繋がります。

包括的なBGP監視の戦略を設定するには、組織に属する全ての公開IPプリフィックスを入力し、エンドユーザ体験を台無しにする可能性のある全てのルート問題をカバーするアラートを各プリフィックスに結びつける必要があります。
問題の警告を受けたら、BGPデータを掘り下げて問題の性質と場所を正確に特定し、修復プロセスを開始できるようにしなければなりません。

これらは全て、リアルタイムのBGPデータを使ったCatchpoint Network Insightsで可能であり、Catchpointプラットフォームで直接行うことができます。

Catchpoint Network Insights

このブログ記事では、BGP監視戦略のうち、アラートの側面に焦点を当てています。
しかし、その前に、BGPルートで発生する可能性のある、様々な種類のセキュリティ、可用性、およびパフォーマンスの問題について説明します。

プリフィックス・ハイジャックは、BGPのセキュリティ問題の中でも最も破壊的な形態の1つで、トラフィックを盗み、ユーザを異なる未承認の宛先へと誘導するものです。
優先されるBGPルートは、どのルーターが最も具体的な(つまり最も長い)IPアドレスプリフィックスを持っているかによって選択されるため、悪意のある人物が自分に割り当てられていないプリフィックスを基にハイジャックを行うことができますが、それにも関わらず、より具体的なパスが作成されるため、優先ルートとなります。

ハイジャックには以下のような形態があります。

ルートリークは、ハイジャックと同様に、AS(自律システム)間で設定されたBGPルーティングポリシーに違反した経路を経由してトラフィックがルーティングされるため、パフォーマンスの低下やパケットロスが発生しやすくなります。
しかし、ハイジャックとは異なり、オリジンプリフィックスのタイプミスやASルーターの設定ミスなど、単純な人為的ミスによって発生するのが一般的です。
(この点では、ブラックホーリングと同じ結果になることもあります)

ルートフラップは、ASがひとつのルートを過剰にアナウンスした場合に発生するもので、同じプリフィックスが属性を変えながら複数回アナウンスされることを意味します。
これにより、優先パスが別のパスに切り替わり、エンドユーザに可用性やパフォーマンスの問題を引き起こす可能性があります。

このような問題を検出するためには、BGPデータをリアルタイムで取得することが重要です。
多くのBGP監視ツールは、15分ごとにしか収集されないデータに完全に依存しているため、最速のアラート・分析戦略であっても遅れをとることになります。
Catchpoint社のプラットフォームでは、BGPテストごとに設定可能であり、リアルタイムのBGPデータを利用した5種類のアラートが用意されています。

可用性とダウンタイム

BGPのダウンタイムは、監視対象の宛先プリフィックスへのパスが確立されていない場合に発生するため、可用性は最もというほどではないにせよ、非常に重要な警告される指標の1つとなっています。
CatchpointでBGPテストを作成する際に、宛先プリフィックスの可用性が一定期間に一定の割合を下回った場合にアラートを設定することができます。
例えば、5分間で稼働率が90%以下になった場合にアラートを送信する、などです。

しかし、監視する必要があるのは宛先プリフィックスだけではありません。なぜなら、ピアリング先のASがダウンした場合にも利用できなくなるからです。
そこでCatchpointでは、ピアの可用性についてもアラート機能を有効にし、一定期間に一定の割合で障害が発生した場合に通知することができるようにしました。

可用性のアラート

オリジンAS

ルートハイジャックは、組織が管理しているプリフィックスを他の人がアナウンスして優先パスになった場合に発生し、ルートリークは、組織のAS内でプリフィックスに不正な変更がされた場合に発生します。
そのため、オリジンASが組織で管理しているものと完全に一致しなくなるような変更が発生した場合にアラートを設定する必要があります。

オリジンAS

オリジンの隣接

オリジンASのアラートと同様に、自分のASがピアリングしているASのプリフィックスに変更が生じた場合のアラートを設定することができます。
これは、ルートリークやトラフィック・スニッフィング・ハイジャックの原因にもなります。
このアラートは、全てのASがピアリングしているIPプリフィックスを知っている必要があることに注意してください。

オリジンの隣接

プリフィックスの不一致

トラフィックが宛先プリフィックスから離れていく方法のひとつとして、別のASがより長い(つまりより特定の)プリフィックスをアナウンスすることがあります。
プリフィックス不一致のアラートは、そのような事態を防ぐためのもので、組織が信頼しているプリフィックスと完全に一致しないプリフィックスが返された場合に通知を行います。

プリフィックスの不一致

パスAS

ユーザが宛先プリフィックスに到達するための優先パスの、少なくとも一部がわかっていれば、その優先パスにおいて変更があった場合にアラートを設定することができます。
パスASアラートは、オリジンASとオリジンネイバーの両方の変更に対する包括的な警告として機能するため、2つのアラートではなく1つのアラートを受け取ることができるのです。

例えば、優先パスの一部に特定の3つのAS番号が含まれていなければならないことがわかっている場合、そのグループに変更が生じたときにアラートを設定することができます。

パスAS

BGPアラートに加えて、BGPデータを分析し、問題の根本的な原因を突き止め、どんなことも可能な限り迅速に修正することが極めて重要です。
CatchpointプラットフォームでのBGP監視の方法や、Catchpointの他のBGP監視機能については、ハンドブック「BGP Monitoring with Catchpoint Network Insights」をダウンロードしてご覧ください。

★SpelldataのBGP監視サービスについてはこちら