ネットワーク管理者

自社ネットワークは万全。
しかしその先で何が起きているか、あなたは知っていますか

ネットワーク管理者の皆さまへ ― ラストマイルの「見えない」を、管理の武器に変える

あなたが見えている範囲と、見えていない範囲

ネットワーク管理者が責任を持ち、かつ実際に見えている範囲は明確です。自社オフィスからクラウドプラットフォームまで、自社からデータセンターまで——この範囲のネットワーク品質は、監視ツールで継続的に把握できています。
問題は、その先です。

見えている範囲

  • 自社オフィス・拠点間のネットワーク
  • 自社からクラウドプラットフォームまでの専用線・VPN
  • 自社からデータセンターまでの接続
  • 自社管理下のルーター・スイッチ・ファイアウォール
  • 社内ネットワークのトラフィック・帯域使用率

この範囲については、監視・制御・改善のサイクルが回っています。障害が起きれば検知でき、対処できます。

見えていない範囲(ブラックボックス)

  • クラウド・データセンターからユーザー端末までの経路
  • docomo・au・SoftBank・楽天モバイルのキャリア網
  • ISP間のピアリング品質
  • BGPルーティングの経路変動
  • CDNのエッジからユーザーまでの配信品質
  • 地域・キャリア別のDNSリゾルバの応答差

この範囲で何が起きているか、今のあなたには見えていません。そして多くのネットワーク管理者は、「見えないし、制御もできないから、見なくていい」と判断しています。

「制御できないから見ても意味がない」は、本当でしょうか

この判断は合理的に見えますが、前提に誤りが含まれています。

医師は患者の食生活を直接制御できない。それでも血圧を計測する

医師は患者が毎日何を食べるかを直接制御できません。しかし血圧・血糖値・コレステロール値を計測します。
計測しなければ、制御できる治療(投薬・処置)の判断ができないからです。制御できない領域があることと、そこを計測する必要がないことは、別の問題です。
ラストマイルのデータは「そこを直接修正するため」に使うのではありません。「制御できる部分を正しく設定し、制御できない部分の責任を正しく帰属させるため」に使います。

「ユーザー環境の問題」で終わらせていた障害が、実は自社の設定ミスだったケース

「特定地域のユーザーだけ繋がりにくい」という報告を受けたとき、ラストマイルのデータがなければ「ユーザー側の環境問題」として処理するしかありません。
しかし計測してみると、CDNのエッジ設定が誤っており、北海道のユーザーへの配信が東京のオリジンサーバーから直接行われていたケースがあります。これはCDNの設定という、ネットワーク管理者の制御範囲内の問題です。
ラストマイルのデータがなければ、この問題は「ユーザー環境の問題」として永遠に放置されていました。

「見えない」は「ない」ではない

キャリア網やISP経路で品質劣化が起きていても、あなたに見えていなければ「問題なし」という判断になります。
しかしユーザーは劣化した体験を受けています。その原因がキャリア側にあると判明したとき、キャリアへの証拠付きエスカレーションができます。SLAの違反確認も、実測データなしには始まりません。「制御できない」と「責任を問えない」は異なります。

実測データがあれば、ネットワーク管理者にできること

ラストマイルのデータを持つことで、あなたの仕事の範囲は実際に広がります。

1. ISP・キャリアへの証拠付きエスカレーション

「遅い気がする」という感覚論ではなく、「19時台にdocomo回線×札幌でレイテンシが通常の3倍、パケットロスが0.8%発生しています」という実測データでキャリアのNOCに問い合わせられます。
キャリアは証拠のない申告には動きにくい。実測データは、制御できない領域に対して影響力を持つための道具です。SLAの履行確認・違反時の補償請求も、データがあって初めて可能になります。

2. CDN設定の最適化

地方ユーザーへの配信が意図しないオリジンから行われていることが計測で判明すれば、CDNのエッジ設定・キャッシュルール・オリジンフェイルオーバーの設定を変更できます。
CDNの設定はネットワーク管理者の制御範囲内です。しかし問題が見えなければ、設定を変える理由も発生しません。

3. BGPルーティングの調整

自社ASを保有する組織であれば、経路広告のポリシー調整によって特定キャリア・特定地域へのルーティング品質を改善できます。
通信経路監視によってTracerouteの結果を継続計測すれば、「どのAS間でレイテンシが増加しているか」「経路が変わったタイミングはいつか」を特定できます。BGP調整は、問題のある経路が見えて初めて意味を持ちます。

4. DNS・TTL設定の最適化

キャリア別DNSリゾルバの応答時間差が計測で判明すれば、権威DNSサーバーの設定・TTL値・DNSSEC設定を最適化できます。
docomo回線のユーザーには応答が遅いリゾルバ経由でアクセスされている場合、DNSの設定変更でその影響を軽減できます。これもネットワーク管理者が直接手を入れられる領域です。

5. 障害切り分けの高速化

「ユーザーから繋がらないと報告が来た」とき、問題が自社ネットワーク側にあるのか、キャリア・ISP側にあるのかを切り分けるのに、現在どれくらい時間がかかっていますか。
実測データがあれば、「自社ネットワークは正常。当該時刻にSoftBank回線×大阪でBGP経路の変動を確認」という判定が数分でできます。切り分けの速さは、たとえ制御できない問題であっても、MTTR短縮に直結します。

6. インフラ投資判断の根拠を作る

「地方ユーザーへのレイテンシが恒常的に高い」というデータは、CDNノードの追加・マルチクラウド化・エッジコンピューティング展開の投資判断材料になります。
感覚的な「遅い気がする」ではなく、「楽天モバイル×九州のユーザーへのレイテンシが平均320ms、都市部の3.2倍」というデータで経営層・開発部門に提案できます。データは、制御できない問題を可視化し、制御できる投資につなげる橋渡しです。

計測で繰り返し発見されるパターン

以下はSpeedDataによる計測を通じて実際に確認されてきた事象のパターンです。特定企業の情報ではありませんが、計測を始めたネットワーク管理者が発見する類型です。

BGP経路の意図しない変動

ある時刻から特定キャリアのユーザーだけ繋がりにくくなった。サーバーは正常、社内ネットワークも正常。
BGP監視を確認すると、自社ASへの到達経路が変化しており、特定のAS経由のトラフィックが迂回ルートになっていた。通常より7ホップ増加し、レイテンシが180ms上昇していた。
BGPの経路変動はサーバーログには現れない。外側から見て初めてわかる。

CDNキャッシュが地方で効いていない

東京・大阪のユーザーは快適に使えているが、北海道・東北・九州のユーザーから「重い」という声が上がっていた。「地方のインフラ差だろう」と思っていた。
計測してみると、地方ユーザーへの静的コンテンツ配信がCDNのエッジではなく東京のオリジンサーバーから直接行われていた。CDNのキャッシュルール設定の漏れが原因だった。
設定の問題は制御できる範囲の問題だが、外側から計測しないと発見できない。

特定キャリアのDNS応答が突出して遅い

全体の平均応答時間は問題なかった。しかしキャリア別に分解すると、楽天モバイル経由のDNS応答時間が他キャリアの4〜5倍になっていた時期があった。
楽天モバイルのDNSリゾルバが経由するパスに問題が生じており、そのキャリアのユーザーだけページ表示開始が大幅に遅れていた。
全体平均では見えない問題が、キャリア別の分解で初めて浮かび上がる。

ピーク時間帯のキャリア輻輳

夕方17時〜20時にかけて、特定キャリアのスループットが低下するパターンが継続的に観測された。基地局の混雑が原因で、該当時間帯だけレイテンシが跳ね上がっていた。
この事実をデータとして持つことで、キャリアへの改善要求・SLA確認の根拠になった。また、この時間帯のユーザー体験改善策として、コンテンツの軽量化・プリフェッチ戦略の見直しにもつながった。
制御できない原因でも、その影響を緩和するための制御できる対策がある。

ネットワーク管理者に関連する監視メニュー

SpeedDataの18メニューのうち、ネットワーク管理者の業務に直接関連するメニューを紹介します。

BGP監視

BGP監視

「経路ハイジャック、ルートリークを検知したい」
ISP・通信事業者・AS保有企業向け。
自社ASの経路広告、ピアリング品質、他ASからの経路受領状況をリアルタイム監視します。
「サーバーは正常なのに繋がらない」の多くはBGP起因です。経路変動の検知と履歴の保持により、障害発生時の因果関係を遡って確認できます。

通信経路監視

通信経路監視

「どの経路でレイテンシが悪化しているか知りたい」
NTT/KDDIの光回線、4キャリアの5G回線からのTracerouteで、各都市からの実回線を使った経路のレイテンシ・ホップ数・パケットロスを継続的に可視化します。
経路上のどのASでボトルネックが発生しているかを特定し、BGP調整やキャリアへのエスカレーションの根拠として使えます。

DNS監視

DNS監視

「キャリア別のDNS応答品質を継続計測したい」
docomo・au・SoftBank・楽天モバイル各キャリアのDNSリゾルバ経由の応答時間差、DNSSEC検証の状況、DKIMのDNSタイムアウトを継続監視します。
キャリア別の応答時間差が判明すれば、権威DNS・TTL設定の最適化判断ができます。

Transport監視

Transport監視

「任意のTCP/UDPサービスの接続品質を外側から計測したい」
任意のホスト・ポートに対してTCPまたはUDPで接続を確立し、DNS解決時間・TCP接続時間・応答待ち時間を各段階別に可視化します。
自社管理外の経路を含めた端対端の接続品質を把握するのに有効です。

SSL監視

SSL監視

「証明書・TLSハンドシェイクの問題を実回線から検知したい」
SSL/TLS証明書の有効期限・証明書チェーンの完全性・OCSP応答時間をキャリア別に継続監視します。
特定キャリア経由の場合だけTLSハンドシェイクが遅い、という非対称な問題も検知できます。

ストリーミング監視

ストリーミング監視

「地域・キャリア別の配信品質を計測したい」
HLS/DASHストリームの再生開始時間・バッファリング発生頻度・ビットレート適応の挙動を、実回線から計測します。
ネットワーク層の問題が上位層のサービス品質にどう影響しているかを、エンドツーエンドで可視化します。

エンドポイント監視

エンドポイント監視

「社内・リモート環境の従業員ネットワークトラブルの原因を特定したい」
情報システム部・ネットワーク管理者向け。
従業員PCから社内システム・SaaSへの接続品質、VPNトンネル遅延、Wi-Fi品質を実際の端末から計測します。PCのCPU使用率・メモリ使用量・ネットワーク経路も同時に取得できるため、「重い」の原因がネットワーク起因なのか端末性能起因なのかを切り分けられます。
リモートワーク環境でのトラブルシューティングに特に有効です。従業員が「繋がらない」「重い」と言ったとき、端末の前に行かなくても実測データで原因を絞り込めます。