こんな経験はありませんか
インフラエンジニアとして、監視ツールのダッシュボードを毎日確認してきたはずです。
それでも、こんな場面があったのではないでしょうか。
サーバーは全部グリーンなのに、ユーザーから「繋がらない」と言われた
監視ツールのステータスは正常。アプリケーションサーバー・データベース・ロードバランサー、全て問題なし。エラーログにも何も出ていない。
それでもユーザーから「繋がらない」「開かない」という報告が続いた。調査に時間をかけたが、結局「ユーザー環境の問題では」という結論で終わった。
本当にそれだけでしたか。
インスタンスのスペックを上げたのに、「遅い」という声が変わらなかった
CPU使用率が高かったため、インスタンスのスペックをアップグレードした。コストは1.8倍になった。
しかしユーザーからの「重い」「遅い」という声は変わらなかった。「もっとスペックを上げる必要があるのか」という議論になった。
でも、本当にCPUが原因でしたか。
DBを最適化したのに、体感速度が改善しなかった
スロークエリの特定・インデックスの追加・接続プールの調整。数ヶ月かけてデータベースの応答時間を改善した。
しかしユーザーが体験する表示速度はほとんど変わらなかった。「何が原因かわからない」という状況になった。
本当にDBが原因でしたか。
リリース後、特定のユーザーからだけ不具合報告が来た
新バージョンをリリースした翌日、一部のユーザーから「ページが開かない」という報告が集中した。社内のテスト環境では再現しない。サーバーのエラーログには記録がない。
「ユーザーのデバイスや回線の問題では」という仮説で対応したが、すっきりしないまま時間が過ぎた。
本当にユーザー側の問題でしたか。
これらは「あったかもしれない」話ではありません。計測していないから、あったかどうか確認できない話です。
見えない原因は、存在しないのではなく、見えていないだけです。