SpeedData

SREレポート2025

SREレポート2025が示す行動指針

2025年3月12日
著者: Leo Vasiliou
翻訳: 逆井 晶子

この記事は米Catchpoint Systems社のブログ記事「The SRE Report 2025's Call to Action」の翻訳です。
Spelldataは、Catchpointの日本代理店です。
この記事は、Catchpoint Systemsの許可を得て、翻訳しています。


SREレポートは今年で7年目を迎えました。
私はこのレポートを過去5年間執筆する機会に恵まれ、今回の2025年版では、Kurt Andersen氏Denton Chikura氏といった素晴らしい方々と協力することができました。
この労力を共に担い、時には分析の重圧に苦しみながらも愛情をもって取り組んでくれた彼らに心から感謝しています。

また、「現場からの声」セクションに貢献してくださったMartin Barry氏Laura de Vesine氏Dave O’Connor氏Heinrich Hartmann氏Robert Barron氏Sergey Katsev氏にも感謝申し上げます。
彼らの視点は、データを実際のSRE(Site Reliability Engineering、サイト信頼性エンジニアリング)の現場と結びつける貴重な役割を果たしてくれました。

本レポートの概要とポイントを簡単に紹介する動画を用意しました。
Kurt、Sergeyとともにレポートの内容や期待できる点についてお話ししていますので、ぜひご覧ください。

The SRE Report 2025 - Short Intro from the Authors
Mehdi Daoudi

SREレポートの真の主役は、調査に回答してくれたSREエンジニアや信頼性向上に取り組む専門家の皆さんです。
このレポートは、彼らの率直な意見なしには成り立ちません。

今年も、世界中のさまざまな企業規模や職種、役職の方々から貴重なデータを提供いただきました。
これにより、SREレポートは業界で最も信頼性の高い調査のひとつとして継続することができています。
本当にありがとうございます。

また、DORAレポートにも敬意を表したいと思います。
SREレポートは決して単独で存在するものではありません。
2024年版DORAレポートなど、信頼性の高い業界調査を参考に作成されています。
今年のレポートでは、特にAIがトイルに与える影響について深掘りしています(詳細は後述します)。

SREレポート2025で驚いたポイント

レポート公開時によく聞かれるのが「今年、最も驚いた発見は何か?」という質問です。
今年のレポートの中で特に印象的だったポイントを紹介します。

洞察Ⅰ: 「遅い」は「ダウン」と同じくらい問題視される時代に

毎年、業界で注目すべき新たなトレンドを取り上げています。
これまで、プラットフォーム運用トータル・エクスペリエンスマルチパーティ・ジレンマなどを扱ってきました。
今年は、より日常的なフレーズに焦点を当て、その妥当性を検証しました。

SREレポート2025 トップページ
SREレポート2025 トップページ

「何かを大声で、そして何度も繰り返せば、すぐにそれが真実として広く受け入れられるようになる」と言われています。

「Slow is the new down(遅いことはダウンと同じくらいの問題である)」というフレーズについては、多くの組織がその妥当性を認めています。
この表現を実際に聞いたことがあると答えた組織はわずか21%であるにもかかわらず、53%もの組織がこの表現に同意しています。

つまり、業界では「遅い」ことが「ダウン」同様に深刻な問題と認識されつつあるのです。
信頼性は単なる稼働時間ではなく、安定した高速な体験を提供できるかどうかが問われています。

洞察Ⅱ: 期待外れ? AIの進化にもかかわらず、トイルが増加

※訳注: トイル(Toil)とは、GoogleのSREチームによる定義では、 「本番環境の運用に伴う作業の一種であり、手作業で繰り返し発生し、自動化可能でありながら、 戦略的な価値を生み出さず、サービスの規模に比例して増大する作業」を指します。

7年間、SREレポートでは毎年一貫した調査手法を用いることで、長期的な傾向を追跡しています。
その中で、「時間の使い方」に関する質問は、組織の状態を把握する重要な指標となっています。
今年のデータでは、5年ぶりにトイルが増加したことが明らかになりました。

驚くべきことに、エンジニアリングやオンコール業務に費やす時間は変わっていないのに、トイルが増えているのです。
これはなぜでしょうか?

平均して仕事の何パーセントがトイルに相当するかを示す図
平均して仕事の何パーセントがトイルに相当するかを示す図

AIが原因なのでしょうか?

多くの人がAIによってトイルが減ることを期待していましたが、現実はそれほど単純ではありません。
しかし、2024年のDORAレポートによれば、AIは業務の効率を上げて価値を生み出す一方で、新たに生まれた余力が、追加のトイルに充てられる可能性があると示唆されています。

いずれにせよ、これは警戒すべき兆候です。
Googleはトイルの上限を50%以下に抑えるべきと推奨していますが、実際のデータでは、その割合が上昇傾向にあります。
トイルが増えているのに、システムの信頼性や最適化が進んでいないのなら、私たちは本当に適切な領域に投資しているのでしょうか?
それとも、緊急対応に追われるばかりで、長期的な改善に手が回らなくなっているのでしょうか?
今一度、見直す必要があります。

洞察Ⅶ: ギャップを認識しなければ、ギャップを埋めることはできない

今年のSREレポートで最も重要な気づきのひとつは、組織内の役職ごとに信頼性向上の取り組みに対する認識や実践に大きなギャップがある、という点です。
これは、単なる気づきではなく、SREコミュニティ全体に向けた行動喚起 でもあります。

特に顕著なのは、カオスエンジニアリング(障害シミュレーションやフェイルオーバーテスト、机上訓練など)によるインシデント対応準備状況に関するズレです。
全体の回答者のうち 「自分たちのチームがこれらの演習を定期的に実施している」と答えたのはわずか37%であり、このセクションの中で最も低い同意率でした。
しかし、役職ごとに見ると、このギャップはさらに顕著になります。

あなたが担当する主要なアプリケーションやサービスにおいて、インシデント対応の準備を定期的にテストしていますか?という質問に対する役職ごとの回答
あなたが担当する主要なアプリケーションやサービスにおいて、インシデント対応の準備を定期的にテストしていますか?という質問に対する役職ごとの回答

現場のエンジニアと経営層の間には大きな認識の差があります。
特に、インシデント対応の準備状況について、経営層は「適切に実施されている」と考えているのに対し、現場のエンジニアやチームリーダーは「十分に実施されていない」と感じていることがデータから明らかになりました。

このギャップは、カオスエンジニアリングに限らず、他の信頼性向上の取り組みにも見られます。

SREコミュニティへの挑戦

こうした認識のズレがもたらす影響は計り知れません。
レポートでは次のように述べられています。

現状に対する明確で共有された理解がなければ、共通の目標を設定し、それを達成するためのステップを決めることは困難になる。
このギャップは、リソースの浪費、作業の重複、貴重な機会の逸失を招く。

しかし、これは単なる問題ではなく、改善のチャンスでもあります。
SREレポート2025は、単なるデータの集まりではありません。
それは、SREコミュニティの現状を映し出し、今後進むべき道を示す指針です。
レポートが明らかにした「ギャップ」は、組織内で経営層と現場のエンジニアが対話を深め、実際の状況を共通認識として持つための出発点となります。

この課題に取り組むことは、すべてのSRE、マネージャー、リーダーにとって重要な挑戦です。
今こそ、このギャップを認識し、対話を深め、具体的な行動を起こすときです。
増え続けるトイルをどう抑えるか、信頼性の概念をどのように再定義するか、組織内の認識のズレをどう解消するか、変革の第一歩は、ここから始まります。

SREレポート2025をダウンロードする、またはオンラインで読んでみてください(登録不要)。