SRE Report 2023

SREに権限を与える ― 「SREレポート2023」の結論

2022年11月25日
翻訳: 島田 麻里子

この記事は米Catchpoint Systems社のブログ記事 Empower the SREs - Conclusions from The SRE Report 2023の翻訳です。
Spelldataは、Catchpointの日本代理店です。
この記事は、Catchpoint Systemsの許可を得て、翻訳しています。


The SRE Report 2023の以下の結論は、Google Cloudの許可を得て転載しています。
レポート全文のダウンロードはこちらから(登録不要)

Google Cloud/SRE・信頼性アドボケイト Steve McGhee氏
Google Cloud/SRE(サイト信頼性エンジニア)・信頼性アドボケイト Steve McGhee氏

正直言って、調査が好きな人はいないでしょう。
そうですね、私は好きではないです。
しかし、調査というのは、人間とコンピュータ、社会工学的な複雑なシステムに対する洞察を求める私たちの大きなニーズを満たすものです。

コンピュータの部分はよく測定できているのですが、人間の部分はなかなかうまくいかないんですよね。
GoogleのSREが、削減したい指標として「労力」を最初に定義したとき、私たちはツールやコンピュータシステムからの知見に基づき、それを数値化することにあまりにも長い時間を費やしてしまいました。

それは簡単なことで、人間に聞けばよいのです。
決して立ち止まることなく、問い続けること。
これ以上の労力の尺度はありませんし、これからもないでしょう。

つまり、調査は強力なツールですが、手間がかかるのです。

偏りなく構造化された質問、実際に真剣に取り組む多くの回答者、そして最後には多くの分析が求められます。
これらの重要な要素がすべて揃わない限り、調査は、既存のバイアスや誤った結論を再現することになり、時間の無駄になることがあまりに多いのです。
そして、それらは簡単に見抜くことができます。

私は、この特別な調査の作成と分析に携わることができ、とても嬉しく思っています。
質問内容がよく考えられており、分析も丁寧だと感じています。
もっと回答者がいればよかったのですが、残念……来年がありますね。

今年の結論から私が得たものは、SREのエンパワーメント(権限付与)というテーマです。
私の経験では、SREが最も活躍できるのは、組織から信頼され、必要なリソースと自由を与えられて、正しいことを行うことができると、真に権限を与えられたと感じられるときです。
つまり、リーダーは先入観や解釈を入れずに、彼らのニーズに耳を傾け、サポートしなければならないのです。

SREは非常に若い分野です。
ここには多くの解釈が存在します。

AIOpsは素晴らしいと思いますし、その名前さえもクールです。
しかし、売り文句ではなく、実際にそれを試している実践者の声に耳を傾けてください。

今日、それは実際に何をするものなのか?
それは実際にあなたが今持っている問題を解決してくれるのでしょうか?
そうでない場合は、次へ進みましょう。

すべてを見通し、すべてを踊るAIのサイレンソングに誘われないでください。
SREに決断を委ねるのではなく、現行システムの理解と当面の運用ニーズに基づいてツールを選択する(あるいは選択しない)権限を与えるのです。
諸悪の根源は、早すぎる最適化であることを忘れないでください。

ツールのスプロール化(※)は怖そうですね。
ツールが多すぎる?高くつきそう!
(※訳注: スプロールとは、sprawl=無秩序に広がる、という意味)

整備工場や木工所に行くと、壁や作業台に置いてある工具の数が少ないところを探しますね。
ちょっと待てよ、それはおかしい。

熟練の職人、あるいは「オペレーション」においては、将来的に必要と思われるツールを先に決めてしまうのではなく、適切なタイミングで適切なツールに手を伸ばせるようにしたいものです。
また、何をもって「ツール」とみなすのか。
スクリプトで2つのunixコマンドを組み合わせると、3つ目になるのでしょうか?

なぜ、こんなことにこだわるのか? ここではコストがブギーマン(※)なのです。
(※訳注:boogieman=悪い子供をさらっていくといわれている鬼)

チームは、ITはコストセンターであり、時間をかけて削減しなければならないという文化を持っているか、クラウドの暴走コストに悩まされているかのどちらかです。
APIはパワフル!
特に請求書の明細を見てないときは。

SREにあらゆるツールの合理化や機能の重複を防ぐことを強いるのではなく、SREに権限を与えるのです。
コストの透明性を高め、グループとしての価値判断をさせ、更新日など契約の詳細を伝え、代替案を提案させましょう。

「非難をしないこと」が効いています。
心理的に安全な環境がもたらす恩恵について、これ以上の例はないでしょう。
これもエンパワーメントの一種です。

誤りを犯しやすい人間であっても(私たちは皆、間違いを犯すのです!)、複雑なシステムを任せられると知ることは、SREに力を与え、安定した持続可能なシステムを実現することになります。
これは、調査に反映させるべき素晴らしいデータポイントです。

なぜIC(Individual Contributor…管理職ではない一般社員・専門職)とエクゼクティブはこれほどまでに意見が違うのでしょうか?
なぜ足並みが揃わないのでしょう?

一つの解釈として、経営陣は全体像に目を向け、ICは小さな部分に目を向け、文脈を見逃しているのだと思います。
しかし、それだけではうまくいきません。
確かにそれは、今日の多くの企業で採用されている伝統的な(テイラー主義の)モデルですが、私たちはもっとうまくやれるはずです。

予算、収益、損失に関する透明性、文脈、根拠を提供することで、チームは、単にPOを経営陣に投げて何が刺さるかを見るのではなく、「自分たちの上」で行われる取引をより良く理解することができます。
SREはユーザーのために戦います。

彼らの手を縛るのではなく、大局的な解決策を提供する力を与えてください。
あなたがそうさせれば、彼らはそうすることができるのです。

ここ数年は、とんでもないことになっています。
WFH(Work From Home…在宅勤務)は今後も続くし、リモートワークは増える一方、人によっては週休3日制の魅力にさえ近づいています。

これは可能なのか?
これは素晴らしいことなのか?
これは怖いことでしょうか?

上記のすべてについて、いかがでしょうか。
この鐘は鳴り止まないと思いますし、鳴り止まないでほしいと思います。
クラウド時代の知識労働者とは、データセンターに隣接している必要はなく、オフィス内にいる必要もないのです。

SREとは、社会がますます依存しているシステムを制御するために、より高い抽象度を作り出すことです。
そうすれば、古い仕事のやり方に縛られることなく、社員が減少し、燃え尽き症候群になり、やる気をなくしてしまうという事態を避けることができるのです。

SREを信頼し、(明確な支出制限の範囲内で)ユーザを守る権限を与え、創造性を発揮する時間とリソースを与え、持続可能な行動を促し、それに報いてください。

以上は「The SRE Report 2023」からの抜粋です。
全文を読みたいならば、こちらから入手できます。