SpeedData

SRE Report 2023

SREレポート2023年:現場からの知見―Toil(労苦)

2023年3月9日
翻訳: 島田 麻里子

この記事は米Catchpoint Systems社のブログ記事 SRE Report 2023: Findings From the Field — Toilの翻訳です。
Spelldataは、Catchpointの日本代理店です。
この記事は、Catchpoint Systemsの許可を得て、翻訳しています。


Toil(労苦)。

SREにとって、この4文字の宿敵「Toil」ほど直感的なインパクトを与える言葉は他にないでしょう。
Toilが悪いことであることは、かなりの人が認識し、同意していますが、口語ではよく誤用される言葉です。
英語の一般的な用法では、Toilは「long strenuous fatiguing labor(大重労働)」、「work that is difficult and unpleasant and that lasts for a long time: long, hard labor(難しくて不快な、長く長く続くハードな労働)」と定義されています。

SREの専門用語として、「Toil」は、人が時間を費やす他の種類の仕事と区別される、いくつかの非常に特殊な特徴を持っています。
SREブックでは、Toilは以下のような属性で定義されています。

  1. 手動的である
  2. 反復的である
  3. 自動化可能である
  4. 戦術的である
  5. 永続的な価値がない
  6. かつ、サービスの成長に合わせて直線的に拡張するものである

著者はまた、困難で不快で長く続くかもしれない仕事の種類として、事務的なオーバーヘッド(チームミーティングなど)、汚れ仕事などを挙げています。
この本の例では「サービスのアラート設定全体をきれいにすること」「ごちゃごちゃしたものを取り除くこと」などが挙げられていました。
また、多くのマイグレーション(移転・移行作業)は、とりわけ完了までの幸せな道のりを妨げる例外に対処する際に、みすぼらしい気分になるカテゴリに分類されることもあると思います。

「あなたの仕事のうち、平均して何パーセントが『Toil』ですか?」

2023年SRE調査の設問を作成する際、このような専門用語としてのToilと、一般的な英語としてのToilの混同は、調査結果やその解釈を混乱させる恐れがあると考え、設問の記述欄にこの6つの基準を記載しました。
「あなたの仕事のうち、平均して何パーセントが『Toil』ですか?」

今回の結果を、回答者の自己申告レベル別にご紹介します。

回答者の自己申告レベル別

こちらでは、報告書に示された累積分布形式でのデータ表記を紹介します。

役職別の累積分布

前年の回答はこのようになっています。

前年の回答結果

自分の時間の90~100%を徒労に費やしていると報告する人もいるように、明らかに好ましくない状況にあるのです。

しかし、この調査とその後の報告書の作成者の一人として、私は、自分の仕事が「手動的、反復的、自動化可能、戦術的、永続的な価値がなくそしてサービスの成長に合わせて直線的に拡大する」と報告したマネージャ以上の人たちをより懸念しています。
これは「OR」リストではありません。
過去に一般社員とマネージャの両方を経験したことで、マネジメントに必要な手動的、反復的、戦術的な作業が確かにたくさんあることは理解できています。

しかし、人と関わることは、「永続的な価値がない」わけでも、「サービスの成長に応じて直線的に拡大するもの」でもありません。
多くの場合は、マネージャの管理下にある従業員の数に応じてスケールアップします。
しかし、マネージャ、シニアマネージャ、エグゼクティブのどのような仕事が、技術的にToilであるとみなされるのでしょうか?

2019年、Nikolaus Rath氏は、自社のSREチームの制限的機能として、大量のサービスのオンボーディングによるスケーリングの問題について語りました。
その際のスケーリングの要素は、サービスの規模やエンドユーザ基盤ではなく、サービスそのものの数でした。
このように、オンボーディングプロセスは、残りの手作業による健全性チェックがスケーリングの制約となり、他の基準もすべて満たしていたため、Toil(労苦)として認定されました。

Toilは数値化できるのか?

Toilの資格基準には多くの判断が内在しており、それを数値化することができるものなのかどうかさえ疑問です。

先日、SREの皆さんとの座談会で、各人の仕事の中で「Toil」と思われる部分を話し合いました。
作業項目を「Toil」の6つの基準に照らして検討したところ、8割近くの項目が1つ以上の基準を満たさないことがわかりました。

その中でも難しかったのは、「自動化できるかどうか」という問題です。

5年前には自動化できなかったことが、新しい技術や非常に多くの時間と労力を費やすことで、自動化できるようになるかもしれません。
5年前はともかく、今はToilなのでしょうか?
Toilであるかどうかの検討には、コストさえも入るのでしょうか、あるいは入るべきなのでしょうか?

仕事の時間の使い方を考えたとき、「Grunge(汚れ仕事)」にはどれくらいの時間をかけていますか?
Grungeも同じようにToilになりうる仕事かもしれませんが、一回限りのものであったり、Toilとみなされる技術的な要件から外れていたりする可能性があります。

「オーバーヘッド(作業の準備・管理・後処理などで必要となる付帯的コスト)」にはどれだけの時間を費やしているのでしょう?
チームミーティング、上司との1on1、会社の全体会議、状況報告、(主に請負会社の)請求情報の追跡などがオーバーヘッドにあたるでしょう。
多くのエンジニアは「オーバーヘッド」の時間を、不快で、長く続くものだと考えています(少なくとも主観的には)―しかし、それは「Toil」にはなりません。

このような複雑な要素を評価することは、少なくとも一定の文化を共有する一企業の文脈においても、難しいことです。
これを業界全体に広げようとすると、意味拡散(専門用語の技術的定義の希薄化)だけでなく、一般的な言い回しとの戦いにもなります。

このような計測上の課題にも関わらず、まだうやむやなままの多くの疑問が残されていますが、やはりこのような長期的な記録があると、今後の参考になりますし、自分たちがどこから来たのかを理解するのに役立つものです。
SREレポートは、5年間(現在に至るまで)運営され、私たちの業界にとって一つの記録となりました。
今年後半、次回のアンケートで意見を募集する際には、ぜひご参加ください!

さらに詳しく

SREレポート2023の全文はこちらからご覧いただけます(登録不要)。