GoogleのSRE本の続編(?)「インシデントの解剖学」を読んだ

最近よく聞いているSRE系のポッドキャスト e34.fmのep17で紹介されてた、GoogleのSRE本シリーズの最新作(?)「Anatomy of an Incident（インシデントの解剖学）」を読んだメモ。ポストモーテム（検死解剖）から展開して、Anatomyは解剖学というわけだ。

sre.google

本書は書籍の体裁をとっているが、無料でPDF/EPUB/MOBIがダウンロードできる。O'reillyのサブスクにも収録されている。
learning.oreilly.com

全般的な感想

インシデント管理に特化した最新のまとめ小文書という印象。インシデント管理の周辺は適応課題というか悩ましいことが多いので興味深い。GoogleのSRE本やエンジニアリング本は良い本なんだけど、インシデント管理まわり以外の話題も多くて読むのも骨だから本書を手始めにすると良さそう。一方で、あまりディープなことが書かれているわけではない。

ちなみに、インシデント発生時の対処方法であるインシデントコマンドシステム（本書でも推奨されている）について興味があれば「システム障害対応の教科書」がとてもよかったのでオススメしておく。

興味深いと思ったのは、インシデント対応メンバーの燃え尽き症候群を防止するために、ものすごく配慮をしているという点だ。Googleではパンデミック以降に大きなインシデントの増大があったそうだが、そのあたりの学びが反映されているのだろうか。対応期間も3日以内と制限され、様々なケア（事前の訓練も含まれる）がほどこされている。確かに現代においてはエンジニアが最も重要かつ希少なリソースであるため、ここを守ることに注力するのは正しいような気がする。

各章に関する覚え書き

1. Introduction（はじめに）

失敗は避けられない。変化は常に予想できない。よって準備が重要
COVID-19パンデミックによってGoogleはインシデントの増大にさらされたが、10年以上にわたるインシデント管理への投資によってサービスの提供の継続ができた
Googleにおけるインシデントの定義：単独で処理できずエスカレーションされたもの、即時要対応、組織的な対応が必要
インシデント管理ライフサイクル：準備、応答、緩和と回復

2. Practicing Incident Response Readiness (Preparedness)　インシデントレスポンスの準備

災害ロールプレイングにより、インシデント対応のトレーニングを行う：GoogleのDiRTプログラム
レスポンダーの訓練：技術面、精神面、感情面での準備が必要
Using SRE and disaster recovery testing principles in production | Google Cloud Blog

3. Scaling Incident Management (Response)　大規模インシデント管理

階層的なレスポンダー：コンポーネントレスポンダーとSoSレスポンダー
Googleにおける2種類のSoSレスポンダー：Product focused IRTと、Tech IRT
共通プロトコル、信頼、尊重、透明性
バーンアウト対策：対応期間の制限（3日以内）で人を守る

4. Mitigation and Recovery　緩和策と回復方法

インシデントの影響の計算：TTD、TTR、TBF、Impact
TTD、TTRの短縮とTBFの延長のために投資する各種の手法
Shrinking the impact of production incidents using SRE principles—CRE Life Lessons | Google Cloud Blog

5. Postmortems and Beyond　ポストモーテムおよびその後

"Googleでは、Ben Treynor Slossが四半期ごとに「Google’s Greatest Hits and Misses」というレポートを発行して、過ちから学ぶことができる力を与える文化を育んでいます"
- 読みてぇ！が、ちょっと調べた感じでは公開はされていないっぽい
ポストモーテムでは、インシデントにおける根本原因とトリガーを区別する
システム思考（holistic systems thinking）

6. The Mayan Apocalypse: A Real-World Example　マヤの黙示録（現実の例）

これかな？
- https://status.cloud.google.com/incident/cloud-networking/19009
- An update on Sunday’s service disruption | Google Cloud Blog

7. Conclusion and Moving Forward　結論および今後について

インシデント管理に投資する
人の問題に対して備える
改善を繰り返す。ヒロイズムに陥らないようにする

勘と経験と読経

略すとKKD。ソフトウェア開発やITプロジェクトマネジメントに関するあれこれ。

GoogleのSRE本の続編(?)「インシデントの解剖学」を読んだ

全般的な感想

各章に関する覚え書き

1. Introduction（はじめに）

2. Practicing Incident Response Readiness (Preparedness)　インシデントレスポンスの準備

3. Scaling Incident Management (Response)　大規模インシデント管理

4. Mitigation and Recovery　緩和策と回復方法

5. Postmortems and Beyond　ポストモーテムおよびその後

6. The Mayan Apocalypse: A Real-World Example　マヤの黙示録（現実の例）

7. Conclusion and Moving Forward　結論および今後について

全般的な感想

各章に関する覚え書き

1. Introduction（はじめに）

2. Practicing Incident Response Readiness (Preparedness) インシデントレスポンスの準備

3. Scaling Incident Management (Response) 大規模インシデント管理

4. Mitigation and Recovery 緩和策と回復方法

5. Postmortems and Beyond ポストモーテムおよびその後

6. The Mayan Apocalypse: A Real-World Example マヤの黙示録（現実の例）

7. Conclusion and Moving Forward 結論および今後について

2. Practicing Incident Response Readiness (Preparedness)　インシデントレスポンスの準備

3. Scaling Incident Management (Response)　大規模インシデント管理

4. Mitigation and Recovery　緩和策と回復方法

5. Postmortems and Beyond　ポストモーテムおよびその後

6. The Mayan Apocalypse: A Real-World Example　マヤの黙示録（現実の例）

7. Conclusion and Moving Forward　結論および今後について