最近よく聞いているSRE系のポッドキャスト e34.fmのep17で紹介されてた、GoogleのSRE本シリーズの最新作(?)「Anatomy of an Incident(インシデントの解剖学)」を読んだメモ。ポストモーテム(検死解剖)から展開して、Anatomyは解剖学というわけだ。
本書は書籍の体裁をとっているが、無料でPDF/EPUB/MOBIがダウンロードできる。O'reillyのサブスクにも収録されている。
learning.oreilly.com
全般的な感想
インシデント管理に特化した最新のまとめ小文書という印象。インシデント管理の周辺は適応課題というか悩ましいことが多いので興味深い。GoogleのSRE本やエンジニアリング本は良い本なんだけど、インシデント管理まわり以外の話題も多くて読むのも骨だから本書を手始めにすると良さそう。一方で、あまりディープなことが書かれているわけではない。
- SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム
- Googleのソフトウェアエンジニアリング ―持続可能なプログラミングを支える技術、文化、プロセス
ちなみに、インシデント発生時の対処方法であるインシデントコマンドシステム(本書でも推奨されている)について興味があれば「システム障害対応の教科書」がとてもよかったのでオススメしておく。
興味深いと思ったのは、インシデント対応メンバーの燃え尽き症候群を防止するために、ものすごく配慮をしているという点だ。Googleではパンデミック以降に大きなインシデントの増大があったそうだが、そのあたりの学びが反映されているのだろうか。対応期間も3日以内と制限され、様々なケア(事前の訓練も含まれる)がほどこされている。確かに現代においてはエンジニアが最も重要かつ希少なリソースであるため、ここを守ることに注力するのは正しいような気がする。
各章に関する覚え書き
1. Introduction(はじめに)
2. Practicing Incident Response Readiness (Preparedness) インシデントレスポンスの準備
- 災害ロールプレイングにより、インシデント対応のトレーニングを行う:GoogleのDiRTプログラム
- レスポンダーの訓練:技術面、精神面、感情面での準備が必要
- Using SRE and disaster recovery testing principles in production | Google Cloud Blog
3. Scaling Incident Management (Response) 大規模インシデント管理
4. Mitigation and Recovery 緩和策と回復方法
- インシデントの影響の計算:TTD、TTR、TBF、Impact
- TTD、TTRの短縮とTBFの延長のために投資する各種の手法
- Shrinking the impact of production incidents using SRE principles—CRE Life Lessons | Google Cloud Blog
5. Postmortems and Beyond ポストモーテムおよびその後
6. The Mayan Apocalypse: A Real-World Example マヤの黙示録(現実の例)
7. Conclusion and Moving Forward 結論および今後について
- インシデント管理に投資する
- 人の問題に対して備える
- 改善を繰り返す。ヒロイズムに陥らないようにする