引き続き、「The Site Reliability Workbook: Practical Ways to Implement SRE」をつまみ食い中。今回は同書の「Chapter 10. Postmortem Culture: Learning from Failure」に関して。ポストモーテムなんて言葉は数年前までまったく聞いたことがなかったのだけれども、自分のまわりでは最近急速に定着しているような気がする。ちなみにポストモーテムとは、障害の事後分析のことである。あるいは検死解剖。
- シリーズ(?)記事
The Site Reliability Workbook: Practical Ways to Implement SRE
- 作者: Betsy Beyer,Niall Richard Murphy,David K. Rensin,Kent Kawahara,Stephen Thorne
- 出版社/メーカー: O'Reilly Media
- 発売日: 2018/08/04
- メディア: ペーパーバック
- この商品を含むブログを見る
ポストモーテムについて
原典はおそらく以下の記事だと思われる
ポストモーテムは、インシデントとそのインパクト、その緩和や解消のために行われたアクション、根本原因(群)、インシデントの再発を避けるためのフォローアップのアクションを記録するために書かれるものです。
SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム 15 章 ポストモーテムの文化:失敗からの学び
他には以下の記事がわかりやすい(原文は英語だけど、postdで翻訳されている)。
「The DevOps ハンドブック 理論・原則・実践のすべて」ではポストモーテムは、「非難なしのインシデント後レビュー(blameless post-incident review)」とか「事象発生後のレトロスペクティブ(post-event retrospective)」などとも呼ばれているものである。
蛇足だけど、上記ブログポストの筆者danluuさんがネットで読めるポストモーテム集をgithubに公開しているようだ。
Postmortem Culture: Learning from Failure
「SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム」ではポストモーテム概論(15章)とポストモーテムの実例1つ(付録D)の記載があるが、「The Site Reliability Workbook: Practical Ways to Implement SRE」では具体的なケーススタディ(悪いポストモーテム、良いポストモーテム例)、具体的に良いポストモーテムを書くためのテンプレートやチェックリストに言及されていてより実践的なものとなっている。
以下、「The Site Reliability Workbook: Practical Ways to Implement SRE」で新たに紹介されている各種リソースが有用そうだったので備忘的にピックアップ。
- Example Postmortem from SRE book, pp. 487-491 · GitHub
- ポストモーテムのサンプル(SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチームの付録と同一のもの)
- postmortem-templates/templates at master · dastergon/postmortem-templates · GitHub
- いろいろな元ネタから集約されたポストモーテムのテンプレート集。章立てが中心で、説明文はない
- Post mortem template · GitHub
- 執筆者向けの説明入りのポストモーテムテンプレート(各項目ごとに書き方などの説明文が入っている)。
- sla - Documenting an outage for a post-mortem review - Server Fault
- StackExchange上のポストモーテムの書き方についてのディスカッションスレッド
- Post-Mortem Template - PagerDuty Incident Response Documentation
- PagerDutyのポストモーテムテンプレート(各項目ごとに書き方などの説明文が入っている)。
- GitHub - etsy/morgue: post mortem tracker
- Etsyが作ったポストモーテム管理ツール morgue。ツールを利用するかどうかは別にして、Etsyのテンプレートとしてみる事もできる(Etsyはポストモーテムの原典でもある記事の出所)
- Post-Mortems: Now with More Learning & Less Effort - VictorOps
- インシデント管理サービスであるVictorOpsのポストモーテムに関する記事(ただしあまり詳細は書かれていない)
- Site Reliability Workbook Materials - Google ドライブ
- SRE Workbookの付録としてのポストモーテムチェックリスト