Monitoring Weekly - Improve your application monitoringのニュースレター経由で知ったのだけど、PagerDutyからPostmortemのガイドが公開されていたようだ。
ざっと読んでみたところ、かなり有用そう。
Postmortemとは
訳書だとSRE本やEffective DevOpsなどが詳しかったと記憶しているが、定義はこんな感じ。
ポストモーテムは、インシデントとそのインパクト、その緩和や解消のために行われたアクション、根本原因(群)、インシデントの再発を避けるためのフォローアップのアクションを記録するために書かれるものです。
SRE 15 章 ポストモーテムの文化:失敗からの学び

SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム
- 作者: 澤田武男,関根達夫,細川一茂,矢吹大輔,Betsy Beyer,Chris Jones,Jennifer Petoff,Niall Richard Murphy,Sky株式会社玉川竜司
- 出版社/メーカー: オライリージャパン
- 発売日: 2017/08/12
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (1件) を見る

Effective DevOps ―4本柱による持続可能な組織文化の育て方
- 作者: Jennifer Davis,Ryn Daniels,吉羽龍太郎,長尾高弘
- 出版社/メーカー: オライリージャパン
- 発売日: 2018/03/24
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (3件) を見る
未訳だけれどもSRE本の続編、SRE Workbookに書かれたPostmortemの話は以下の記事で触れているので興味があればご一読いただきたい。
agnozingdays.hatenablog.com
PagerDutyのPostmortemガイド
PagerDuty Postmortem Documentation
というわけで、ざっと読んでみた感想。
- ChromeのGoogle翻訳機能でもけっこう読める(ただし、Postmortemが「死後」と翻訳されるため、かなりスピリチュアルな翻訳になるので注意)
- 「学習する文化」といった背景の話から初めて、ステップバイステップの執筆ガイド、共有方法までカバーされていて、たぶんいきなりトライすることができそう
- テンプレートだけでなく、チェックリストなども含まれていて至れり尽くせり
- Apache Licenceなので使い易そう
- 参考資料集が充実していて興味深い。紹介されていた以下の本はぜひ読んでみたいが・・・(どちらもSafariBooksOnlineに収録はされているようだ)

The Field Guide to Understanding Human Error (English Edition)
- 作者: Sidney Dekker
- 出版社/メーカー: CRC Press
- 発売日: 2017/04/07
- メディア: Kindle版
- この商品を含むブログを見る

- 作者: Kerry Patterson,Joseph;McMillan, Ron;Switzler A Grenny
- 出版社/メーカー: McGraw-Hill Education
- 発売日: 2013/06/21
- メディア: Kindle版
- この商品を含むブログを見る
SREやDevOpsを採用(?)していなかったとしても、品質改善活動の一環として「トラブル報告」「原因分析」「再発防止」などの活動をしているのであれば、いろいろと改善のためのアイデアが見つかりそうだ。