勘と経験と読経

略すとKKD。ソフトウェア開発やITプロジェクトマネジメントに関するあれこれ。

PagerDutyのPostmortem(トラブル事後分析)ガイドが公開。かなり良さそう。

Monitoring Weekly - Improve your application monitoringのニュースレター経由で知ったのだけど、PagerDutyからPostmortemのガイドが公開されていたようだ。

ざっと読んでみたところ、かなり有用そう。

Postmortemとは

訳書だとSRE本やEffective DevOpsなどが詳しかったと記憶しているが、定義はこんな感じ。

ポストモーテムは、インシデントとそのインパクト、その緩和や解消のために行われたアクション、根本原因(群)、インシデントの再発を避けるためのフォローアップのアクションを記録するために書かれるものです。
SRE 15 章 ポストモーテムの文化:失敗からの学び

SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

Effective DevOps ―4本柱による持続可能な組織文化の育て方

Effective DevOps ―4本柱による持続可能な組織文化の育て方

未訳だけれどもSRE本の続編、SRE Workbookに書かれたPostmortemの話は以下の記事で触れているので興味があればご一読いただきたい。
agnozingdays.hatenablog.com

PagerDutyのPostmortemガイド

PagerDuty Postmortem Documentation
というわけで、ざっと読んでみた感想。

  • ChromeGoogle翻訳機能でもけっこう読める(ただし、Postmortemが「死後」と翻訳されるため、かなりスピリチュアルな翻訳になるので注意)
  • 「学習する文化」といった背景の話から初めて、ステップバイステップの執筆ガイド、共有方法までカバーされていて、たぶんいきなりトライすることができそう
  • テンプレートだけでなく、チェックリストなども含まれていて至れり尽くせり
  • Apache Licenceなので使い易そう
  • 参考資料集が充実していて興味深い。紹介されていた以下の本はぜひ読んでみたいが・・・(どちらもSafariBooksOnlineに収録はされているようだ)

The Field Guide to Understanding Human Error (English Edition)

The Field Guide to Understanding Human Error (English Edition)


SREやDevOpsを採用(?)していなかったとしても、品質改善活動の一環として「トラブル報告」「原因分析」「再発防止」などの活動をしているのであれば、いろいろと改善のためのアイデアが見つかりそうだ。