勘と経験と読経

略すとKKD。ソフトウェア開発やITプロジェクトマネジメントに関するあれこれ。

Postmortem

ふりかえりツールとしての「失敗マンダラ」(「DX失敗学」の感想)

読むのがホネな技術書やビジネス書を取り上げて2週間の読書期限を課して読んでアウトプットする仮想読書会「デッドライン読書会」の第56回。同僚と読書期日を約束することによって消化が捗るという仕組み。過去記事はこちら。さて、今回取り上げるのはちょ…

GoogleのSRE本の続編(?)「インシデントの解剖学」を読んだ

最近よく聞いているSRE系のポッドキャスト e34.fmのep17で紹介されてた、GoogleのSRE本シリーズの最新作(?)「Anatomy of an Incident(インシデントの解剖学)」を読んだメモ。ポストモーテム(検死解剖)から展開して、Anatomyは解剖学というわけだ。sre.go…

HBRの「Strategies for Learning from Failure」を読んだ

「恐れのない組織――「心理的安全性」が学習・イノベーション・成長をもたらす」で紹介されていたHBRの「Strategies for Learning from Failure」だが、オライリーのサブスクでアクセス可能だったので読んでみたという話。 失敗のリフレーミングは、失敗のタ…

情報システムの障害状況ウォッチ(2019年後半)

趣味の情報システム障害状況ウォッチ。前回に引き続き、今回も駆け足で確認。元ネタはこちら。みんな見たほうが良いよ! www.ipa.go.jp これまでのウォッチ履歴 情報システムの障害状況ウォッチ(2019年前半) - 勘と経験と読経 情報システムの障害状況ウォ…

複雑なシステムはどのようにして失敗するのか(How Complex Systems Fail)

How Complex Systems Fail – Perspectives の記事で紹介されていた「複雑なシステムはどのようにして失敗するのか(How Complex Systems Fail)」という論考が興味深かったので紹介する記事。 How Complex Systems Fail(PDF) 詳細はリンク先のPDF参照だが、紹…

「IT業界の病理学」読了。興味深いエッセイ集 #デッドライン読書会

後輩エンジニアに追い立てられて、老害エンジニアがリーディンググラス片手に未消化の積読技術書をデッドラインを決めて読んで感想をブログに書く企画(ざっくり)の第9回。今回は昨年末に発刊された「IT業界の病理学」である。IT業界の病理学作者:司馬 紅太…

情報システムの障害状況ウォッチ(2019年前半)

趣味の情報システム障害状況ウォッチ。前回に引き続き、今回も駆け足で確認。 元ネタはこちら。みんな見たほうが良いよ! 情報システムの障害状況一覧:IPA 独立行政法人 情報処理推進機構 これまでのウォッチ履歴 情報システムの障害状況ウォッチ(2018年後…

2012年のKnight Capitalのシステムトラブルについて調べた

名前だけは知っていた有名なソフトウェアトラブルの事例。「巨大システム 失敗の本質―「組織の壊滅的失敗」を防ぐたった一つの方法」という本で詳しく語られていたのを見て興味が沸いて、いろいろ調べてみた。今は調べたことを、少し後悔している。 米ナイト…

情報システムの障害状況ウォッチ(2018年後半)

趣味の情報システム障害状況ウォッチ。前回に引き続き、今回も駆け足で確認。元ネタはこちら。みんな見たほうが良いよ! 情報システムの障害状況一覧:IPA 独立行政法人 情報処理推進機構 2018年後半(7~12月)の傾向 2018年前半はかなりハイペースで障害が…

PagerDutyのPostmortem(トラブル事後分析)ガイドが公開。かなり良さそう。

Monitoring Weekly - Improve your application monitoringのニュースレター経由で知ったのだけど、PagerDutyからPostmortemのガイドが公開されていたようだ。 Introducing the PagerDuty Postmortem Guide | PagerDuty PagerDuty Postmortem Documentation …

軽めに情報システムの障害状況ウォッチ(2018年前半)

趣味の情報システム障害状況ウォッチ。2017年後半のウォッチが飛んでいるのは自分自身とか所属組織が巻き込まれたとかではなく、単に忙しくなって忘れていたから。とはいえ現在も忙しいので個別事象のピックアップは省略。過去に書いた関連記事は以下の通り…

Postmortem Culture: Learning from Failure(Site Reliability Engineering Workbookつまみ食い#2)

引き続き、「The Site Reliability Workbook: Practical Ways to Implement SRE」をつまみ食い中。今回は同書の「Chapter 10. Postmortem Culture: Learning from Failure」に関して。ポストモーテムなんて言葉は数年前までまったく聞いたことがなかったのだ…

「5億ドル?!を吹っ飛ばした、たった1つのバグ!」について調べた

久しぶりのブログ更新。書籍「ZERO BUGS シリコンバレープログラマの教え」を読み終えた。この本の中で紹介されている歴史的なソフトウェア障害が気になったのでいろいろ自分で調べてみたメモ。トラブル好きなもので。 View this post on Instagram A post s…

情報システムの障害状況ウォッチ(2017年前半)

SEC Journal50号で2017年後半の情報システム障害状況まとめが公開されたので読んでみる記事。単なる野次馬なんだけれど、勉強になるので続けている。過去に書いた関連記事は以下の通り。 日経コンピュータ2017/8/3号特集「変わるITトラブル」を読んだ - 勘と…

日経コンピュータ2017/8/3号特集「変わるITトラブル」を読んだ

趣味のITトラブルウォッチャー活動として、日経コンピュータ2017/8/3号の特集「変わるITトラブル 実例1096件分析、新事実が明らかに」を読んだ感想。日経コンピュータ創刊の1981年から現在まで「動かないコンピュータ」コーナーなどに掲載された事例を分析し…

情報システムの障害状況ウォッチ(2016年後半)

SEC Journal48号で2016年後半の情報システム障害状況まとめが公開されたので読んでみる記事。いろいろあってすでに2017年も4分の1が過ぎてしまったので今更感もあるのだけれど。過去に書いた関連記事は以下の通り。 情報システムの障害状況ウォッチ(2016年…

情報システムの障害状況ウォッチ(2016年前半)

SEC Journal46号で2016年前半の情報システム障害状況まとめが公開されたので読んでみる記事。2015年度の分については以下のエントリを参照。生々しい話を読むと、自分がトラブルを引き起こす確率が減るんじゃないかと思っている。 情報システムの障害状況ウ…

IPA/SEC情報処理システム高信頼化教訓の2016/1~3の更新点を読む

IT業界(?)のトラブル情報を収集して、そこから教訓を抽出して公開するという取り組みをIPA/SECが行っている。わりと惰性でやっている感はあるのだけれど、2016年1月から3月までにいくつか教訓が追加されていたので目を通して感想を書いてみた。 情報処理シス…

情報システムの障害状況ウォッチ(2015年後半)、ポストモーテム

SEC Journal44号で2015年前半の情報システム障害状況まとめが公開されたので読んでみる記事。 前回記事はこちら。 情報システムの障害状況(2015年前半)あるいは検死解剖 - 勘と経験と読経 SEC Journal最新号の入手はこちらから。 SEC journal:IPA 独立行…

IPA/SEC情報処理システム高信頼化教訓がバージョンアップ

以前にこのブログで紹介したこともあるIPA/SECさんの「情報処理システム高信頼化教訓」がバージョンアップして、都度アップデートされるWebコンテンツになった(以前は分厚い報告書体裁のPDFだった)。これは何ぞと言うと「トラブルの原因や防止策が業界内で共…

情報システムの障害状況(2015年前半)あるいは検死解剖

SEC Journal42号で2015年前半の情報システム障害状況まとめが公開されたので読んでみる記事。残念ながら多くの障害事例は詳細が不明という残念な状況でもある。メメント・モリ。 SEC journal:IPA 独立行政法人 情報処理推進機構 メメント・モリ作者:藤原 新…

IPA「情報システム高信頼化教訓集(ITサービス編)」を読む

IPAが2014年の5月に出した「情報システム高信頼化教訓集(ITサービス編)」を読んだ。けっこうイイ事が書かれている気がするのだけれども、読むべき人に届いているのかはちょっと疑問がある。みんな読んだ? 重要インフラ障害情報の分析に基づく「情報処理シス…