勘と経験と読経

略すとKKD。ソフトウェア開発やITプロジェクトマネジメントに関するあれこれ。

システム運用のメトリクスに関する研究報告読んだ

IPAの「情報システム運用時の定量的信頼性向上方法に関する調査報告書」(長いよ!)をナナメ読みした感想。システム運用について議論するときに網羅的で良い気がする。ITIL2011、ISO2000、JISA運用プロセス管理指標、JUASシステムの評価指標、IPA/SEC非機能要求グレード、JEITAサービス仕様項目(クラウド)のまとめと比較。

システム構築時については以前より定量的管理の手法などがまとめられ、それにより効果を上げている事例の実績も多くありますが、運用時についてはこれまで十分整理されていませんでした。 そのため、IPA/SECでは、主として定量的なアプローチによる運用時の信頼性向上方法(使用指標、指標測定データに基づく対策手法、予兆などの観測項目、観測データの分析手法など)に対する取組みの現状を明らかにし、その課題を見出すことを目的として調査を実施し、その結果を「情報システム運用時の定量的信頼性向上方法に関する調査報告書」として取りまとめ、公開しました。

ビジネスとエンジニアの共通の物差しとしてのメトリクス

この報告を読みながら思い出したのは、昔見た以下のスライド。DevOpsでなくても、運用の良し悪しを論じるには共通の物差しが必要だ。というわけで、この物差しを考える上で、冒頭紹介の報告書は興味深いと思っている。

というわけで感想

  • よく言われる話だけれども、長い目でシステムにかかるコストを図れば7割以上が「運用時のコスト」。ただ、2013年度政府の情報システム関連予算5千億の8割が運用経費というのは、すこし嫌な臭いを感じる・・・
  • システムのトラブルというとプログラムのバグを想起しがちだけど、運用ミスが起因する障害は意外と多い(6割~8割)
  • 定量的指標(メトリクス/KPI)はいろいろな提案があるけど標準化されたものはない。ANAシステムズの事例が項目つきで提示されていて、具体的かつ実践的に見える。
  • ITIL準拠の統合監視ツールの紹介はド定番の千手、JP1、SystemWalker。Tivoliが載っていないのはなぜなんだろう・・・
  • 障害予兆検出ツールの話もあるけど、これはハードウェア寄りな印象。「システムの動作を学習して予兆を検知」というものもあるので、別途深めたい。
  • レビューサイトの投稿内容(モバイルアプリのストアレビュー)から不具合検知するという仕組みもあるのか・・・
  • 全般的に運用周りのいろいろな要素がコンパクトにまとまっていて、困ったときには読み返したい資料という印象