2018-09-03

DevOps的な非機能要件（運用要件）リスト

The DevOps Handbookで紹介されていた

The Top Ten DevOps “Operational Requirements” | DevOpsGroup

を読んだら面白かったというメモ。国内ではあんまり取り上げられていないような気もする（もしくは私が不勉強で知らないだけ？）

作者: ジーン・キム,ジェズ・ハンブル,パトリック・ボア,ジョン・ウィリス
出版社/メーカー: 日経BP社
発売日: 2017/07/04
メディア: Kindle版
この商品を含むブログを見る

開発部門が下流の作業の状況をフォローし、本番インシデントの解決の作業に参加すれば、アプリケーションは次第に運用にとってよい設計になっていく。さらに、スピーディなフリーとデプロイのしやすさを正面から意識してコードやアプリケーションを設計するようになると、すべての本番サービスに組み込みたいと思う一連の非機能要件が見つかる。
これらの非機能要件を実装すれば、サービスはデプロイしやすく、本番環境で動き続けるようになる。そして、本番環境では、問題を早い段階で見つけ、解決できるようになり、コンポーネントが故障したときには穏やかにグレードダウンできるようになる。そのような非機能要件の例を挙げておこう。
The DevOps ハンドブック理論・原則・実践のすべて（20.5 非機能要件を体系化して運用にやさしい設計を実現する、より）

The Top Ten DevOps “Operational Requirements”

というわけで元記事を元にメモ。

Documentation
- ちゃんとドキュメントを書いてくれ。
  - 俯瞰的な概念図
  - 全ての依存関係
  - 全てのエラーメッセージと詳細
  - すべての設定オプション/スイッチ/フラグ/キーなどの詳細
  - （実行状況）計測機能のエンドポイントと期待値
  - 前提条件、デフォルト値など
Robust Regression Test suite
- 自動回帰テストのサポート。
Automation and “scriptability”
- 自動化とスクリプト化容易性。未サポートでも将来リリースプロセス等をスクリプト化できるようにしておくこと。
Horizontal Scalability (for all tiers)
- 全階層における水平方向のスケーラビリティ。
“Feature Flags”
- フィーチャフラッグ(追加機能をフラグで制御できるようにする)
- コードベースをロールバックせず、ダウングレードを可能とすること。
Configurability
- 設定容易性。ハードコードなどもってのほかで、正しく設定できるように構築する。
Backward/Forward Compatibility
- 後方/前方互換性。これはオンライン中でのアップグレードを行う前提となるため。
Code defensively & degrade gracefully
- 主にサードパーティサービスに対する防御的な実装と、縮退稼動のサポート。
Keep track of the Dependencies!
- アプリケーションの依存関係が把握され文書化されていること。
Instrumentation
- (稼動状況の)計測のサポート。アプリケーションの稼働状況がモニタリングできる方法のサポート。

うん、わかるわかる。

2018-09-03

技術書「The Art of Monitoring」ナナメ読み

book safaribooksonline

The DevOps Handbookで紹介されていた「The Art of Monitoring」が面白そうだったのでナナメ読みしたメモ。

The Art of Monitoring (English Edition)

作者: James Turnbull
発売日: 2016/06/08
メディア: Kindle版
この商品を含むブログを見る

Web-Scale企業（たとえば、Google、Amazon、Facebook）の運用エンジニアたちが開発し、使っている新しいモニタリングアーキテクチャについては、James Turnbullが著書The Art of Monitoringのなかで説明している。
The DevOps ハンドブック理論・原則・実践のすべて（14.1 一元的な遠隔測定インフラストラクチャの作り方、より）

The DevOps ハンドブック理論・原則・実践のすべて

作者: ジーン・キム,ジェズ・ハンブル,パトリック・ボア,ジョン・ウィリス
出版社/メーカー: 日経BP社
発売日: 2017/07/04
メディア: Kindle版
この商品を含むブログを見る

「The Art of Monitoring」読んだ感想。

当初期待していたのはアプリケーションのモニタリングについての抽象度の高い方法論だったのだけれども、本書はむしろRiemannを中心とした具体的なHowToである。よってこれから構築するシステム、もしくは構築済だがモニタリング機能は手付かずのシステムで、本書で紹介されているプロダクトセット(Riemann,ELK,collectd etc)を用いた監視基盤を構築するのであれば有用だろう。
一方で抽象的な方法論について読みたければ、The DevOps Handbookに本書をベースとした考え方は十分紹介されているのであえて本書を読む必要はないと思う。The DevOps ハンドブック理論・原則・実践のすべてを読めば十分な印象がある。

なお本書はSafaribooksonlineに登録されているので、下記の方法を取れば購入しなくても読むことができる（できた）。

英語技術書を機械翻訳で読みまくる方法 - 勘と経験と読経

「The Art of Monitoring」の目次と各章ナナメ読み読書メモ

1 Introduction
- 興味深い。モニタリングの昨今のトレンドや類別などについて。
- 「Manual, user-initiated, or no monitoring」＞「Reactive（Monitoring）」＞「Proactive（Monitoring）」という流れ。
2 A Monitoring and Measurement Framework
- モニタリングフレームワークについての抽象度の高い話で、こちらもいろいろ参考になる印象。
3 Managing events and metrics with Riemann
- Riemannの導入方法など。
4 Introducing Graphite and Grafana
- GraphiteとGrafanaの導入方法について。
5 Host monitoring
- サーバのデータ収集をcollectdとRiemannで実施し、Graphiteに送信するところまで。
6 Using collectd events in Riemann
- 5章の収集データを用いた監視の実装と、Grafanaによるモニタリング。
7 Containers: another kind of host
- Docker固有のコンテナ監視について。Dockerから取れるメトリック＋Docker collectdの構成。
8 Logs and logging
- ログ監視(syslog)を行う。
- Elasticsearch - Logstash - Kibanaの構成。
- Rsyslogを使ってsyslog取得。
- LogstashからRiemann、Graphiteへのメトリクスとイベントの送信。
9 Building Monitored Applications
- アプリケーションの監視を行うのに、ログだけじゃなくてモニタリングエンドポイントを追加する方法について。
- アプリにエンドポイントを追加してStatsDで情報収集。
10 Notifications
- 通知処理のレベルアップについて。コンテキストの追加、メンテナンスとダウンタイムの考慮、クリティカルではない参考情報の追加。
- GrafanaのScripted Dashboardの活用。
- Slack/PagerDutyへの出力。
- Riemannでのメンテナンスイベントのハンドリング。
11 Monitoring Tornado: a capstone
- 応用編。アプリケーションスタック全体を管理、測定、通知する方法について。
- Part1として、仮想アプリケーション「Tornado」のWeb層のモニタリングを設定する。
- HttroxyやNginxの情報を取り扱う方法。
12 Monitoring Tornado: Application Tier
- 応用編の続き。仮想アプリケーション「Tornado」のAP層のモニタリングを設定する。
- JVM監視、ログ収集、アプリ自体のヘルスチェック(APIに仕込む)など。
13 Monitoring Tornado: Data tier
- 応用編の続き。仮想アプリケーション「Tornado」のDB層のモニタリングを設定する。そして統合ダッシュボードを組む。
- collectdでmysqlとredisからデータを収集する。
- Grafanaで「Tornado」ダッシュボードを構築する。
14 An Introduction to Clojure and Functional Programming
- Riemannのカスタマイズに用いるClojureの説明。

2018-08-16

英語技術書を機械翻訳で読みまくる方法

safaribooksonline Professional Engineer book

ふとしたキッカケで英語技術書を機械翻訳で読みまくれる環境を整備したら非常に快適になったのでご紹介。要約すると、定額制無制限の書籍サイトに加入して、バルクでGoogle翻訳をかけてざっくりと技術書を読む方法について。

https://www.flickr.com/photos/62277986@N00/2904221707

これまでの英語技術書読書環境の問題点

英語苦手
洋書は読めなくは無いけど英語力の問題で読むのが遅いのがツラい
- 電子書籍（例えばKindle）なら辞書機能があるので単語レベルの問題は解決できるけど、怠惰なので文節単位以上で機械翻訳したい
文書を電子書籍やPDFからコピペして機械翻訳するのはとっても面倒
- SREWorkbookが期間限定でPDF無料ダウンロードできたのだけど、読むのが大変
- 無料公開されたSite Reliability Engineering Workbookが面白そうなので目次を機械翻訳 - 勘と経験と読経
翻訳書は割と高価（当たり前だけれど）
- 物理書籍なら社費で買えるけど、デジタルのほうがいいんだよね

というわけで原著（洋書）をコピペラブルな状態で購入できないの？
と考えていろいろ調べたところ、予想外に有用な方法が判明したのだった。

SafariBooksOnlineが予想以上に優秀

さて、いろいろと調べてみると現在米オライリーは単品での電子書籍の直販は行っておらず、定額読み放題のサービスをメインとしているようだ。

米国オライリー・メディアが電子書籍サブスクリプション型へ移行 – IMPRESS INNOVATION LAB

なるほど。というわけでさっそく SafariBooksOnlineを調べてみると、有料ながら

なんと書籍はPDF等ではなく通常のWebページとして閲覧できる
- つまりChromeなどで章単位などでGoogle翻訳が簡単にできる
ファイルとしてダウンロードすることは出来ないが、iOS/Android用のアプリを使えばオフラインアクセス用の一時保存も可能（この場合Web翻訳は出来ない）
対象はオライリーが発行している書籍に限らず、様々な出版社の本を取り扱っている
- APress
  - 最近話題の「Clean Architecture　達人に学ぶソフトウェアの構造と設計 (アスキードワンゴ)」や「アジャイルエンタープライズ」も
- IT Revolution Press
  - 「The DevOps　逆転だ！究極の継続的デリバリー」や「The DevOps ハンドブック理論・原則・実践のすべて」が
- Addison-Wesleyも！
- Pearsonも！
加えて出版前のアーリーリリース／ベータ版の書籍も閲覧できる
各種のオンラインセミナーやチュートリアルビデオなども充実

というわけで超優秀なのである。

費用の問題

ところがSafariBooksOnlineはコンテンツが充実している一方で、お値段は相応である。月額39$、年額399$とちょっとお高い。

が、いろいろ調べてみると様々な学会などの会員サービスとして利用するという裏技があるのである。例えばACMの会員になれば年額99$で無制限にアクセスできる。これは安い！（なお、過去には利用方法に制限があったようだが、現在はフルサービスが利用可能のようだ）

ACM会員登録方法は以下の記事参照
- ACM Professional Membershipの登録 - 勘と経験と読経

追記：会員特典としてO'Reilly Online Learningが利用できるオプションは2022/7/1からは利用できなくなります

ACM会員になるとO'Reilly Online Learningが利用できるやつが終わるらしい - こまメモ

まとめ：英語技術書を機械翻訳で読みまくる

というわけでまとめると

ACM会員登録して得点のSafariBooksOnlineアクセス権をゲット
Chromeでアクセスして機械翻訳

で、読みまくる環境を実現することができる。これで、PCからでもモバイルからでも好きなだけ最新の技術書を読むことが可能である。
興味を持ったらまずSafariBooksOnlineで無料トライアルを試したあと、そのアカウントは捨ててACM会員登録するのがオススメである。

で、最近何を読んでるかというと

The Site Reliability Workbook: Practical Ways to Implement SRE

O'Reilly Media

Amazon

いったん読み終わって

現在はこちらの本を読んでいる

Accelerate: The Science Behind Devops: Building and Scaling High Performing Technology Organizations

作者:Forsgren, Nicole, Ph.D.,Humble, Jez,Kim, Gene
It Revolution Press

Amazon

Hey I wrote a book! Check out what @martinfowler has called the "software book of the year" and @adrianco puts in his top 4 reads for 2018: Accelerate: The Science of Lean Software and DevOps, coauthored with @jezhumble and @RealGeneKim https://t.co/RCSUM1dw2b
— dr. nicole forsgren (@nicolefv) 2018年8月12日

いやあ、良い世の中になったものだ。

参考

2018-08-08

Postmortem Culture: Learning from Failure（Site Reliability Engineering Workbookつまみ食い#2）

Professional Engineer Postmortem book

引き続き、「The Site Reliability Workbook: Practical Ways to Implement SRE」をつまみ食い中。今回は同書の「Chapter 10. Postmortem Culture: Learning from Failure」に関して。ポストモーテムなんて言葉は数年前までまったく聞いたことがなかったのだけれども、自分のまわりでは最近急速に定着しているような気がする。ちなみにポストモーテムとは、障害の事後分析のことである。あるいは検死解剖。

シリーズ(?)記事
- 無料公開されたSite Reliability Engineering Workbookが面白そうなので目次を機械翻訳 - 勘と経験と読経
- PagerDuty Incident Response Documentationが良さそう（Site Reliability Engineering Workbookつまみ食い#1） - 勘と経験と読経

The Site Reliability Workbook: Practical Ways to Implement SRE

作者: Betsy Beyer,Niall Richard Murphy,David K. Rensin,Kent Kawahara,Stephen Thorne
出版社/メーカー: O'Reilly Media
発売日: 2018/08/04
メディア: ペーパーバック
この商品を含むブログを見る

ポストモーテムについて

原典はおそらく以下の記事だと思われる

Blameless PostMortems and a Just Culture - Code as Craft

ポストモーテムは、インシデントとそのインパクト、その緩和や解消のために行われたアクション、根本原因（群）、インシデントの再発を避けるためのフォローアップのアクションを記録するために書かれるものです。
SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム 15 章ポストモーテムの文化：失敗からの学び

他には以下の記事がわかりやすい（原文は英語だけど、postdで翻訳されている）。

Reading postmortems
上記の翻訳記事：障害の事後分析を読んで得た教訓 ― 「何がシステムを停止させるのか？」 | POSTD

「The DevOps ハンドブック理論・原則・実践のすべて」ではポストモーテムは、「非難なしのインシデント後レビュー（blameless post-incident review）」とか「事象発生後のレトロスペクティブ（post-event retrospective）」などとも呼ばれているものである。

蛇足だけど、上記ブログポストの筆者danluuさんがネットで読めるポストモーテム集をgithubに公開しているようだ。

GitHub - danluu/post-mortems: A collection of postmortems. Sorry for the delay in merging PRs!

Postmortem Culture: Learning from Failure

「SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム」ではポストモーテム概論（15章）とポストモーテムの実例1つ（付録D）の記載があるが、「The Site Reliability Workbook: Practical Ways to Implement SRE」では具体的なケーススタディ（悪いポストモーテム、良いポストモーテム例）、具体的に良いポストモーテムを書くためのテンプレートやチェックリストに言及されていてより実践的なものとなっている。

以下、「The Site Reliability Workbook: Practical Ways to Implement SRE」で新たに紹介されている各種リソースが有用そうだったので備忘的にピックアップ。

Example Postmortem from SRE book, pp. 487-491 · GitHub
- ポストモーテムのサンプル（SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチームの付録と同一のもの）
postmortem-templates/templates at master · dastergon/postmortem-templates · GitHub
- いろいろな元ネタから集約されたポストモーテムのテンプレート集。章立てが中心で、説明文はない
Post mortem template · GitHub
- 執筆者向けの説明入りのポストモーテムテンプレート（各項目ごとに書き方などの説明文が入っている）。
sla - Documenting an outage for a post-mortem review - Server Fault
- StackExchange上のポストモーテムの書き方についてのディスカッションスレッド
Post-Mortem Template - PagerDuty Incident Response Documentation
- PagerDutyのポストモーテムテンプレート（各項目ごとに書き方などの説明文が入っている）。
GitHub - etsy/morgue: post mortem tracker
- Etsyが作ったポストモーテム管理ツール morgue。ツールを利用するかどうかは別にして、Etsyのテンプレートとしてみる事もできる（Etsyはポストモーテムの原典でもある記事の出所）
Post-Mortems: Now with More Learning & Less Effort - VictorOps
- インシデント管理サービスであるVictorOpsのポストモーテムに関する記事（ただしあまり詳細は書かれていない）
Site Reliability Workbook Materials - Google ドライブ
- SRE Workbookの付録としてのポストモーテムチェックリスト

2018-08-02

ACM Professional Membershipの登録

book Professional Engineer

思うところがあって、ACM Professional Membershipに登録したメモ。ACMはチューリング賞などで有名な米国の計算機学会。会員になると学会誌Communications of ACM (CACM)が読めたり、論文や様々な情報にアクセスしたり、特典としてSafari Books Online でO’Reillyの書籍(英語)が読み本題になったりする。年会費は99$。

Association for Computing Machinery - Wikipedia

追記：会員特典としてO'Reilly Online Learningが利用できるオプションは2022/7/1からは利用できなくなります

ACM会員になるとO'Reilly Online Learningが利用できるやつが終わるらしい - こまメモ

登録方法メモ

Association for Computing Machineryから、Join > Online Forms > Professionals
必須項目を中心に入力
- First Name, Last Name
- Address関連 (Postal Codeはハイフンを抜いて記入)
- Contact Information関連(電話番号は+81で登録)
- Professional Member Profile(年齢、性別、主要な職業、職位Job Title、所属Affiliation)
- Membership Optionは単純な「Professional Membership」で良い(ACM Digital Libraryはいらないと思う)
Continueすると、いろいろオプションを追加できる見積もり画面になるが、特にオプションは追加しないで決済に進む
自分はPaypalを使ったけれど、カード決済もできそう
決済が終わったら登録完了
その後、Create Web Accountに進む
- 先ほど登録したメールアドレスを入力すると、アカウント作成画面になる
- パスワード等を登録。アカウント名は自動生成されるようだ(もしかしたら好きなIDに変更出来たかも)
- 登録が終わったら、自分のメールアドレスにConfirmメールが届くので、リンククリックで完了
これで完了、アカウント名@acm.orgの転送専用メールアドレスが作成される

Safari Books Onlineの利用

Association for Computing Machinery > Learning Center > Safari に進むとログイン画面になるので、アカウント名(@以降は不要)とパスワードを入力
もしくはO'Reilly Media - Technology and Business Trainingで、ユーザー名にアカウント名@acm.orgを入力しても良い(ACM Lerning Centerのログイン画面に転送される)

参考

2018-08-01

PagerDuty Incident Response Documentationが良さそう（Site Reliability Engineering Workbookつまみ食い#1）

book Project Management Professional Engineer

前回の記事で紹介した「The Site Reliability Workbook: Practical Ways to Implement SRE」が気になるので、興味があるところから適当に読んでいる。

The Site Reliability Workbook: Practical Ways to Implement SRE

作者: Betsy Beyer,Niall Richard Murphy,David K. Rensin,Kent Kawahara,Stephen Thorne
出版社/メーカー: O'Reilly Media
発売日: 2018/07/25
メディア: ペーパーバック
この商品を含むブログを見る

無料公開されたSite Reliability Engineering Workbookが面白そうなので目次を機械翻訳 - 勘と経験と読経

今回は同書の「Chapter 9 Incident Response（インシデント管理）」を読んだのだけれども、その中で紹介されているPagerDuty Incident Response Documentationがかなり有用そうな印象。

前作「SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム」にも同様の章があったのだけれども、続編となる本書では具体的なケーススタディ（良いものと悪いもの）を中心にまとめられている。ケースは基本的にGoogleの障害だが、4例のうち1例だけ、表題のPagerDutyの事例になっている。加えて同社はなんと、インシデント対応に関する社内教育文書をネットに公開しているというのだ。

PagerDuty Incident Response Documentation

というわけでざっと（Chromeの翻訳機能を使いながら）読んだ見たのだけれどもかなり興味深い。ドキュメントのソースもgithubで公開されているので流用することもできそうだ。

Incident Command Systemについて調べた - 勘と経験と読経

蛇足

例のSREWorkbook本を読んでる。Googleの障害ケーススタディ（9章）障害タイトルがカッコいい。
Case Study 1: The Lights Are On but No One’s (Google) Home
Case Study 2: Cache Me If You Can
Case Study 3: Lightning Never Strikes Twice…Until It Does
いつもこんなタイトルつけてんだろうか？
— Kent Ishizawa (@agnozingdays) 2018年8月1日

2018-07-26

無料公開されたSite Reliability Engineering Workbookが面白そうなので目次を機械翻訳

book

SREを実践するための手引きとなる書籍「Site Reliability Engineering Workbook」をGoogleが無料公開、8月23日まで－ Publickeyで知ったのだけれども、以前に読んで大変参考になった「SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム」の続編「The Site Reliability Workbook: Practical Ways to Implement SRE」が無料公開中だ。もちろん続編は英語のみ。

SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

作者: 澤田武男,関根達夫,細川一茂,矢吹大輔,Betsy Beyer,Chris Jones,Jennifer Petoff,Niall Richard Murphy,Sky株式会社玉川竜司
出版社/メーカー: オライリージャパン
発売日: 2017/08/12
メディア: 単行本（ソフトカバー）
この商品を含むブログ (1件) を見る

The Site Reliability Workbook: Practical Ways to Implement SRE

作者: Betsy Beyer,Niall Richard Murphy,David K. Rensin,Kent Kawahara,Stephen Thorne
出版社/メーカー: O'Reilly Media
発売日: 2018/07/25
メディア: ペーパーバック
この商品を含むブログを見る

Google - Site Reliability Engineering

無料なのは大変ありがたいのだけど前作同様に大著でハジから読むのはちょっと骨が折れそう。せめて目次だけでも日本語で読みたいと思ったので少し調べてみたら、Safari Books Onlineで目次は全部公開されていたのでGoogle翻訳にかけてみた。十分読める翻訳になっているようだ。
というわけで、気になる章から読んでみようかと思っている。

Site Reliability Engineering Workbookの目次(Google翻訳)

勘と経験と読経

略すとKKD。ソフトウェア開発やITプロジェクトマネジメントに関するあれこれ。

DevOps的な非機能要件（運用要件）リスト

The Top Ten DevOps “Operational Requirements”

技術書「The Art of Monitoring」ナナメ読み

「The Art of Monitoring」読んだ感想。

「The Art of Monitoring」の目次と各章ナナメ読み読書メモ

英語技術書を機械翻訳で読みまくる方法

これまでの英語技術書読書環境の問題点

SafariBooksOnlineが予想以上に優秀

費用の問題

追記：会員特典としてO'Reilly Online Learningが利用できるオプションは2022/7/1からは利用できなくなります

まとめ：英語技術書を機械翻訳で読みまくる

で、最近何を読んでるかというと

参考

Postmortem Culture: Learning from Failure（Site Reliability Engineering Workbookつまみ食い#2）

ポストモーテムについて

Postmortem Culture: Learning from Failure

ACM Professional Membershipの登録

追記：会員特典としてO'Reilly Online Learningが利用できるオプションは2022/7/1からは利用できなくなります

登録方法メモ

Safari Books Onlineの利用

参考

PagerDuty Incident Response Documentationが良さそう（Site Reliability Engineering Workbookつまみ食い#1）

関連記事

蛇足

無料公開されたSite Reliability Engineering Workbookが面白そうなので目次を機械翻訳