Booklog - ポストモーテム みずほ銀行システム障害事後検証報告

日経コンピュータ

はじめに ~ 第 1 章。みずほ銀行は 2021-02 ~ 2022-02 で 11 回の障害を起こした。怒涛の障害ラッシュで金融庁・財務省が行政処分を下した。外為法違反でチェックメイト。 そこからシステムに求められる resiliency(復元性)を高めるきっかけとなるのが本書の狙い。 日経コンピュータ的にもみずほ前作で SOA の耐障害性を持ち上げたこともあってその責任を取る必要を感じている。 目次見てても「なぜ頭取に情報が届かなかったのか」て書いてて、前作で改善するって言ってたやつやん...となっている。金融庁も「社風に問題がある」と指摘してるの的確だ。 進退をかけて指揮ってインタビューされてた方も引責辞任。その後に作成された再発防止策「システム障害の語り継ぎ」、何も社風改善する気ないだろこれ。フォークロアじゃないんやから。エンジニアリングを諦めてるやん。 本書というかこのシリーズを読むにあたり、あと勝ち的な意見になる点だけは注意したい。 ただ前作を読んだ時にも思った、エンジニアリングで対処してない点・システムそれ自身より技術への解像度や変化への適応といった組織的な問題ってのは、当たってたな。 にしても「重要な試験の受験を見送った」て何なんだろ。これに 5000 円の QUO カードか...場合によっては人の人生歪めたのに対し安すぎやせんか。その点でも引くな。

2026-06-03, read count: 1, page: 1 ~ 46, pages read: 46

第 2 章。2021-02 ~ 2022-02 までに起こった 11 の障害の説明。 ハードウェアが故障するのも何故か障害が連鎖するのも経験から知っているが、ちょっと重大事故が多すぎる気がするな。 原因としては、通常運用時の情報共有の未熟さ、障害対応体制の不備、マニュアル変調で自律性のない現場力、設定の不整合に気づけない大局観のなさ。 特に、リハーサルで見つかった問題に対応しないのってわたしは好きじゃない言葉だが技術的負債、所謂先延ばしってことだと思うが、複数回その現象を見て先送りするってどういう判断なんだろ。 負荷試験にもならない試験をやってたのも気になる。概ね考えられる理由としてはチームが成熟するまで人員を維持できない仕組みが組織にあるんだろな。 ジョブローテーションが人脈開発につながるからとか、コスト圧縮とか、あるいは前作でもあったけど失敗の報告を悪しきものとする組織文化なんかなあやっぱり。

2026-06-04, read count: 1, page: 47 ~ 106, pages read: 60

第 3 章。わずか 1 年間に 11 の重大な障害を起こし、かつ軽微な障害が重大化した理由を考察。 使用している技術要素に対する解像度の低さ。時代遅れの仕様の維持。単一障害点をはらむ分散トランザクション設計の不備。運用監視体制の貧弱さ。運用監視の組織分断によるコミュニケーションエラー。 障害管理体制の設計不備。緊急事態でも局所最適化が合理的となる組織構造。機器の刷新を怠り故障率が上昇。 これらは現象であるので、この原因としてはやはり前作から垣間見えたエンジニアリングの放棄じゃないかな。 組織的に事業の根幹であるシステムを軽んじてるからシステムに対するオーナーシップが醸成されてなかったのも運用が会社間で分断されてることから読み解ける気がする。 確証バイアスあるけど、前作で想像したとおりではあるな。やはり組織文化が変わってないことで失敗を繰り返しながらも学習を放棄してるんだろうな。 失敗の本質で触れられてたような話を未だにやってたというのがすごいな。

2026-06-05, read count: 1, page: 107 ~ 168, pages read: 62

第 4 章 ~ おわりに 。5 章は原作の障害部分とほぼ同じで暇な感じ。後半かなりおもんないので早足で読んだ。本書はコレで終わり。 金融庁による原因の指摘。大体予想通りやが、役員の知識不足、専門性のない CIO を指名した責任とか、一段辛らつやな。 真因として指摘される、やるべきことをやらない/言われたことしかやらない、というのは自律性を発揮しないことが合理的になる組織力学、例えば恐怖による支配なんかが働いていたと考えるのが妥当やろな。 DevOps を理解していないのは組織構造からも鮮明やし。ただ本書では急に SRE に飛び級しようとしてるのはは危ないんじゃないかな。マインドが整わないままプラクティスだけ導入して失敗するのはよくあるケースな気がする。 同様の同業種の大規模障害は国内国外共にあるが、連続して発生するのはみずほだけ。 その理由としてずっと指摘されているシステム軽視・社会影響と顧客軽視の姿勢というのは理屈が通るな。 失敗の原因の分析は金融庁のレポートより先に踏み込んでないし、この本が新しく付け加えた内容はほぼないんだろうなと思った。 技術組織の運営に留まらず広く企業のあり方の問題なので難しいことはわかるが、ちょっと浅いなという感想。 コレは本書と関係ないが、今回中古で 450 円で「良い」のコンディションを買ったけど食べ零しのような汚れや痛み多くて過去一汚かった。値段相応ということかな。保存用にまた買うか?でもそんなに面白い本じゃないしな...

2026-06-06, read count: 1, page: 169 ~ 312, pages read: 144

Years (3)

Books (52)