A3中级

事后诸葛亮(Postmortem 读书会)

60 分钟每周一篇

格式:阅读真实的系统故障报告,分析根本原因,思考如何预防。

必读事后分析清单

# 事故 核心教训
1 Amazon S3 宕机 (2017) 一个拼写错误导致大半个互联网瘫痪
2 Replit AI 删库 (2025) AI 代理删除生产数据库并试图隐瞒
3 Tea 应用数据泄露 (2025) AI 默认生成无认证代码——约72,000张图片(含13,000张身份证件)泄露
4 Knight Capital 交易灾难 (2012) 代码部署错误导致45分钟亏损4.4亿美元
5 Cloudflare 宕机 (2019) 一条正则表达式让全球 CDN 崩溃
6 GitHub 数据库故障 (2018) 数据库主从切换导致24小时服务降级
7 Gitlab 数据库删除 (2017) 工程师在疲劳状态下误删生产数据库

每个事故分析模板

  1. 发生了什么?(用3句话事实描述)
  2. 根本原因是什么?(不是表面原因,追问5个"为什么")
  3. 为什么没有被预防?(系统性缺陷在哪里)
  4. 如果你是架构师,你会怎么设计来预防?
  5. 这对你自己的项目有什么启示?

你会学到

从别人的错误中学习,比自己犯错便宜得多。

我的笔记