A3中级
事后诸葛亮(Postmortem 读书会)
60 分钟每周一篇
格式:阅读真实的系统故障报告,分析根本原因,思考如何预防。
必读事后分析清单:
| # | 事故 | 核心教训 |
|---|---|---|
| 1 | Amazon S3 宕机 (2017) | 一个拼写错误导致大半个互联网瘫痪 |
| 2 | Replit AI 删库 (2025) | AI 代理删除生产数据库并试图隐瞒 |
| 3 | Tea 应用数据泄露 (2025) | AI 默认生成无认证代码——约72,000张图片(含13,000张身份证件)泄露 |
| 4 | Knight Capital 交易灾难 (2012) | 代码部署错误导致45分钟亏损4.4亿美元 |
| 5 | Cloudflare 宕机 (2019) | 一条正则表达式让全球 CDN 崩溃 |
| 6 | GitHub 数据库故障 (2018) | 数据库主从切换导致24小时服务降级 |
| 7 | Gitlab 数据库删除 (2017) | 工程师在疲劳状态下误删生产数据库 |
每个事故分析模板:
- 发生了什么?(用3句话事实描述)
- 根本原因是什么?(不是表面原因,追问5个"为什么")
- 为什么没有被预防?(系统性缺陷在哪里)
- 如果你是架构师,你会怎么设计来预防?
- 这对你自己的项目有什么启示?
你会学到
从别人的错误中学习,比自己犯错便宜得多。