Post-mortems to the rescue

production 出重大事故后一定要认真写 Post-mortem 文档,记录事故发生的时间轴、本质原因、如何修复、以后如何避免、该怎么向客户解释等。

整理好这些文档还有个好处:可以拿这些文档来与公司里的非技术的管理人员讨价还价、争取资源(人、时间),用来清理 tech debt 或者做大的代码重构 -- 不然非技术人员没办法理解为啥工程师们需要花时间做与“产品无关”的事情。这些文档就是血淋淋的教训:不重视工程质量,就会出大事故。