每天推送5篇优质英文文章 · By makers, for makers

运营 1568 天, 推荐好文 6,435 篇, 原创简评 1,267,127 字, 原文总阅读时间 57,775 分钟, 196,873 人订阅

作者根据他在这两个公司的经历,总结了生产事故发生的主要原因 -- 是的,Google的网站也是会挂掉的。修改配置文件、人为的操作失误、硬件故障等都是常见原因。而监控不全面、警报不及时,会让事情更雪上加霜。

每次事故后,都要有postmortem,总结一下 root cause,改进工具、改进做事的 process,避免再犯同样的错误。

打赏 如果你觉得我推荐的这篇文章(或我写的简评)不错,对你有所启发,可以考虑请我喝杯咖啡。 感谢 236 位读者捐款了 $1,742.55
分享到:
App 内打开