作者根据他在这两个公司的经历,总结了生产事故发生的主要原因 -- 是的,Google的网站也是会挂掉的。修改配置文件、人为的操作失误、硬件故障等都是常见原因。而监控不全面、警报不及时,会让事情更雪上加霜。

每次事故后,都要有postmortem,总结一下 root cause,改进工具、改进做事的 process,避免再犯同样的错误。

分享到: