每天推送5篇优质英文文章 · By makers, for makers

运营 1473 天, 推荐好文 6,170 篇, 原创简评 1,223,664 字, 原文总阅读时间 55,133 分钟, 184,559 人订阅

Asana 前天中断服务83分钟,本文对此次事故进行分析:深夜部署新代码,引入太多logging占用过多CPU资源;晚上没啥人用,所以一夜无事无警报;到了白天访问量多了起来,引发连锁反应。

他们oncall的人起初不当一回事;后来重视起来了但判断错误耽搁了找到事故原因的时间。有不少教训在这里:避免深夜或者节假日部署代码,做好监控与警报(如cpu使用与往日同时间相比有异常),做好oncall人员的培训,能快速rollback到一个好的代码版本(他们就是出事了而不知道哪个版本的代码是好的,没办法及时rollback)。

打赏 如果你觉得我推荐的这篇文章(或我写的简评)不错,对你有所启发,可以考虑请我喝杯咖啡。 感谢 178 位读者捐款了 $1,101.99
分享到:
App 内打开