每天推送5篇优质英文文章 · By makers, for makers

运营 962 天, 推荐好文 4,360 篇, 原创简评 902,312 字, 原文总阅读时间 37,353 分钟, 116,708 人订阅

Asana 前天中断服务83分钟,本文对此次事故进行分析:深夜部署新代码,引入太多logging占用过多CPU资源;晚上没啥人用,所以一夜无事无警报;到了白天访问量多了起来,引发连锁反应。

他们oncall的人起初不当一回事;后来重视起来了但判断错误耽搁了找到事故原因的时间。有不少教训在这里:避免深夜或者节假日部署代码,做好监控与警报(如cpu使用与往日同时间相比有异常),做好oncall人员的培训,能快速rollback到一个好的代码版本(他们就是出事了而不知道哪个版本的代码是好的,没办法及时rollback)。

分享到:

选一种适合你的订阅方式: 37,878 人 · 46,981 人 · 7,758 人 · 7,718 人 · 6,578 人 · 6,377 人 · 2,351 人 · 982 人 · 41 人