每天推送5篇优质英文文章 · By makers, for makers

运营 857 天, 推荐好文 3,910 篇, 原创简评 821,904 字, 原文总阅读时间 33,128 分钟, 83,152 人订阅

Asana 前天中断服务83分钟,本文对此次事故进行分析:深夜部署新代码,引入太多logging占用过多CPU资源;晚上没啥人用,所以一夜无事无警报;到了白天访问量多了起来,引发连锁反应。

他们oncall的人起初不当一回事;后来重视起来了但判断错误耽搁了找到事故原因的时间。有不少教训在这里:避免深夜或者节假日部署代码,做好监控与警报(如cpu使用与往日同时间相比有异常),做好oncall人员的培训,能快速rollback到一个好的代码版本(他们就是出事了而不知道哪个版本的代码是好的,没办法及时rollback)。

分享到:

选一种适合你的订阅方式: 33,622 人 · 23,240 人 · 6,724 人 · 6,548 人 · 5,235 人 · 4,881 人 · 1,993 人 · 834 人 · 44 人 · 31 人