每天推送5篇优质英文文章 · By makers, for makers

运营 1174 天, 推荐好文 5,230 篇, 原创简评 1,071,581 字, 原文总阅读时间 46,002 分钟, 149,990 人订阅

Asana 前天中断服务83分钟,本文对此次事故进行分析:深夜部署新代码,引入太多logging占用过多CPU资源;晚上没啥人用,所以一夜无事无警报;到了白天访问量多了起来,引发连锁反应。

他们oncall的人起初不当一回事;后来重视起来了但判断错误耽搁了找到事故原因的时间。有不少教训在这里:避免深夜或者节假日部署代码,做好监控与警报(如cpu使用与往日同时间相比有异常),做好oncall人员的培训,能快速rollback到一个好的代码版本(他们就是出事了而不知道哪个版本的代码是好的,没办法及时rollback)。

分享到: