每天推送5篇优质英文文章 · By makers, for makers

运营 1109 天, 推荐好文 4,970 篇, 原创简评 1,020,321 字, 原文总阅读时间 43,472 分钟, 138,846 人订阅

这是 reCAPTCHA (被google收购)联合创始人 Ben Maurer (现就职于facebook)总结的实战经验:发生事故的主要原因、如何减少事故、怎样的工具支持。

Facebook在周末发生事故的次数极少、在圣诞节放假的那周以及年终给同事写peer review的那周几乎没发生事故 -- 这说明什么?大部分的事故都是自己人操作失误造成的(比如部署新代码引入bug、紧急登入服务器配置引入typo等)。hmm,其实在假期oncall并不那么糟糕嘛:)

分享到: