这是 reCAPTCHA (被google收购)联合创始人 Ben Maurer (现就职于facebook)总结的实战经验:发生事故的主要原因、如何减少事故、怎样的工具支持。

Facebook在周末发生事故的次数极少、在圣诞节放假的那周以及年终给同事写peer review的那周几乎没发生事故 -- 这说明什么?大部分的事故都是自己人操作失误造成的(比如部署新代码引入bug、紧急登入服务器配置引入typo等)。hmm,其实在假期oncall并不那么糟糕嘛:)

分享到: