每天推送5篇优质英文文章 · By makers, for makers

运营 1205 天, 推荐好文 5,350 篇, 原创简评 1,091,686 字, 原文总阅读时间 47,168 分钟, 153,647 人订阅

这是2月28日一个工程师 fat finger、敲错命令而引起的巨大故障。S3 故障就意味着大部分于 2010 年以后成立的美国的酷炫著名互联网公司们的线上服务也出现故障。

给人用的工具(如命令行程序)的设计(如命令行参数、脚本对错误的处理)一定要考虑人是必然会犯错误的、要减少自己人擦枪走火的情况。大部分 production 的事故都是因为“改变”而引起的,改了代码/配置、引入 bug,或者人为操作、敲错命令。所以星期五下午尽量不要进行 production 的“改变”,不然周末就有可能不好过了。

分享到: