每天推送5篇优质英文文章 · By makers, for makers

运营 992 天, 推荐好文 4,485 篇, 原创简评 925,259 字, 原文总阅读时间 38,645 分钟, 119,511 人订阅

这是2月28日一个工程师 fat finger、敲错命令而引起的巨大故障。S3 故障就意味着大部分于 2010 年以后成立的美国的酷炫著名互联网公司们的线上服务也出现故障。

给人用的工具(如命令行程序)的设计(如命令行参数、脚本对错误的处理)一定要考虑人是必然会犯错误的、要减少自己人擦枪走火的情况。大部分 production 的事故都是因为“改变”而引起的,改了代码/配置、引入 bug,或者人为操作、敲错命令。所以星期五下午尽量不要进行 production 的“改变”,不然周末就有可能不好过了。

分享到:

选一种适合你的订阅方式: 38,603 人 · 46,981 人 · 8,681 人 · 7,956 人 · 6,853 人 · 6,889 人 · 2,456 人 · 1,007 人 · 41 人