每天推送5篇优质英文文章 · By makers, for makers

运营 852 天, 推荐好文 3,890 篇, 原创简评 818,667 字, 原文总阅读时间 32,940 分钟, 82,936 人订阅

文章分享了他们 oncall 时候接到警报后的三个动作:Communicate,及时分享警报的情况给团队,发邮件或在群聊工具上发出;Learn,搜集尽可能多得信息,log、metrics、各种有助于诊断与恢复系统的蛛丝马迹;Act,行动起来解决问题,如有必要,安排相关人员开会讨论如何在未来避免这种事故。

互联网公司里的工程师一般都要轮班 oncall,24小时任何时候系统出故障了都得第一时间处理。公开、透明、诚实地沟通是很关键的;如果是人为犯错了,要对事不对人,不然以后出故障了,大家都不敢承认自己犯的错误,遮遮掩掩的,反而耽误了修复故障的时机。

分享到:

选一种适合你的订阅方式: 33,508 人 · 23,240 人 · 6,745 人 · 6,519 人 · 5,203 人 · 4,847 人 · 1,973 人 · 826 人 · 44 人 · 31 人