文章分享了他们 oncall 时候接到警报后的三个动作:Communicate,及时分享警报的情况给团队,发邮件或在群聊工具上发出;Learn,搜集尽可能多得信息,log、metrics、各种有助于诊断与恢复系统的蛛丝马迹;Act,行动起来解决问题,如有必要,安排相关人员开会讨论如何在未来避免这种事故。

互联网公司里的工程师一般都要轮班 oncall,24小时任何时候系统出故障了都得第一时间处理。公开、透明、诚实地沟通是很关键的;如果是人为犯错了,要对事不对人,不然以后出故障了,大家都不敢承认自己犯的错误,遮遮掩掩的,反而耽误了修复故障的时机。

分享到:

选一种适合你的订阅方式: 37,950 人 · 46,981 人 · 8,073 人 · 7,762 人 · 6,621 人 · 6,422 人 · 2,362 人 · 985 人 · 41 人