Oncall 的时候接到警报该怎么应对

2016/11/16 · 第760期 · 刷出好文章
原链:blog.scalyr.com · 9分钟读完

文章分享了他们 oncall 时候接到警报后的三个动作:Communicate,及时分享警报的情况给团队,发邮件或在群聊工具上发出;Learn,搜集尽可能多得信息,log、metrics、各种有助于诊断与恢复系统的蛛丝马迹;Act,行动起来解决问题,如有必要,安排相关人员开会讨论如何在未来避免这种事故。

互联网公司里的工程师一般都要轮班 oncall,24小时任何时候系统出故障了都得第一时间处理。公开、透明、诚实地沟通是很关键的;如果是人为犯错了,要对事不对人,不然以后出故障了,大家都不敢承认自己犯的错误,遮遮掩掩的,反而耽误了修复故障的时机。

浏览量:3661
Tags: engineer · oncall
猜你喜欢:

我读过的好书、 用过的好工具推荐: