随着业务增长、系统变得越来越复杂,工程师们(尤其是运维、oncall的人)收到的 alert 会越来越多,甚至比业务增长还快。解决 alert 的流程有不少步骤是可以自动化起来的,比如推送最相关的监控数据帮助 troubleshooting,而不用人为地打开许多不同的dashboard去拼凑各种指标。

分享到: