每天推送5篇优质英文文章 · By makers, for makers

运营 1587 天, 推荐好文 6,470 篇, 原创简评 1,272,128 字, 原文总阅读时间 58,079 分钟, 198,294 人订阅

这是 Google 的 SRE 团队的头给的 talk。有一些很好的观点:

  • "The product works" is the most important feature. No one pays any attention, until it breaks ...
  • 开发人员和运维的人员本质上是冲突的:Developers want to launch great features VS operations wants to make sure things don't blow up.
  • No. 1 cause of breaking things is changing things.
  • 解决 developers 和 operations 的好办法 -- 根据 SLA,设立 Error budgets,允许一定程度的出错。
  • 如果用户用来访问你的服务的设备(比如手机)没法保证 100% 稳定(比如手机有时候死机了),那你提供的线上服务也没必要100% 稳定。
  • If service is within SLA, launch away. If not, launch freeze, until you earn back enough error budget.
  • SRE团队里的人最多只能有 50% 的时间做 operations ,(理想情况下是 30%),剩下的时间都要用来编程、自动化各种操作。
  • 开发人员得 oncall,只有亲自熬夜调试 production 的问题,这样才能重视他们自己引入的 bug。
  • 每次出故障后都得总结亮点:1) how to minimize impact; 2) how to prevent recurrence.
  • Post-mortem philosophy, blameless. Focus on process and technology. Create timeline, get all the facts, create tickets for all followup work.
打赏 如果你觉得我推荐的这篇文章(或我写的简评)不错,对你有所启发,可以考虑请我喝杯咖啡。 感谢 239 位读者捐款了 $1,757.52
分享到:
App 内打开