每天推送5篇优质英文文章 · By makers, for makers

运营 1108 天, 推荐好文 4,965 篇, 原创简评 1,019,395 字, 原文总阅读时间 43,416 分钟, 138,830 人订阅

这是 Google 的 SRE 团队的头给的 talk。有一些很好的观点:
  • "The product works" is the most important feature. No one pays any attention, until it breaks ...
  • 开发人员和运维的人员本质上是冲突的:Developers want to launch great features VS operations wants to make sure things don't blow up.
  • No. 1 cause of breaking things is changing things.
  • 解决 developers 和 operations 的好办法 -- 根据 SLA,设立 Error budgets,允许一定程度的出错。
  • 如果用户用来访问你的服务的设备(比如手机)没法保证 100% 稳定(比如手机有时候死机了),那你提供的线上服务也没必要100% 稳定。
  • If service is within SLA, launch away. If not, launch freeze, until you earn back enough error budget.
  • SRE团队里的人最多只能有 50% 的时间做 operations ,(理想情况下是 30%),剩下的时间都要用来编程、自动化各种操作。
  • 开发人员得 oncall,只有亲自熬夜调试 production 的问题,这样才能重视他们自己引入的 bug。
  • 每次出故障后都得总结亮点:1) how to minimize impact; 2) how to prevent recurrence.
  • Post-mortem philosophy, blameless. Focus on process and technology. Create timeline, get all the facts, create tickets for all followup work.
分享到: