2014/11/04 第91期

Podcast 的复兴

大约 10 年前,Podcast 好像火过一阵(Twitter 一开始的母公司 Odeo 就是做 podcast 的),后来不温不火的,但最近似乎又有了复兴的趋势 -- 为什么是现在?因为汽车开始能上网了。  

互联网上的黑市

大开眼界的文章,讲述互联网上蓬勃发展的进行毒品武器交易的黑市。

Slack 创始人的故事

前几天 Slack 新一轮融资,在产品发布短短9个月后,估值 $11.2亿。应个景,分享一篇详尽讲述 Slack 的创始人 Stewart Butterfield 的故事的文章。 当年他做游戏,失败;转而做 Flickr,火了,可惜便宜卖给了雅虎;后来又开始做游戏,失败;转而做 Slack,火了,这回他打算把这东西做大,最好能成为下一个微软。

雅虎与 FreeBSD

最近 FreeBSD 社区都在庆祝 21 周年。应景分享一个以前看到过的雅虎的联合创始人 David Filo 写的文章,讲述当年雅虎为何用 FreeBSD 作为他们的服务器操作系统。 FreeBSD 也是我大学时候的主要操作系统。当时应该是看到有文章说 hotmail 和雅虎早期都是用 FreeBSD。大约10年前,水木社区的 FreeBSD 版气氛很活跃。  

打造好的 Site Reliability Engineer 团队

这是 Google 的 SRE 团队的头给的 talk。有一些很好的观点:

  • "The product works" is the most important feature. No one pays any attention, until it breaks ...
  • 开发人员和运维的人员本质上是冲突的:Developers want to launch great features VS operations wants to make sure things don't blow up.
  • No. 1 cause of breaking things is changing things.
  • 解决 developers 和 operations 的好办法 -- 根据 SLA,设立 Error budgets,允许一定程度的出错。
  • 如果用户用来访问你的服务的设备(比如手机)没法保证 100% 稳定(比如手机有时候死机了),那你提供的线上服务也没必要100% 稳定。
  • If service is within SLA, launch away. If not, launch freeze, until you earn back enough error budget.
  • SRE团队里的人最多只能有 50% 的时间做 operations ,(理想情况下是 30%),剩下的时间都要用来编程、自动化各种操作。
  • 开发人员得 oncall,只有亲自熬夜调试 production 的问题,这样才能重视他们自己引入的 bug。
  • 每次出故障后都得总结亮点:1) how to minimize impact; 2) how to prevent recurrence.
  • Post-mortem philosophy, blameless. Focus on process and technology. Create timeline, get all the facts, create tickets for all followup work.