Stack Overflow 网站挂掉的事故报告

写得很不错的 postmortem,也可以当范文来学习。匹配空格的正则表达式性能差,某个Stack Overflow的帖子包含了2万个连续空格,而且该帖子上了网站首页,所以网站首页访问奇慢无比。

他们靠检查首页做health check,首页访问慢的话就让 load balancer 误以为网站挂了;于是无法处理任何网站的访问。网站算挂掉了。他们用10分钟找出根本原因,用14分钟写代码修复,10分钟部署代码;全程挂了34分钟。