Stack Overflow 网站挂掉的事故报告

2016/07/21 · 第645期 · 刷出好文章
原链:stackstatus.net · 4分钟读完

写得很不错的 postmortem,也可以当范文来学习。匹配空格的正则表达式性能差,某个Stack Overflow的帖子包含了2万个连续空格,而且该帖子上了网站首页,所以网站首页访问奇慢无比。

他们靠检查首页做health check,首页访问慢的话就让 load balancer 误以为网站挂了;于是无法处理任何网站的访问。网站算挂掉了。他们用10分钟找出根本原因,用14分钟写代码修复,10分钟部署代码;全程挂了34分钟。

浏览量:2286
Tags: postmortem · stackoverflow
猜你喜欢:

我读过的好书、 用过的好工具推荐: