介绍Google的DiRT的文章。DiRT指的是Disaster Recovery Testing,是Google每年、持续几天、全公司范围内的灾难演习,比如因为大地震,几个数据中心彻底被摧毁、Mountain View大本营彻底断网。

这种演习需要各部门协同配合,不光是技术部门的事。如果Mountain View大本营彻底断网了,谁来做决策?海外的同事能否承担起oncall的责任?大家没网干不了活,会不会人肉DDoS了所有食堂(哈哈哈)?

Youtube上有作者给的Talk

分享到: