GitLab 员工误删数据库、永久性丢失6小时数据的总结与反省

多起事件环环相扣,致命一击:工程师晚上11点还在工作,有点疲劳了,删除数据文件夹1、2秒后猛然惊醒,删错机器了,那是 db1!试了5种不同备份恢复机制,没一个有效的;只好痛失6小时数据。

看热闹之余,大家也要引以为戒。尽量别在 prod 上手动敲命令,尤其是在深夜、疲劳、独自一人的情况下;备份、恢复机制得经常演习,不然真到要用的时候肯定没一个能 work 的。

以前有个同事,他登录 prod 机器时固定用火车相撞的图片做 terminal 的背景,以提醒自己小心谨慎、别干傻事。不过有一次半夜还是 fat finger 重启了 master db ... 老司机也不能疲劳驾驶啊!

老战士们都喜欢交流 war stories,丰功伟绩也好、生产事故也罢,都是谈资。