这次阿里云新加坡 C 区的火灾影响了很多依赖其服务的公司,我们的小公司也深受波及。
### 10 号早上:
我们发现服务不可用,SSH 无法连接。紧急登录阿里云后,看到服务器被莫名其妙地关机了。我们立即点击重启,并提交了工单。然而工单的回复却让我们提供服务器崩溃日志——事实上,真正的原因是火灾。
### 10 号中午:
午饭时,我们看到了新闻,阿里云新加坡 C 区发生火灾。这时,我们还没有意识到应该立即进行服务器备份和迁移。
### 10 号下午:
虽然服务恢复了,但由于上下游服务依然依赖阿里云,也不同程度受到了影响。比如 Lazada 无法获取面单,Flash 仓库无法推送仓库指令。整个下午都在安抚客户,并尽量提供情绪支持。
### 10 号晚上 8 点:
晚上 8 点,服务再次中断,尽管机器没有显示停机,但监控数据表明 CPU 和内存占用降到了 0 。我们意识到磁盘可能已经挂掉了。由于没有备份,我们开始购买新机器,并重新部署、修改 Nginx 和 DNS 等配置。刚刚迁移完最重要的两个服务,原本的机器又恢复了。这时我们立即给机器做了镜像,认为火灾已经得到控制,剩下的服务便没有迁移。
### 11 号早上:
一大早在群里得知服务再次中断,所幸我们有了镜像,迅速恢复到新机器,并修改了 DNS 解析,终于结束了这次危机。
### 这次事件的教训:
1. **不要过度依赖大厂的效率**:关键时刻,大厂的响应速度和可靠性未必能够保证。
2. **能用钱解决的问题尽早解决**:发现问题后,应该尽快换区并将所有服务迁移,避免更大的损失。
3. **不要怕麻烦**:提前做好备份和迁移工作可以在突发事件中减少很多麻烦。
这次的火灾为我们上了一课,数据和服务的安全性永远不能轻视。 |
|