事件概述
今天偶然间登录阿里云控制台, 突然发现被扣了一笔钱, 一看是 ECS, 可我是包年的啊, 再仔细看, 卧槽超额 CPU 积分(机器是突发性能型, 当 FRP 机器以及 Easytier 内网组网用的).
SSH 无法连接, VNC 登上去一看, verysync 持续占用 CPU 99%, 看了眼阿里云的监控持续了两天多.
应急处置
事后复盘
- 没开启阿里云的告警规则
- 没限制 journal 日志大小 (e.g.
journalctl --vacuum-size=500M ) 导致日志打满硬盘, 触发了未知 BUG.
- Easytier 日志一天就 1GB 以上了, 没有想到会这么多.
整改措施
- 开启阿里云告警规则, 持续 1h 高 CPU 占用即电话告警.
- 限制 journal 日志大小为 500M.
- 调整 Easytier 日志级别为 WARN.
- 磁盘占用告警(未完成)
事故影响
分享给飞友, 偶尔还是要登录自己的机器看看() |