这个故障比较奇葩,目前没有解决但是不影响使用,只是比较稀奇,给大家看个新鲜。
机器是 JD 买的 DELL T150 塔式服务器,非原厂配置,应该是店铺升过级,没有显卡,没有阵列。
最早是同事装的 Ubuntu 22.04 Desktop, 软件只装了 KVM, 跑几个虚拟机,开始几个月正常,某天一早上班机器连不上,发现是死机了,所有指示灯包括网卡灯都熄灭,而且按电源开关也无法开机,只能拔电源重插才能开机。
检查了 log, 硬盘 smart, 跑了 CPU 、内存压测都没什么发现。
后来一段时间在执行 apt update 时又死机了几次,于是找了 400 售后,收集了 iDRAC(DELL 的服务器管理维护组件)日志交给对方,没发现什么异常,什么都没记录到,在对方建议下升级了 iDRAC 和 BIOS ,发现也无效。
后来找了店铺售后,说怀疑电源插座、系统、工况之类,虽然知道是屁话我还是给搬了个位置,换了电源线,连键盘鼠标显示器都换了,最后重装了系统(Ubuntu 22.04 Server). 装完系统感觉分区不合适,于是准备重装一遍,这时发现能稳定复现故障了,那就是只要 U 盘引导 Ubuntu 22.04 ,没等到安装选单出来必死,而且跟温度有关,第一次安装是刚搬过来,冷却了一段时间所以没事。再后来售后上门更换了主板,换完之后我当着上门师傅的面测试,第一遍能正常引导,然后进系统跑了几分钟压测,重新引导死机,不过这个师傅只负责换主板,其他的处理不了。 重新找店铺售后,远程桌面让他操作,从 iDRAC 用网络映射 ISO 的方式引导,能正常进入。用 U 盘引导就会死机,这时售后居然开始甩锅给我的 U 盘,感觉简直是在侮辱智商……最后是死活不认有问题,只说不放心让发回去给他们压测。 后来发现 Ubuntu 20.04 随便怎么折腾都正常,机器也是测试用途,就没再管。 总结下就是运行 Ubuntu 22.04 小概率会死机,热机器 U 盘引导 Ubuntu 22.04 镜像必定死机,网络挂载 ISO 引导正常(可能是因为速度比 U 盘慢),apt upgrade 有更新时很大概率会死机,Ubuntu 20.04 随意引导或是压测都没问题。 PS: U 盘是 USB3.0 的,读取大概 160M/S, Ubuntu20.04 、Ubuntu 22.04 都在官方支持系统列表中。 |
|