服务器批量重启修复案例

告警产生

4月16日上午7:30分左右,福州某市医院20多台服务器批量重启,通知现场工程师。

故障分析定位

1、通过批量重启告警信息,发现内网esxi53主机硬件告警,初步判断是X86设备esxi53发生故障,导致esxi53上的虚拟服务器进行迁移重启。

告警提示

查打开esxi53设备详情,查看磁盘运行信息,显示2块磁盘运行正常。

基本可以排除磁盘故障。

磁盘运行正常


2、在9:20左右,服务器再次发生批量重启现象,在批量重启信息中,有“内网ESXi54 主机硬件-x86-温度状态异常告警”

温度异常告警

查看ESXi54硬件故障告警详情,可以看到内存,PCH和PCLe同时温度状态异常告警,推测ESXi54硬件故障,导致esxi54上的虚拟服务器进行迁移重启.

大胆假设,谨慎求证。

于是LinkSLA二级工程师,登录客户主机管理,发现esxi53、esxi54两台主机的虚拟机服务器重启时和平台监控到的内存PCH和PCLe同步存在温度异常告警。

pch、pcle温度异常

因此,可以初步判断,当esxi53、esxi54两台主机在内存状态异常时,内存发现异常。因此出现虚拟机批量迁移到其它主机的现象。

三、后续处理措施和建议

故障修复,建议跟换内存条。通过后续系统检测,此类故障再也没有发生,问题得到解决。

系统的健康稳定,需要时时掌握系统的运行状态,根据AI趋势性算法,做好提前预防,将问题扼杀在摇篮中。

LinkSLA智能运维管家,提供一站式运维服务

展开阅读全文

页面更新:2024-04-28

标签:批量   服务器   磁盘   故障   异常   温度   内存   状态   案例   主机   硬件

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top