1. 凯发k8国际

      当前位置 > 凯发k8国际 > 服务 > 服务器 > KunTai R722服务器硬盘IO异常问题分析

      KunTai R722服务器硬盘IO异常问题分析

      发布时间:2025-12-29

      一、现网描述

      1.1 环境描述

      产品型号:KunTai R722

      硬件配置:MegaRAID 9560-8i 4GB、HUAWEI HWE62ST3480L003N、SP380、SP333

      软件配置:BMC、BIOS、CPLD版本:3.02.05.22、1.85、7.02

       

      二、故障描述

      5月22日凌晨4点57分NCE-Fabric控制器上报OVSDB链路断链、JsonRpc链路断链、设备状态Down等告警,几秒后自动清除,业务无影响

      image.png

       

      三、问题分析

      3.1   硬件日志分析

      1. 查看current_event日志文件,当前设备无告警,健康状态良好。

      image.png

      2. 分析sel事件记录日志,该设备在近期无问题相关异常事件打印。

      image.png

      3. 分析RAID_Controller_Info日志,当前raid卡9560-8i状态正常。

      image.png

      4. 分析Raid组状态,发现设备仅配置一个RAID10,当前状态正常。

      image.png

      5. 分析物理磁盘状态,发现Disk0有部分Other Error错误计数,说明该磁盘内部可能存在故障。

      image.png

      6. 分析LSI_RAID_Controller_Log日志,故障发生时raid控制器记录到Disk0出现Unexpected sense2/04/00报错。image.png

      7. 深入分析Raid卡日志,发现Disk0在2/04/00持续20s后触发reset复位。image.png

      8. 当前raid卡固件(5.200.02.3681)异常处理流程。

      image.png

      3.2   分析结论

      综上,故障发生是由于Disk0 磁盘异常并处于not ready状态,Raid卡在诊断磁盘状态时,会导致IO阻塞,使IO冲高到100%。

       

      四、问题解决

      4.1  解决办法

      更换问题硬盘Disk0;

      新版raid卡固件52.27.0-5172,已修复not ready导致IO长时间hang问题,升级Raid卡固件版本解决。

      DCSG01489595 Fix Ses device not ready handling path

      image.png

      检测到磁盘状态not ready之后,会做五次重试并且设备被标记为故障进行踢盘。整个重试过程会产生两秒延迟。当处理not ready情形,对于存储设备将交由上层(raid卡)处理重试。

       

      400-810-9119
      7天*24小时全天候接听客户的任何需求。是接入最快捷、响应最及时的全真人服务窗口,节假日无休;并为VIP客户设置专属坐席,让最分析您的服务代表时刻为您服务。
      除了常规技术问题的服务请求,客户对于服务有任何建议和意见,可顺利获得服务邮箱发送邮件,邮件将直达服务经理,为您给出满意的答复。
      官方微信
      • 凯发k8国际

      微信搜索【凯发k8国际】公众号,点击对话窗口发送信息,和凯发k8国际进行沟通,解决您随时想到的任何咨询。