记录一次vSAN硬盘故障

生也有涯,知也无涯。这篇文章主要讲述记录一次vSAN硬盘故障相关的知识,希望能为你提供帮助。
一、发现故障在Veeam对虚拟机进行备份时发生错误,备份失败,多次重试无效

Error: VDDK async operation error: 1. Value: 0x0000000000000001 Failed to upload disk. Agent failed to process method DataTransfer.SyncDisk. Exception from server: VDDK async operation error: 1. Value: 0x0000000000000001 Unable to retrieve next block transmission command. Number of already processed blocks: [326]. Failed to download disk.

二、尝试解决尝试vmotion或克隆该虚拟机都失败
尝试重新创建备份任务,还是失败

三、查找对应物理磁盘由于该虚拟机的存储策略使用了单副本,不能在“vSAN--虚拟对象” 下看到和他相关的物理磁盘
所以就到“vSAN--物理磁盘”  下逐个硬盘查看,哪些物理硬盘和他相关(虚拟磁盘置备40G,理论上不会分布到多个物理磁盘)
此处找到了关联的物理磁盘,记录下naa号

此时OME也收到了 报警,该服务器的5号盘故障

记录该物理磁盘的SAS地址

SSH登录物理服务器的ESXi
运行命令,获取存储设备的信息
esxcli storage core path list


根据SAS地址找到对应的磁盘信息,该磁盘的naa号也符合我们从vSAN控制台获取的磁盘信息
此处可以确认是5号硬盘故障,在iDrac中点亮该物理磁盘

也可以在vSAN控制台点亮该磁盘(不一定有效)



四、移除物理磁盘在vSAN界面移除该物理磁盘

根据需要选择数据迁移策略,因为硬盘要替换,所以此处选择“迁移全部数据”,时间可能较长,要耐心等待

最后,该磁盘移除后,进入备选磁盘

【记录一次vSAN硬盘故障】完成上面的操作后,就可以安全更换磁盘了
从iDrac采集日志提供给Dell,他们会确认故障并安排工程师上门更换硬盘


五、后续尝试对备份错误的虚拟机如下操作:
克隆,失败
备份,失败
还原(仅回滚差异数据),成功,但重新备份失败
删除虚拟机,用备份还原,重新备份,成功


六、总结本次故障是从备份错误发现端倪,在iDrac报警后,vSAN仍然没有任何告警,估计是物理磁盘的某些性能下降,阈值触发了iDrac和备份错误,但此时数据仍然可用,也顺利迁移数据成功,没有引发业务问题。但出于安全考虑还是应该尽快更换磁盘。
iDrac和OME配合设置硬件告警,也记得配置哦。

    推荐阅读