中国存储论坛

 找回密码
 立即注册

手机号码,快捷登录

查看: 8183|回复: 0

某局点磁盘阵列双盘失效处理案例 (转)

[复制链接]
发表于 2016-7-21 14:28:12 | 显示全部楼层 |阅读模式
安全库半导体世界IT采购网半导体联盟
某局点磁盘阵列双盘失效处理案例

背景描述:
   
在一次给某局点处理磁盘阵列的问题时,发现该局点磁盘阵列为华为早期的Oceanstor5000磁盘阵列,由于设备运行时间长,现出现双盘失效的问题,导致业务的不可用。

故障定位判断:

通过日志能够了解到,RAID组随着磁盘故障从“降级”状态到“失效”状态。时间发生在“2015-4-13 11:52 ”左右,为了便于恢复磁盘发生故障时的数据,必须确认双盘或多盘发生故障的先后顺序。通过日志确认“2015-4-13 11:52:44”0框9号槽位磁盘发生故障,“2015-4-13 11:53:49”0框8号槽位磁盘发生故障。

解决方案:

1、故障磁盘坏道修复

如果是磁盘坏道引起的磁盘故障,那么首先得检查故障磁盘的坏道情况,然后尝试修复坏道的扇区,对于坏道情况严重的磁盘,建议在倒出故障磁盘的数据后重新替换新的磁盘。

①  使用SSH远程连接工具登陆到OceanStor存储设备中,进入到“debug bash”模式,然后使用“disktool –f A | grep Current_Pending_Sector”命令来查看所有磁盘当前的坏道情况。通过命令发现,第一块磁盘和第十七块磁盘分别都有一个扇区坏道。
②  通过“diskscan.sh -q”命令查看每块硬盘对应的设备号,对于步骤1中确定的第一块和第十七块磁盘它们对应的设备号分别是:“/dev/sda”和“/dev/sdq”
③  上传三个工具到存储设备中,它们分别是:disktool、BadLbaRepairtool_EX、DiskRepair.sh。把它们上传到存储设备系统的某个目录下,然后使用“chmod +x disktool BadLbaRepairtool_EX DiskRepair.sh”命令给这三个文件增加个执行的权限。(注:这三个工具随文档附带)。
④  对于确认有坏道的磁盘,进入到存放修复工具的目录,执行“./DiskRepair.sh 设备号”命令来修复坏道磁盘的扇区,直至修复完成。
2、故障处理

检查故障磁盘是否插好,如果没有插好,请重新拔插一次,确保磁盘插入正确。通过存储系统的管理IP登陆到命令行管理终端,通过“showdisk -p”来查看所有磁盘的物理连接状态,所有磁盘连接正确。

①通过“showdisk -l”命令查看所有磁盘的逻辑状态,发现8号和9号槽位的逻辑状态为“Fault”。
②通过“showlun”查看故障磁盘所在RAID组中的“LUN”的状态,发现“LUN”ID为0,1,2,5的“LUN”的状态为“Fault”。
③进行“debug bash”模式,密码为“654321”,然后进入到“mml”模式,执行“revive disk 0,8”修复0框8号位磁盘。
④通过命令“revive raidlun 0”修复故障的“LUN”,“LUN”ID为0,1,2,5的LUN恢复正常。
⑤使用“exit”命令依次退出“mml”和“debug bash”模式,然后使用命令“showdisk -l”查看0框8号磁盘的修复状态(修复成功)。
⑥更换9号磁盘重构;假如存储支持预拷贝,可以优先把8号磁盘的数据给预拷贝出来。至此故障基本完成。

3、问题总结:

个人认为:我们搞存储行业的,数据一直是我们的上帝,在面对数据时,一定要谨慎!谨慎!再谨慎!没有一个合理的解决方案,尽量不要随便动客户的设备。每执行一步都需三思而后行!有可能一步就是天堂,也可能一步就是地狱。个人在操作时都让客户把数据备份一份出去,以防止不必要的意外发生!这仅仅代表个人的一点看法。
文明发言,共建绿色平台。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|返回首页|中国存储论坛

GMT+8, 2024-4-20 14:45

Powered by Discuz

© 2001-2018 中国存储网Chinastor

快速回复 返回顶部 返回列表