我在3ware 9650SE-16ML卡上有一个悲伤的RAID阵列.我不能说的是,如果我刚刚遭遇双磁盘故障(真可惜!)或者我读错了. / c0的相关输出显示全部是:
Port Status Unit Size Blocks Serial --------------------------------------------------------------- p0 DEGRADED u0 931.51 GB 1953525168 5QJ07MAH p1 ECC-ERROR u0 931.51 GB 1953525168 5QJ0DCW9 p2 OK u0 931.51 GB 1953525168 5QJ0DW9C p3 OK u0 931.51 GB 1953525168 5QJ0CKXJ
失败是(从显示警报):
Ctl Date Severity Alarm Message ------------------------------------------------------------------------------ c0 [Sun Nov 20 07:47:23 2011] INFO Rebuild started: unit=0 c0 [Sun Nov 20 08:20:12 2011] ERROR Drive ECC error reported: port=1,unit=0 c0 [Sun Nov 20 08:20:12 2011] ERROR Source drive error occurred: port=1,unit=0 c0 [Sun Nov 20 08:20:12 2011] ERROR Rebuild Failed: unit=0 c0 [Sun Nov 20 08:20:12 2011] INFO Rebuild paused: unit=0
我认为发生了什么是p0失败,然后p1有一个ECC错误(又名,我的数据消失了).但是……也许不是吗?它保持在97%重建,但无法通过此错误.
据我所知,以前的管理员关闭了定期验证,这是让我们进入这种状态的原因.这不是大多数人应该担心的3Ware RAID!
更新
在敲打它几天之后,我做了IgnoreECC位并重建了,但是我的数据被清除了.游民.
解决方法
ECC错误意味着驱动器上至少有一个不可读的扇区.但是,如果幸运的话,该卷上的文件系统实际上可能不会使用该扇区,因此您仍然可以在此状态下从阵列中复制数据.
在重建期间还有一些选项可以忽略ECC错误:
/cx/ux start rebuild disk=p [ignoreECC] /cx/ux set ignoreECC=on|off
但是,使用这些选项意味着受坏扇区影响的RAID条带将被破坏(不确定卡在这种情况下究竟会做什么 – 它可能用零替换整个条带,甚至用随机数据替换),因此“恢复的“数组实际上可能有不可检测的损坏(如果受影响的条带位于某个数据文件的中间).在尝试重建之前将数据从阵列复制到其他位置可能更安全(至少在尝试读取坏区时应该会出错).
您应该设置数组的预定验证以更早地捕获不可读的扇区,以便您可以替换刚开始变坏的驱动器.
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。