服务器数据恢复环境:
由4块SCSI盘组成RAID0+RAID1。
服务器故障&分析:
根据用户描述这是两组raid1。RAID状态显示3快盘offline。如果如用户所说的两组盘都是做的raid1,现在应该有一组逻辑盘可以正常工作,但是事实并不是这样。
服务器数据恢复过程:
1、把硬盘单独接到SCSI适配器,进入系统后没有发现异常,也没有发现比较明显的raid信息区域。比较之后发现1、3号盘及2、4号盘每组都有相同性,但后面有大量不一致的数据。1号盘和2号盘有分区表,从每个分区表里的描述可以判断出原逻辑盘分区的总大小。
2、通过上面的检测结果,服务器数据恢复工程师推测这2组raid莫非是两组RAID0?但1、3号及2、4号均有部分完全相同的数据,这不符合2组RAID0的特征。
3、假设这2组RAID是RAID1+0(即两两做RAID1,再做RAID0,这种安全级别高,因为方案是集成商做的,这种可能性最大)。两组RAID1中先后有一块硬盘离线(此后就相当于RAID0,再不能提供冗余),然后又有一块硬盘离线,系统崩溃。
4、假设这2组RAID是RAID0+1(即两两做RAID0,再做RAID1,这种方案并不好,推断可能性不太大)。如果是这种情况,除了1、3组成的RAID,没有任何错误,重组数据直接写回RAID,系统正常可以启动,文件访问也正常。
5、但是在对第二种假设(RAID0+1)进行验证的时候发现了问题:这都是两年前的数据!难道是用户做了RAID0+1,组成RAID1的其中一组RAID0中有一块盘离线(应该为1或3),导致整个RAID0离线(两块离线了)。之后一直以单RAID0的方式工作(这种工作方式竟然持续了两年多)。直到剩下的一组RAID0中有一块盘离线,RAID彻底崩溃。用户使用的RAID卡为ADAPTEC的0通道RAID卡无法安全缓冲数据,最后离线时,因部分数据未写入等原因导致文件系统一致性出现问题。
6、重新组织3号及5号盘,修正错误,数据恢复成功。
服务器数据安全Tips:
1、重要的数据不要存储在单盘上,组建一组RAID是比较好的数据存储方式。
2、一定要做好备份,备份包不要放到同一存储媒介上。即使存放在同一媒介也不要放到同一分区下。
3、硬盘出现故障后千万不要反复尝试各种恢复或者修复的操作,最需要做的就是尽快对故障硬盘做完整备份。
4、尽可能选择专业正规的数据恢复服务商进行处理,不正规专业的机构或个人会无意或有意地对故障盘数据进行二次破坏。