故障定位
存储以及备份介质发生故障。
故障影响
可能对业务造成影响。
处理步骤
存储组成为冗余的两个控制器,两个冗余电源,所有的LUN都通过两条链路连接到主机,这样保证了一条链路断开时不影数据的访问。同时主机上安装多路径软件进行数据的负载均衡以及路径的冗余。数据资源组的数据同时通过备份网络在每天晚上通过备份软件备份,起到数据备份的双重保障功能。
存储设备出现故障情况下的应急措施如下:
- 如果其中一个控制器出现问题,主机会通过另外一个控制器访问资源。可以随时在线更换控制器。
- 如果是其中一个电源有问题,那么不会影身到存储的正常运行,可以及时在线更换电源排除故障。
- 对于是硬盘故障,根据硬盘的具体报错信息在线更换硬盘。如果是对应的一个raid组中2块硬盘同时损坏资源不能正常访问,那么就需要停止主机的数据库,然后重新建立raid资源,利用备份软件对备份数据进行数据恢复操作。
- 如果不能在短时间恢复故障系统时,将联系公司备件保障中心提供不低于故障系统的备机运到现场,替换故障存储,恢复数据备份,主要有如下步骤:
- 连接新存储到主机和备机上,划分存储资源,绑定到主机上,识别到存储资源。
- 恢复数据。
- 主机和备机启动双机软件,启动数据库,启动应用即可。
- 数据库恢复正常后通知业务部门。
- 由项目经理对问题进行总结,事后汇报情况处理记录。