故障定位
单台主机节点系统发生软、硬件故障。
故障影响
TeleDB为高可靠性的集群数据库,在一台设备出现故障情况下,可以实现自动切换,切换期间业务会短暂受影响。
处理步骤
在业务受影响时,应急措施如下:
- 先利用高可用性软件自动切换,或手工方式将应用切换到备用机,保证业务的持续运行;
- 如果是操作系统故障,根据报错信息分析错误原因,并尽快解决。
- 如果问题严重无法恢复,则马上使用系统备份带恢复系统并检查错误原因,如果有系统DUMP,分析DUMP。
- 对于是硬件故障,根据系统面板上的显示信息及故障现象,分析确定故障发生部位。
- 检查系统各部件及连线是否脱落或松动。
- 对故障部件十分确定的情况下携带相应备件到现场维修更换。
- 如果对故障原因不确定或确定有多种故障原因,将逐一更换怀疑故障部件,判断如何解决问题。
- 如果不能在短时间恢复故障系统时,将联系公司备件保障中心提供不低于故障系统的备机运到现场,替换故障系统,恢复应用运行,主要有如下步骤:
- 移植必要的硬件到维护公司提供的备机上
- 调整操作系统与故障主机一致
- 移植必要的硬件到维护公司提供的备机上
- 把故障主机的内置硬盘插到备机上
- 把故障主机的磁盘挂载到备机上
- 配置系统用户、网络等环境
- 在备机上恢复应用软件和数据
- 把备机当作系统的备用机进入系统运行
- 在上述操作后,有了较为宽裕的时间恢复故障主机。
- 故障主机恢复后,替换下维护公司提供的备机,重新接管业务。
- 对于主机系统中的单机系统如果出现系统无法启动的重大故障。可以通过备份来恢复系统。恢复系统后连接存储启动数据库以及应用。
- 数据库恢复正常后通知业务部门。
- 由项目经理对问题进行总结,事后汇报情况处理记录。