告警解释
系统按60秒周期检测Manager主备节点同步数据情况,当备Manager无法与主Manager同步文件时,产生该告警。
当备Manager与主Manager正常同步文件时,告警恢复。
告警属性
告警ID | 告警级别 | 是否自动清除 |
---|---|---|
12011 | 紧急 | 是 |
告警参数
参数名称 | 参数含义 |
---|---|
来源 | 产生告警的集群或系统名称。 |
服务名 | 产生告警的服务名称。 |
角色名 | 产生告警的角色名称。 |
主机名 | 产生告警的主机名。 |
对系统的影响
备Manager的配置文件没有更新。主备倒换之后,一些配置可能会丢失。Manager及部分组件可能无法正常运行。
可能原因
- 主备Manager节点间链路中断,/srv/BigData/LocalBackup目录存储空间已满。
- 同步文件不存在,或者文件权限有误。
处理步骤
检查主备Manager服务器间的网络是否正常
- 在FusionInsight Manager页面,选择“运维 > 告警 > 告警”,单击此告警所在行的,获取该告警的备Manager(即Peer Manager)IP地址。
- 以root用户登录主Manager服务器。
- 执行**ping 备Manager IP地址命令检查备Manager服务器是否可达。
- 是,执行步骤6。
- 否,执行步骤4。
- 联系网络管理员查看是否为网络故障。
- 是,执行步骤5。
- 否,执行步骤6。
- 修复网络故障,查看告警列表中,该告警是否已清除。
- 是,处理完毕。
- 否,执行步骤6。
检查/srv/BigData/LocalBackup 目录存储空间是否已满
- 执行以下命令检查“/srv/BigData/LocalBackup”目录存储空间是否已满:
df-hl /srv/BigData/LocalBackup
- 是,执行步骤7。
- 否,执行步骤10。
- 执行以下命令清理不需要的备份文件:
rm -rf 待清理的目录路径
例如:
rm -rf /srv/BigData/LocalBackup/0/default-oms_20191211143443
- 在FusionInsight Manager界面,选择“运维 > 备份恢复 > 备份管理”。
在待操作备份任务右侧“操作”栏下,单击“配置”,修改“最大备份数”减少备份文件集数量。
- 等待大约1分钟,查看告警列表中,该告警是否已清除。
- 是,处理完毕。
- 否,执行步骤10。
检查同步文件是否存在,文件权限是否异常
- 执行以下命令查找同步文件是否存在。
find/srv/BigData/ -name "sed*"
find/opt -name "sed*"
- 是,执行步骤11。
- 否,执行步骤12。
- 执行以下命令,查看 步骤10查找出的同步文件信息及权限。
ll 待查找文件路径
- 如果文件大小为0,且权限栏全为“-”,则为垃圾文件,请执行以下命令删除。
rm -rf 待删除文件
等待几分钟观察告警是否清除,如果未清除则执行步骤12。
- 如果文件大小不为0,则执行步骤12。
12.查看发生告警时间段的日志文件。
- 执行以下命令,进入当前集群的HA运行日志文件路径。
cd/var/log/Bigdata/omm/oms/ha/runlog /
- 解压并查看发生告警时间段的日志文件。
例如,待查看文件名称为“ha.log.2021-03-22_12-00-07.gz”,则执行以下命令:
gunzip ha.log.2021-03-22_12-00-07.gz
vi ha.log.2021-03-22_12-00-07
查看日志中,告警时间点前后是否有报错信息。
-是,根据相关报错信息进行处理。然后执行步骤13。
例如,查询出报错信息如下,表示目录权限不足,则请修改对应目录权限与正常节点保持一致。
-否,执行步骤14。
- 等待大约10分钟,查看告警列表中,该告警是否已清除。
- 是,处理完毕。
- 否,执行步骤14。
收集故障信息
14.在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
15.在“服务”中勾选如下节点信息,单击“确定”。
- OmmServer
- Controller
- NodeAgent
- 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
- 请联系运维人员,并发送已收集的故障日志信息。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
无。