告警解释
系统每一个小时检查一次主OMS节点和其他Agent节点间的互信是否正常,如果存在互信失效的节点,则发送告警。待客户修复改问题,该告警会自动清除。
告警属性
告警ID | 告警级别 | 是否自动清除 |
---|---|---|
12066 | 重要 | 是 |
告警参数
参数名称 | 参数含义 |
---|---|
来源 | 产生告警的集群或系统名称。 |
服务名 | 产生告警的服务名称。 |
角色名 | 产生告警的角色名称。 |
主机名 | 产生告警的主机名。 |
对系统的影响
可能会导致管理面的一些操作异常。
可能原因
- /etc/ssh/sshd_config配置文件被破坏。
- omm密码过期。
处理步骤
查看/etc/ssh/sshd_config配置文件状态
1.打开FusionInsight Manager页面,在告警列表中,单击此告警所在行的,查看告警详情中涉及的主机列表。
2.以omm用户登录主OMS管理节点。
3.依次在告警详情中的节点执行ssh命令:ssh host2 (host2为告警详情中OMS节点之外的其它节点),看是否连接失败。
- 是,执行步骤4。
- 否,执行步骤6。
4.打开host2主机上的“/etc/ssh/sshd_config”配置文件,查看另外节点是否配置在AllowUsers 、DenyUsers等白名单或者黑名单中。
- 是,执行步骤5。
- 否,联系OS专家处理。
5.修改白名单或者黑名单设置,保证omm用户在白名单中或者不在黑名单中。然后持续一段时间观察告警是否清除。
- 是,操作结束。
- 否,执行步骤6。
查看omm密码状态
6.查看ssh命令的交互信息。
- 要求输入omm用户的密码(Password:),执行步骤7。
- 要求输入密码短语(Enter passphrase for key '/home/omm/.ssh/id_rsa':),执行步骤9。
7.排查OMS节点和host2节点omm用户的信任清单(/home/omm/.ssh/authorized_keys),查看是否包含对端主机omm用户的公钥文件(/home/omm/.ssh/id_rsa.pub)。
- 是,联系OS专家处理。
- 否,把对端主机omm用户的公钥添加到本机的信任清单中。
8.把对端主机omm用户的公钥添加到本机的信任清单中,然后依次在告警详情中的节点执行ssh命令:ssh host2 (host2为告警详情中OMS节点之外的其它节点),看是否连接失败。
- 是,执行步骤9。
- 否,持续一段时间观察告警是否清除,如果清除则操作结束,如果未清除请执行步骤9。
收集故障信息
9.在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
10.在“服务”中勾选“Controller”,单击“确定”。
11.单击右上角的设置日志收集的时间范围,一般为告警产生时间的前后10分钟,单击“下载”。
12.请联系运维人员,并发送已收集的故障日志信息。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
节点互信异常处理方法如下:
须知
- 本此操作需使用omm用户执行。
- 如果节点间网络不通,请先解决网络不通的问题,可以检查两个节点是否通一个安全组,是否有设置hosts.deny、hosts.allow 等。
1.在两端节点执行ssh-add -l 确认是否有identities信息。
- 是,执行4。
- 否,执行2。
2.如果没有identities信息,执行ps -ef|grep ssh-agent找到ssh-agent进程,并停止该进程并等待该进程自动重启。
3.执行ssh-add -l 查看是否已经添加identities信息,如果已经添加手动ssh确认是否互信正常。
4.如果有identities信息,需要确认“/home/omm/.ssh/authorized_keys”中是否有对端节点“/home/omm/.ssh/id_rsa.pub”文件中的信息,如果没有手动添加。
5.检查“/home/omm/.ssh”目录下的文件权限是否被修改。
6.排查如下日志文件“/var/log/Bigdata/nodeagent/scriptlog/ssh-agent-monitor.log”。
7.如果用户把omm的“/home”目录删除了,请联系MRS支撑人员修复。