告警解释
系统每30秒周期性检测丢失的NodeManager节点,并把丢失的节点数和阈值相比较。“丢失的节点数”指标默认提供一个阈值。当检测到“丢失的节点数”的值超出阈值时产生该告警。
用户可通过选择“集群 > 待操作集群的名称 > 服务 > Yarn > 配置 > 全部配置”,修改yarn.nodemanager.lost.alarm.threshold的值来配置阈值(修改该参数不用重启Yarn,就可以生效)。
阈值默认为零,当丢失节点数超过该值时,触发告警,小于阈值时会自动消除告警。
告警属性
告警ID | 告警级别 | 是否自动清除 |
---|---|---|
18002 | 重要 | 是 |
告警参数
参数名称 | 参数含义 |
---|---|
来源 | 产生告警的集群名称。 |
服务名 | 产生告警的服务名称。 |
角色名 | 产生告警的角色名称。 |
主机名 | 产生告警的主机名。 |
Lost Host | 丢失节点的主机列表。 |
对系统的影响
- 丢失的NodeManager节点无法提供Yarn服务。
- 容器减少,集群性能下降。
可能原因
- NodeManager没有经过退服操作,强制被删除。
- NodeManager所有实例被停止或者进程故障。
- NodeManager节点所在主机故障。
- NodeManager和ResourceManager之间的网络断连或者繁忙。
处理步骤
检查NodeManager状态
1.在FusionInsight Manager界面,选择“运维 > 告警 > 告警”,在告警列表中找到当前告警,单击获取告警详细信息,在“附加信息”中获取丢失状态的节点。
2.确认处于丢失状态的节点是否是人为未经过退服操作,直接主动删除的主机。
- 是,执行步骤3。
- 否,执行步骤5。
3.选择“集群 > 待操作集群的名称 > 服务 > Yarn”,进入“配置”页面,选择“全部配置”,搜索“yarn.nodemanager.lost.alarm.threshold”,修改值为未退服主动删除的主机个数。设置成功后检查告警是否清除。
- 是,处理完毕。
- 否,执行步骤4。
4.手动清除此告警,后续删除主机前务必进行退服操作。
5.在FusionInsight Manager界面,选择“集群> 主机”,查看步骤1中获取的节点是否健康。
- 是,执行步骤7。
- 否,执行步骤6。
6.参考“ALM-12006 节点故障”的操作步骤进行处理,节点恢复正常后,查看本告警是否恢复。
- 是,处理完毕。
- 否,执行步骤7。
检查进程状态
7.在FusionInsight Manager界面,选择“集群 > 待操作集群的名称 > 服务 > Yarn > 实例”,查看是否存在状态为非“良好”的NodeManager。
- 是,执行步骤10。
- 否,执行步骤8。
8.确认此NodeManager实例是否被删除。
- 是,执行步骤9。
- 否,执行步骤11。
9.重启ResourceManager的主备实例,然后检查该告警是否恢复。
- 是,处理完毕。
- 否,执行步骤13。
检查实例状态
10.选择处于非“良好”状态的NodeManager实例并重启该实例。检查该告警是否恢复。
- 是,处理完毕。
- 否,执行步骤11。
检查网络状态
11.登录管理节点,ping丢失的NodeManager节点的IP地址,检查网络是否断连或繁忙。
- 是,执行步骤12。
- 否,执行步骤13。
12.修复网络故障,然后查看该告警是否恢复。
- 是,处理完毕。
- 否,执行步骤13。
收集故障信息
13.在主集群的FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
14.在“服务”中勾选待操作集群的“Yarn”。
15.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
16.请联系运维人员,并发送已收集的故障日志信息。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
无。