告警解释

系统每30秒周期性检测丢失的NodeManager节点，并把丢失的节点数和阈值相比较。“丢失的节点数”指标默认提供一个阈值。当检测到“丢失的节点数”的值超出阈值时产生该告警。

用户可通过选择“集群 > 待操作集群的名称 > 服务 > Yarn > 配置 > 全部配置”，修改yarn.nodemanager.lost.alarm.threshold的值来配置阈值（修改该参数不用重启Yarn，就可以生效）。

阈值默认为零，当丢失节点数超过该值时，触发告警，小于阈值时会自动消除告警。

告警属性

告警ID	告警级别	是否自动清除
18002	重要	是

告警参数

参数名称	参数含义
来源	产生告警的集群名称。
服务名	产生告警的服务名称。
角色名	产生告警的角色名称。
主机名	产生告警的主机名。
Lost Host	丢失节点的主机列表。

对系统的影响

丢失的NodeManager节点无法提供Yarn服务。
容器减少，集群性能下降。

可能原因

NodeManager没有经过退服操作，强制被删除。
NodeManager所有实例被停止或者进程故障。
NodeManager节点所在主机故障。
NodeManager和ResourceManager之间的网络断连或者繁忙。

处理步骤

检查NodeManager状态

1.在FusionInsight Manager界面，选择“运维 > 告警 > 告警”，在告警列表中找到当前告警，单击下拉箭.png 获取告警详细信息，在“附加信息”中获取丢失状态的节点。

2.确认处于丢失状态的节点是否是人为未经过退服操作，直接主动删除的主机。

是，执行步骤3。
否，执行步骤5。

3.选择“集群 > 待操作集群的名称 > 服务 > Yarn”，进入“配置”页面，选择“全部配置”，搜索“yarn.nodemanager.lost.alarm.threshold”，修改值为未退服主动删除的主机个数。设置成功后检查告警是否清除。

是，处理完毕。
否，执行步骤4。

4.手动清除此告警，后续删除主机前务必进行退服操作。

5.在FusionInsight Manager界面，选择“集群> 主机”，查看步骤1中获取的节点是否健康。

是，执行步骤7。
否，执行步骤6。

6.参考“ALM-12006 节点故障”的操作步骤进行处理，节点恢复正常后，查看本告警是否恢复。

是，处理完毕。
否，执行步骤7。

检查进程状态

7.在FusionInsight Manager界面，选择“集群 > 待操作集群的名称 > 服务 > Yarn > 实例”，查看是否存在状态为非“良好”的NodeManager。

是，执行步骤10。
否，执行步骤8。

8.确认此NodeManager实例是否被删除。

是，执行步骤9。
否，执行步骤11。

9.重启ResourceManager的主备实例，然后检查该告警是否恢复。

是，处理完毕。
否，执行步骤13。

检查实例状态

10.选择处于非“良好”状态的NodeManager实例并重启该实例。检查该告警是否恢复。

是，处理完毕。
否，执行步骤11。

检查网络状态

11.登录管理节点，ping丢失的NodeManager节点的IP地址，检查网络是否断连或繁忙。

是，执行步骤12。
否，执行步骤13。

12.修复网络故障，然后查看该告警是否恢复。

是，处理完毕。
否，执行步骤13。

收集故障信息

13.在主集群的FusionInsight Manager界面，选择“运维 > 日志 > 下载”。

14.在“服务”中勾选待操作集群的“Yarn”。

15.单击右上角的修改集群名称.png 设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟，单击“下载”。

16.请联系运维人员，并发送已收集的故障日志信息。

告警清除

此告警修复后，系统会自动清除此告警，无需手工清除。

参考信息

无。

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

翼MapReduce

翼MapReduce

告警解释

告警属性

告警参数

对系统的影响

可能原因

处理步骤

检查NodeManager状态

检查进程状态

检查实例状态

检查网络状态

收集故障信息

告警清除

参考信息

活动

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

翼MapReduce

翼MapReduce

告警解释

告警属性

告警参数

对系统的影响

可能原因

处理步骤

检查NodeManager状态

检查进程状态

检查实例状态

检查网络状态

收集故障信息

告警清除

参考信息