告警解释

告警模块按60秒周期检测Yarn服务状态。当检测到Yarn服务不可用时产生该告警。

Yarn服务恢复时，告警恢复。

告警属性

告警ID	告警级别	是否自动清除
18000	紧急	是

告警参数

参数名称	参数含义
来源	产生告警的集群名称。
服务名	产生告警的服务名称。
角色名	产生告警的角色名称。
主机名	产生告警的主机名。

对系统的影响

集群无法提供Yarn服务。用户无法执行新的application。已提交的application无法执行。

可能原因

ZooKeeper服务异常。
HDFS服务异常。
Yarn集群中没有主ResourceManager实例。
Yarn集群中的所有NodeManager节点异常。

处理步骤

检查ZooKeeper服务状态

1.在FusionInsight Manager的告警列表中，查看是否有告警“ALM-13000 ZooKeeper服务不可用”产生。

是，执行步骤2。
否，执行步骤3。

2.参考“ALM-13000 ZooKeeper服务不可用”的处理步骤处理故障后，检查本告警是否恢复。

是，处理完毕。
否，执行步骤3。

检查HDFS 服务状态

3.在FusionInsight Manager的告警列表中，查看是否有HDFS相关告警产生。

是，执行步骤4。
否，执行步骤5。

4.选择“运维 > 告警 > 告警”，根据告警帮助处理HDFS相关告警后，检查本告警是否恢复。

是，处理完毕。
否，执行步骤5。

检查Yarn集群中的ResourceManager状态

5.在FusionInsight Manager界面，选择“集群 > 待操作集群的名称 >服务 > Yarn”。

6.在“概览”中，检查Yarn集群中是否存在主ResourceManager实例。

是，执行步骤7。
否，执行步骤10。

检查Yarn集群中的NodeManager节点状态

7.在FusionInsight Manager界面，选择“集群 > 待操作集群的名称 > 服务 > Yarn > 实例”。

8.查看NodeManager的“运行状态”，检查是否有处于非健康状态的节点。

是，执行步骤9。
否，执行步骤10。

9.按“ALM-18002 NodeManager心跳丢失”或“ALM-18003 NodeManager不健康”提供的步骤处理该故障，故障修复后检查本告警是否恢复。

是，处理完毕。
否，执行步骤10。

收集故障信息

10.在主集群的FusionInsight Manager界面，选择“运维 > 日志 > 下载”。

11.在“服务”勾选待操作集群的“Yarn”。

12.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟，单击“下载”。

13.请联系运维人员，并发送已收集的故障日志信息。

告警清除

此告警修复后，系统会自动清除此告警，无需手工清除。

参考信息

无。

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

翼MapReduce

翼MapReduce

告警解释

告警属性

告警参数

对系统的影响

可能原因

处理步骤

检查ZooKeeper服务状态

检查HDFS 服务状态

检查Yarn集群中的ResourceManager状态

检查Yarn集群中的NodeManager节点状态

收集故障信息

告警清除

参考信息

活动

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

翼MapReduce

翼MapReduce

告警解释

告警属性

告警参数

对系统的影响

可能原因

处理步骤

检查ZooKeeper服务状态

检查HDFS 服务状态

检查Yarn集群中的ResourceManager状态

检查Yarn集群中的NodeManager节点状态

收集故障信息

告警清除

参考信息