告警解释

系统每30秒周期性检测不健康NodeManager节点，并把不健康节点数和阈值相比较。“不健康的节点数”指标默认提供一个阈值。当检测到“不健康的节点数”的值超出阈值时产生该告警。

用户可通过选择“集群 > 待操作集群的名称 > 服务 > Yarn >配置 > 全部配置”，修改“yarn.nodemanager.unhealthy.alarm.threshold”的值来配置阈值（修改该参数不用重启Yarn，就可以生效）。

阈值默认为零，当不健康节点数超过该值时，触发告警，小于阈值时会自动消除告警。

告警属性

告警ID	告警级别	是否自动清除
18003	重要	是

告警参数

参数名称	参数含义
来源	产生告警的集群名称。
服务名	产生告警的服务名称。
角色名	产生告警的角色名称。
主机名	产生告警的主机名。
Unhealthy Host	不健康节点的主机列表。

对系统的影响

故障的NodeManager节点无法提供Yarn服务。
容器减少，集群性能下降。

可能原因

NodeManager节点所在主机的硬盘空间不足。
NodeManager节点本地目录omm用户无访问权限。

处理步骤

检查主机的硬盘空间

1.在FusionInsight Manager界面，选择“运维 > 告警 > 告警”，在告警列表中找到当前告警，单击下拉箭.png 获取告警详细信息，在“附加信息”中获取不健康状态的节点。

2.选择“集群 > 待操作集群的名称 > 服务 > Yarn > 实例”，选择对应主机的NodeManager实例，选择“实例配置 > 全部配置”，搜索“yarn.nodemanager.local-dirs”和“yarn.nodemanager.log-dirs”对应的磁盘。

3.选择“运维 > 告警 > 告警”，在告警列表中查看对应的磁盘是否存在“ALM-12017 磁盘容量不足”告警。

是，执行步骤4。
否，执行步骤5。

4.参考“ALM-12017 磁盘容量不足”操作步骤进行处理，故障恢复后，查看本告警是否恢复。

是，处理完毕。
否，执行步骤7。

5.选择“主机 > 待查看的主机名称 ”，在主机的概览页面查看对应分区的磁盘使用情况。检查挂载磁盘使用空间百分比是否已经超过Yarn参数“yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage”所配置的值。

是，执行步骤6。
否，执行步骤7。

6.将磁盘使用率降到该配置值以下，等待10-20分钟，然后检查该告警是否恢复。

是，处理完毕。
否，执行步骤7。

检查NodeManager节点本地目录的访问权限

7.获取步骤2中查看到的NodeManager目录，以root用户登录每个NodeManager节点，并进入获取到的目录。

8.执行ll命令查看对应localdir的文件夹和containerlogs文件夹权限，确认权限是否是“755”，且“用户:属组”是否为“omm:ficommon”。

是，处理完毕。
否，执行步骤9。

9.执行如下命令将文件夹权限修改为“755”，并将“用户:属组”修改为“omm:ficommon”。

chmod 755 <folder_name>

chown omm:ficommon <folder_name>

10.等待10～20分钟，检查该告警是否恢复。

是，处理完毕。
否，执行步骤11。

收集故障信息

11.在主集群的FusionInsight Manager界面，选择“运维 > 日志 > 下载”。

12.在“服务”中勾选待操作集群的“Yarn”。

13.单击右上角的修改集群名称.png 设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟，单击“下载”。

14.请联系运维人员，并发送已收集的故障日志信息。

告警清除

此告警修复后，系统会自动清除此告警，无需手工清除。

参考信息

无。

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

查看所有产品

翼MapReduce

翼MapReduce

告警解释

告警属性

告警参数

对系统的影响

可能原因

处理步骤

检查主机的硬盘空间

检查NodeManager节点本地目录的访问权限

收集故障信息

告警清除

参考信息

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

查看所有产品

翼MapReduce

翼MapReduce

告警解释

告警属性

告警参数

对系统的影响

可能原因

处理步骤

检查主机的硬盘空间

检查NodeManager节点本地目录的访问权限

收集故障信息

告警清除

参考信息