告警解释

AZ容灾开启后，系统每隔5分钟检查一次当前系统上AZ的健康状态，当检测到AZ健康状态为亚健康或者不健康时产生告警。AZ健康状态恢复健康时，告警清除。

告警属性

告警ID	告警级别	是否自动清除
12101	重要	是

告警参数

告警参数	参数含义
来源	产生告警的集群或系统名称。
服务名	产生告警的服务名称。
AZ名	产生告警的AZ名称。
主机名	产生告警的主机名。

对系统的影响

AZ的健康状态由AZ内的存储资源（HDFS）、计算资源（Yarn）和关键角色的健康度是否超过配置阈值决定。

AZ亚健康有两种：

计算资源（Yarn）不健康，存储资源（HDFS）健康，任务无法提交到本AZ，但是数据可以继续往本AZ内读写。
计算资源（Yarn）健康，存储资源（HDFS）部分不健康，任务可以提交到本AZ，部分数据可以在本AZ内读写，依赖于Spark/Hive调度感知数据的本地性。

AZ不健康有三种：

计算资源（Yarn）健康，存储资源（HDFS）不健康，任务虽然可以提交到本AZ，但是数据无法在本AZ内读写，导致任务提交到本AZ无意义。
计算资源（Yarn）不健康，存储资源（HDFS）不健康，任务无法提交到本AZ，数据也无法往本AZ内读写。
除Yarn与HDFS以外，关键角色的健康度低于配置阈值。

可能原因

计算资源（Yarn）不健康。
存储资源（HDFS）不健康。
存储资源（HDFS）部分不健康。
除Yarn与HDFS以外，关键角色不健康。

处理步骤

关闭容灾演练

1.在FusionInsight Manager页面，选择“集群 > 待操作集群的名称 > 跨AZ高可用”，打开跨AZ高可用页面。

2.检查AZ容灾列表中健康状态为“非健康”的AZ所在行的操作列中的“容灾演练”是否为灰色。

是，执行步骤4。
否，执行步骤3。

3.单击目标AZ行“操作”列中的“恢复”，待恢复后。等待2分钟，刷新页面查看该AZ健康状态。查看是否健康恢复。

是，处理完毕。
否，执行步骤4。

收集故障信息

4.以root用户登录主管理节点。

5.查看不健康服务的日志信息。

HDFS的日志文件存储路径为“/var/log/Bigdata/hdfs/nn/hdfs-az-state.log”。
Yarn的日志文件存储路径为“/var/log/Bigdata/yarn/rm/yarn-az-state.log”。
其余服务请查看对应服务日志目录下的服务健康检查日志。

6.请联系运维人员，并提供日志文件详细信息。

告警清除

此告警修复后，系统会自动清除此告警，无需手工清除。

参考信息

无。

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

翼MapReduce

翼MapReduce

告警解释

告警属性

告警参数

对系统的影响

可能原因

处理步骤

关闭容灾演练

收集故障信息

告警清除

参考信息

活动

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

翼MapReduce

翼MapReduce

告警解释

告警属性

告警参数

对系统的影响

可能原因

处理步骤

关闭容灾演练

收集故障信息

告警清除

参考信息