告警解释

在主NameNode节点上，系统每5分钟检测一次集群中所有JournalNode节点的数据同步性。如果有JournalNode节点的数据不同步，系统产生该告警。

当Journalnode数据同步5分钟后，告警恢复。

告警属性

告警ID	告警级别	是否自动清除
14012	重要	是

告警参数

参数名称	参数含义
来源	产生告警的集群名称。
服务名	产生告警的服务名称。
角色名	产生告警的角色名称。
主机名	产生告警的主机名。
NameService名	产生告警的NameService名称。

对系统的影响

当一个JournalNode节点工作状态异常时，其数据就会与其他JournalNode节点的数据不同步。如果超过一半的JournalNode节点的数据不同步时，NameNode将无法工作，导致HDFS服务不可用。

可能原因

JournalNode实例不存在（被删除或被迁移）。
JournalNode实例未启动或已停止。
JournalNode实例运行状态异常。
JournalNode节点的网络不可达。

处理步骤

查看JournalNode实例是否启动

1.在FusionInsight Manager首页，选择“运维 > 告警 > 告警”，在告警列表中单击此告警。

2.查看“定位信息”，获取告警产生的JournalNode节点IP地址。

3..选择“集群 > 待操作集群的名称 > 服务 > HDFS > 实例”，在实例列表中查看告警节点上是否存在JournalNode实例。

是，执行步骤5。
否，执行步骤4。

4.选择“运维 > 告警 > 告警”，在告警列表中单击此告警“操作”栏中的“清除”，在弹出窗口中单击“确定”，处理完毕。

5.单击该JournalNode实例，查看其“配置状态”是否为“已同步”。

是，执行步骤8。
否，执行步骤6。

6.勾选该JournalNode实例，单击“启动实例”，等待启动完成。

7.等待5分钟后，查看告警是否清除。

是，处理完毕。
否，执行步骤15。

查看JournalNode实例运行状态是否正常

8.查看该JournalNode实例的“运行状态”是否为“良好”。

是，执行步骤11。
否，执行步骤9。

9.勾选该JournalNode实例，选择“更多 > 重启实例”，等待启动完成。

10.等待5分钟后，查看告警是否清除。

是，处理完毕。
否，执行步骤15。

查看JournalNode节点网络是否可达

11.在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务 > HDFS > 实例”，查看主NameNode节点的业务IP地址。

12.以root用户登录主NameNode节点。

13.使用ping命令检查主NameNode与该JournalNode之间的网络状况，是否有超时或者网络不可达的情况。

ping JournalNode的业务IP地址

是，执行步骤14。
否，执行步骤15。

14.联系网络管理员处理网络故障，故障恢复后等待5分钟，查看告警是否清除。

是，处理完毕。
否，执行步骤15。

收集故障信息

15.在FusionInsight Manager首页，选择“运维 > 日志 > 下载”。

16.在“服务”中勾选待操作集群的“HDFS”。

17.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后30分钟，单击“下载”。

18.请联系运维人员，并发送已收集的故障日志信息。

告警清除

此告警修复后，系统会自动清除此告警，无需手工清除。

参考信息

无。

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

翼MapReduce

翼MapReduce

告警解释

告警属性

告警参数

对系统的影响

可能原因

处理步骤

查看JournalNode实例是否启动

查看JournalNode实例运行状态是否正常

查看JournalNode节点网络是否可达

收集故障信息

告警清除

参考信息

活动

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

翼MapReduce

翼MapReduce

告警解释

告警属性

告警参数

对系统的影响

可能原因

处理步骤

查看JournalNode实例是否启动

查看JournalNode实例运行状态是否正常

查看JournalNode节点网络是否可达

收集故障信息

告警清除

参考信息