告警解释

系统每120秒周期性检测HBase服务的znode使用情况，当检测到HBase服务的znode数量使用率超出告警的阈值（默认75%）时产生该告警。

当znode的数量使用率小于告警的阈值时，告警恢复。


                说明
                若集群启用了多实例功能且安装了多个HBase服务，请根据“定位信息”的“服务名”值来确定具体产生告警的HBase服务。例如“定位信息”中显示服务名=HBase-1，处理步骤中的操作对象也应由HBase调整为HBase-1。

告警属性

告警ID	告警级别	是否自动清除
19015	重要	是

告警参数

参数名称	参数含义
来源	产生告警的集群名称。
服务名	产生告警的服务名称。
角色名	产生告警的角色名称。
主机名	产生告警的主机名。
Threshold	产生告警的阈值。

对系统的影响

产生该告警表示HBase服务的znode的数量使用率已经超过规定的阈值，如果不及时处理，可能会导致问题级别升级为紧急，影响数据写入。

可能原因

HBase配置了容灾并且容灾存在数据同步失败或者同步速度慢；
HBase集群存在大量的WAL文件在进行split。

处理步骤

检查znode数量配额和使用量

1.在FusionInsight Manager首页，选择“运维 > 告警 > 告警”，选中“告警ID”为“19015”的告警，查看“附加信息”中的阈值。

2.以root用户登录HBase客户端。执行以下命令进入客户端安装目录：

cd 客户端安装目录

然后执行以下命令设置环境变量：

source bigdata_env

如果集群采用安全版本，要执行以下命令进行安全认证：

kinit hbase

按提示输入密码（向管理员获取密码）。

3.执行hbase zkcli命令进入ZooKeeper客户端，然后执行命令listquota /hbase查看对应HBase服务的znode数量配额，其中命令中的znode根目录为对应HBase服务的参数“zookeeper.znode.parent”所指定。下图标注所示即为当前HBase服务根znode的数量配额。

4.执行命令getusage /hbase/splitWAL查看该znode的数量使用情况，查看返回结果的“ Node count ”跟znode数量配额的比值是否接近告警的阈值。

是，执行步骤5。
否，执行步骤6。

5.在FusionInsight Manager首页，选择“运维 > 告警 > 告警”，查看是否存在“告警ID”为“12007”、“19000”或者“19013”且“定位信息”中的“服务名”为当前HBase服务的告警。

是，单击对应告警右侧的“查看帮助”并按照帮助文档进行处理，执行步骤8。
否，执行步骤9。

6.执行命令getusage /hbase/replication查看该znode的数量使用情况，查看返回结果的“ Node count ”跟znode数量配额的比值是否接近告警的阈值。

是，执行步骤7。
否，执行步骤9。

7.在FusionInsight Manager首页，选择“运维 > 告警 > 告警”，查看是否存在“告警ID”为“19006”并且“定位信息”中的“服务名”为当前HBase服务的告警。

是，单击对应告警右侧的“查看帮助”并按照帮助文档进行处理，执行步骤8。
否，执行步骤9。

8.观察界面告警是否清除。

是，处理完毕。
否，执行步骤9。

收集故障信息

9.在FusionInsight Manager界面，选择“运维 > 日志 > 下载”。

10.在“服务”中勾选待操作集群的“HBase”。

11.单击右上角的修改集群名称.png 设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟，单击“下载”。

12.请联系运维人员，并发送已收集的故障日志信息。

告警清除

此告警修复后，系统会自动清除此告警，无需手工清除。

参考信息

无。

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

翼MapReduce

翼MapReduce

告警解释

告警属性

告警参数

对系统的影响

可能原因

处理步骤

检查znode数量配额和使用量

收集故障信息

告警清除

参考信息

活动

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

翼MapReduce

翼MapReduce

告警解释

告警属性

告警参数

对系统的影响

可能原因

处理步骤

检查znode数量配额和使用量

收集故障信息

告警清除

参考信息