告警解释

系统按300秒周期性检测HBase上的region处在RIT状态的数量。当检测到处在RIT状态的region时长超过阈值时长（连续两次超过阈值），上报该告警。当处在超时状态的region都恢复后，告警恢复。

说明

若集群启用了多实例功能且安装了多个HBase服务，请根据“定位信息”的“服务名”值来确定具体产生告警的HBase服务。例如HBase1服务不可用，则“定位信息”中显示服务名=HBase1，处理步骤中的操作对象也应由HBase调整为HBase1。

告警属性

告警ID	告警级别	是否自动清除
19013	重要	是

告警参数

参数名称	参数含义
来源	产生告警的集群名称。
服务名	产生告警的服务名称。
角色名	产生告警的角色名称。
主机名	产生告警的主机名。

对系统的影响

表的部分数据丢失或不可用。

可能原因

Compaction永久阻塞。
HDFS文件异常。

处理步骤

检查告警原因

1.在FusionInsight Manager首页，选择“运维 > 告警 > 告警”，选中“告警ID”为“19013”的告警，查看“定位信息”中的主机名及角色名。

2.选择“集群 > 待操作集群的名称 > 服务 > HBase ”，单击图表区域右上角的下拉菜单，选择“定制 > 服务 > 处在RIT状态的region数”，单击“确定”，查看该图表中“处在RIT状态达到阈值时长的region数”监控项是否在连续3个检测周期内检测到值。（默认阈值为60秒）。

是，执行步骤3。
否，执行步骤7。

3.选择“集群 > 待操作集群的名称 > 服务 > HBase > HMaster（主） > Tables” ，查看是否只是某一个表的region RIT状态超时。

是，执行步骤4。
否，执行步骤7。

4.在客户端执行hbase hbck是否报错“No table descriptor file under hdfs://hacluster/hbase/data/default/table”。

是，执行步骤5。
否，执行步骤7。

5.以root用户登录客户端。执行如下命令：

cd 客户端安装目录

source bigdata_env

如为安全模式集群，请执行kinit hbase

登录HMaster WebUI，在导航栏选择“Procedure & Locks”，在Procedures查看是否有处于Waiting状态的process id。如果有，需要执行以下命令将procedure lock释放：

hbase hbck -j 客户端安装目录/HBase/hbase/tools/hbase-hbck2-*.jar bypass -o pid

查看State是否处于Bypass状态，如果界面上的procedures一直处于RUNNABLE(Bypass)状态，需要进行主备切换。执行assigns命令使region重新上线。

hbase hbck -j  客户端安装目录/HBase/hbase/tools/hbase-hbck2-*.jar assigns -o 
regionName

6.在客户端执行 hbase hbck，查看否报错“No table descriptor file under hdfs://hacluster/hbase/data/default/table”。

是，执行步骤7。
否，处理完毕。

收集故障信息

7.在主备集群的FusionInsight Manager界面，选择“运维 > 日志 > 下载”。

8.在“服务”中勾选待操作集群的有问题的HBase服务。

9.单击右上角的修改集群名称.png 设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟，单击“下载”。

10.请联系运维人员，并发送已收集的故障日志信息。

告警清除

此告警修复后，系统会自动清除此告警，无需手工清除。

参考信息

无。

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

翼MapReduce

翼MapReduce

告警解释

告警属性

告警参数

对系统的影响

可能原因

处理步骤

检查告警原因

收集故障信息

告警清除

参考信息

活动

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

翼MapReduce

翼MapReduce

告警解释

告警属性

告警参数

对系统的影响

可能原因

处理步骤

检查告警原因

收集故障信息

告警清除

参考信息