告警解释
告警模块每30s检查一次HBase容灾数据的同步状态,当同步容灾数据到备集群失败时,发送该告警。
当容灾数据同步成功后,告警清除。
说明若集群启用了多实例功能且安装了多个HBase服务,请根据“定位信息”的“服务名”值来确定具体产生告警的HBase服务。例如HBase1服务不可用,则“定位信息”中显示服务名=HBase1,处理步骤中的操作对象也应由HBase调整为HBase1。
告警属性
告警ID | 告警级别 | 是否自动清除 |
---|---|---|
19006 | 紧急 | 是 |
告警参数
参数名称 | 参数含义 |
---|---|
来源 | 产生告警的集群名称。 |
服务名 | 产生告警的服务名称。 |
角色名 | 产生告警的角色名称。 |
主机名 | 产生告警的主机名。 |
Trigger Condition | 系统当前指标取值满足自定义的告警设置条件。 |
对系统的影响
无法同步集群中HBase的数据到备集群,导致主备集群数据不一致。
可能原因
- 备集群HBase服务异常。
- 网络异常。
处理步骤
观察告警是否自动修复
1.在主集群的FusionInsight Manager界面,选择“运维 > 告警 > 告警”。
2.在告警列表中单击该告警,从完整的告警信息中的“产生时间”处获得告警的产生时间,查看告警是否持续超过5分钟。
- 是,执行步骤4。
- 否,执行步骤3。
3.等待5分钟后检查本告警是否自动恢复。
- 是,处理完毕。
- 否,执行步骤4。
检查备集群HBase服务状态
4.登录主集群FusionInsight Manager界面,选择“运维 > 告警 > 告警”。
5.在告警列表中单击该告警,从完整的告警信息中的“定位信息”处获得“主机名”。
6.以omm用户进入主集群HBase客户端所在节点。
如果集群采用了安全版本,要进行安全认证,然后使用hbase用户进入hbase shell界面。
cd /opt/Bigdata/client
source ./bigdata_env
kinit hbaseuser
7.执行 status 'replication', 'source' 命令查看故障节点的容灾同步状态。
节点的容灾同步状态如下:
10-10-10-153:
SOURCE: PeerID=abc, SizeOfLogQueue=0, ShippedBatches=2, ShippedOps=2, ShippedBytes=320, LogReadInBytes=1636, LogEditsRead=5, LogEditsFiltered=3, SizeOfLogToReplicate=0, TimeForLogToReplicate=0, ShippedHFiles=0, SizeOfHFileRefsQueue=0, AgeOfLastShippedOp=0, TimeStampsOfLastShippedOp=Mon Jul 18 09:53:28 CST 2016, Replication Lag=0, FailedReplicationAttempts=0
SOURCE: PeerID=abc1, SizeOfLogQueue=0, ShippedBatches=1, ShippedOps=1, ShippedBytes=160, LogReadInBytes=1636, LogEditsRead=5, LogEditsFiltered=3, SizeOfLogToReplicate=0, TimeForLogToReplicate=0, ShippedHFiles=0, SizeOfHFileRefsQueue=0, AgeOfLastShippedOp=16788, TimeStampsOfLastShippedOp=Sat Jul 16 13:19:00 CST 2016, Replication Lag=16788, FailedReplicationAttempts=5
eOfLogToReplicate=0, TimeForLogToReplicate=0, ShippedHFiles=0, SizeOfHFileRefsQueue=0, AgeOfLastShippedOp=0, TimeStampsOfLastShippedOp=Mon Jul 18 09:53:28 CST 2016, Replication Lag=0, FailedReplicationAttempts=0
SOURCE: PeerID=abc1, SizeOfLogQueue=0, ShippedBatches=1, ShippedOps=1, ShippedBytes=160, LogReadInBytes=1636, LogEditsRead=5, LogEditsFiltered=3, SizeOfLogToReplicate=0, TimeForLogToReplicate=0, ShippedHFiles=0, SizeOfHFileRefsQueue=0, AgeOfLastShippedOp=16788, TimeStampsOfLastShippedOp=Sat Jul 16 13:19:00 CST 2016, Replication Lag=16788, FailedReplicationAttempts=5
8.找到“FailedReplicationAttempts”的值大于0的记录所对应的“PeerID”值。
如上步骤中,故障节点“10-10-10-153”同步数据到“PeerID”为“abc1”的备集群失败。
9.继续执行list_peers命令,查找该“PeerID”对应的集群和HBase实例。
PEER_ID CLUSTER_KEY STATE TABLE_CFS
abc1 10.10.10.110,10.10.10.119,10.10.10.133:2181:/hbase2 ENABLED
abc 10.10.10.110,10.10.10.119,10.10.10.133:2181:/hbase ENABLED
如上所示,/hbase2表示数据是同步到备集群的HBase2实例。
10.在备集群FusionInsight Manager的服务列表中,查看通过步骤9获取的HBase实例运行状态是否为“良好”。
- 是,执行步骤14。
- 否,执行步骤11。
11.在告警列表中,查看是否有“ALM-19000 HBase服务不可用”告警产生。
- 是,执行步骤12。
- 否,执行步骤14。
12.参考“ALM-19000 HBase服务不可用”的处理步骤处理该故障。
13.等待几分钟后检查本告警是否恢复。
- 是,处理完毕。
- 否,执行步骤14。
检查主备集群RegionServer之间的网络连接
14.登录主集群FusionInsight Manager界面,选择“运维 > 告警 > 告警”。
15.在告警列表中单击该告警,从完整的告警信息中“定位信息”处获得“主机名”。
16.以omm用户通过步骤15获取的IP地址登录故障RegionServer节点。
17.执行ping命令,查看故障RegionServer节点和备集群RegionServer所在主机的网络连接是否正常。
- 是,执行步骤20。
- 否,执行步骤18。
18.联系网络管理员恢复网络。
19.网络恢复后,在告警列表中,查看本告警是否清除。
- 是,处理完毕。
- 否,执行步骤20。
收集故障信息
20.在主备集群的FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
21.在“服务”中勾选待操作集群的“HBase”。
22.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
23.请联系运维人员,并发送已收集的故障日志信息。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
无。