告警解释
系统在Kafka的Controller所在节点上,每60秒周期性检测各个Topic的副本数,当检测到某个Topic的副本数为1时,产生该告警。
告警属性
告警ID | 告警级别 | 是否自动清除 |
---|---|---|
38010 | 提示 | 否 |
告警参数
参数名称 | 参数含义 |
---|---|
来源 | 产生告警的集群名称。 |
角色名 | 产生告警的角色名称。 |
主题名 | 产生告警的Topic名称列表。 |
对系统的影响
单副本的Topic存在单点故障风险,当副本所在节点异常时,会直接导致Partition没有leader,影响该Topic上的业务。
可能原因
Topic副本数配置不合理。
处理步骤
检查Topic副本数配置
在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,单击此告警所在行的,查看定位信息中上报告警的“主题名”列表。
- 确认发生告警Topic是否需要增加副本。
- 是,执行步骤3。
- 否,执行步骤5。
- 在FusionInsight客户端,对相关Topic的副本进行重新规划,在add-replicas-reassignment.json文件中描述该Topic的Partition分布信息,其中json文件中的内容格式为:{"partitions":[{"topic":" topicName ","partition":1,"replicas": [1,2] }],"version":1},并执行如下命令增加副本:
kafka-reassign-partitions.sh --zookeeper {zk_host}:{port} /kafka --reassignment-json-file {manual assignment json file path} --execute
例如:
/opt/Bigdata/client/Kafka/kafka/bin/kafka-reassign-partitions.sh --zookeeper 192.168.0.90:2181,192.168.0.91:2181,192.168.0.92:2181/kafka --reassignment-json-file add-replicas-reassignment.json --execute
- 执行如下命令进行确认任务执行进度:
kafka-reassign-partitions.sh --zookeeper {zk_host}:{port} /kafka --reassignment-json-file {manual assignment json file path} --verify
例如:
/opt/Bigdata/client/Kafka/kafka/bin/kafka-reassign-partitions.sh --zookeeper 192.168.0.90:2181,192.168.0.91:2181,192.168.0.92:2181/kafka --reassignment-json-file add-replicas-reassignment.json --verify
- 确认处理完成或者告警无影响后,可在FusionInsight Manager页面,手动清除该告警。
- 观察一段时间,检查告警是否清除或者告警无影响后,可在FusionInsight Manager页面,手动清除该告警。
- 是,操作结束。
- 否,执行步骤7。
收集故障信息
在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
- 在“服务”中勾选待操作集群的“Kafka”。
- 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
- 请联系运维人员,并发送已收集的故障日志信息。
告警清除
确认告警已无影响,可手工清除告警。
参考信息
无。