告警指标
在实际业务中,建议按照以下告警策略,配置监控指标的告警规则。
指标ID | 指标名称 | 告警策略 | 指标说明 | 告警处理建议 |
---|---|---|---|---|
broker_bytes_in | 节点流量告警 | 告警阈值:原始值>50MB/s 持续时间:可自定义 告警级别:重要 |
该指标为从Kafka节点虚拟机层面采集的数据写入流量。 | 出现该告警时,先检查该监控是否长期处于接近或超过告警阈值状态,如果是,需要修改实例代理个数,即扩节点。具体操作请参考扩容。 |
broker_message_in | 节点tps告警 | 告警阈值:原始值>10000 持续时间:可自定义 告警级别:重要 |
该指标为从Kafka节点虚拟机层面采集的tps。 | 出现该告警时,先检查该监控是否长期处于接近或超过告警阈值状态,如果是,需要修改实例代理个数,即扩节点。具体操作请参考扩容。 |
topic_bytes_in | 主题流量告警 | 告警阈值:原始值>50MB/s 持续时间:可自定义 告警级别:重要 |
该指标为从topic机层面采集的数据写入流量。 | 出现该告警时,先检查该监控是否长期处于接近或超过告警阈值状态,如果是,需要修改实例代理个数,即扩节点。具体操作请参考扩容。 |
topic_message_in | 主题tps告警 | 告警阈值:原始值>10000 持续时间:可自定义 告警级别:重要 |
该指标为从topic机层面采集的tps。 | 出现该告警时,先检查该监控是否长期处于接近或超过告警阈值状态,如果是,需要修改实例代理个数,即扩节点。具体操作请参考扩容。 |
group_total_lag | 消费组堆积数告警 | 告警阈值:原始值>10000 持续时间:可自定义 告警级别:重要 |
该指标为统计的消费组未消费的消息堆积量 | 出现该告警时,请先检测消费者客户端消费速度是否过慢,检查消费者客户端是否有扩充的可能(消费者客户端数量和对应tpic的分区数相等) |
操作步骤
1、进入kafka控制台,选择一个实例,点击“管理”进入实例管理页面,再点击“告警管理”进入告警规则列表。
2、点击“创建告警规则”进入创建页面,根据页面的提示,填写告警名称、告警内容和告警条件,选择告警分组、告警指标、筛选条件、持续时间、告警等级、通知策略、通知频率,确认告警规则内容正确后,点击“保存”。
3、根据告警规则,模拟告警发出的场景,例如,实例连接数>10时,发出告警。