本章节主要介绍部分监控指标的告警策略,以及配置操作。在实际业务中,建议按照以下告警策略,配置监控指标的告警规则。
是否接近性能上限 ,表示当前资源支撑的性能为告警策略中设置的告警阈值,如果继续上升,业务可能出现问题。
表 Kafka实例配置告警的指标
指标ID | 指标名称 | 告警策略 | 指标说明 | 告警处理建议 |
---|---|---|---|---|
broker_disk_usage | 磁盘容量使用率 | 告警阈值:原始值>80%连续触发次数:1 告警级别:紧急 |
该指标为从Kafka节点虚拟机层面采集的磁盘容量使用率。 | 出现该告警时,需要修改实例存储空间 。具体操作,请参考变更实例规格。 |
broker_cpu_core_load | CPU核均负载 | 告警阈值:原始值>2连续触发次数:3 告警级别:重要 |
该指标为从Kafka节点虚拟机层面采集的CPU每个核的平均负载。 | 出现该告警时,先检查该监控是否长期处于接近或超过告警阈值状态,如果是,需要修改实例基准带宽/代理个数 ,即扩节点。具体操作,请参考。 |
broker_memory_usage | 内存使用率 | 告警阈值:原始值>90%连续触发次数:3 告警级别:紧急 |
该指标为Kafka节点虚拟机层面采集的内存使用率。 | 出现该告警时,需要修改实例基准带宽/代理个数 ,即扩节点。具体操作,请参考。 |
current_partitions | 分区数 | 告警阈值:原始值>分区数上限的90%,不同实例规格分区数上限不同,具体参考产品规格。 连续触发次数:1 告警级别:重要 |
该指标用于统计Kafka实例中已经使用的分区数量。 | 出现该告警时,如果业务后续还需要新增Topic,则需要修改实例基准带宽/代理个数或将业务拆分至多个实例。修改实例基准带宽/代理个数的具体操作,请参考。 |
broker_cpu_usage | CPU使用率 | 告警阈值:原始值>90%连续触发次数:3 告警级别:重要 |
统计Kafka节点虚拟机的CPU使用率。 | 出现该告警时,先检查该监控是否长期处于接近或超过告警阈值状态,如果是,需要修改实例基准带宽/代理个数 ,即扩节点。具体操作,请参考。 |
group_msgs | 堆积消息数 | 告警阈值:原始值>积压上限的90%,积压上限由您根据业务实际情况设定连续触发次数:1 告警级别:重要 |
该指标用于统计Kafka实例中所有消费组中总堆积消息数。 | 出现该告警时,首先排查是否有闲置消费组,如果有,则删除。其次,可以考虑加快消费速度,例如增加组内消费者数量等。 |
topic_messages_remained | 队列可消费消息数 | 告警阈值:原始值>积压上限的90%,积压上限由您根据业务实际情况设定连续触发次数:1 告警级别:重要 |
该指标用于统计消费组指定队列可以消费的消息个数。 | 出现该告警时,首先排查消费者代码逻辑是否有误,例如消费者出现了异常不再消费等。其次,可以考虑加快消息的消费,例如增加队列消费者,并确保分区数大于或等于消费者数。 |
操作步骤
步骤 1 登录分布式消息服务Kafka控制台,选择Kafka实例所在的区域。
步骤 2 在Kafka实例名称后,单击,进入云监控该实例的监控指标页面。
步骤 3 在实例监控指标页面中,找到需要创建告警的指标项,鼠标移动到指标区域,然后单击指标右上角的,创建告警规则,跳转到创建告警规则页面。
步骤 4 在告警规则页面,设置告警信息。
创建告警规则操作,请查看《云监控服务用户指南》的“创建告警规则和告警通知”章节。
- 设置告警名称和告警的描述。
- 设置告警策略和告警级别。
如下图所示,在进行指标监控时,如果连续3个周期,磁盘容量使用率原始值超过85%,则产生告警,如果未及时处理,则产生告警通知。
图设置告警策略和告警级别
- 设置“发送通知”开关。当开启时,设置告警生效时间、产生告警时通知的对象以及触发的条件。
- 单击“立即创建”,等待创建告警规则成功。