操作场景
天翼云分布式消息Kafka自集成了一整套监控方案,对Kafka实例的运行状态进行日常监控,可以通过管理控制台查看Kafka实例各项监控指标。各项监控指标可以分为实例监控、实例节点监控、主题监控、消费组监控和Connect监控,各项监控指标的具体细节如下表所示。
操作前提
已开通天翼云Kafka实例,且实例状态为“运行中”
Kafka 实例是天翼云Ⅱ类资源池实例,目前Ⅱ类资源池包括:华东1、上海36、华北2、长沙42、武汉41、西安7、杭州7、青岛20、西南1、西南2、广州4、郑州5、华南2等
监控指标
监控项的数据聚合周期为1分钟,即1分钟计算一次,计算出来每秒字节数。您可以将该数据理解为一分钟内的平均值。
1. 实例监控
指标ID | 指标名称 | 指标含义 | 取值范围 | 单位 |
---|---|---|---|---|
current_brokers | 存活节点数 | 该指标用于统计Kafka实例中正常运行的实例节点数 | 0~50 | Count |
current_topics | 主题数 | 该指标用于统计Kafka实例中已经创建的主题数量。 | 0~2000 | Count |
current_partitions | 分区数 | 该指标用于统计Kafka实例中已经使用的分区数量。 | 0~2000 | Count |
group_msgs | 堆积消息数 | 该指标用于统计Kafka实例中所有消费组中总堆积消息数。 | >=0 | Count |
instance_bytes_in_rate | 生产流量 | 该指标用于统计Kafka实例中每秒生产的字节数。 | >=0 | MB/s |
instance_bytes_out_rate | 消费流量 | 该指标用于统计Kafka实例中每秒生产的字节数。 | >=0 | MB/s |
instance_messages_in_rate | 消息生产速率 | 该指标用于统计实例每秒生产的消息数。 | >=0 | Count/s |
instance_messages_out_rate | 消息消费速率 | 该指标用于统计实例每秒消费的消息数。 注意:2025年1月及以后购买的实例,支持此监控项。 | >=0 | Count/s |
instance_request_queue_size | 实例请求队列长度 | 该指标用于统计实例请求队列长度。 | >=0 | Count |
instance_response_queue_size | 实例响应队列长度 | 该指标用于统计实例响应队列长度。 | >=0 | Count |
2. 实例节点监控
指标ID | 指标名称 | 指标含义 | 取值范围 | 单位 |
---|---|---|---|---|
指标ID | 指标名称 | 指标含义 | 取值范围 | 单位 |
broker_alive | 节点存活状态 | 该指标用于统于Broker节点的运行状态。 | 1:存活 0:离线 | Count |
broker_data_size | 节点数据容量 | 该指标用于统计Broker节点当前的消息数据大小。 | >=0 | Byte、KB、MB、GB |
broker_bytes_in_rate | 生产流量 | 该指标用于统计Broker节点每秒生产的字节数。 | >=0 | Byte/s、KB/s、MB/s、GB/s |
broker_bytes_out_rate | 消费流量 | 该指标用于统计Broker节点每秒消费的字节数。 | >=0 | Byte/s、KB/s、MB/s、GB/s |
broker_messages_in_rate | 消息生产速率 | 该指标用于统计Broker节点每秒生产的消息数。 | >=0 | Count/s |
broker_public_bytes_in_rate | 公网入流量 | 该指标用于统计Broker节点每秒公网访问流入流量。 说明:该指标需要实例已开启公网访问,并且设置了弹性IP地址。 | >=0 | Byte/s、KB/s、MB/s、GB/s |
broker_public_bytes_out_rate | 公网出流量 | 该指标用于统计Broker节点每秒公网访问流出流量。 说明:该指标需要实例已开启公网访问,并且设置了弹性IP地址。 | >=0 | Byte/s、KB/s、MB/s、GB/s |
broker_produce_mean | 生产请求平均处理时长 | 该指标用于统计Broker节点处理生产请求平均时长。 | >=0 | 秒 |
broker_fetch_mean | 消费请求平均处理时长 | 该指标用于统计Broker节点处理消费请求平均时长。 | >=0 | 秒 |
request_queue_size | 请求队列长度 | 该指标用于统计Broker节点处请求队列的长度。 | >=0 | Byte、KB、MB、GB |
response_queue_size | 响应队列长度 | 该指标用于统计Broker节点处响应队列的长度。 | >=0 | Byte、KB、MB、GB |
broker_connections | 连接数 | 该指标用于统计Broker节点当前的TCP连接数。 | 0~65535 | Count |
broker_public_connections | 公网连接数 | 该指标用于统计Broker节点当前的公网TCP连接数。 | 0~65535 | Count |
broker_partition_count | 节点分区数 | 该指标用于统计Broker节点当前的主题分区数。 | 0~2000 | Count |
broker_leader_count | leader分区数 | 该指标用于统计Broker节点当前的leader分区数。 | 0~2000 | Count |
under_minisr_partition_count | 同步副本小于设置的ISR | 该指标用于统计Broker节点当前同步副本小于设置的ISR的分区数。 | 0~2000 | Count |
under_replicated_count | 失效副本数 | 该指标用于统计Broker节点当前的失效副本数。 | 0~2000 | Count |
broker_old_gc | OldGc频率 | 该指标用于统计Broker节点当前Kafka进程的OldGc频率。 | >=0 | Count/s |
broker_young_gc | YoungGc频率 | 该指标用于统计Broker节点当前Kafka进程的YoungGc频率。 | >=0 | Count/s |
broker_heap_usage | Kafka进程JVM堆内存使用率 | 该指标用于统计Broker节点当前Kafka进程的JVM堆内存使用率。 | 0~100 | % |
cpu_usage | CPU使用率 | 该指标用于统计Broker节点虚拟机的CPU使用率。 | 0~100 | % |
cpu_load | CPU核均负载 | 该指标用于统计Broker节点虚拟机CPU每个核的平均负载。 | 0~100 | % |
data_disk_usage | 磁盘容量使用率 | 该指标用于统计Broker节点虚拟机磁盘容量的使用率。 | 0~100 | % |
memory_usage | 内存使用率 | 该指标用于统计Broker节点虚拟机的内存使用率。 | 0~100 | % |
network_transmit_rate | 网络出流量 | 该指标用于统计Broker节点每秒网络访问流出流量。 | >=0 | Byte/s、KB/s、MB/s、GB/s |
network_receive_rate | 网络入流量 | 该指标用于统计Broker节点每秒网络访问流入流量。 | >=0 | Byte/s、KB/s、MB/s、GB/s |
network_bandwidth_usage | 网络带宽使用率 | 该指标用于统计Broker节点虚拟机的网络带宽使用率。 注意:2024年8月及以后购买的实例,支持此监控项。 | >=0 | % |
network_processor_idle | 网络线程空闲率 | 该指标用于统计Broker节点Kafka服务的网络线程空闲率 | 0~100 | % |
disk_read_bytes_rate | 磁盘读流量 | 该指标用于统计Broker节点虚拟机的磁盘读流量 | >=0 | Byte/s、KB/s、MB/s、GB/s |
disk_write_bytes_rate | 磁盘写流量 | 该指标用于统计Broker节点虚拟机的磁盘写流量 | >=0 | Byte/s、KB/s、MB/s、GB/s |
disk_read_time | 磁盘平均读操作耗时 | 该指标用于统计Broker节点虚拟机的磁盘在测量周期内平均每个读IO的操作时长。 | >=0 | 毫秒 |
disk_write_time | 磁盘平均写操作耗时 | 该指标用于统计Broker节点虚拟机的磁盘在测量周期内平均每个写IO的操作时长。 | >=0 | 毫秒 |
network_bandwidth_in_usage | 网络入带宽使用率 | 该指标用于统计Broker节点网络带宽入流量使用率,使用率为网络访问流入流量与节点基准带宽的比。 注意:2024年8月及以后购买的实例,支持此监控项。 | >=0 | % |
network_bandwidth_out_usage | 网络出带宽使用率 | 该指标用于统计Broker节点网络带宽出流量使用率,使用率为网络访问流出流量与节点基准带宽的比。 注意:2024年8月及以后购买的实例,支持此监控项。 | >=0 | % |
3. 主题监控
指标ID | 指标名称 | 指标含义 | 取值范围 | 单位 |
---|---|---|---|---|
topic_bytes_in_rate | 生产流量 | 该指标用于统计主题每秒生产的字节数。 | >=0 | Byte/s、KB/s、MB/s、GB/s |
topic_bytes_out_rate | 消费流量 | 该指标用于统计主题每秒消费的字节数。 | >=0 | Byte/s、KB/s、MB/s、GB/s |
topic_messages_in_rate | 生产速率 | 该指标用于统计主题每秒生产的消息数。 | >=0 | Count/s |
topic_data_size | 主题数据容量 | 该指标用于统计主题当前的消息数据大小。 | >=0 | Byte、KB、MB、GB |
topic_messages | 主题消息总数 | 该指标用于统计主题当前的消息总数。 | >=0 | Count |
partition_messages | 分区消息数 | 该指标用于统计主题分区当前的消息总数。 | >=0 | Count |
produced_messages | 生产消息数 | 该指标用于统计主题分区当前生产的消息总数。 | >=0 | Count |
topic_bytes_reject_rate | 生产拒绝流量 | 该指标用于统计主题每秒生产失败的字节数。 | >=0 | Byte/s、KB/s、MB/s、GB/s |
topic_messages_out_rate | 消费速率 | 该指标用于统计主题每秒消费的消息数。 注意:2025年1月及以后购买的实例,支持此监控项。 | >=0 | Count/s |
topic_produce_rate | Produce请求速率 | 该指标用于统计主题每秒Produce请求的个数。 | >=0 | Count/s |
topic_fetch_rate | Fetch请求速率 | 该指标用于统计主题每秒Fetch请求的个数。 | >=0 | Count/s |
topic_produce_fail_rate | Produce失败请求速率 | 该指标用于统计主题每秒Produce请求失败的个数。 | >=0 | Count/s |
topic_fetch_fail_rate | Fetch失败请求速率 | 该指标用于统计主题每秒Fetch请求失败的个数。 | >=0 | Count/s |
4. 消费组监控
指标ID | 指标名称 | 指标含义 | 取值范围 | 单位 |
---|---|---|---|---|
partition_messages_consumed | 分区已消费消息数 | 该指标用于统计当前消费组指定主题分区已经消费的消息总数。 | >=0 | Count |
partition_messages_remained | 分区可消费消息数 | 该指标用于统计当前消费组指定主题分区还可以消费的消息总数。 | >=0 | Count |
topic_messages_consumed | 主题已消费消息数 | 该指标用于统计当前消费组指定主题已经消费的消息总数。 | >=0 | Count |
topic_messages_remained | 主题可消费消息数 | 该指标用于统计当前消费组指定主题还可以消费的消息总数。 | >=0 | Count |
consumer_messages_consumed | 消费组已消费消息数 | 该指标用于统计当前消费组已经消费的消息总数。 | >=0 | Count |
consumer_messages_remained | 消费组可消费消息数 | 该指标用于统计当前消费组还可以消费的消息总数。 | >=0 | Count |
consumer_rebalance_times | 消费组重平衡次数 | 该指标用于统计当前消费组重平衡次数。 | >=0 | Count |
consumer_messages_consumed_rate | 消费组消费速率 | 该指标用于统计消费组每秒消费的消息数。 注意:2025年1月及以后购买的实例,支持此监控项。 | >=0 | Count/s |
topic_messages_consumed_rate | 主题消费速率 | 该指标用于统计主题每秒消费的消息数。 注意:2025年1月及以后购买的实例,支持此监控项。 | >=0 | Count/s |
messages_consumed_rate | 分区消费速率 | 该指标用于统计主题分区每秒消费的消息数。 注意:2025年1月及以后购买的实例,支持此监控项。 | >=0 | Count/s |
5. Connect监控
指标ID | 指标名称 | 指标含义 | 取值范围 | 单位 |
---|---|---|---|---|
kafka_wait_synchronize_data | 待同步数据量 | 该指标用于统计Kafka实例中待同步的数据量。 注意:2025年1月及以后购买的Connect实例,支持此监控项。 | >=0 | Count |
kafka_synchronize_rate | 数据同步速率 | 该指标用于统计Kafka实例中每分钟同步的数据量。 注意:2025年1月及以后购买的Connect实例,支持此监控项。 | >=0 | Count/s |
task_status | 任务状态 | 该指标用于统计当前任务的状态。 注意:2025年1月及以后购买的Connect实例,支持此监控项。 | 0:任务异常 1:任务正常 | Count |
message_delay | 消息时延 | 该指标用于统计消息到达源端时间与到达目标端的时间差。 注意:2025年1月及以后购买的Connect实例,支持此监控项。 | >=0 | ms |