1、控制台页面内的监控功能
本功能适用于以下资源池:
华东地区:上海7北方地区:内蒙6
华东地区:华东1
我们提供全面的监控功能,用于实时监测和评估您的云数据库ClickHouse集群的性能和运行状况:
- 登录云数据库ClickHouse控制台,并选择实例所在地域。
- 在实例列表页面,点击目标实例ID所在行的"管理"按钮进入详细信息页面。
- 在实例详细信息页面上方导航栏中,选择"监控管理"选项。
以下是我们支持的监控指标的详细描述:
监控指标 | 描述 |
---|---|
CPU使用率 | 监测每个ClickHouse节点的CPU利用率,反映节点的计算能力和负载情况。您可以通过监控CPU使用率来评估系统的处理能力,并及时进行资源调整。 |
内存使用量 | 跟踪每个ClickHouse节点的内存消耗情况,了解内存使用情况可以帮助您优化查询性能和调整内存配置。 |
磁盘使用空间 | 监控每个ClickHouse节点的磁盘空间占用情况,确保有足够的存储空间来容纳数据和执行操作。及时了解磁盘使用情况可以避免因存储空间不足而导致的数据丢失或运行故障。 |
每秒IO次数 | 记录每秒的输入输出操作次数,包括读取和写入数据的次数。通过监控每秒IO次数,您可以评估ClickHouse节点的IO性能和磁盘负载情况,以便进行性能优化和容量规划。 |
每秒读写字节数 | 监测每秒读取和写入的数据量,帮助您了解数据处理速度和吞吐量。通过监控每秒读写字节数,您可以评估系统的数据处理能力,并根据需要进行调整和优化。 |
当前运行查询数 | 实时跟踪正在运行的查询数量,反映系统的查询负载和性能状况。通过监控当前运行查询数,您可以了解系统的负载情况,并做出相应的优化和调整。 |
合并数量 | 监控数据合并操作的数量,用于评估数据压缩和合并操作的效率。通过监控合并数量,您可以了解数据压缩和合并的效果,并根据需要进行优化。 |
分区变更数量 | 记录分区变更的次数,用于跟踪分区操作和数据变更情况。了解分区变更数量可以帮助您追踪数据变更的频率和趋势,以及相应的系统影响。 |
后台任务数 | 跟踪后台任务的数量,包括数据清理、数据复制等后台处理任务。通过监控后台任务数,您可以了解后台处理的工作负载和执行情况,以及相应的资源占用。 |
TCP连接数 | 监控每个ClickHouse节点的TCP连接数量,用于评估网络连接的负载和性能状况。了解TCP连接数可以帮助您优化网络配置和资源分配。 |
HTTP连接数 | 记录每个ClickHouse节点的HTTP连接数量,帮助您追踪HTTP请求的并发情况。通过监控HTTP连接数,您可以评估系统的网络负载和处理能力。 |
Zookeeper监听数 | 监测Zookeeper集群中的监听数,用于了解集群状态和数据同步情况。通过监控Zookeeper监听数,您可以评估集群的稳定性和可用性。 |
Zookeeper会话数 | 跟踪Zookeeper集群中的会话数,用于评估集群的稳定性和连接状态。了解Zookeeper会话数可以帮助您监控集群的健康状况和系统连接情况。 |
通过这些详细的监控指标,您可以全面了解和掌握云数据库ClickHouse集群的性能表现、资源利用和系统状态,以便及时调整和优化系统配置,确保系统的高可用性、高性能和稳定性。
2、Ⅱ类资源池的监控告警功能
本功能适用于以下资源池:
华东地区:华东1
2.1 监控指标
本节定义了云数据库ClickHouse上报云监控的监控指标的命名空间,监控指标列表和维度定义,默认监控周期为15秒,不支持修改。
监控页面查看路径:
- 登录云数据库ClickHouse控制台,并选择实例所在地域。
- 在实例列表页面,点击页面右上角的图标,进入数据库管理平台。
- 在数据库管理平台内的监控中心->实例监控页面选择对应实例查看。
实例性能监控指标,如下表所示。
指标名称 | 指标含义 | 监控对象 |
---|---|---|
CPU使用率 | CPU的当前使用率 | 计算节点与协调节点 |
内存使用率 | 内存的当前使用率 | 计算节点与协调节点 |
磁盘使用率 | 磁盘的当前使用率 | 计算节点与协调节点 |
磁盘每秒成功读字节数 | 每秒从磁盘成功读取的字节数 | 计算节点与协调节点 |
磁盘每秒成功写字节数 | 每秒成功写入磁盘的字节数 | 计算节点与协调节点 |
磁盘每秒读操作数 | 每秒从磁盘进行读操作的次数 | 计算节点与协调节点 |
磁盘每秒写操作数 | 每秒向磁盘进行写操作的次数 | 计算节点与协调节点 |
磁盘使用量 | 磁盘当前使用空间的大小 | 计算节点与协调节点 |
inode使用率 | inode节点的使用率 | 计算节点与协调节点 |
每秒接收包数 | 每秒接收到的网络数据包数 | 计算节点与协调节点 |
每秒发送包数 | 每秒发送的网络数据包数 | 计算节点与协调节点 |
Data Part个数 | 数据分区的数量 | 计算节点 |
内存使用量 | 当前使用的内存大小 | 计算节点与协调节点 |
Inactive Data Part个数 | 处于inactive状态的数据分区数量 | 计算节点 |
每秒写入字节数 | 每秒向ClickHouse写入的字节数 | 计算节点 |
QPS | 每秒查询请求数量 | 计算节点 |
每秒写入行数 | 每秒向ClickHouse写入的行数 | 计算节点 |
TCP连接数 | 建立的TCP连接数 | 计算节点 |
正在运行的查询数 | 当前运行中的查询任务数量 | 计算节点 |
运行Mutation个数 | 当前运行中的mutation数量 | 计算节点 |
HTTP连接数 | 建立的HTTP连接数量 | 计算节点 |
失败Query个数 | 失败的查询任务总数 | 计算节点 |
失败Insert Query个数 | 失败的插入查询任务数量 | 计算节点 |
失败Select Query个数 | 失败的选择查询任务数量 | 计算节点 |
运行Merge个数 | 当前运行中的合并任务数量 | 计算节点 |
每秒延迟Insert查询个数 | 每秒新的延迟插入查询任务数量 | 计算节点 |
Kafka外表消费发生错误个数 | Kafka外部表消费过程中出现错误的数量 | 计算节点 |
集群状态 | 实例运行状 | 实例 |
2.2 告警设置
设置告警规则
- 登录云数据库ClickHouse控制台,并选择实例所在地域。
- 在实例列表页面,点击页面右上角的图标,进入数据库管理平台。
- 在数据库管理平台内的告警中心->告警设置,点击“新增策略”,设置告警规则。
参数名 | 参数解释 |
---|---|
策略名称 | 告警策略的名称,一个告警策略可以包含多个告警规则。 |
资源池 | 告警策略对应的资源池。 |
备注 | 告警策略的备注信息。 |
告警对象 | 可选择天翼云数据库组件,并选择对应的告警实例。 |
模板类型 | 支持手动创建告警规则,用户也可使用默认模板的六个默认告警规则。 |
阈值告警 | 支持2.1节中列举的除集群状态以外的所有监控指标。 |
事件告警 | 仅支持集群状态的事件告警。 |
沉默周期 | 指告警发生后如果未恢复正常,间隔多久重复发送一次告警通知。 |
告警级别 | 支持选择紧急、告警、普通三种告警级别。 |
告警方式 | 支持选择邮箱、短信,支持同时选择多种告警方式进行告警。填写后将额外推送告警消息至指定的告警方式。 |
告警联系人 | 目前只能选择当前账号,不可选择其他用户。选择后会将告警信息推送至用户绑定的邮箱和短信。 |
告警联系组 | 目前普通用户不可创建告警联系群组,默认为空。后续迭代处理后将上线联系组功能。 |