CCE配合AOM对集群进行全方位的监控,在创建节点时会默认安装AOM的ICAgent(在集群kube-system命名空间下名为icagent的DaemonSet),ICAgent默认采集集群底层资源以及运行在集群上负载的监控数据;另外,ICAgent还能采集负载的自定义指标监控数据。
- 资源监控指标
资源基础监控包含CPU/内存/磁盘等,具体请参见资源监控指标。您可以在CCE控制台从集群、节点、工作负载等维度查看这些监控指标数据,也可以在AOM中查看。
- 自定义指标
ICAgent采集应用程序中的自定义指标并上传到AOM,具体使用方法请参见自定义监控。
资源监控指标
在CCE控制台,可以查看如下指标。
表 资源监控指标
监控指标 | 指标含义 |
---|---|
CPU分配率 | 分配给工作负载使用的CPU占比。 |
内存分配率 | 分配给工作负载使用的内存占比。 |
CPU使用率 | CPU使用率。 |
内存使用率 | 内存使用率。 |
磁盘使用率 | 磁盘使用率。 |
下行速率 | 一般指从网络下载数据到节点的速度,单位KB/s。 |
上行速率 | 一般指从节点上传网络的速度,单位KB/s。 |
磁盘读取速率 | 每秒从磁盘读出的数据量,单位KB/s。 |
磁盘写入速率 | 每秒写入磁盘的数据量,单位KB/s。 |
在AOM控制台,可以查看主机指标和容器实例的指标。
查看集群监控数据
单击集群名称进入集群,在左侧导航栏单击集群信息,在右侧可看到集群所有节点(不含控制节点)近一小时的CPU指标和内存指标。
集群监控视图会展示集群资源的监控状态、集群所有节点的CPU/内存/磁盘的使用率,以及CPU和内存的分配率。
监控名词解释:
- CPU分配率 = 集群下运行的Pod CPU配额申请值(Request)之和 / 集群下所有节点(不含控制节点)的CPU可分配量之和
- 内存分配率= 集群下运行的Pod 内存配额申请值(Request)之和 / 集群下所有节点(不含控制节点)的内存可分配量之和
- CPU使用率 = 集群下所有节点(不含控制节点)上实际使用的CPU使用率的平均值。
- 内存使用率= 集群下所有节点(不含控制节点)上实际使用的内存使用率的平均值。
说明节点资源(CPU或内存)可分配量=总量-预留值-驱逐阈值。详情请参见节点预留资源计算公式。
CCE提供了控制节点的状态、所在可用区、CPU使用率和内存使用率
查看节点监控数据
除了在集群监控界面查看所有节点监控数据外,您还可以查看单个节点的监控数据。单击集群名称进入集群,在左侧导航栏选择“节点管理”,在右侧节点所在行单击“监控”。
监控数据来源与AOM,可查看节点的监控数据包括CPU、内存、磁盘、网络、GPU等。
查看工作负载的监控数据
工作负载的监控数据可以在工作负载详情的监控页面下查看。单击集群名称进入集群,在左侧导航栏选择“工作负载”,在右侧工作负载所在行单击“监控”。
监控数据来源与AOM,可查看工作负载的监控数据包括CPU、内存、网络、GPU等。
监控名词解释:
- 工作负载CPU使用率 = 工作负载各个Pod中CPU使用率的最大值
- 工作负载内存使用率= 工作负载各个Pod中内存使用率的最大值
您还可以单击“查看更多”直接跳转到AOM控制台查看工作负载的监控数据。
查看容器实例Pod的监控数据
在工作负载详情页面的实例列表页签中可以查看Pod的监控数据。
监控名词解释:
- Pod CPU使用率 = Pod实际使用的CPU核数 / 业务容器CPU核数限制值之和(未配置限制值时采用节点总量)
- Pod 内存使用率 = Pod实际使用的物理内存 / 业务容器物理内存限制值之和(未配置限制值时采用节点总量)