概述
应用运维管理服务(AOM)可以监控和查看ServiceStage服务的运行状态、各个指标的使用情况,并对监控项创建告警规则。
当您使用ServiceStage服务部署组件后,AOM服务能关联通过在ServiceStage部署组件的监控指标,帮助您实时掌握组件的各项性能指标,精确掌握组件运行情况。
设置监控及告警
ServiceStage支持容器和虚机两种组件部署方式。
- 设置容器部署组件监控及告警
CCE会配合AOM对集群进行全方位的监控,在创建节点时会默认安装AOM的ICAgent(在集群kube-system命名空间下名为icagent的DaemonSet),ICAgent默认采集集群底层资源以及运行在集群上负载的监控数据并上传到AOM。另外,设置应用组件自定义指标监控后,ICAgent还能采集负载的自定义指标监控数据并上传到AOM。
参考设置资源监控告警阈值,完成阈值告警规则设置后,组件运行过程中产生的各种告警会上传到AOM。
支持的监控指标
指标是对资源性能的数据描述或状态描述。
- 容器部署组件支持的监控指标
容器部署组件的资源基础监控包含CPU、内存、磁盘等,具体请参考下表。
表 资源监控指标
监控指标 | 指标含义 | 取值范围 | 单位 |
---|---|---|---|
CPU内核总量(cpuCoreLimit) | 该指标用于统计测量对象申请的CPU核总量。 | ≥1 | 核(Core) |
CPU内核占用(cpuCoreUsed) | 该指标用于统计测量对象已经使用的CPU核个数。 | ≥0 | 核(Core) |
CPU使用率(cpuUsage) | 该指标用于统计测量对象的CPU使用率。服务实际使用的与申请的CPU核数量比率。 | 0~100% | 百分比(Percent) |
物理内存总量(memCapacity) | 该指标用于统计测量对象申请的物理内存总量。 | ≥0 | 兆字节(Megabytes) |
物理内存使用率(memUsage) | 该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。 | 0~100% | 百分比(Percent) |
物理内存使用量(memUsed) | 该指标用于统计测量对象实际已经使用的物理内存(Resident Set Size)。 | ≥0 | 兆字节(Megabytes) |
磁盘读取速率(diskReadRate) | 该指标用于统计每秒从磁盘读出的数据量。 | ≥0 | 千字节/秒(Kilobytes/Second) |
磁盘写入速率(diskWriteRate) | 该指标用于统计每秒写入磁盘的数据量。 | ≥0 | 千字节/秒(Kilobytes/Second) |
下行Pps(recvPackRate) | 每秒网卡接收的数据包个数。 | ≥0 | 个/秒(Packets/Second) |
文件系统容量(filesystemCapacity) | 该指标用于统计测量对象文件系统的容量。 仅支持1.11及其更高版本的kubernetes集群中驱动模式为devicemapper的容器。 |
≥0 | 兆字节(Megabytes) |
下行Bps(recvBytesRate) | 该指标用于统计测试对象的入方向网络流速。 | ≥0 | 字节/秒(Bytes/Second) |
下行包错率(recvErrPackRate) | 每秒网卡接收的错误包个数。 | ≥0 | 个/秒(Packets/Second) |
上行Pps(sendPackRate) | 该指标用于统计测试对象的出方向网络流速。 | ≥0 | 字节/秒(Bytes/Second) |
上行包错率(sendErrPackRate) | 每秒网卡发送的错误包个数。 | ≥0 | 个/秒(Packets/Second) |
上行Bps(sendBytesRate) | 该指标用于统计测试对象的出方向网络流速。 | ≥0 | 字节/秒(Bytes/Second) |
容器错包个数(rxPackErrors) | 该指标用于统计测量对象收到错误包的数量。 | ≥0 | 个(Packets) |
线程数(threadsCount) | 该指标用于统计主机中当前创建的线程数量。 | ≥0 | 无 |
文件系统可用(filesystemAvailable) | 该指标用于统计测量对象文件系统的可用大小。 仅支持1.11及其更高版本的Kubernetes集群中驱动模式为devicemapper的容器。 |
≥0 | 兆字节(Megabytes) |
文件系统使用率(filesystemUsage) | 该指标用于统计测量对象文件系统使用率。实际使用量与文件系统容量的百分比。 仅支持1.11及其更高版本的Kubernetes集群中驱动模式为devicemapper的容器。 |
≥0 | 百分比(Percent) |
句柄数(handleCount) | 该指标用于统计测量对象使用的句柄数。 | ≥0 | 无 |
组件状态(status) | 该指标用于统计应用组状态是否正常。 | l 0:表示正常l 1:表示异常 | 无 |
虚拟内存总量(virMemCapacity) | 该指标用于统计测量对象申请的虚拟内存总量。 | ≥0 | 兆字节(Megabytes) |