告警作为AOM应用运维管理中一项基础功能,在日常运维中发挥着重要作用。AOM告警可以对接虚机、组件等数十种指标,通过邮件等方式通知客户当前系统存在的问题。
支持的指标
AOM可以支持设置阈值告警的指标类型如下。
类型 | 指标举例 |
---|---|
组件(进程) | CPU内核总量、CPU内核占用、CPU使用率等 |
主机网络 | 接收Bps、接收错包率、发送错包率、总Bps |
主机磁盘、文件系统 | 磁盘读取速率、磁盘写入速率、磁盘使用率 |
主机指标 | CPU内核总量、物理内存使用率、主机状态、NTP偏移量 |
应用性能指标 | 请求平均时延、错误调用次数、请求吞吐量 |
使用步骤
1.登录AOM控制台,在左侧导航栏中选择“告警 > 告警规则”,单击右上角的“添加阈值”。
2.选择资源:在“阈值名称”文本框中输入阈值规则名称,选择资源类型,在资源树上选择待监控的资源,单击“下一步”。
3.定义阈值:选择待监控的指标,设置阈值条件、连续周期、告警级别、统计方式等参数。
说明
阈值条件:阈值告警的触发条件,由判断条件(>=、<=、>、<)和阈值组成。例如,阈值条件设置为“>85”,表示指标的实际值大于已设置的阈值85时,生成阈值
连续周期:连续多少个周期满足阈值条件后,发送阈值告警。
统计方式:指标数据按照所设置的统计方式进行聚合。
统计周期:指标数据按照所设置的统计周期进行聚合。
4.单击“添加”,完成创建多个单条静态阈值规则,一个资源对应一个规则,可使用独立的规则对某个资源进行监控。对于一个单条静态阈值规则,若其监控对象为某个主机,当主机的CPU使用率超限时,在告警界面产生阈值告警,可在左侧导航栏中选择“告警 > 告警列表”,在告警列表中查看该告警