功能介绍
天翼云全站加速平台支持自动化业务指标监控和告警功能,客户可以依据实际业务监控/告警需要,设置相关的监控与告警规则。当告警规则被触发时,天翼云监控系统会根据客户设定的手机短信、电子邮件、企业微信、钉钉等通知方式发送告警信息,通知客户及时介入并处理相关问题。
目前已支持的常用监控/告警指标,包括但不限于:
- 带宽/流量:上限/下限监控、突增突降监控。
- 请求数:上限/下限监控、突增突降监控。
- 状态码:异常状态码(5xx/4xx)次数监控、异常状态码(5xx/4xx)比例监控。
适用场景
- 如您的业务是大文件下载或音视频点播业务,经常涉及带宽/流量突增突降等,可以重点考虑设置带宽/流量相关的监控指标,并设置合适的阈值进行监控和告警。
- 如您的业务是静态小文件,例如,政企官网、金融证券、电子商务和新闻媒体等各类网站,更关注用户访问量及QPS的变化,可重点考虑设置请求数/QPS相关的监控指标,并设置合适的阈值进行监控和告警。
- 如您的业务对服务可用性比较敏感,您可以设置状态码相关的监控指标,设置合适的阈值实时监控业务的运营状态,确保异常时可及时告警并人工介入处理。
配置说明
该功能暂不支持客户自助配置,如需使用,请通过提交工单给天翼云客服,由其人工操作开启。
提交工单时,请附带如下信息:
参数 | 说明 | 默认值 | 示例 |
---|---|---|---|
告警名称 | 告警名称用于区分不同的告警任务,当客户收到告警信息时,将主要从告警名称来做区分和识别不同的告警。 | 无。 | 边缘带宽突增告警。 |
监控范围 | 告警规则作用的业务范围:全量域名 或 部分域名。 1. 全量域名:该客户账号下的所有全站加速域名。 2. 部分域名:仅针对具体域名进行监控,支持目标域名(白名单)或者例外的域名(黑名单)。 |
全量域名。 | 全量域名。 |
监控指标 | 具体的告警规则,当监控数据满足告警条件时,触发告警。 1. 监控时段:“00:00 到 24:00”期间满足“任意”或“所有”条件时触发告警。支持多个时段多个监控指标,不同监控指标间的关系可选择,例如:任意或所有。“任意”指多个指标只要有一个指标达到告警阈值即告警;“所有”指多个指标需要同时达到告警阈值才告警。 2. 监控指标:详情请见下表:监控指标说明。 |
“00:00 到 24:00”期间满足 “任意” 条件。 | 实例1:监控时段1:18:00到22:00满足“任意” 条件时触发告警。 1. 域名边缘带宽增长率(%)>50。 2. 域名5xx占比(%)≥2。 实例2:监控时段2:00:00到 24:00满足“所有”条件时触发告警。 1. 域名边缘带宽增长率(%)>100。 2. 域名5xx占比(%)≥5。 |
触发条件 | 为规避偶发网络波动等因素引起的误告(无需处理的告警),而干扰告警的有效性。监控平台支持设置以下两个参数: 1. 持续时间:表示异常持续一段时间才触发告警,支持300秒、1500秒两个选项。 2. 连续触发次数:持续时间段内,连续满足告警条件指定次数,才会触发告警。 |
1. 持续时间:默认5分钟。 2. 连续触发次数:默认3次。 |
1. 持续时间:10分钟。 2. 连续触发次数:5次。 |
告警沉默周期 | 告警发生后未恢复正常,间隔多久重复发送一次告警通知,单位为分钟。某监控指标达到告警阈值时发送告警,如果监控指标在沉默周期内持续超过告警阈值,在沉默周期内不会重复发送告警通知;如果监控指标在沉默周期后仍未恢复正常,则监控再次发送告警通知。 例如:当告警沉默周期设置60分钟时,如果告警未恢复正常,则间隔60分钟后,监控会再次发送告警通知。 |
5分钟。 | 沉默周期:10分钟。 |
告警渠道 | 告警触发时的通知渠道。支持语音服务、手机短信、电子邮件、企业微信(或企业微信机器人)、钉钉机器人。 | 无。 | 手机短信。 |
告警联系人组 | 发送告警的联系人组。告警联系人组是一组告警联系人,可以包含一个或多个告警联系人。 | 无。 | 例如:张三 手机号1。李四 手机号2。 |
告警内容 | 若无特殊需求,可忽略此项。系统会按特定指标对应的模板自动生成告警信息。 | 详见下文示例。 | 详见下文示例。 |
监控指标说明:
指标类别 指标名称 指标说明 示例 带宽/流量 域名边缘带宽(Mbps) 支持设定“>、>=、<、<=、=”某个具体的带宽值。 >=1000 域名流量(一段时间内)(GB) 支持设定“>、>=、<、<=、=”某个具体的流量值。 >=500 域名边缘带宽增长率-相比10min前(%) 支持设定“>、>=、<、<=、=”某个具体的比例。 >=20 域名边缘带宽增长率(%) 支持设定“>、>=、<、<=、=”某个具体的比例。 >=50 域名边缘带宽下降率-相比10min前(%) 支持设定“>、>=、<、<=、=”某个具体的比例。 >=20 域名边缘带宽下降率(%) 支持设定“>、>=、<、<=、=”某个具体的比例。 >=20 请求数 域名请求数量(次) 支持设定“>、>=、<、<=、=”某个具体的数量。 >=1000000 域名请求增长率-相比10min前(%) 支持设定“>、>=、<、<=、=”某个具体的比例。 >=20 域名qps增长率(%) 支持设定“>、>=、<、<=、=”某个具体的比例。 >=30 域名请求下降率-相比10min前(%) 支持设定“>、>=、<、<=、=”某个具体的比例。 >=20 域名全网qps下降率(%) 支持设定“>、>=、<、<=、=”某个具体的比例。 >=30 状态码 域名5xx占比(%) 支持设定“>、>=、<、<=、=”某个具体的比例。 >=1 域名5xx数量(次) 支持设定“>、>=、<、<=、=”某个具体的数量。 >=1000 域名4xx占比(%) 支持设定“>、>=、<、<=、=”某个具体的比例。 >=1 域名4xx数量(次) 支持设定“>、>=、<、<=、=”某个具体的数量。 >=1000 域名边缘4xx占比增长(%) 支持设定“>、>=、<、<=、=”某个具体的比例。 >=20
注意事项
- 当同时配置多个告警指标时,平台支持“任意”或“所有”条件满足时告警,提交工单时,请明确告知。
- 如您对自有业务的特点不甚了解,您可以先按经验提交一个阈值方案,业务运营同事会帮您做一些基础的判断和建议,先试运行。之后,可结合线上实际运营情况,后期再提工单优化,直至找到适合的监控指标及阈值。
告警示例
告警需求提交示例
- 告警名称:带宽突增与可用性告警。
- 监控范围:test.ctyun.cn(单个域名)。
- 监控指标:18:00到22:00满足“任意”条件时触发告警。
- 条件1:域名边缘带宽增长率(%)>50。
- 条件2:域名5xx占比(%)≥2。
- 触发条件:
- 持续时间:10分钟。
- 连续触发次数:5次。
- 告警沉默周期:30分钟。
- 告警渠道:企业微信机器人。
- 告警联系人: 王五 186XXXXXXXX。
- 告警内容:系统默认。
企业微信告警信息示例
[alert]-test.ctyun.cn:-带宽突增与可用性告警:
- 王五。
- 客户邮箱:XXXX。
- domain=[test.ctyun.cn]。
- 告警通知ID=XXXXXXXXXXXXX-XXXXXXXX。
- 发生了[带宽突增与可用性告警]告警-客户级。
- 当前值为[域名5xx占比(%)=3]。
- 触发条件[域名5xx占比(%)超过2]。
- 故障持续XXX分钟。
- 开始时间:2023-11-20 06:25:01。
- 最近一次告警时间为:2023-11-20 11:30:04。
- 期间告警X次恢复X次。