功能介绍
天翼云CDN加速平台支持自动化业务指标监控和告警功能,客户可以依据实际业务监控/告警需要,设置相关的监控与告警规则。当告警规则被触发时,天翼云监控系统会根据客户设定的手机短信、电子邮件、企业微信、钉钉等通知方式发送告警信息,通知客户及时介入并处理相关问题。
目前已支持的常用监控/告警指标,包括但不限于:
带宽/流量:上限/下限监控、突增突降监控。
请求数:上限/下限监控、突增突降监控。
状态码:异常状态码(5xx/4xx)次数监控、异常状态码(5xx/4xx)比例监控。
适用场景
如您的业务是大文件下载或音视频点播业务,经常涉及带宽/流量突增突降等,可以重点考虑设置带宽/流量相关的监控指标,并设置合适的阈值进行监控和告警。
如您的业务是静态小文件,例如,政企官网、金融证券、电子商务和新闻媒体等各类网站,更关注用户访问量及QPS的变化,可重点考虑设置请求数/QPS相关的监控指标,并设置合适的阈值进行监控和告警。
如您的业务对服务可用性比较敏感,您可以设置状态码相关的监控指标,设置合适的阈值实时监控业务的运营状态,确保异常时可及时告警并人工介入处理。
配置说明
该功能暂不支持客户自助配置,如需使用,请通过提交工单给天翼云客服,由其人工操作开启。
提交工单时,请您提供如下信息:
参数名 | 说明 | 默认值 | 示例 |
---|---|---|---|
告警名称 | 告警名称用于区分不同的告警任务,当客户收到告警信息时,将主要从告警名称来做区分和识别不同的告警。 | 无。 | 边缘带宽突增告警。 |
监控范围 | 告警规则作用的业务范围:全量域名或部分域名。 1.全量域名:您账号下的所有CDN加速域名。 2.部分域名:仅针对具体域名进行监控,支持目标域名(白名单)或者例外的域名(黑名单)。 | 全量域名。 | 全量域名。 |
监控指标 | 具体的告警规则,当监控数据满足告警条件时,触发告警。 1.监控时段:“00:00 到 24:00”期间满足“任意”或“所有”条件时触发告警。支持多个时段多个监控指标,不同监控指标间的关系可选择,例如:任意或所有。“任意”指多个指标只要有一个指标达到告警阈值即告警;“所有”指多个指标需要同时达到告警阈值才告警。 2.监控指标:详情请见下表:监控指标说明。 | “00:00 到 24:00”期间满足 “任意” 条件。 | 实例1:监控时段1:18:00到22:00满足“任意” 条件时触发告警。 1.域名边缘带宽增长率(%)>50。 2.域名5xx占比(%)≥2。 实例2:监控时段2:00:00到 24:00满足“所有”条件时触发告警。 1.域名边缘带宽增长率(%)>100。 2.域名5xx占比(%)≥5。 |
触发条件 | 为规避偶发网络波动等因素引起的误告(无需处理的告警),而干扰告警的有效性。监控平台支持设置持续时间,表示异常持续一段时间才触发告警,支持300秒、1500秒两个选项。 | 持续时间:默认5分钟。 | 持续时间:10分钟。 |
告警沉默周期 | 告警发生后未恢复正常,间隔多久重复发送一次告警通知,单位为分钟。某监控指标达到告警阈值时发送告警,如果监控指标在沉默周期内持续超过告警阈值,在沉默周期内不会重复发送告警通知;如果监控指标在沉默周期后仍未恢复正常,则监控再次发送告警通知。 例如:当告警沉默周期设置60分钟时,如果告警未恢复正常,则间隔60分钟后,监控会再次发送告警通知。 | 5分钟。 | 沉默周期:10分钟。 |
告警渠道 | 告警触发时的通知渠道。支持语音服务、手机短信、电子邮件、企业微信(或企业微信机器人)、钉钉机器人。 | 无。 | 手机短信。 |
告警联系人组 | 发送告警的联系人组。告警联系人组是一组告警联系人,可以包含一个或多个告警联系人。 | 无。 | 例如:张三 手机号1。李四 手机号2。 |
告警内容 | 若无特殊需求,可忽略此项。系统会按特定指标对应的模板自动生成告警信息。 | 详见下文示例。 | 详见下文示例。 |
监控指标说明:
指标类别 | 指标名称 | 指标说明 | 示例 |
---|---|---|---|
带宽/流量 | 域名边缘带宽(Mbps) | 支持设定“>、>=、<、<=、=”某个具体的带宽值。 | >=1000 |
域名流量(当天)(GB) | 支持设定“>、>=、<、<=、=”某个具体的流量值。 | >=500 | |
域名边缘带宽增长率-相比10min前(%) | 支持设定“>、>=、<、<=、=”某个具体的比例。 | >=20 | |
域名边缘带宽增长率(%) | 支持设定“>、>=、<、<=、=”某个具体的比例。 | >=50 | |
域名边缘带宽下降率-相比10min前(%) | 支持设定“>、>=、<、<=、=”某个具体的比例。 | >=20 | |
域名边缘带宽下降率(%) | 支持设定“>、>=、<、<=、=”某个具体的比例。 | >=20 | |
请求数 | 域名请求数量(次) | 支持设定“>、>=、<、<=、=”某个具体的数量。 | >=1000000 |
域名请求增长率-相比10min前(%) | 支持设定“>、>=、<、<=、=”某个具体的比例。 | >=20 | |
域名qps增长率(%) | 支持设定“>、>=、<、<=、=”某个具体的比例。 | >=30 | |
域名请求下降率-相比10min前(%) | 支持设定“>、>=、<、<=、=”某个具体的比例。 | >=20 | |
域名全网qps下降率(%) | 支持设定“>、>=、<、<=、=”某个具体的比例。 | >=30 | |
状态码 | 域名5xx占比(%) | 支持设定“>、>=、<、<=、=”某个具体的比例。 | >=1 |
域名5xx数量(次) | 支持设定“>、>=、<、<=、=”某个具体的数量。 | >=1000 | |
域名4xx占比(%) | 支持设定“>、>=、<、<=、=”某个具体的比例。 | >=1 | |
域名4xx数量(次) | 支持设定“>、>=、<、<=、=”某个具体的数量。 | >=1000 | |
域名边缘4xx占比增长(%) | 支持设定“>、>=、<、<=、=”某个具体的比例。 | >=20 |
注意事项
当同时配置多个告警指标时,平台支持“任意”或“所有”条件满足时告警,提交工单时,请明确告知。
如您对自有业务的特点不甚了解,您可以先按经验提交一个阈值方案,业务运营同事会帮您做一些基础的判断和建议,先试运行。之后,可结合线上实际运营情况,后期再提工单优化,直至找到适合的监控指标及阈值。
告警示例
告警需求提交示例:
告警名称:带宽突增与可用性告警。
监控范围:test.ctyun.cn(单个域名)。
监控指标:18:00到22:00满足“任意”条件时触发告警。
条件1:域名边缘带宽增长率(%)>50。
条件2:域名5xx占比(%)≥2。
触发条件:
持续时间:10分钟。
告警沉默周期:30分钟。
告警渠道:企业微信机器人。
告警联系人: 王五 186XXXXXXXX。
告警内容:系统默认。
企业微信告警信息示例:
[alert]-test.ctyun.cn:-带宽突增与可用性告警:
王五。
客户邮箱:XXXX。
domain=[test.ctyun.cn]。
告警通知ID=XXXXXXXXXXXXX-XXXXXXXX。
发生了[带宽突增与可用性告警]告警-客户级。
当前值为[域名5xx占比(%)=3]。
触发条件[域名5xx占比(%) 超过 2]。
故障持续XXX分钟。
开始时间:2023-11-20 06:25:01。
最近一次告警时间为:2023-11-20 11:30:04。
期间告警X次恢复X次。