本章节主要介绍部分监控指标的告警策略，以及配置操作。在实际业务中，请按照以下告警策略，配置监控指标的告警规则。

Redis实例告警策略

Redis实例配置告警的指标

指标名称	正常范围	告警策略	是否接近性能上限	告警处理建议
CPU利用率	0~100	告警阈值：>70连续触发次数：2告警级别：重要	否	结合业务分析是否由于业务上涨导致的，判断是否需要扩容。如果单机/主备实例，无法扩展CPU能力，需要考虑切换为集群实例。该指标仅针对单机、主备、Proxy集群实例设置，Cluster集群实例级别不支持该指标，仅在数据节点支持，即需要在实例详情的“性能监控”中选择“数据节点”页签查看。
CPU平均使用率	0~100%	告警阈值：>70%连续触发次数：2告警级别：重要	否	结合业务分析是否由于业务上涨导致的，判断是否需要扩容。单机/主备实例，无法扩展CPU能力，如需扩展CPU能力，请考虑切换为集群实例。该指标仅针对单机、主备实例设置，集群实例级别不支持该指标，仅在数据节点支持，即需要在实例详情的“性能监控”中选择“数据节点”页签查看。
内存利用率	0~100	告警阈值：>70连续触发次数：2告警级别：重要	否	建议进行扩容。
活跃的客户端数量	0~10000	告警阈值：>8000连续触发次数：2告警级别：重要	否	建议结合业务代码对连接池等进行优化，避免连接数超过最大限制。单机和主备实例，最大连接数限制为10000，可以根据业务情况对阈值进行调整。仅单机和主备实例配置该指标。如果是集群实例，在数据节点和Proxy节点配置即可。
新建连接数（个/min）	0~10000	告警阈值：>10000连续触发次数：2告警级别：次要	-	排查是否使用短连接，或者客户端异常连接。建议使用长连接，避免使用短连接影响性能。仅单机和主备实例配置该指标。如果是集群实例，在数据节点和Proxy节点配置即可。
网络瞬时输入流量	>0	告警阈值：>规格基准带宽的80%连续触发次数：2告警级别：重要	是	结合业务分析和规格带宽限制，判断是否需要扩容。仅Redis3.0实例的单机/主备实例进行配置，建议按Redis3.0规格基准带宽的80%进行配置。其他实例不配置。
网络瞬时输出流量	>0	告警阈值：>规格基准带宽的80%连续触发次数：2告警级别：重要	是	结合业务分析和规格带宽限制，判断是否需要扩容。仅Redis3.0实例的单机/主备实例进行配置，建议按Redis3.0规格基准带宽的80%进行配置。其他实例不配置。

Redis集群实例数据节点告警策略

Redis集群实例数据节点建议配置告警的指标

指标名称	取值范围	告警策略	是否接近性能上限	告警处理建议
CPU利用率	0~100%	告警阈值：>70%连续触发次数：2告警级别：重要	否	结合业务分析是否由于业务上涨导致的。需要分析各个数据节点的CPU使用率分布是否均匀，如果节点普遍CPU高，需要考虑扩容，集群扩容会增加数据节点，分担CPU压力。如果是单个节点CPU上涨，需要业务侧分析是否存在热key，优化业务侧代码消除热key。
CPU平均使用率	0~100%	告警阈值：>70%连续触发次数：2告警级别：重要	否	结合业务分析是否由于业务上涨导致的，判断是否需要扩容。如果单机/主备实例，无法扩展CPU能力，需要考虑切换为集群实例。该指标仅针对单机、主备、Proxy集群实例设置，Cluster集群实例级别不支持该指标，仅在数据节点支持，即需要在实例详情的“性能监控”中选择“数据节点”页签查看。
内存利用率	0~100%	告警阈值：>70%连续触发次数：2告警级别：重要	否	结合业务分析是否由于业务上涨导致的。需要分析各个数据节点的内存利用率分布是否均匀，如果节点普遍内存利用率高，需要考虑扩容。如果是单个节点内存上涨，需要业务侧分析是否存在大key，优化业务侧代码消除热大key。
活跃的客户端数量	0~10000	告警阈值：>8000连续触发次数：2告警级别：重要	否	分析业务，是否合理，如果结合业务分析连接数是合理的，建议调整告警阈值。
新建连接数	>=0	告警阈值：>10000连续触发次数：2告警级别：次要	-	新建连接数多，可能是短连接导致，建议使用长连接，避免使用短连接影响性能。
是否存在慢日志	0~1	告警阈值：>0连续触发次数：1告警级别：重要	-	通过慢查询功能分析具体的慢日志命令。
带宽使用率	0~200%	告警阈值：>90%连续触发次数：2告警级别：重要	是	可结合网络瞬时输入流量和网络瞬时输出流量，分析业务是读业务和还是写业务导致的流量上涨。对于单个节点带宽使用率上涨，需要分析是否有存在大key。其中，带宽使用率超过100%，不一定导致限流，有没有被流控需要看流控次数指标。带宽使用率没有超过100%，也有可能有限流，因为带宽使用率是上报周期实时值，一个上报周期检查一次。流控检查是秒级的。有可能存在上报周期间隔期间，流量有秒级冲高，然后回落，待上报带宽使用率指标时已恢复正常。
流控次数	>=0	告警阈值：>0连续触发次数：1告警级别：紧急	是	结合规格限制、网络瞬时输入流量和网络瞬时输出流量，查看是否扩容解决。说明Redis 4.0以上版本的实例才支持该指标，Redis 3.0实例不支持。

Redis集群实例Proxy节点告警策略

Proxy节点建议配置告警的指标

指标名称	取值范围	告警策略	是否接近性能上限	告警处理建议
CPU利用率	0~100%	告警阈值：>70%连续触发次数：2告警级别：紧急	是	建议考虑扩容，扩容会增加proxy节点。
内存利用率	0~100%	告警阈值：>70%连续触发次数：2告警级别：紧急	是	建议考虑扩容，扩容会增加proxy节点。
活跃的客户端数量	0-30000	告警阈值：>20000连续触发次数：2告警级别：重要	否	建议结合业务代码对连接池等进行优化，避免连接数超过最大限制。

配置步骤

以配置CPU利用率监控指标的告警规则为例：

步骤 1 登录分布式缓存服务管理控制台。

步骤 2 在管理控制台左上角单击，选择区域和项目。

步骤 3 单击左侧菜单栏的“缓存管理”。进入缓存管理页面。

步骤 4 在需要查看的缓存实例的“操作”列，单击“查看监控”，进入该实例的监控指标页面。

查看实例监控指标

图片1.png

步骤 5 在实例监控指标页面中，找到指标名称为“CPU利用率”的指标项，鼠标移动到指标区域，然后单击指标右上角的图片2.png ，创建告警规则。

跳转到创建告警规则页面。

步骤 6 在告警规则页面，设置告警信息。

1.设置告警策略和告警级别。

如下图所示，在指标监控时，如果连续2个周期，CPU利用率超过了设置的告警阈值，则产生告警。

设置告警内容

图片3.png

2.设置“发送通知”开关。当开启时，设置告警生效时间、产生告警时通知的对象以及触发的条件。

3.单击“立即创建”，等待创建告警规则成功。

                  
                    说明
                    如果创建告警规则有问题，可查看《云监控服务 用户指南》的“使用告警功能>创建告警规则和告警通知”章节。
如果需要修改或停用所创建的告警，请参考《云监控服务 用户指南》的“使用告警功能>告警规则管理”章节。

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

分布式缓存服务Redis版

分布式缓存服务Redis版

Redis实例告警策略

Redis集群实例数据节点告警策略

Redis集群实例Proxy节点告警策略

配置步骤

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

分布式缓存服务Redis版

分布式缓存服务Redis版

Redis实例告警策略

Redis集群实例数据节点告警策略

Redis集群实例Proxy节点告警策略

配置步骤