本章节主要介绍部分监控指标的告警策略,以及配置操作。在实际业务中,建议按照以下告警策略,配置监控指标的告警规则。
说明: 是否接近性能上限 ,表示当前资源支撑的性能为告警策略中设置的告警阈值,如果继续上升,业务可能出现问题。
表 RocketMQ实例配置告警的指标
指标名称 | 正常范围 | 告警策略 | 是否接近性能上限 | 指标说明和告警处理建议 |
---|---|---|---|---|
磁盘容量使用率 | 0~100 | 告警阈值:原始值>85连续触发次数:3告警级别:紧急 | 是 | 指标说明: 该指标为从RocketMQ节点虚拟机层面采集的磁盘容量使用率。单位:%。 处理建议: 出现该告警时,说明当前实例规格已不足以承载业务,需要扩容 存储空间 。具体操作,请参考变更实例规格。 |
CPU核均负载 | 0~2 | 告警阈值:原始值>1.5连续触发次数:3告警级别:重要 | 是 | 指标说明: 该指标为从RocketMQ节点虚拟机层面采集的CPU每个核的平均负载。 处理建议:出现该告警时,参考如下操作:1. 扩容实例代理个数。具体操作,请参考变更实例规格。2. 将已有Topic扩展到新代理上。具体操作,请参考修改Topic参数。 |
内存使用率 | 0~100 | 告警阈值:原始值>85连续触发次数:3告警级别:紧急 | 是 | 指标说明: 该指标为RocketMQ节点虚拟机层面采集的内存使用率。单位:%。 处理建议:出现该告警时,参考如下操作:1. 扩容实例代理个数。具体操作,请参考变更实例规格。2. 将已有Topic扩展到新代理上。具体操作,请参考修改Topic参数。 |
操作步骤
- 登录分布式消息服务RocketMQ控制台。
- 单击RocketMQ实例的名称,进入实例详情页面。
3.在RocketMQ实例名称后,单击。
进入云监控该实例的监控指标页面。
4.在实例监控指标页面中,找到需要创建告警的指标项,鼠标移动到指标区域,然后单击指标右上角的,创建告警规则。
跳转到创建告警规则页面。
5.在告警规则页面,设置告警信息。
创建告警规则操作,请查看云监控服务的用户指南“创建告警规则和告警通知”。
a. 设置告警名称和告警的描述。
b. 设置告警策略和告警级别。
如下图所示,在进行指标监控时,如果连续3个周期,磁盘容量使用率原始值超过85%,则产生告警,如果未及时处理,则产生告警通知。
图1 设置告警策略和告警级别
c. 设置“发送通知”开关。当开启时,设置告警生效时间、产生告警时通知的对象以及触发的条件。
d. 单击“立即创建”,等待创建告警规则成功。