告警解释

系统每60秒周期性检测Slot使用率，并把实际Slot使用率和阈值相比较。当检测到Slot使用率高于阈值时产生该告警。

用户可通过“运维 > 告警 > 阈值设置”修改阈值。

当Slot使用率小于或等于阈值时，告警恢复。

告警属性

告警ID	告警级别	是否自动清除
26053	重要	是

告警参数

参数名称	参数含义
来源	产生告警的集群名称。
服务名	产生告警的服务名称。
角色名	产生告警的角色名称。
主机名	产生告警的主机名。
Trigger condition	系统当前指标取值满足自定义的告警设置条件。

对系统的影响

用户无法执行新的Storm任务。

可能原因

集群中Supervisor处于异常状态。
集群中Supervisor的状态正常，但是处理能力不足。

处理步骤

检查Supervisor状态

选择“集群 > 待操作集群的名称 > 服务 > Storm > 实例”，进入Storm实例管理页面。
查看是否存在状态为“故障”或者是“正在恢复”的Supervisor实例。

是，执行步骤3。
否，执行步骤5。

勾选状态为“故障”或者“正在恢复”的Supervisor角色实例，选择“更多 > 重启实例”，查看是否重启成功。

是，执行步骤4。
否，执行步骤10。

等待一段时间，检查该告警是否恢复。

是，处理完毕。
否，执行步骤5。

增加Supervisor Slot 数量配置

登录FusionInsight Manager管理界面，选择“集群 > 待操作集群的名称 > 服务 > Storm > 配置 > 全部配置”。
适当增加每个Supervisor角色“supervisor.slots.ports”参数中的端口号数量，并重启实例。
等待一段时间，检查该告警是否恢复。

是，处理完毕。
否，执行步骤8。

对Supervisor进行扩容。
等待一段时间，检查该告警是否恢复。

是，处理完毕。
否，执行步骤10。


                说明
                Supervisor重启过程中，业务会出现中断，待Supervisor重启成功后业务恢复。

收集故障信息

在FusionInsight Manager界面，选择“运维 > 日志 > 下载”。
在“服务”勾选待操作集群的“Storm”和“ZooKeeper”。
单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后1小时，单击“下载”。
请联系运维人员，并发送已收集的故障日志信息。

告警清除

此告警修复后，系统会自动清除此告警，无需手工清除。

参考信息

无。

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

翼MapReduce

翼MapReduce

告警解释

告警属性

告警参数

对系统的影响

可能原因

处理步骤

检查Supervisor状态

增加Supervisor Slot 数量配置

收集故障信息

告警清除

参考信息

活动

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

翼MapReduce

翼MapReduce

告警解释

告警属性

告警参数

对系统的影响

可能原因

处理步骤

检查Supervisor状态

增加Supervisor Slot 数量配置

收集故障信息

告警清除

参考信息