告警解释

系统每30秒周期性检测磁盘使用率，并把磁盘使用率和阈值相比较。磁盘使用率有一个默认阈值，当检测到磁盘使用率超过阈值时产生该告警。

平滑次数为1，主机磁盘某一分区使用率小于或等于阈值时，告警恢复；平滑次数大于1，主机磁盘某一分区使用率小于或等于阈值的90%时，告警恢复。

告警属性

告警ID	告警级别	是否自动清除
12017	重要	是

告警参数

参数名称	参数含义
来源	产生告警的集群或系统名称。
服务名	产生告警的服务名称。
角色名	产生告警的角色名称。
主机名	产生告警的主机名。
设备分区名	产生告警的磁盘分区。
Trigger Condition	系统当前指标取值满足自定义的告警设置条件。

对系统的影响

业务进程不可用。

可能原因

告警阈值配置不合理。
磁盘配置无法满足业务需求，磁盘使用率达到上限。

处理步骤

检查阈值设置是否合理

1.在FusionInsight Manager选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 > 主机 > 磁盘 > 磁盘使用率”中查看该告警阈值是否不合理（默认90%为合理值，用户可以根据自己的实际需求调节）。

是，执行步骤2。
否，执行步骤4。

2.根据实际服务的使用情况在“运维 > 告警 > 阈值设置 > 待操作集群的名称 > 主机 > 磁盘 > 磁盘使用率”中单击“操作”列的“修改”更改告警阈值。如下图所示。

3.等待2分钟，查看告警是否消失。

是，处理完毕。
否，执行步骤4。

检查磁盘使用率是否达到上限

4.打开FusionInsight Manager页面，在告警列表中，单击此告警所在行的，查看该告警的主机名称和磁盘分区信息。

5.以root用户登录告警所在节点。

6.执行df -lmPT | awk '$2 !="iso9660"' | grep '^/dev/' | awk '{"readlink -m "$1 |getline real }{$1=real; print $0}' | sort -u -k 1,1命令，查看系统磁盘分区的使用信息。并通过步骤4中获取到的磁盘分区名称，查看该磁盘是否挂载在如下几个目录下：“/”、“/opt”、“/tmp”、“/var”、“/var/log”、“/srv/BigData”（可自定义）。

是，说明该磁盘为系统盘，执行步骤10。
否，说明该磁盘为非系统盘，执行步骤7。

7.执行df -lmPT | awk '$2 !="iso9660"' | grep '^/dev/' | awk '{"readlink -m "$1 |getline real }{$1=real; print $0}' | sort -u -k 1,1命令，查看系统磁盘分区的使用信息。并通过步骤4中获取到的磁盘分区名称，判断该磁盘属于哪一个角色。

8.查看磁盘所属服务。

MRS，是否为HDFS、Yarn、Kafka、Supervisor其中之一。

是，进行容量调整。执行步骤9。
否，执行步骤12。

9.等待2分钟，查看告警是否消失。

是，处理完毕。
否，执行步骤12。

10.执行命令 find / -xdev -size +500M -exec ls -l \ {} ; ，查看该节点上超过500MB的文件，查看该磁盘中，是否有误写入的大文件存在。

是，执行步骤11。
否，执行步骤12。

11.处理该误写入的文件，并等待2分钟，查看告警是否清除。

是，执行完毕。
否，执行步骤12。

联系系统管理员，对磁盘进行扩容。
等待2分钟，查看告警是否消失。

是，处理完毕。
否，执行步骤14。

收集故障信息

在FusionInsight Manager界面，选择“运维 > 日志 > 下载”。
在“服务”中勾选“OMS”，单击“确定”。
单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟，单击“下载”。
请联系运维人员，并发送已收集的故障日志信息。

告警清除

此告警修复后，系统会自动清除此告警，无需手工清除。

参考信息

无。

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

查看所有产品

翼MapReduce

翼MapReduce

告警解释

告警属性

告警参数

对系统的影响

可能原因

处理步骤

检查阈值设置是否合理

检查磁盘使用率是否达到上限

收集故障信息

告警清除

参考信息

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

查看所有产品

翼MapReduce

翼MapReduce

告警解释

告警属性

告警参数

对系统的影响

可能原因

处理步骤

检查阈值设置是否合理

检查磁盘使用率是否达到上限

收集故障信息

告警清除

参考信息