告警解释
系统每30秒周期性检测HDFS磁盘空间使用率,并把实际的HDFS磁盘空间使用率和阈值相比较。HDFS磁盘使用率指标默认提供一个阈值范围。当HDFS磁盘空间使用率超出阈值范围时,产生该告警。
用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > HDFS”修改阈值。
平滑次数为1,HDFS磁盘使用率小于或等于阈值时,告警恢复;平滑次数大于1,HDFS磁盘使用率小于或等于阈值的90%时,告警恢复。
告警属性
告警ID | 告警级别 | 是否自动清除 |
---|---|---|
14001 | 重要 | 是 |
告警参数
参数名称 | 参数含义 |
---|---|
来源 | 产生告警的集群名称。 |
服务名 | 产生告警的服务名称。 |
角色名 | 产生告警的角色名称。 |
主机名 | 产生告警的主机名。 |
NameService名 | 产生告警的NameService名称。 |
Trigger condition | 系统当前指标取值满足自定义的告警设置条件。 |
对系统的影响
HDFS集群磁盘容量不足,会影响到HDFS的数据写入。
可能原因
HDFS集群配置的磁盘空间不足。
处理步骤
查看磁盘容量,清除无用文件
- 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > HDFS”。
- 在“图表”区域“实时”栏中,通过监控项“HDFS磁盘容量比率”查看HDFS磁盘使用率是否超过阈值(默认为80%)。若未查看到该监控项,可单击图表区域右上角的下拉菜单,选择“定制磁盘”,勾选“HDFS磁盘容量比率”。
- 是,执行步骤 3。
- 否,执行步骤 11。
- 在“基本信息”区域,单击发生故障的NameService的“NameNode(主)”,进入HDFS WebUI页面。
说明admin用户默认不具备其他组件的管理权限,如果访问组件原生界面时出现因权限不足而打不开页面或内容显示不全时,可手动创建具备对应组件管理权限的用户进行登录。
- 在HDFS WebUI,单击“Datanodes”,在“Block pool used”列查看所有DataNode节点的磁盘使用率,判断有无DataNode节点的磁盘使用率超过阈值。
- 是,执行步骤 6。
- 否,执行步骤 11。
- 以root用户登录集客户端所在节点的主机。
- 执行命令cd /opt/Bigdata/client进入客户端安装目录,然后执行 source bigdata_env 。如果集群采用安全版本,要进行安全认证。执行kinit hdfs命令,按提示输入密码。向管理员获取密码。
- 执行hdfs dfs -rm -r 文件或目录路径命令,确认删除无用的文件。
- 检查本告警是否恢复。
- 是,处理完毕。
- 否,执行步骤 9。
对系统进行扩容
- 对磁盘进行扩容。
10.检查本告警是否恢复。
- 是,处理完毕。
- 否,执行步骤 11。
收集故障信息
- 在FusionInsight Manager首页,选择“运维 > 日志 > 下载”。
- 在“服务”中勾选待操作集群的如下节点信息。
- ZooKeeper
- HDFS
- 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
- 请联系运维人员,并发送已收集的故障日志信息。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参信息
无。