告警解释
告警模块对Flume Server的连接端口状态进行监控。当Flume Client连接到Flume Server的某个端口,Client端连续3分钟未与Server端连接时,系统产生此告警。
当Flume Server收到Flume Client连接消息,告警恢复。
告警属性
告警ID | 告警级别 | 是否自动清除 |
---|---|---|
24003 | 重要 | 是 |
告警参数
参数名称 | 参数含义 |
---|---|
来源 | 产生告警的集群名称。 |
客户端IP | Flume客户端IP地址。 |
客户端名称 | Flume客户端的Agent名称。 |
sink名称 | Flume Agent的sink名称。 |
对系统的影响
产生告警的Flume Client无法与Flume Server端进行通信,Flume Client端的数据无法传输到Flume Server端。
可能原因
- Flume Client端与Flume Server端网络故障。
- Flume Client端进程故障。
- Flume Client端配置错误。
处理步骤
检查Flume Client与Flume Server的网络状况
1.以root用户登录到告警定位参数中描述的Flume ClientIP所在主机。
2.执行ping Flume Server IP地址命令,检查Flume Client到Flume Server的网络是否正常。
- 是,执行步骤3。
- 否,执行步骤11。
检查Flume Client端进程故障
3.以root用户登录到告警定位参数中描述的Flume ClientIP所在主机。
4.执行ps -ef|grep flume |grep client命令,查看是否存在Flume Client进程。
- 是,执行步骤5。
- 否,执行步骤11。
检查Flume Client端的配置
5.以root用户登录到告警定位参数中描述的Flume ClientIP所在主机。
6.执行cd Flume 客户端安装目录 /fusioninsight-flume-1.9.0/conf/ 命令,进入Flume的配置目录。
7.执行cat properties.properties命令,查看当前的Flume Client配置文件。
8.根据Flume Agent的配置说明检查“properties.properties”的配置是否有误。
- 是,执行步骤9。
- 否,执行步骤11。
9.修改“properties.properties”配置文件。
查看告警是否已清除
10.查看告警列表中,该告警是否已清除。
- 是,处理完毕。
- 否,执行步骤11。
收集故障信息
11.在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
12.在“服务”框中勾选待操作集群的“Flume”。
13.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后1小时,单击“下载”。
14.使用传输工具,收集Flume Client端“/var/log/Bigdata/flume-client”下的日志。
15.请联系运维人员,并发送已收集的故障日志信息。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
无。