操作场景
监控数据上报功能可以将系统中采集到的监控数据写入到文本文件,并以FTP或SFTP的形式上传到指定的服务器中。
使用该功能前,管理员需要在FusionInsight Manager页面进行相关配置。
操作步骤
- 登录FusionInsight Manager。
- 选择“系统 > 对接 > 监控数据上传”。
- 单击“监控数据上传”右边的开关。
“监控数据上传”默认为不启用,开关显示为表示启用。
- 根据下表所示的说明填写上传参数:
上传配置参数
参数名称 | 参数说明 |
---|---|
FTP IP地址模式 | 必选参数,指定服务器IP地址模式,可选择“IPV4”或“IPV6”。 |
FTP IP地址 | 必选参数,指定监控指标数据对接后存放监控文件的FTP服务器。 |
FTP端口 | 必选参数,指定连接FTP服务器的端口。 |
FTP用户名 | 必选参数,指定登录FTP服务器的用户名。 |
FTP密码 | 必选参数,指定登录FTP服务器的密码。 |
保存路径 | 必选参数,指定监控文件在FTP服务器保存的路径。 |
转储时间间隔(秒) | 必选参数,指定监控文件在FTP服务器保存的周期,单位为秒。 |
转储模式 | 必选参数,指定监控文件发送时使用的协议。可选协议为“SFTP”和“FTP”。建议使用基于SSH v2的SFTP模式,否则可能存在安全风险。 |
SFTP服务公钥 | 可选参数,指定FTP服务器的公共密钥,“转储模式”选择“SFTP”时此参数生效。 |
- 单击“确定”,设置完成。
说明选择转储模式为SFTP,当SFTP服务公钥为空时,先进行安全风险提示,确定安全风险后再保存配置。
数据格式
配置完成后,监控上报功能会将集群中监控数据周期性地写入到文本文件中,并根据用户配置的上报周期,将这些文件上报到对应的FTP/SFTP服务中。
- 监控文件产生规则
− 按照指标的采集周期,监控指标会被分别写入到每30s,60s,以及300s产生的文件
30s周期:默认采集周期为30s的实时指标。
60s周期:默认采集周期为60s的实时指标。
300s周期:非30s、60s采集的所有指标。
− 文件名格式:metirc_{周期}_{文件创建时间YYYYMMDDHHMMSS }.log
例如:metric_60_20160908085915.log
metric_300_20160908085613.log
- 监控文件内容
− 监控写入文件格式:
“集群ID|集群名称|显示名称|服务名称|指标ID|采集时间|采集主机@m@子指标|单位|指标值”,其中:各字段间以“|”分隔,例如:
1|xx1|Host|Host|10000413|2019/06/18 10:05:00|189-66-254-146|KB/s|309.910
1|xx1|Host|Host|10000413|2019/06/18 10:05:00|189-66-254-152|KB/s|72.870
2|xx2|Host|Host|10000413|2019/06/18 10:05:00|189-66-254-163|KB/s|100.650
说明实际的文件中不存在对应的文件格式标题。
− 监控文件上传间隔:
监控文件上传时间间隔可以在页面通过“转储时间间隔(秒)”配置,目前支持30s-300s之间均可。配置完成后,系统会按照指定的时间间隔,将文件定期上传到对应的FTP/SFTP服务器。
- 监控指标说明文件
− 指标全集文件
指标全集文件all-shown-metric-zh_CN包括了所有指标的详细信息。第三方系统从上报的文件内容中解析出指标id后,可以通过查询指标全集文件获取指标详细信息。
指标全集文件位置:
主备OMS节点:{FusionInsight安装路径}/om-server/om/etc/om/all-shown-metric-zh_CN
指标全集文件内容参考:
实时指标ID,5分钟指标ID,指标名称,指标采集周期(秒),是否默认采集,指标所属服务,指标所属角色
00101,10000101,JobHistoryServer非堆内存使用量,30,false,Mapreduce,JobHistoryServer
00102,10000102,JobHistoryServer非堆内存分配量,30,false,Mapreduce,JobHistoryServer
00103,10000103,JobHistoryServer堆内存使用量,30,false,Mapreduce,JobHistoryServer
00104,10000104,JobHistoryServer堆内存分配量,30,false,Mapreduce,JobHistoryServer
00105,10000105,阻塞线程数,30,false,Mapreduce,JobHistoryServer
00106,10000106,运行线程数,30,false,Mapreduce,JobHistoryServer
00107,10000107,GC时间,30,false,Mapreduce,JobHistoryServer
00110,10000110,JobHistoryServer的CPU使用率,30,false,Mapreduce,JobHistoryServer
...
− 重要指标字段说明
实时指标ID :指标的采集周期为30s/60s的指标ID,一个独立的指标项只可能存在30s或者60s的实时指标项。
5分钟指标ID :指标对应的5分钟(300s)的指标ID。
指标采集周期(秒) :主要是针对实时指标的采集周期,可选值为30或60。
指标所属服务 :指标所属的服务名名称,标明指标所属的服务类型,如HDFS、HBase等。
指标所属角色 :指标所属的角色名名称,标明指标所属的实际角色类型,如JobServer、RegionServer等。
− 解析说明
针对采集周期为30s/60s的指标,参考该指标说明文件的是第1列,即实时指标ID即可找到对应的指标说明。
针对采集周期为300s的指标,参考该指标说明文件对应的第2列,即5分钟指标ID即可找到对应的指标说明。