配置监控指标数据转储
操作场景
监控数据上报功能可以将系统中采集到的监控数据写入到文本文件,并以FTP或SFTP的形式上传到指定的服务器中。
使用该功能前,管理员需要在FusionInsight Manager页面进行相关配置。
操作步骤
- 登录FusionInsight Manager。
- 选择 。
- 单击“监控数据上传”右边的开关。
“监控数据上传”默认为不启用,开关显示为表示启用。
- 根据表1所示的说明填写上传参数:
表1 上传配置参数 参数名称
参数说明
FTP IP地址模式
必选参数,指定服务器IP地址模式,可选择“IPV4”或“IPV6”。
FTP IP地址
必选参数,指定监控指标数据对接后存放监控文件的FTP服务器。
FTP端口
必选参数,指定连接FTP服务器的端口。
FTP用户名
必选参数,指定登录FTP服务器的用户名。
FTP密码
必选参数,指定登录FTP服务器的密码。
保存路径
必选参数,指定监控文件在FTP服务器保存的路径。
转储时间间隔(秒)
必选参数,指定监控文件在FTP服务器保存的周期,单位为秒。
转储模式
必选参数,指定监控文件发送时使用的协议。可选协议为“SFTP”和“FTP”。建议使用基于SSH v2的SFTP模式,否则可能存在安全风险。
SFTP服务公钥
可选参数,指定FTP服务器的公共密钥,“转储模式”选择“SFTP”时此参数生效。
- 单击“确定”,设置完成。
选择转储模式为SFTP,当SFTP服务公钥为空时,先进行安全风险提示,确定安全风险后再保存配置。
数据格式
配置完成后,监控上报功能会将集群中监控数据周期性地写入到文本文件中,并根据用户配置的上报周期,将这些文件上报到对应的FTP/SFTP服务中。
- 监控文件产生规则
- 监控文件内容
- 监控写入文件格式:
“集群ID|集群名称|显示名称|服务名称|指标ID|采集时间|采集主机@m@子指标|单位|指标值”,其中:各字段间以“|”分隔,例如:
1|xx1|Host|Host|10000413|2019/06/18 10:05:00|189-66-254-146|KB/s|309.910 1|xx1|Host|Host|10000413|2019/06/18 10:05:00|189-66-254-152|KB/s|72.870 2|xx2|Host|Host|10000413|2019/06/18 10:05:00|189-66-254-163|KB/s|100.650
说明:实际的文件中不存在对应的文件格式标题。
- 监控文件上传间隔:
监控文件上传时间间隔可以在页面通过“转储时间间隔(秒)”配置,目前支持30s-300s之间均可。配置完成后,系统会按照指定的时间间隔,将文件定期上传到对应的FTP/SFTP服务器。
- 监控写入文件格式:
- 监控指标说明文件
- 指标全集文件
指标全集文件all-shown-metric-zh_CN包括了所有指标的详细信息。第三方系统从上报的文件内容中解析出指标id后,可以通过查询指标全集文件获取指标详细信息。
指标全集文件位置:
主备OMS节点:{FusionInsight安装路径}/om-server/om/etc/om/all-shown-metric-zh_CN
指标全集文件内容参考:
实时指标ID,5分钟指标ID,指标名称,指标采集周期(秒),是否默认采集,指标所属服务,指标所属角色 00101,10000101,JobHistoryServer非堆内存使用量,30,false,Mapreduce,JobHistoryServer 00102,10000102,JobHistoryServer非堆内存分配量,30,false,Mapreduce,JobHistoryServer 00103,10000103,JobHistoryServer堆内存使用量,30,false,Mapreduce,JobHistoryServer 00104,10000104,JobHistoryServer堆内存分配量,30,false,Mapreduce,JobHistoryServer 00105,10000105,阻塞线程数,30,false,Mapreduce,JobHistoryServer 00106,10000106,运行线程数,30,false,Mapreduce,JobHistoryServer 00107,10000107,GC时间,30,false,Mapreduce,JobHistoryServer 00110,10000110,JobHistoryServer的CPU使用率,30,false,Mapreduce,JobHistoryServer ...
- 重要指标字段说明
实时指标ID:指标的采集周期为30s/60s的指标ID,一个独立的指标项只可能存在30s或者60s的实时指标项。
5分钟指标ID:指标对应的5分钟(300s)的指标ID。
指标采集周期(秒):主要是针对实时指标的采集周期,可选值为30或60。
指标所属服务:指标所属的服务名名称,标明指标所属的服务类型,如HDFS、HBase等。
指标所属角色:指标所属的角色名名称,标明指标所属的实际角色类型,如JobServer、RegionServer等。
- 解析说明
针对采集周期为30s/60s的指标,参考该指标说明文件的是第1列,即实时指标ID即可找到对应的指标说明。
针对采集周期为300s的指标,参考该指标说明文件对应的第2列,即5分钟指标ID即可找到对应的指标说明。
- 指标全集文件