更新时间:2022-09-27 GMT+08:00

配置监控指标数据转储

操作场景

监控数据上报功能可以将系统中采集到的监控数据写入到文本文件,并以FTP或SFTP的形式上传到指定的服务器中。

使用该功能前,管理员需要在FusionInsight Manager页面进行相关配置。

操作步骤

  1. 登录FusionInsight Manager。
  2. 选择系统 > 对接 > 监控数据上传
  3. 单击“监控数据上传”右边的开关。

    “监控数据上传”默认为不启用,开关显示为表示启用。

  4. 根据表1所示的说明填写上传参数:

    表1 上传配置参数

    参数名称

    参数说明

    FTP IP地址模式

    必选参数,指定服务器IP地址模式,可选择“IPV4”或“IPV6”。

    FTP IP地址

    必选参数,指定监控指标数据对接后存放监控文件的FTP服务器。

    FTP端口

    必选参数,指定连接FTP服务器的端口。

    FTP用户名

    必选参数,指定登录FTP服务器的用户名。

    FTP密码

    必选参数,指定登录FTP服务器的密码。

    保存路径

    必选参数,指定监控文件在FTP服务器保存的路径。

    转储时间间隔(秒)

    必选参数,指定监控文件在FTP服务器保存的周期,单位为秒。

    转储模式

    必选参数,指定监控文件发送时使用的协议。可选协议为“SFTP”和“FTP”。建议使用基于SSH v2的SFTP模式,否则可能存在安全风险。

    SFTP服务公钥

    可选参数,指定FTP服务器的公共密钥,“转储模式”选择“SFTP”时此参数生效。

  5. 单击“确定”,设置完成。

    选择转储模式为SFTP,当SFTP服务公钥为空时,先进行安全风险提示,确定安全风险后再保存配置。

数据格式

配置完成后,监控上报功能会将集群中监控数据周期性地写入到文本文件中,并根据用户配置的上报周期,将这些文件上报到对应的FTP/SFTP服务中。

  • 监控文件产生规则
    • 按照指标的采集周期,监控指标会被分别写入到每30s,60s,以及300s产生的文件

      30s周期:默认采集周期为30s的实时指标。

      60s周期:默认采集周期为60s的实时指标。

      300s周期:非30s、60s采集的所有指标。

    • 文件名格式:metirc_{周期}_{文件创建时间YYYYMMDDHHMMSS }.log

      例如:metric_60_20160908085915.log

      metric_300_20160908085613.log

  • 监控文件内容
    • 监控写入文件格式:

      “集群ID|集群名称|显示名称|服务名称|指标ID|采集时间|采集主机@m@子指标|单位|指标值”,其中:各字段间以“|”分隔,例如:

      1|xx1|Host|Host|10000413|2019/06/18 10:05:00|189-66-254-146|KB/s|309.910
      1|xx1|Host|Host|10000413|2019/06/18 10:05:00|189-66-254-152|KB/s|72.870
      2|xx2|Host|Host|10000413|2019/06/18 10:05:00|189-66-254-163|KB/s|100.650

      说明:实际的文件中不存在对应的文件格式标题。

    • 监控文件上传间隔:

      监控文件上传时间间隔可以在页面通过“转储时间间隔(秒)”配置,目前支持30s-300s之间均可。配置完成后,系统会按照指定的时间间隔,将文件定期上传到对应的FTP/SFTP服务器。

  • 监控指标说明文件
    • 指标全集文件

      指标全集文件all-shown-metric-zh_CN包括了所有指标的详细信息。第三方系统从上报的文件内容中解析出指标id后,可以通过查询指标全集文件获取指标详细信息。

      指标全集文件位置:

      主备OMS节点:{FusionInsight安装路径}/om-server/om/etc/om/all-shown-metric-zh_CN

      指标全集文件内容参考:

      实时指标ID,5分钟指标ID,指标名称,指标采集周期(秒),是否默认采集,指标所属服务,指标所属角色 
      00101,10000101,JobHistoryServer非堆内存使用量,30,false,Mapreduce,JobHistoryServer 
      00102,10000102,JobHistoryServer非堆内存分配量,30,false,Mapreduce,JobHistoryServer 
      00103,10000103,JobHistoryServer堆内存使用量,30,false,Mapreduce,JobHistoryServer 
      00104,10000104,JobHistoryServer堆内存分配量,30,false,Mapreduce,JobHistoryServer 
      00105,10000105,阻塞线程数,30,false,Mapreduce,JobHistoryServer 
      00106,10000106,运行线程数,30,false,Mapreduce,JobHistoryServer 
      00107,10000107,GC时间,30,false,Mapreduce,JobHistoryServer 
      00110,10000110,JobHistoryServer的CPU使用率,30,false,Mapreduce,JobHistoryServer 
      ...
    • 重要指标字段说明

      实时指标ID:指标的采集周期为30s/60s的指标ID,一个独立的指标项只可能存在30s或者60s的实时指标项。

      5分钟指标ID:指标对应的5分钟(300s)的指标ID。

      指标采集周期(秒):主要是针对实时指标的采集周期,可选值为30或60。

      指标所属服务:指标所属的服务名名称,标明指标所属的服务类型,如HDFS、HBase等。

      指标所属角色:指标所属的角色名名称,标明指标所属的实际角色类型,如JobServer、RegionServer等。

    • 解析说明

      针对采集周期为30s/60s的指标,参考该指标说明文件的是第1列,即实时指标ID即可找到对应的指标说明。

      针对采集周期为300s的指标,参考该指标说明文件对应的第2列,即5分钟指标ID即可找到对应的指标说明。