更新时间:2024-12-11 GMT+08:00

Flink对接应用运维管理(AOM)

本章节适用于MRS 3.5.0及之后的版本。

Flink对接AOM服务场景介绍

应用运维管理(AOM)服务是一个可观测平台,基于指标、链路、日志、事件全景数据监控,提供一体化监控能力。Flink可以通过AOM服务的Prometheus实例将监控指标推送至AOM服务,用户可以方便查看监控指标相关信息。

本示例提供通过FlinkResource、FlinkServer和客户端三种方式对接AOM服务,将Flink监控指标上传至AOM服务。

Flink对接AOM服务前提条件

  • 已开通应用运维管理AOM服务。
  • MRS集群中已安装HDFS、Yarn、Kafka和Flink服务。
  • 包含Flink服务的客户端已安装,例如安装路径为:/opt/client

Flink对接AOM服务操作步骤

  1. 在AOM服务中创建Prometheus通用实例。

    1. 登录AOM服务控制台。
    2. 在左侧导航栏选择“Prometheus监控 > 实例列表”,然后单击“创建Prometheus实例”。
    3. 设置实例名称、企业项目和实例类型信息,设置完成后单击“确定”。
      表1 创建Prometheus实例

      参数名称

      说明

      实例名称

      Prometheus实例的名称。

      只能由中文、字母、数字、下划线、中划线组成,且不能以下划线或中划线开头和结尾,最多不能超过100个字符。

      企业项目

      所属的企业项目。

      • 如果在全局页面设置为“ALL”,此处请从下拉列表中选择企业项目。
      • 如果在全局页面已选择企业项目,则此处灰化不可选。

      实例类型

      Prometheus实例的类型,此处选择“Prometheus 通用实例”。

    4. 在实例列表单击上述创建的Prometheus实例名称,单击“设置”,查看并保存如下参数值。
      表2 Prometheus实例信息

      类别

      参数

      示例

      调用凭证

      AppSecret

      0000000100000001070C6Axxx0E2EF73

      服务地址

      “内网”中“Remote Write Prometheus 配置代码”中的“url”

      https://aom-internal-access.xxx/push

  2. 在MRS配置对接AOM参数。

    1. 登录FusionInsight Manager。
    2. 选择“集群 > 服务 > Flink > 配置 > 全部配置”。
    3. 配置Flink对接AOM服务参数。
      • 通过FlinkServer对接AOM。
        选择“FlinkServer(角色) > 自定义”,在“flink.customized.configs”参数中添加表3中的参数,添加完成后保存并重启受影响的FlinkServer实例。
        表3 Flink对接AOM参数配置

        名称

        是否必填

        描述

        metrics.reporter

        alarm,aom

        alarm用于Flinkserver的告警,防止自定义参数覆盖Flink原有的参数。需同时填写alarm和aom。

        metrics.reporter.aom.url

        1.d中获取的url的值

        用于对接AOM Prometheus实例的URL地址。

        metrics.reporter.aom.access.code

        1.d中获取的AppSecret的值

        用于对接AOM Prometheus实例的调用凭证。

        metrics.reporter.aom.factory.class

        com.huawei.mrs.flink.AomMetricReporterFactroy

        Flink Metric指标上报的实现类,值固定为:

        com.huawei.mrs.flink.AomMetricReporterFactroy

        metrics.reporter.aom.interval

        30s

        Flink Metric指标上报周期,单位:秒。

        metrics.reporter.aom.version

        0.1.0

        AOM版本信息。

        metrics.reporter.aom.filterLabelValueCharacters

        true

        是否过滤label value,不符合[a-zA-Z0-9:_]的内容都会被过滤。

        • true(默认值):开启过滤。
        • false:不开启过滤。

        metrics.reporter.aom.jobName

        -

        作业名称。会以label value的形式发送给Prometheus实例。

        metrics.reporter.aom.randomJobNameSuffix

        true

        是否将随机后缀附加到作业名称中。

        • true(默认值):添加随机后缀。
        • false:不添加随机后缀。

        metrics.reporter.aom.groupingKey

        -

        指定分组键,是所有指标的分组和全局标签,以“k1=v1,k2=v2”的形式传入。

      • 通过FlinkResource对接AOM。
        1. 选择“FlinkResource(角色) > 自定义”,在“flink.customized.configs”参数中添加表3中的参数,添加完成后保存并重启受影响的FlinkResource实例。
        2. 重新安装客户端或更新已有客户端配置。
      • 通过Flink客户端对接AOM。
        1. 以客户端安装用户,登录安装客户端的节点。
        2. 在“/opt/hadoopclient/Flink/flink/conf/flink-conf.yaml”文件中新增表3中的参数并保存。

  3. 查看监控指标信息。

    Flink作业运行成功后,登录AOM 2.0控制台,在左侧导航栏选择“Prometheus监控 > 实例列表”,单击1中创建的Prometheus实例名称,在“指标管理”中即可查看监控信息。