文档首页/ 数据湖探索 DLI/ 用户指南/ 使用CES监控DLI服务
更新时间:2024-11-07 GMT+08:00

使用CES监控DLI服务

功能说明

本章节定义了数据湖探索服务上报云监控的监控指标的命名空间,监控指标列表和维度定义,用户可以通过云监控服务提供的管理控制台或API接口来检索数据湖探索服务产生的监控指标和告警信息。

命名空间

SYS.DLI

监控指标

表1 数据湖探索服务支持的监控指标

指标ID

指标名称

指标含义

取值范围

测量对象

监控周期(原始指标)

queue_cu_num

队列CU使用量

展示用户队列申请的CU数

≥0

队列

5分钟

queue_job_launching_num

提交中作业数

展示用户队列中状态为提交中的作业数。

≥0

队列

5分钟

queue_job_running_num

运行中作业数

展示用户队列中状态为运行中的作业数。

≥0

队列

5分钟

queue_job_succeed_num

已完成作业数

展示用户队列中状态为已完成的作业数。

≥0

队列

5分钟

queue_job_failed_num

已失败作业数

展示用户队列中状态为已失败的作业数。

≥0

队列

5分钟

queue_job_cancelled_num

已取消作业数

展示用户队列中状态为已取消的作业数。

≥0

队列

5分钟

queue_alloc_cu_num

队列CU分配量

展示用户队列的CU分配情况。

≥0

队列

5分钟

queue_min_cu_num

队列最小CU

展示用户队列中的最小CU。

≥0

队列

5分钟

queue_max_cu_num

队列最大CU

展示用户队列中的最大CU。

≥0

队列

5分钟

queue_priority

队列优先级

展示用户队列的优先级。

1~100

队列

5分钟

queue_cpu_usage

队列CPU使用率

展示用户队列的CPU使用率。

该指标仅适用于普通队列。

0~100

队列

5分钟

queue_disk_usage

队列磁盘使用率

展示用户队列的磁盘使用率。

该指标仅适用于普通队列。

0~100

队列

5分钟

queue_disk_used

队列磁盘使用率最大值

展示用户队列的磁盘使用率的最大值。

该指标仅适用于普通队列。

0~100

队列

5分钟

queue_mem_usage

队列内存使用率

展示用户队列的内存使用率。

该指标仅适用于普通队列。

0~100

队列

5分钟

queue_mem_used

队列内存使用量

展示用户队列的内存使用量。

该指标仅适用于普通队列。

≥0

队列

5分钟

flink_read_records_per_second

Flink作业数据输入速率

展示用户Flink作业的数据输入速率,供监控和调试使用。

≥0

Flink作业

10秒钟

flink_write_records_per_second

Flink作业数据输出速率

展示用户Flink作业的数据输出速率,供监控和调试使用。

≥0

Flink作业

10秒钟

flink_read_records_total

Flink作业数据输入总数

展示用户Flink作业的数据输入总数,供监控和调试使用。

≥0

Flink作业

10秒钟

flink_write_records_total

Flink作业数据输出总数

展示用户Flink作业的数据输出总数,供监控和调试使用。

≥0

Flink作业

10秒钟

flink_read_bytes_per_second

Flink作业字节输入速率

展示用户Flink作业每秒输入的字节数。

≥0

Flink作业

10秒钟

flink_write_bytes_per_second

Flink作业字节输出速率

展示用户Flink作业每秒输出的字节数。

≥0

Flink作业

10秒钟

flink_read_bytes_total

Flink作业字节输入总数

展示用户Flink作业字节的输入总数。

≥0

Flink作业

10秒钟

flink_write_bytes_total

Flink作业字节输出总数

展示用户Flink作业字节的输出总数。

≥0

Flink作业

10秒钟

flink_cpu_usage

Flink作业CPU使用率

展示用户Flink作业的CPU使用率。

0~100

Flink作业

10秒钟

flink_mem_usage

Flink作业内存使用率

展示用户Flink作业的内存使用率。

0~100

Flink作业

10秒钟

flink_max_op_latency

Flink作业最大算子延迟

展示用户Flink作业的最大算子延迟时间,单位ms。Flink时间模型具体可以参考配置时间模型

≥0

Flink作业

10秒钟

flink_max_op_backpressure_level

Flink作业最大算子反压

展示用户Flink作业的最大算子反压值,数值越大,反压越严重。

0:表示OK

50:表示Low

100:表示High

0~100

Flink作业

10秒钟

elastic_resource_pool_cpu_usage

弹性资源池CPU使用率

展示用户弹性资源池的CPU使用率。

0~100

弹性资源池

5分钟

elastic_resource_pool_mem_usage

弹性资源池内存使用率

展示用户弹性资源池的内存使用率。

0~100

弹性资源池

5分钟

elastic_resource_pool_disk_usage

弹性资源池磁盘使用率

展示用户弹性资源池的磁盘使用率。

0~100

弹性资源池

5分钟

elastic_resource_pool_disk_max_usage

弹性资源池磁盘使用率最大值

展示用户弹性资源池的磁盘使用率最大值。

0~100

弹性资源池

5分钟

elastic_resource_pool_cu_num

弹性资源池CU使用量

展示用户弹性资源池的CU使用量。

≥0

弹性资源池

5分钟

elastic_resource_pool_alloc_cu_num

弹性资源池CU分配量

展示用户弹性资源池的CU分配情况。

≥0

弹性资源池

5分钟

elastic_resource_pool_min_cu_num

弹性资源池最小CU

展示用户弹性资源池的最小CU。

≥0

弹性资源池

5分钟

elastic_resource_pool_max_cu_num

弹性资源池最大CU

展示用户弹性资源池的最大CU。

≥0

弹性资源池

5分钟

维度

表2 维度

Key

Value

queue_id

队列

flink_job_id

Flink作业

通过云监控服务CES查看DLI监控指标

  1. 在管理控制台搜索“云监控服务”。
  2. 进入云监控服务的控制台后,在左侧列表中,单击“数据湖探索”。
  3. 选择队列进行查看相关监控信息。