文档首页/ 数据湖探索 DLI/ 用户指南/ 使用CES监控DLI服务
更新时间:2025-07-11 GMT+08:00
分享

使用CES监控DLI服务

功能说明

本章节定义了数据湖探索服务上报云监控的监控指标的命名空间,监控指标列表和维度定义,用户可以通过云监控服务提供的管理控制台或API接口来检索数据湖探索服务产生的监控指标和告警信息。

命名空间

SYS.DLI

监控指标

表1 数据湖探索服务支持的监控指标

指标ID

指标名称

指标含义

取值范围

单位

进制

测量对象

监控周期(原始指标)

queue_cu_num

队列CU使用量

展示用户队列申请的CU数

≥0

Count

不涉及

队列

5分钟

queue_job_launching_num

提交中作业数

展示用户队列中状态为提交中的作业数。

≥0

Count

不涉及

队列

5分钟

queue_job_running_num

运行中作业数

展示用户队列中状态为运行中的作业数。

≥0

Count

不涉及

队列

5分钟

queue_job_succeed_num

已完成作业数

展示用户队列中状态为已完成的作业数。

≥0

Count

不涉及

队列

5分钟

queue_job_failed_num

已失败作业数

展示用户队列中状态为已失败的作业数。

≥0

Count

不涉及

队列

5分钟

queue_job_cancelled_num

已取消作业数

展示用户队列中状态为已取消的作业数。

≥0

Count

不涉及

队列

5分钟

queue_alloc_cu_num

队列CU分配量

展示用户队列的CU分配情况。

≥0

Count

不涉及

队列

5分钟

queue_min_cu_num

队列最小CU

展示用户队列中的最小CU。

≥0

Count

不涉及

队列

5分钟

queue_max_cu_num

队列最大CU

展示用户队列中的最大CU。

≥0

Count

不涉及

队列

5分钟

queue_priority

队列优先级

展示用户队列的优先级。

1~100

不涉及

不涉及

队列

5分钟

queue_cpu_usage

队列CPU使用率

展示用户队列的CPU使用率。

0~100

%

不涉及

队列

该指标仅适用于非弹性资源池模式的队列。

5分钟

queue_disk_usage

队列磁盘使用率

展示用户队列的磁盘使用率。

0~100

%

不涉及

队列

该指标仅适用于非弹性资源池模式的队列。

5分钟

queue_disk_used

队列磁盘使用率最大值

展示用户队列的磁盘使用率的最大值。

0~100

%

不涉及

队列

该指标仅适用于非弹性资源池模式的队列。

5分钟

queue_mem_usage

队列内存使用率

展示用户队列的内存使用率。

0~100

%

不涉及

队列

该指标仅适用于非弹性资源池模式的队列。

5分钟

queue_mem_used

队列内存使用量

展示用户队列的内存使用量。

≥0

MB

不涉及

队列

该指标仅适用于非弹性资源池模式的队列。

5分钟

queue_job_launching_max_duration

作业提交最大时长

该指标用于统计采样时间点提交中的作业最长的持续时间。(包括SQL作业、Flink作业、Spark作业)

≥0

Seconds

不涉及

队列

5分钟

该指标属于瞬时采样指标(非连续性采样),用于记录采样时刻为 “提交中”或者“启动中” 的作业的最大提交时长,并非对全量作业的统计性指标。不涉及对历史作业或已完成作业的数据统计。仅适用于监控队列运行状态。

queue_sql_job_running_max_duration

SQL作业运行最大时长

该指标用于统计采样时间点运行中的SQL作业最长的持续时间。

≥0

Seconds

不涉及

队列

5分钟

该指标属于瞬时采样指标(非连续性采样),用于记录采样时刻为 “运行中” 的SQL作业的最大运行时长,并非对全量作业的统计性指标。不涉及对历史作业或已完成作业的数据统计。仅适用于监控队列运行状态

queue_spark_job_running_max_duration

Spark作业运行最大时长

该指标用于统计采样时间点运行中的Spark作业最长的持续时间。

≥0

Seconds

不涉及

队列

5分钟

该指标属于瞬时采样指标(非连续性采样),用于记录采样时刻为 “运行中” 的Spark作业的最大运行时长,并非对全量作业的统计性指标。不涉及对历史作业或已完成作业的数据统计。仅适用于监控队列运行状态

flink_read_records_per_second

Flink作业数据输入速率

展示用户Flink作业的数据输入速率,供监控和调试使用。

≥0

record/s

不涉及

Flink作业

10秒钟

flink_write_records_per_second

Flink作业数据输出速率

展示用户Flink作业的数据输出速率,供监控和调试使用。

≥0

record/s

不涉及

Flink作业

10秒钟

flink_read_records_total

Flink作业数据输入总数

展示用户Flink作业的数据输入总数,供监控和调试使用。

≥0

record/s

不涉及

Flink作业

10秒钟

flink_write_records_total

Flink作业数据输出总数

展示用户Flink作业的数据输出总数,供监控和调试使用。

≥0

record/s

不涉及

Flink作业

10秒钟

flink_read_bytes_per_second

Flink作业字节输入速率

展示用户Flink作业每秒输入的字节数。

≥0

byte/s

1024(IEC)

Flink作业

10秒钟

flink_write_bytes_per_second

Flink作业字节输出速率

展示用户Flink作业每秒输出的字节数。

≥0

byte/s

1024(IEC)

Flink作业

10秒钟

flink_read_bytes_total

Flink作业字节输入总数

展示用户Flink作业字节的输入总数。

≥0

byte/s

1024(IEC)

Flink作业

10秒钟

flink_write_bytes_total

Flink作业字节输出总数

展示用户Flink作业字节的输出总数。

≥0

byte/s

1024(IEC)

Flink作业

10秒钟

flink_cpu_usage

Flink作业CPU使用率

展示用户Flink作业的CPU使用率。

0~100

%

不涉及

Flink作业

10秒钟

flink_mem_usage

Flink作业内存使用率

展示用户Flink作业的内存使用率。

0~100

%

不涉及

Flink作业

10秒钟

flink_max_op_latency

Flink作业最大算子延迟

展示用户Flink作业的最大算子延迟时间,单位ms。

≥0

ms

不涉及

Flink作业

10秒钟

flink_max_op_backpressure_level

Flink作业最大算子反压

展示用户Flink作业的最大算子反压值,数值越大,反压越严重。

0:表示OK

50:表示Low

100:表示High

0~100

不涉及

不涉及

Flink作业

10秒钟

elastic_resource_pool_cpu_usage

弹性资源池CPU使用率

展示用户弹性资源池的CPU使用率。

0~100

%

不涉及

弹性资源池

5分钟

elastic_resource_pool_mem_usage

弹性资源池内存使用率

展示用户弹性资源池的内存使用率。

0~100

%

不涉及

弹性资源池

5分钟

elastic_resource_pool_disk_usage

弹性资源池磁盘使用率

展示用户弹性资源池的磁盘使用率。

0~100

%

不涉及

弹性资源池

5分钟

elastic_resource_pool_disk_max_usage

弹性资源池磁盘使用率最大值

展示用户弹性资源池的磁盘使用率最大值。

0~100

%

不涉及

弹性资源池

5分钟

elastic_resource_pool_cu_num

弹性资源池CU使用量

展示用户弹性资源池的CU使用量。

≥0

Count

不涉及

弹性资源池

5分钟

elastic_resource_pool_alloc_cu_num

弹性资源池CU分配量

展示用户弹性资源池的CU分配情况。

≥0

Count

不涉及

弹性资源池

5分钟

elastic_resource_pool_min_cu_num

弹性资源池最小CU

展示用户弹性资源池的最小CU。

≥0

Count

不涉及

弹性资源池

5分钟

elastic_resource_pool_max_cu_num

弹性资源池最大CU

展示用户弹性资源池的最大CU。

≥0

Count

不涉及

弹性资源池

5分钟

维度

表2 维度

Key

Value

queue_id

队列

flink_job_id

Flink作业

通过云监控服务CES查看DLI监控指标

  1. 在管理控制台搜索“云监控服务”。
  2. 进入云监控服务的控制台后,在左侧列表中,单击“数据湖探索”。
  3. 选择队列进行查看相关监控信息。

相关文档