使用CES监控DLI服务
功能说明
本章节定义了数据湖探索服务上报云监控的监控指标的命名空间,监控指标列表和维度定义,用户可以通过云监控服务提供的管理控制台或API接口来检索数据湖探索服务产生的监控指标和告警信息。
命名空间
SYS.DLI
监控指标
指标ID | 指标名称 | 指标含义 | 取值范围 | 单位 | 进制 | 维度 | 测量对象 | 监控周期(原始指标) |
|---|---|---|---|---|---|---|---|---|
queue_cu_num | 队列CU使用量 | 展示用户队列申请的CU数 | ≥0 | Count | 不涉及 | queue_id | 队列 | 5分钟 |
queue_job_launching_num | 提交中作业数 | 展示用户队列中状态为提交中的作业数。 | ≥0 | Count | 不涉及 | queue_id | 队列 | 5分钟 |
queue_job_running_num | 运行中作业数 | 展示用户队列中状态为运行中的作业数。 | ≥0 | Count | 不涉及 | queue_id | 队列 | 5分钟 |
queue_job_succeed_num | 已完成作业数 | 展示用户队列中状态为已完成的作业数。 | ≥0 | Count | 不涉及 | queue_id | 队列 | 5分钟 |
queue_job_failed_num | 已失败作业数 | 展示用户队列中状态为已失败的作业数。 | ≥0 | Count | 不涉及 | queue_id | 队列 | 5分钟 |
queue_job_cancelled_num | 已取消作业数 | 展示用户队列中状态为已取消的作业数。 | ≥0 | Count | 不涉及 | queue_id | 队列 | 5分钟 |
queue_alloc_cu_num | 队列CU分配量 | 展示用户队列的CU分配情况。 | ≥0 | Count | 不涉及 | queue_id | 队列 | 5分钟 |
queue_min_cu_num | 队列最小CU | 展示用户队列中的最小CU。 | ≥0 | Count | 不涉及 | queue_id | 队列 | 5分钟 |
queue_max_cu_num | 队列最大CU | 展示用户队列中的最大CU。 | ≥0 | Count | 不涉及 | queue_id | 队列 | 5分钟 |
queue_priority | 队列优先级 | 展示用户队列的优先级。 | 1~100 | 不涉及 | 不涉及 | queue_id | 队列 | 5分钟 |
queue_cpu_usage | 队列CPU使用率 | 展示用户队列的CPU使用率。 | 0~100 | % | 不涉及 | queue_id | 队列 该指标仅适用于非弹性资源池模式的队列。 | 5分钟 |
queue_disk_usage | 队列磁盘使用率 | 展示用户队列的磁盘使用率。 | 0~100 | % | 不涉及 | queue_id | 队列 该指标仅适用于非弹性资源池模式的队列。 | 5分钟 |
queue_disk_used | 队列磁盘使用率最大值 | 展示用户队列的磁盘使用率的最大值。 | 0~100 | % | 不涉及 | queue_id | 队列 该指标仅适用于非弹性资源池模式的队列。 | 5分钟 |
queue_mem_usage | 队列内存使用率 | 展示用户队列的内存使用率。 | 0~100 | % | 不涉及 | queue_id | 队列 该指标仅适用于非弹性资源池模式的队列。 | 5分钟 |
queue_mem_used | 队列内存使用量 | 展示用户队列的内存使用量。 | ≥0 | MB | 不涉及 | queue_id | 队列 该指标仅适用于非弹性资源池模式的队列。 | 5分钟 |
queue_job_launching_max_duration | 作业提交最大时长 | 该指标用于统计采样时间点提交中的作业最长的持续时间。(包括SQL作业、Flink作业、Spark作业) | ≥0 | Seconds | 不涉及 | queue_id | 队列 | 5分钟 该指标属于瞬时采样指标(非连续性采样),用于记录采样时刻为 “提交中”或者“启动中” 的作业的最大提交时长,并非对全量作业的统计性指标。不涉及对历史作业或已完成作业的数据统计。仅适用于监控队列运行状态。 |
queue_sql_job_running_max_duration | SQL作业运行最大时长 | 该指标用于统计采样时间点运行中的SQL作业最长的持续时间。 | ≥0 | Seconds | 不涉及 | queue_id | 队列 | 5分钟 该指标属于瞬时采样指标(非连续性采样),用于记录采样时刻为 “运行中” 的SQL作业的最大运行时长,并非对全量作业的统计性指标。不涉及对历史作业或已完成作业的数据统计。仅适用于监控队列运行状态 |
queue_spark_job_running_max_duration | Spark作业运行最大时长 | 该指标用于统计采样时间点运行中的Spark作业最长的持续时间。 | ≥0 | Seconds | 不涉及 | queue_id | 队列 | 5分钟 该指标属于瞬时采样指标(非连续性采样),用于记录采样时刻为 “运行中” 的Spark作业的最大运行时长,并非对全量作业的统计性指标。不涉及对历史作业或已完成作业的数据统计。仅适用于监控队列运行状态 |
flink_read_records_per_second | Flink作业数据输入速率 | 展示用户Flink作业的数据输入速率,供监控和调试使用。 | ≥0 | record/s | 不涉及 | flink_job_id | Flink作业 | 10秒钟 |
flink_write_records_per_second | Flink作业数据输出速率 | 展示用户Flink作业的数据输出速率,供监控和调试使用。 | ≥0 | record/s | 不涉及 | flink_job_id | Flink作业 | 10秒钟 |
flink_read_records_total | Flink作业数据输入总数 | 展示用户Flink作业的数据输入总数,供监控和调试使用。 | ≥0 | record/s | 不涉及 | flink_job_id | Flink作业 | 10秒钟 |
flink_write_records_total | Flink作业数据输出总数 | 展示用户Flink作业的数据输出总数,供监控和调试使用。 | ≥0 | record/s | 不涉及 | flink_job_id | Flink作业 | 10秒钟 |
flink_read_bytes_per_second | Flink作业字节输入速率 | 展示用户Flink作业每秒输入的字节数。 | ≥0 | byte/s | 1024(IEC) | flink_job_id | Flink作业 | 10秒钟 |
flink_write_bytes_per_second | Flink作业字节输出速率 | 展示用户Flink作业每秒输出的字节数。 | ≥0 | byte/s | 1024(IEC) | flink_job_id | Flink作业 | 10秒钟 |
flink_read_bytes_total | Flink作业字节输入总数 | 展示用户Flink作业字节的输入总数。 | ≥0 | byte/s | 1024(IEC) | flink_job_id | Flink作业 | 10秒钟 |
flink_write_bytes_total | Flink作业字节输出总数 | 展示用户Flink作业字节的输出总数。 | ≥0 | byte/s | 1024(IEC) | flink_job_id | Flink作业 | 10秒钟 |
flink_cpu_usage | Flink作业CPU使用率 | 展示用户Flink作业的CPU使用率。 | 0~100 | % | 不涉及 | flink_job_id | Flink作业 | 10秒钟 |
flink_mem_usage | Flink作业内存使用率 | 展示用户Flink作业的内存使用率。 | 0~100 | % | 不涉及 | flink_job_id | Flink作业 | 10秒钟 |
flink_max_op_latency | Flink作业最大算子延迟 | 展示用户Flink作业的最大算子延迟时间,单位ms。 | ≥0 | ms | 不涉及 | flink_job_id | Flink作业 | 10秒钟 |
flink_max_op_backpressure_level | Flink作业最大算子反压 | 展示用户Flink作业的最大算子反压值,数值越大,反压越严重。 0:表示OK 50:表示Low 100:表示High | 0~100 | 不涉及 | 不涉及 | flink_job_id | Flink作业 | 10秒钟 |
elastic_resource_pool_cpu_usage | 弹性资源池CPU使用率 | 展示用户弹性资源池的CPU使用率。 | 0~100 | % | 不涉及 | elastic_resource_pool_id | 弹性资源池 | 5分钟 |
elastic_resource_pool_mem_usage | 弹性资源池内存使用率 | 展示用户弹性资源池的内存使用率。 | 0~100 | % | 不涉及 | elastic_resource_pool_id | 弹性资源池 | 5分钟 |
elastic_resource_pool_disk_usage | 弹性资源池磁盘使用率 | 展示用户弹性资源池的磁盘使用率。 | 0~100 | % | 不涉及 | elastic_resource_pool_id | 弹性资源池 | 5分钟 |
elastic_resource_pool_disk_max_usage | 弹性资源池磁盘使用率最大值 | 展示用户弹性资源池的磁盘使用率最大值。 | 0~100 | % | 不涉及 | elastic_resource_pool_id | 弹性资源池 | 5分钟 |
elastic_resource_pool_cu_num | 弹性资源池CU使用量 | 展示用户弹性资源池的CU使用量。 | ≥0 | Count | 不涉及 | elastic_resource_pool_id | 弹性资源池 | 5分钟 |
elastic_resource_pool_alloc_cu_num | 弹性资源池CU分配量 | 展示用户弹性资源池的CU分配情况。 | ≥0 | Count | 不涉及 | elastic_resource_pool_id | 弹性资源池 | 5分钟 |
elastic_resource_pool_min_cu_num | 弹性资源池最小CU | 展示用户弹性资源池的最小CU。 | ≥0 | Count | 不涉及 | elastic_resource_pool_id | 弹性资源池 | 5分钟 |
elastic_resource_pool_max_cu_num | 弹性资源池最大CU | 展示用户弹性资源池的最大CU。 | ≥0 | Count | 不涉及 | elastic_resource_pool_id | 弹性资源池 | 5分钟 |
维度
通过云监控服务CES查看DLI监控指标
- 在管理控制台搜索“云监控服务”。
- 进入云监控服务的控制台后,在左侧列表中,单击“数据湖探索”。
- 选择队列进行查看相关监控信息。

