使用CES监控DLI服务
功能说明
本章节定义了数据湖探索服务上报云监控的监控指标的命名空间,监控指标列表和维度定义,用户可以通过云监控服务提供的管理控制台或API接口来检索数据湖探索服务产生的监控指标和告警信息。
命名空间
SYS.DLI
监控指标
指标ID |
指标名称 |
指标含义 |
取值范围 |
测量对象 |
监控周期(原始指标) |
---|---|---|---|---|---|
queue_cu_num |
队列CU使用量 |
展示用户队列申请的CU数 |
≥0 |
队列 |
5分钟 |
queue_job_launching_num |
提交中作业数 |
展示用户队列中状态为提交中的作业数。 |
≥0 |
队列 |
5分钟 |
queue_job_running_num |
运行中作业数 |
展示用户队列中状态为运行中的作业数。 |
≥0 |
队列 |
5分钟 |
queue_job_succeed_num |
已完成作业数 |
展示用户队列中状态为已完成的作业数。 |
≥0 |
队列 |
5分钟 |
queue_job_failed_num |
已失败作业数 |
展示用户队列中状态为已失败的作业数。 |
≥0 |
队列 |
5分钟 |
queue_job_cancelled_num |
已取消作业数 |
展示用户队列中状态为已取消的作业数。 |
≥0 |
队列 |
5分钟 |
queue_alloc_cu_num |
队列CU分配量 |
展示用户队列的CU分配情况。 |
≥0 |
队列 |
5分钟 |
queue_min_cu_num |
队列最小CU |
展示用户队列中的最小CU。 |
≥0 |
队列 |
5分钟 |
queue_max_cu_num |
队列最大CU |
展示用户队列中的最大CU。 |
≥0 |
队列 |
5分钟 |
queue_priority |
队列优先级 |
展示用户队列的优先级。 |
1~100 |
队列 |
5分钟 |
queue_cpu_usage |
队列CPU使用率 |
展示用户队列的CPU使用率。 该指标仅适用于普通队列。 |
0~100 |
队列 |
5分钟 |
queue_disk_usage |
队列磁盘使用率 |
展示用户队列的磁盘使用率。 该指标仅适用于普通队列。 |
0~100 |
队列 |
5分钟 |
queue_disk_used |
队列磁盘使用率最大值 |
展示用户队列的磁盘使用率的最大值。 该指标仅适用于普通队列。 |
0~100 |
队列 |
5分钟 |
queue_mem_usage |
队列内存使用率 |
展示用户队列的内存使用率。 该指标仅适用于普通队列。 |
0~100 |
队列 |
5分钟 |
queue_mem_used |
队列内存使用量 |
展示用户队列的内存使用量。 该指标仅适用于普通队列。 |
≥0 |
队列 |
5分钟 |
flink_read_records_per_second |
Flink作业数据输入速率 |
展示用户Flink作业的数据输入速率,供监控和调试使用。 |
≥0 |
Flink作业 |
10秒钟 |
flink_write_records_per_second |
Flink作业数据输出速率 |
展示用户Flink作业的数据输出速率,供监控和调试使用。 |
≥0 |
Flink作业 |
10秒钟 |
flink_read_records_total |
Flink作业数据输入总数 |
展示用户Flink作业的数据输入总数,供监控和调试使用。 |
≥0 |
Flink作业 |
10秒钟 |
flink_write_records_total |
Flink作业数据输出总数 |
展示用户Flink作业的数据输出总数,供监控和调试使用。 |
≥0 |
Flink作业 |
10秒钟 |
flink_read_bytes_per_second |
Flink作业字节输入速率 |
展示用户Flink作业每秒输入的字节数。 |
≥0 |
Flink作业 |
10秒钟 |
flink_write_bytes_per_second |
Flink作业字节输出速率 |
展示用户Flink作业每秒输出的字节数。 |
≥0 |
Flink作业 |
10秒钟 |
flink_read_bytes_total |
Flink作业字节输入总数 |
展示用户Flink作业字节的输入总数。 |
≥0 |
Flink作业 |
10秒钟 |
flink_write_bytes_total |
Flink作业字节输出总数 |
展示用户Flink作业字节的输出总数。 |
≥0 |
Flink作业 |
10秒钟 |
flink_cpu_usage |
Flink作业CPU使用率 |
展示用户Flink作业的CPU使用率。 |
0~100 |
Flink作业 |
10秒钟 |
flink_mem_usage |
Flink作业内存使用率 |
展示用户Flink作业的内存使用率。 |
0~100 |
Flink作业 |
10秒钟 |
flink_max_op_latency |
Flink作业最大算子延迟 |
展示用户Flink作业的最大算子延迟时间,单位ms。Flink时间模型具体可以参考配置时间模型。 |
≥0 |
Flink作业 |
10秒钟 |
flink_max_op_backpressure_level |
Flink作业最大算子反压 |
展示用户Flink作业的最大算子反压值,数值越大,反压越严重。 0:表示OK 50:表示Low 100:表示High |
0~100 |
Flink作业 |
10秒钟 |
elastic_resource_pool_cpu_usage |
弹性资源池CPU使用率 |
展示用户弹性资源池的CPU使用率。 |
0~100 |
弹性资源池 |
5分钟 |
elastic_resource_pool_mem_usage |
弹性资源池内存使用率 |
展示用户弹性资源池的内存使用率。 |
0~100 |
弹性资源池 |
5分钟 |
elastic_resource_pool_disk_usage |
弹性资源池磁盘使用率 |
展示用户弹性资源池的磁盘使用率。 |
0~100 |
弹性资源池 |
5分钟 |
elastic_resource_pool_disk_max_usage |
弹性资源池磁盘使用率最大值 |
展示用户弹性资源池的磁盘使用率最大值。 |
0~100 |
弹性资源池 |
5分钟 |
elastic_resource_pool_cu_num |
弹性资源池CU使用量 |
展示用户弹性资源池的CU使用量。 |
≥0 |
弹性资源池 |
5分钟 |
elastic_resource_pool_alloc_cu_num |
弹性资源池CU分配量 |
展示用户弹性资源池的CU分配情况。 |
≥0 |
弹性资源池 |
5分钟 |
elastic_resource_pool_min_cu_num |
弹性资源池最小CU |
展示用户弹性资源池的最小CU。 |
≥0 |
弹性资源池 |
5分钟 |
elastic_resource_pool_max_cu_num |
弹性资源池最大CU |
展示用户弹性资源池的最大CU。 |
≥0 |
弹性资源池 |
5分钟 |
维度
Key |
Value |
---|---|
queue_id |
队列 |
flink_job_id |
Flink作业 |
通过云监控服务CES查看DLI监控指标
- 在管理控制台搜索“云监控服务”。
- 进入云监控服务的控制台后,在左侧列表中,单击“数据湖探索”。
- 选择队列进行查看相关监控信息。