更新时间:2025-11-25 GMT+08:00
分享

支持的监控指标

功能说明

本节定义了EMS上报云监控服务的监控指标的命名空间、监控指标列表和维度定义,用户可以通过云监控服务提供管理控制台或API接口来检索EMS产生的监控指标和告警信息。

命名空间

SYS.EMS

监控指标

表1 controller监控指标

指标ID

指标含义

监控周期

ems.controller.process.cpu_usage

controller 容器总 CPU 占用

30s

ems.controller.process.kv_business_cpu_usage

controller 进程内 kv 业务线程 CPU 占用

30s

ems.controller.process.pool_business_cpu_usage

controller 进程内 pool 业务线程 CPU 占用

30s

ems.controller.process.pool_rpc_cpu_usage

controller 进程内 pool 网络线程总 CPU 占用

30s

ems.controller.process.memory_used

controller 进程内存占用

30s

ems.controller.process.kv_grpc_connections

controller 和server之间的kv grpc(DHT视图)的网络连接数

30s

ems.controller.process.pool_rpc_connections

controller 和server之间的pool rpc(datanet)的网络连接数

30s

ems.controller.process.rest_connections

controller 对外提供的restfull接口的网络连接数

30s

ems.controller.process.connections

controller 和server之间总网络连接数

30s

ems.controller.process.fds

controller 进程 fd 数

30s

ems.controller.process.threads

controller 容器内线程个数

30s

ems.controller.service.rest_concurrent_limit

controller REST接口并发限制

30s

ems.controller.service.rest_concurrent_num

controller REST接口当前并发数量

30s

ems.controller.service.zk_status

controller 连接zk状态

30s

ems.controller.io.write_bytes

controller 磁盘写入的字节数

30s

ems.controller.io.read_bytes

controller 磁盘读取字节数

30s

ems.controller.io.write_count

controller 磁盘写入次数

30s

ems.controller.io.read_count

controller 磁盘读取次数

30s

ems.controller.close.wait.number

controller close_wait状态数量

30s

ems.controller.network.latency

controller 网络时延

30s

ems.controller.loss_packet_rate.tx

controller 网络发送包丢包率

30s

ems.controller.loss_packet_rate.rx

controller 网络接收包丢包率

30s

ems.controller.process.ems_server_process_status

controller 进程状态(R/S/D/T/Z/X) -> (0/1/2/3/4/5)

30s

ems.controller.master.change

controller 发生切主(切主/未切主)->(1/0)

30s

ems.controller.service.charge_report_status

controller 上报计费信息状态

30s

ems.controller.instance.status

ems-controller的主备状态(master/follower)->(1/0)。

30s

ems.controller.all.process.fds

controller所有进程 fd 数

30s

ems.controller.log.dir.read.only

ems-controller日志目录权限是否被错误修改为只读(正常/权限错误)->(0/1)

30s

表2 server监控指标

指标ID

指标含义

监控周期

ems.server.process.cpu_usage

server 进程总 CPU 占用

30s

ems.server.process.ckpt_ipc_cpu_usage

server 进程内 ckpt ipc server线程的CPU 占用(废弃)

30s

ems.server.process.kv_ipc_cpu_usage

server 进程内 kv ipc server线程的CPU 占用

30s

ems.server.process.kv_grpc_client_cpu_usage

server 进程内 kv grpc client线程的CPU 占用

30s

ems.server.process.kv_grpc_server_cpu_usage

server 进程内 kv grpc server线程的CPU 占用

30s

ems.server.process.kv_read_cpu_usage

server 进程内 kv read 线程的CPU 占用

30s

ems.server.process.kv_write_cpu_usage

server 进程内 kv write线程的CPU 占用

30s

ems.server.process.kv_business_cpu_usage

server 进程内 kv 业务线程 CPU 占用

30s

ems.server.process.pool_ipc_cpu_usage

server 进程内 pool ipc server线程的CPU 占用

30s

ems.server.process.pool_business_cpu_usage

server 进程内 pool 业务线程 CPU 占用

30s

ems.server.process.pool_rpc_cpu_usage

server 进程内 pool 网络线程总 CPU 占用

30s

ems.server.process.memory_used

server 进程内存占用

30s

ems.server.process.ckpt_ipc_connections

server 进程ckpt ipc的网络连接数(废弃)

30s

ems.server.process.kv_ipc_connections

server 进程kv ipc的网络连接数

30s

ems.server.process.kv_dht_connections

server 进程kv dht视图监听的网络连接数

30s

ems.server.process.kv_grpc_connections

server 进程kv grpc的网络连接数

30s

ems.server.process.pool_ipc_connections

server 进程pool ipc的网络连接数

30s

ems.server.process.pool_rpc_connections

server 进程pool rpc的网络连接数

30s

ems.server.process.connections

server 进程网络连接数

30s

ems.server.process.fds

server 进程 fd 数

30s

ems.server.process.threads

server 进程线程个数

30s

ems.server.node.kv_local_ns_num

server 容器的ns数量

30s

ems.server.kv_mem.kv_data_os_mem

server 容器kv从os申请的内存

30s

ems.server.kv_mem.pool_data_mem_total

server 获取存放kv数据的内存池内存总量

30s

ems.server.kv_mem.pool_data_value_size_used

获取kv数据中value的内存占用

30s

ems.server.kv_mem.pool_data_index_size_used

获取kv数据中key和meta的内存占用

30s

ems.server.kv_mem.pool_anony_used

获取kv数据中key、meta和anony的内存占用

30s

ems.server.kv_mem.pool_memory_used_ratio

获取存放kv数据的内存池内存使用率

30s

ems.server.service.pool_memory_total

获取server大页内存总大小

30s

ems.server.service.pool_memory_data_used

获取server大页内存data使用量

30s

ems.server.service.pool_memory_meta_used

获取server大页内存meta使用量

30s

ems.server.inter_io.rx.bandwidth

server业务角度入带宽(东西向)

30s

ems.server.inter_io.tx.bandwidth

server业务角度出带宽(东西向)

30s

ems.server.io.error_code

server io错误码上报

30s

ems.server.kv_io.concurrent_num_limit

server前端kv并发上限

30s

ems.server.kv_io.concurrent_num_used

server前端kv当前并发

30s

ems.server.service.rest_concurrent_limit

server REST接口并发限制

30s

ems.server.service.rest_concurrent_num

server REST接口并发

30s

ems.server.service.zk_status

server 连接zk状态

30s

ems.server.io.write_bytes

server 磁盘写入的字节数

30s

ems.server.io.read_bytes

server 磁盘读取字节数

30s

ems.server.io.write_count

server 磁盘写入次数

30s

ems.server.io.read_count

server 磁盘读取次数

30s

ems.server.close_wait.number

server close_wait状态数量

30s

ems.server.network.latency

server 网络时延

30s

ems.server.loss_packet_rate.tx

server 网络发送包丢包率

30s

ems.server.loss_packet_rate.rx

server 网络接收包丢包率

30s

ems.server.process.ems_server_process_status

server 进程状态(R/S/D/T/Z/X) -> (0/1/2/3/4/5)

30s

ems.server.service.sfs_status

server sfs状态

30s

ems.server.all.process.fds

server 所有进程 fd 数

30s

ems_server_log_dir_read_only

server日志目录权限是否被错误修改为只读(正常/权限错误)->(0/1)

30s

EMS_GET_KV_STAT

server io信息

30s

ems_server_config_error_code

ems配置是否有问题(-1/0/1/2/3/4/5)->(验结果不存在/正常/类型错误/修改静态项/删除必要项/值范围错误/Json解析失败)

30s

dmk_zk_cpu_usage

ZK进程的cpu使用率,top命令获取。

30s

dmk_zk_mem_usage

ZK进程使用的物理内存,以M为单位。

30s

dmk_zk_datadisk_usage

ZK数据盘的使用量,df命令获取。

30s

dmk_zk_fd_num

ZK进程打开的文件描述符个数。

30s

dmk_zk_socket_num

ZK进程打开的socket文件个数。

30s

dmk_zk_process_status

ZK进程状态(R/S/D/T/Z/X) -> (0/1/2/3/4/5)。

30s

dmk_zk_datadisk_utils

ZK数据盘的io使用率,iostat命令获取。

30s

dmk_zk_data_size

ZK数据目录总大小,以M为单位。

30s

dmk_zk_instance_status

ZK的主备状态(leader/follower/observer)->(2/1/3)。

30s

dmk_zk_alive_num

ZK集群健康节点个数,如果为0表示ZK集群已经失冗余。

30s

dmk_zk_alive_percent

ZK集群健康的节点比例,如果小于50%表示集群已经失冗余。

30s

dmk_zk_subhealth_status

ZK集群亚健康状态,1表示亚健康,不能再接受ZK故障。主节点数据有效,备节点始终为0。

30s

dmk_zk_approximate_data_size

所有znode的数据总大小近似值,以字节为单位。

30s

dmk_zk_znode_count

znode数量。

30s

dmk_zk_watch_count

watch数量。

30s

dmk_zk_alive_connections

和ZK进程连接的session数。

30s

dmk_zk_outstanding_requests

堆积的未处理请求数,数值越大表示ZK请求处理压力越高。

30s

dmk_zk_min_latency

最小事务处理时延,单位ms。

30s

dmk_zk_avg_latency

平均事务处理时延,单位ms。

30s

dmk_zk_max_latency

最大事务处理时延,单位ms。

30s

dmk_zk_disk_min_latency

最小写磁盘时延,单位ms。

30s

dmk_zk_disk_avg_latency

平均写磁盘时延,单位ms。

30s

dmk_zk_disk_max_latency

最大写磁盘时延,单位ms。

30s

dmk_zk_max_update_latency

最大更新操作时延,单位ms。

30s

dmk_zk_max_read_latency

最大读操作时延,单位ms。

30s

dmk_zk_max_propagation_latency

最大传播延迟,表示请求到达ZK服务端节点之后到应用到整个集群的耗时,单位ms。

30s

dmk_zk_max_prep_process_time

预处理时间的最大值,单位ms。

30s

dmk_zk_max_commit_process_time

提交请求处理时间的最大值,表示提交事务时处理请求的最大时延,单位ms。

30s

dmk_zk_max_quorum_ack_latency

最大仲裁确认延时,即从主节点收到请求到该请求被大多数节点确认并回复的最大时延,单位ms。

30s

dmk_zk_max_local_write_committed_time_ms

本地写入提交的最大时延,单位ms。

30s

dmk_zk_max_write_batch_time_in_commit_processor

在提交处理器中批处理写入的最大时延,单位ms。

30s

dmk_zk_first_cnt_read

统计周期内,读请求第一的计数。

30s

dmk_zk_first_cnt_write

统计周期内,写请求第一的计数。

30s

dmk_zk_second_cnt_read

统计周期内,读请求第二的计数。

30s

dmk_zk_second_cnt_write

统计周期内,写请求第二的计数。

30s

表3 store-controller监控指标

指标ID

指标含义

监控周期

ems.store_controller.process.cpu_usage

store_controller 进程总 CPU 占用

30s

ems.store_controller.process.memory_used

store_controller 进程内存占用

30s

ems.store_controller.process.threads

store_controller 进程线程个数

30s

表4 zookeeper监控指标

指标ID

指标含义

监控周期

dmk_zk_cpu_usage

ZK进程的cpu使用率,top命令获取。

30s

dmk_zk_mem_usage

ZK进程使用的物理内存,以M为单位。

30s

dmk_zk_datadisk_usage

ZK数据盘的使用量,df命令获取。

30s

dmk_zk_fd_num

ZK进程打开的文件描述符个数。

30s

dmk_zk_socket_num

ZK进程打开的socket文件个数。

30s

dmk_zk_process_status

ZK进程状态(R/S/D/T/Z/X) -> (0/1/2/3/4/5)。

30s

dmk_zk_datadisk_utils

ZK数据盘的io使用率,iostat命令获取。

30s

dmk_zk_data_size

ZK数据目录总大小,以M为单位。

30s

dmk_zk_instance_status

ZK的主备状态(leader/follower/observer)->(2/1/3)。

30s

dmk_zk_alive_num

ZK集群健康节点个数,如果为0表示ZK集群已经失冗余。

30s

dmk_zk_alive_percent

ZK集群健康的节点比例,如果小于50%表示集群已经失冗余。

30s

dmk_zk_subhealth_status

ZK集群亚健康状态,1表示亚健康,不能再接受ZK故障。主节点数据有效,备节点始终为0。

30s

dmk_zk_approximate_data_size

所有znode的数据总大小近似值,以字节为单位。

30s

dmk_zk_znode_count

znode数量。

30s

dmk_zk_watch_count

watch数量。

30s

dmk_zk_alive_connections

和ZK进程连接的session数。

30s

dmk_zk_outstanding_requests

堆积的未处理请求数,数值越大表示ZK请求处理压力越高。

30s

dmk_zk_min_latency

最小事务处理时延,单位ms。

30s

dmk_zk_avg_latency

平均事务处理时延,单位ms。

30s

dmk_zk_max_latency

最大事务处理时延,单位ms。

30s

dmk_zk_disk_min_latency

最小写磁盘时延,单位ms。

30s

dmk_zk_disk_avg_latency

平均写磁盘时延,单位ms。

30s

dmk_zk_disk_max_latency

最大写磁盘时延,单位ms。

30s

dmk_zk_max_update_latency

最大更新操作时延,单位ms。

30s

dmk_zk_max_read_latency

最大读操作时延,单位ms。

30s

dmk_zk_max_propagation_latency

最大传播延迟,表示请求到达ZK服务端节点之后到应用到整个集群的耗时,单位ms。

30s

dmk_zk_max_prep_process_time

预处理时间的最大值,单位ms。

30s

dmk_zk_max_commit_process_time

提交请求处理时间的最大值,表示提交事务时处理请求的最大时延,单位ms。

30s

dmk_zk_max_quorum_ack_latency

最大仲裁确认延时,即从主节点收到请求到该请求被大多数节点确认并回复的最大时延,单位ms。

30s

dmk_zk_max_local_write_committed_time_ms

本地写入提交的最大时延,单位ms。

30s

dmk_zk_max_write_batch_time_in_commit_processor

在提交处理器中批处理写入的最大时延,单位ms。

30s

dmk_zk_first_cnt_read

统计周期内,读请求第一的计数。

30s

dmk_zk_first_cnt_write

统计周期内,写请求第一的计数。

30s

dmk_zk_second_cnt_read

统计周期内,读请求第二的计数。

30s

dmk_zk_second_cnt_write

统计周期内,写请求第二的计数。

30s

相关文档