支持的监控指标
功能说明
本节定义了EMS上报云监控服务的监控指标的命名空间、监控指标列表和维度定义,用户可以通过云监控服务提供管理控制台或API接口来检索EMS产生的监控指标和告警信息。
命名空间
SYS.EMS
监控指标
|
指标ID |
指标含义 |
监控周期 |
|---|---|---|
|
ems.controller.process.cpu_usage |
controller 容器总 CPU 占用 |
30s |
|
ems.controller.process.kv_business_cpu_usage |
controller 进程内 kv 业务线程 CPU 占用 |
30s |
|
ems.controller.process.pool_business_cpu_usage |
controller 进程内 pool 业务线程 CPU 占用 |
30s |
|
ems.controller.process.pool_rpc_cpu_usage |
controller 进程内 pool 网络线程总 CPU 占用 |
30s |
|
ems.controller.process.memory_used |
controller 进程内存占用 |
30s |
|
ems.controller.process.kv_grpc_connections |
controller 和server之间的kv grpc(DHT视图)的网络连接数 |
30s |
|
ems.controller.process.pool_rpc_connections |
controller 和server之间的pool rpc(datanet)的网络连接数 |
30s |
|
ems.controller.process.rest_connections |
controller 对外提供的restfull接口的网络连接数 |
30s |
|
ems.controller.process.connections |
controller 和server之间总网络连接数 |
30s |
|
ems.controller.process.fds |
controller 进程 fd 数 |
30s |
|
ems.controller.process.threads |
controller 容器内线程个数 |
30s |
|
ems.controller.service.rest_concurrent_limit |
controller REST接口并发限制 |
30s |
|
ems.controller.service.rest_concurrent_num |
controller REST接口当前并发数量 |
30s |
|
ems.controller.service.zk_status |
controller 连接zk状态 |
30s |
|
ems.controller.io.write_bytes |
controller 磁盘写入的字节数 |
30s |
|
ems.controller.io.read_bytes |
controller 磁盘读取字节数 |
30s |
|
ems.controller.io.write_count |
controller 磁盘写入次数 |
30s |
|
ems.controller.io.read_count |
controller 磁盘读取次数 |
30s |
|
ems.controller.close.wait.number |
controller close_wait状态数量 |
30s |
|
ems.controller.network.latency |
controller 网络时延 |
30s |
|
ems.controller.loss_packet_rate.tx |
controller 网络发送包丢包率 |
30s |
|
ems.controller.loss_packet_rate.rx |
controller 网络接收包丢包率 |
30s |
|
ems.controller.process.ems_server_process_status |
controller 进程状态(R/S/D/T/Z/X) -> (0/1/2/3/4/5) |
30s |
|
ems.controller.master.change |
controller 发生切主(切主/未切主)->(1/0) |
30s |
|
ems.controller.service.charge_report_status |
controller 上报计费信息状态 |
30s |
|
ems.controller.instance.status |
ems-controller的主备状态(master/follower)->(1/0)。 |
30s |
|
ems.controller.all.process.fds |
controller所有进程 fd 数 |
30s |
|
ems.controller.log.dir.read.only |
ems-controller日志目录权限是否被错误修改为只读(正常/权限错误)->(0/1) |
30s |
|
指标ID |
指标含义 |
监控周期 |
|---|---|---|
|
ems.server.process.cpu_usage |
server 进程总 CPU 占用 |
30s |
|
ems.server.process.ckpt_ipc_cpu_usage |
server 进程内 ckpt ipc server线程的CPU 占用(废弃) |
30s |
|
ems.server.process.kv_ipc_cpu_usage |
server 进程内 kv ipc server线程的CPU 占用 |
30s |
|
ems.server.process.kv_grpc_client_cpu_usage |
server 进程内 kv grpc client线程的CPU 占用 |
30s |
|
ems.server.process.kv_grpc_server_cpu_usage |
server 进程内 kv grpc server线程的CPU 占用 |
30s |
|
ems.server.process.kv_read_cpu_usage |
server 进程内 kv read 线程的CPU 占用 |
30s |
|
ems.server.process.kv_write_cpu_usage |
server 进程内 kv write线程的CPU 占用 |
30s |
|
ems.server.process.kv_business_cpu_usage |
server 进程内 kv 业务线程 CPU 占用 |
30s |
|
ems.server.process.pool_ipc_cpu_usage |
server 进程内 pool ipc server线程的CPU 占用 |
30s |
|
ems.server.process.pool_business_cpu_usage |
server 进程内 pool 业务线程 CPU 占用 |
30s |
|
ems.server.process.pool_rpc_cpu_usage |
server 进程内 pool 网络线程总 CPU 占用 |
30s |
|
ems.server.process.memory_used |
server 进程内存占用 |
30s |
|
ems.server.process.ckpt_ipc_connections |
server 进程ckpt ipc的网络连接数(废弃) |
30s |
|
ems.server.process.kv_ipc_connections |
server 进程kv ipc的网络连接数 |
30s |
|
ems.server.process.kv_dht_connections |
server 进程kv dht视图监听的网络连接数 |
30s |
|
ems.server.process.kv_grpc_connections |
server 进程kv grpc的网络连接数 |
30s |
|
ems.server.process.pool_ipc_connections |
server 进程pool ipc的网络连接数 |
30s |
|
ems.server.process.pool_rpc_connections |
server 进程pool rpc的网络连接数 |
30s |
|
ems.server.process.connections |
server 进程网络连接数 |
30s |
|
ems.server.process.fds |
server 进程 fd 数 |
30s |
|
ems.server.process.threads |
server 进程线程个数 |
30s |
|
ems.server.node.kv_local_ns_num |
server 容器的ns数量 |
30s |
|
ems.server.kv_mem.kv_data_os_mem |
server 容器kv从os申请的内存 |
30s |
|
ems.server.kv_mem.pool_data_mem_total |
server 获取存放kv数据的内存池内存总量 |
30s |
|
ems.server.kv_mem.pool_data_value_size_used |
获取kv数据中value的内存占用 |
30s |
|
ems.server.kv_mem.pool_data_index_size_used |
获取kv数据中key和meta的内存占用 |
30s |
|
ems.server.kv_mem.pool_anony_used |
获取kv数据中key、meta和anony的内存占用 |
30s |
|
ems.server.kv_mem.pool_memory_used_ratio |
获取存放kv数据的内存池内存使用率 |
30s |
|
ems.server.service.pool_memory_total |
获取server大页内存总大小 |
30s |
|
ems.server.service.pool_memory_data_used |
获取server大页内存data使用量 |
30s |
|
ems.server.service.pool_memory_meta_used |
获取server大页内存meta使用量 |
30s |
|
ems.server.inter_io.rx.bandwidth |
server业务角度入带宽(东西向) |
30s |
|
ems.server.inter_io.tx.bandwidth |
server业务角度出带宽(东西向) |
30s |
|
ems.server.io.error_code |
server io错误码上报 |
30s |
|
ems.server.kv_io.concurrent_num_limit |
server前端kv并发上限 |
30s |
|
ems.server.kv_io.concurrent_num_used |
server前端kv当前并发 |
30s |
|
ems.server.service.rest_concurrent_limit |
server REST接口并发限制 |
30s |
|
ems.server.service.rest_concurrent_num |
server REST接口并发 |
30s |
|
ems.server.service.zk_status |
server 连接zk状态 |
30s |
|
ems.server.io.write_bytes |
server 磁盘写入的字节数 |
30s |
|
ems.server.io.read_bytes |
server 磁盘读取字节数 |
30s |
|
ems.server.io.write_count |
server 磁盘写入次数 |
30s |
|
ems.server.io.read_count |
server 磁盘读取次数 |
30s |
|
ems.server.close_wait.number |
server close_wait状态数量 |
30s |
|
ems.server.network.latency |
server 网络时延 |
30s |
|
ems.server.loss_packet_rate.tx |
server 网络发送包丢包率 |
30s |
|
ems.server.loss_packet_rate.rx |
server 网络接收包丢包率 |
30s |
|
ems.server.process.ems_server_process_status |
server 进程状态(R/S/D/T/Z/X) -> (0/1/2/3/4/5) |
30s |
|
ems.server.service.sfs_status |
server sfs状态 |
30s |
|
ems.server.all.process.fds |
server 所有进程 fd 数 |
30s |
|
ems_server_log_dir_read_only |
server日志目录权限是否被错误修改为只读(正常/权限错误)->(0/1) |
30s |
|
EMS_GET_KV_STAT |
server io信息 |
30s |
|
ems_server_config_error_code |
ems配置是否有问题(-1/0/1/2/3/4/5)->(校验结果不存在/正常/类型错误/修改静态项/删除必要项/值范围错误/Json解析失败) |
30s |
|
dmk_zk_cpu_usage |
ZK进程的cpu使用率,top命令获取。 |
30s |
|
dmk_zk_mem_usage |
ZK进程使用的物理内存,以M为单位。 |
30s |
|
dmk_zk_datadisk_usage |
ZK数据盘的使用量,df命令获取。 |
30s |
|
dmk_zk_fd_num |
ZK进程打开的文件描述符个数。 |
30s |
|
dmk_zk_socket_num |
ZK进程打开的socket文件个数。 |
30s |
|
dmk_zk_process_status |
ZK进程状态(R/S/D/T/Z/X) -> (0/1/2/3/4/5)。 |
30s |
|
dmk_zk_datadisk_utils |
ZK数据盘的io使用率,iostat命令获取。 |
30s |
|
dmk_zk_data_size |
ZK数据目录总大小,以M为单位。 |
30s |
|
dmk_zk_instance_status |
ZK的主备状态(leader/follower/observer)->(2/1/3)。 |
30s |
|
dmk_zk_alive_num |
ZK集群健康节点个数,如果为0表示ZK集群已经失冗余。 |
30s |
|
dmk_zk_alive_percent |
ZK集群健康的节点比例,如果小于50%表示集群已经失冗余。 |
30s |
|
dmk_zk_subhealth_status |
ZK集群亚健康状态,1表示亚健康,不能再接受ZK故障。主节点数据有效,备节点始终为0。 |
30s |
|
dmk_zk_approximate_data_size |
所有znode的数据总大小近似值,以字节为单位。 |
30s |
|
dmk_zk_znode_count |
znode数量。 |
30s |
|
dmk_zk_watch_count |
watch数量。 |
30s |
|
dmk_zk_alive_connections |
和ZK进程连接的session数。 |
30s |
|
dmk_zk_outstanding_requests |
堆积的未处理请求数,数值越大表示ZK请求处理压力越高。 |
30s |
|
dmk_zk_min_latency |
最小事务处理时延,单位ms。 |
30s |
|
dmk_zk_avg_latency |
平均事务处理时延,单位ms。 |
30s |
|
dmk_zk_max_latency |
最大事务处理时延,单位ms。 |
30s |
|
dmk_zk_disk_min_latency |
最小写磁盘时延,单位ms。 |
30s |
|
dmk_zk_disk_avg_latency |
平均写磁盘时延,单位ms。 |
30s |
|
dmk_zk_disk_max_latency |
最大写磁盘时延,单位ms。 |
30s |
|
dmk_zk_max_update_latency |
最大更新操作时延,单位ms。 |
30s |
|
dmk_zk_max_read_latency |
最大读操作时延,单位ms。 |
30s |
|
dmk_zk_max_propagation_latency |
最大传播延迟,表示请求到达ZK服务端节点之后到应用到整个集群的耗时,单位ms。 |
30s |
|
dmk_zk_max_prep_process_time |
预处理时间的最大值,单位ms。 |
30s |
|
dmk_zk_max_commit_process_time |
提交请求处理时间的最大值,表示提交事务时处理请求的最大时延,单位ms。 |
30s |
|
dmk_zk_max_quorum_ack_latency |
最大仲裁确认延时,即从主节点收到请求到该请求被大多数节点确认并回复的最大时延,单位ms。 |
30s |
|
dmk_zk_max_local_write_committed_time_ms |
本地写入提交的最大时延,单位ms。 |
30s |
|
dmk_zk_max_write_batch_time_in_commit_processor |
在提交处理器中批处理写入的最大时延,单位ms。 |
30s |
|
dmk_zk_first_cnt_read |
统计周期内,读请求第一的计数。 |
30s |
|
dmk_zk_first_cnt_write |
统计周期内,写请求第一的计数。 |
30s |
|
dmk_zk_second_cnt_read |
统计周期内,读请求第二的计数。 |
30s |
|
dmk_zk_second_cnt_write |
统计周期内,写请求第二的计数。 |
30s |
|
指标ID |
指标含义 |
监控周期 |
|---|---|---|
|
ems.store_controller.process.cpu_usage |
store_controller 进程总 CPU 占用 |
30s |
|
ems.store_controller.process.memory_used |
store_controller 进程内存占用 |
30s |
|
ems.store_controller.process.threads |
store_controller 进程线程个数 |
30s |
|
指标ID |
指标含义 |
监控周期 |
|---|---|---|
|
dmk_zk_cpu_usage |
ZK进程的cpu使用率,top命令获取。 |
30s |
|
dmk_zk_mem_usage |
ZK进程使用的物理内存,以M为单位。 |
30s |
|
dmk_zk_datadisk_usage |
ZK数据盘的使用量,df命令获取。 |
30s |
|
dmk_zk_fd_num |
ZK进程打开的文件描述符个数。 |
30s |
|
dmk_zk_socket_num |
ZK进程打开的socket文件个数。 |
30s |
|
dmk_zk_process_status |
ZK进程状态(R/S/D/T/Z/X) -> (0/1/2/3/4/5)。 |
30s |
|
dmk_zk_datadisk_utils |
ZK数据盘的io使用率,iostat命令获取。 |
30s |
|
dmk_zk_data_size |
ZK数据目录总大小,以M为单位。 |
30s |
|
dmk_zk_instance_status |
ZK的主备状态(leader/follower/observer)->(2/1/3)。 |
30s |
|
dmk_zk_alive_num |
ZK集群健康节点个数,如果为0表示ZK集群已经失冗余。 |
30s |
|
dmk_zk_alive_percent |
ZK集群健康的节点比例,如果小于50%表示集群已经失冗余。 |
30s |
|
dmk_zk_subhealth_status |
ZK集群亚健康状态,1表示亚健康,不能再接受ZK故障。主节点数据有效,备节点始终为0。 |
30s |
|
dmk_zk_approximate_data_size |
所有znode的数据总大小近似值,以字节为单位。 |
30s |
|
dmk_zk_znode_count |
znode数量。 |
30s |
|
dmk_zk_watch_count |
watch数量。 |
30s |
|
dmk_zk_alive_connections |
和ZK进程连接的session数。 |
30s |
|
dmk_zk_outstanding_requests |
堆积的未处理请求数,数值越大表示ZK请求处理压力越高。 |
30s |
|
dmk_zk_min_latency |
最小事务处理时延,单位ms。 |
30s |
|
dmk_zk_avg_latency |
平均事务处理时延,单位ms。 |
30s |
|
dmk_zk_max_latency |
最大事务处理时延,单位ms。 |
30s |
|
dmk_zk_disk_min_latency |
最小写磁盘时延,单位ms。 |
30s |
|
dmk_zk_disk_avg_latency |
平均写磁盘时延,单位ms。 |
30s |
|
dmk_zk_disk_max_latency |
最大写磁盘时延,单位ms。 |
30s |
|
dmk_zk_max_update_latency |
最大更新操作时延,单位ms。 |
30s |
|
dmk_zk_max_read_latency |
最大读操作时延,单位ms。 |
30s |
|
dmk_zk_max_propagation_latency |
最大传播延迟,表示请求到达ZK服务端节点之后到应用到整个集群的耗时,单位ms。 |
30s |
|
dmk_zk_max_prep_process_time |
预处理时间的最大值,单位ms。 |
30s |
|
dmk_zk_max_commit_process_time |
提交请求处理时间的最大值,表示提交事务时处理请求的最大时延,单位ms。 |
30s |
|
dmk_zk_max_quorum_ack_latency |
最大仲裁确认延时,即从主节点收到请求到该请求被大多数节点确认并回复的最大时延,单位ms。 |
30s |
|
dmk_zk_max_local_write_committed_time_ms |
本地写入提交的最大时延,单位ms。 |
30s |
|
dmk_zk_max_write_batch_time_in_commit_processor |
在提交处理器中批处理写入的最大时延,单位ms。 |
30s |
|
dmk_zk_first_cnt_read |
统计周期内,读请求第一的计数。 |
30s |
|
dmk_zk_first_cnt_write |
统计周期内,写请求第一的计数。 |
30s |
|
dmk_zk_second_cnt_read |
统计周期内,读请求第二的计数。 |
30s |
|
dmk_zk_second_cnt_write |
统计周期内,写请求第二的计数。 |
30s |