支持的监控指标
功能说明
本节定义了EMS上报云监控服务的监控指标的命名空间、监控指标列表和维度定义,用户可以通过云监控服务提供管理控制台或API接口来检索EMS产生的监控指标和告警信息。
命名空间
SYS.EMS
监控指标
| 指标ID | 指标含义 | 监控周期 |
|---|---|---|
| ems.controller.process.cpu_usage | controller 容器总 CPU 占用 | 30s |
| ems.controller.process.kv_business_cpu_usage | controller 进程内 kv 业务线程 CPU 占用 | 30s |
| ems.controller.process.pool_business_cpu_usage | controller 进程内 pool 业务线程 CPU 占用 | 30s |
| ems.controller.process.pool_rpc_cpu_usage | controller 进程内 pool 网络线程总 CPU 占用 | 30s |
| ems.controller.process.memory_used | controller 进程内存占用 | 30s |
| ems.controller.process.kv_grpc_connections | controller 和server之间的kv grpc(DHT视图)的网络连接数 | 30s |
| ems.controller.process.pool_rpc_connections | controller 和server之间的pool rpc(datanet)的网络连接数 | 30s |
| ems.controller.process.rest_connections | controller 对外提供的restfull接口的网络连接数 | 30s |
| ems.controller.process.connections | controller 和server之间总网络连接数 | 30s |
| ems.controller.process.fds | controller 进程 fd 数 | 30s |
| ems.controller.process.threads | controller 容器内线程个数 | 30s |
| ems.controller.service.rest_concurrent_limit | controller REST接口并发限制 | 30s |
| ems.controller.service.rest_concurrent_num | controller REST接口当前并发数量 | 30s |
| ems.controller.service.zk_status | controller 连接zk状态 | 30s |
| ems.controller.io.write_bytes | controller 磁盘写入的字节数 | 30s |
| ems.controller.io.read_bytes | controller 磁盘读取字节数 | 30s |
| ems.controller.io.write_count | controller 磁盘写入次数 | 30s |
| ems.controller.io.read_count | controller 磁盘读取次数 | 30s |
| ems.controller.close.wait.number | controller close_wait状态数量 | 30s |
| ems.controller.network.latency | controller 网络时延 | 30s |
| ems.controller.loss_packet_rate.tx | controller 网络发送包丢包率 | 30s |
| ems.controller.loss_packet_rate.rx | controller 网络接收包丢包率 | 30s |
| ems.controller.process.ems_server_process_status | controller 进程状态(R/S/D/T/Z/X) -> (0/1/2/3/4/5) | 30s |
| ems.controller.master.change | controller 发生切主(切主/未切主)->(1/0) | 30s |
| ems.controller.service.charge_report_status | controller 上报计费信息状态 | 30s |
| ems.controller.instance.status | ems-controller的主备状态(master/follower)->(1/0)。 | 30s |
| ems.controller.all.process.fds | controller所有进程 fd 数 | 30s |
| ems.controller.log.dir.read.only | ems-controller日志目录权限是否被错误修改为只读(正常/权限错误)->(0/1) | 30s |
| 指标ID | 指标含义 | 监控周期 |
|---|---|---|
| ems.server.process.cpu_usage | server 进程总 CPU 占用 | 30s |
| ems.server.process.ckpt_ipc_cpu_usage | server 进程内 ckpt ipc server线程的CPU 占用(废弃) | 30s |
| ems.server.process.kv_ipc_cpu_usage | server 进程内 kv ipc server线程的CPU 占用 | 30s |
| ems.server.process.kv_grpc_client_cpu_usage | server 进程内 kv grpc client线程的CPU 占用 | 30s |
| ems.server.process.kv_grpc_server_cpu_usage | server 进程内 kv grpc server线程的CPU 占用 | 30s |
| ems.server.process.kv_read_cpu_usage | server 进程内 kv read 线程的CPU 占用 | 30s |
| ems.server.process.kv_write_cpu_usage | server 进程内 kv write线程的CPU 占用 | 30s |
| ems.server.process.kv_business_cpu_usage | server 进程内 kv 业务线程 CPU 占用 | 30s |
| ems.server.process.pool_ipc_cpu_usage | server 进程内 pool ipc server线程的CPU 占用 | 30s |
| ems.server.process.pool_business_cpu_usage | server 进程内 pool 业务线程 CPU 占用 | 30s |
| ems.server.process.pool_rpc_cpu_usage | server 进程内 pool 网络线程总 CPU 占用 | 30s |
| ems.server.process.memory_used | server 进程内存占用 | 30s |
| ems.server.process.ckpt_ipc_connections | server 进程ckpt ipc的网络连接数(废弃) | 30s |
| ems.server.process.kv_ipc_connections | server 进程kv ipc的网络连接数 | 30s |
| ems.server.process.kv_dht_connections | server 进程kv dht视图监听的网络连接数 | 30s |
| ems.server.process.kv_grpc_connections | server 进程kv grpc的网络连接数 | 30s |
| ems.server.process.pool_ipc_connections | server 进程pool ipc的网络连接数 | 30s |
| ems.server.process.pool_rpc_connections | server 进程pool rpc的网络连接数 | 30s |
| ems.server.process.connections | server 进程网络连接数 | 30s |
| ems.server.process.fds | server 进程 fd 数 | 30s |
| ems.server.process.threads | server 进程线程个数 | 30s |
| ems.server.node.kv_local_ns_num | server 容器的ns数量 | 30s |
| ems.server.kv_mem.kv_data_os_mem | server 容器kv从os申请的内存 | 30s |
| ems.server.kv_mem.pool_data_mem_total | server 获取存放kv数据的内存池内存总量 | 30s |
| ems.server.kv_mem.pool_data_value_size_used | 获取kv数据中value的内存占用 | 30s |
| ems.server.kv_mem.pool_data_index_size_used | 获取kv数据中key和meta的内存占用 | 30s |
| ems.server.kv_mem.pool_anony_used | 获取kv数据中key、meta和anony的内存占用 | 30s |
| ems.server.kv_mem.pool_memory_used_ratio | 获取存放kv数据的内存池内存使用率 | 30s |
| ems.server.service.pool_memory_total | 获取server大页内存总大小 | 30s |
| ems.server.service.pool_memory_data_used | 获取server大页内存data使用量 | 30s |
| ems.server.service.pool_memory_meta_used | 获取server大页内存meta使用量 | 30s |
| ems.server.inter_io.rx.bandwidth | server业务角度入带宽(东西向) | 30s |
| ems.server.inter_io.tx.bandwidth | server业务角度出带宽(东西向) | 30s |
| ems.server.io.error_code | server io错误码上报 | 30s |
| ems.server.kv_io.concurrent_num_limit | server前端kv并发上限 | 30s |
| ems.server.kv_io.concurrent_num_used | server前端kv当前并发 | 30s |
| ems.server.service.rest_concurrent_limit | server REST接口并发限制 | 30s |
| ems.server.service.rest_concurrent_num | server REST接口并发 | 30s |
| ems.server.service.zk_status | server 连接zk状态 | 30s |
| ems.server.io.write_bytes | server 磁盘写入的字节数 | 30s |
| ems.server.io.read_bytes | server 磁盘读取字节数 | 30s |
| ems.server.io.write_count | server 磁盘写入次数 | 30s |
| ems.server.io.read_count | server 磁盘读取次数 | 30s |
| ems.server.close_wait.number | server close_wait状态数量 | 30s |
| ems.server.network.latency | server 网络时延 | 30s |
| ems.server.loss_packet_rate.tx | server 网络发送包丢包率 | 30s |
| ems.server.loss_packet_rate.rx | server 网络接收包丢包率 | 30s |
| ems.server.process.ems_server_process_status | server 进程状态(R/S/D/T/Z/X) -> (0/1/2/3/4/5) | 30s |
| ems.server.service.sfs_status | server sfs状态 | 30s |
| ems.server.all.process.fds | server 所有进程 fd 数 | 30s |
| ems_server_log_dir_read_only | server日志目录权限是否被错误修改为只读(正常/权限错误)->(0/1) | 30s |
| EMS_GET_KV_STAT | server io信息 | 30s |
| ems_server_config_error_code | ems配置是否有问题(-1/0/1/2/3/4/5)->(校验结果不存在/正常/类型错误/修改静态项/删除必要项/值范围错误/Json解析失败) | 30s |
| dmk_zk_cpu_usage | ZK进程的cpu使用率,top命令获取。 | 30s |
| dmk_zk_mem_usage | ZK进程使用的物理内存,以M为单位。 | 30s |
| dmk_zk_datadisk_usage | ZK数据盘的使用量,df命令获取。 | 30s |
| dmk_zk_fd_num | ZK进程打开的文件描述符个数。 | 30s |
| dmk_zk_socket_num | ZK进程打开的socket文件个数。 | 30s |
| dmk_zk_process_status | ZK进程状态(R/S/D/T/Z/X) -> (0/1/2/3/4/5)。 | 30s |
| dmk_zk_datadisk_utils | ZK数据盘的io使用率,iostat命令获取。 | 30s |
| dmk_zk_data_size | ZK数据目录总大小,以M为单位。 | 30s |
| dmk_zk_instance_status | ZK的主备状态(leader/follower/observer)->(2/1/3)。 | 30s |
| dmk_zk_alive_num | ZK集群健康节点个数,如果为0表示ZK集群已经失冗余。 | 30s |
| dmk_zk_alive_percent | ZK集群健康的节点比例,如果小于50%表示集群已经失冗余。 | 30s |
| dmk_zk_subhealth_status | ZK集群亚健康状态,1表示亚健康,不能再接受ZK故障。主节点数据有效,备节点始终为0。 | 30s |
| dmk_zk_approximate_data_size | 所有znode的数据总大小近似值,以字节为单位。 | 30s |
| dmk_zk_znode_count | znode数量。 | 30s |
| dmk_zk_watch_count | watch数量。 | 30s |
| dmk_zk_alive_connections | 和ZK进程连接的session数。 | 30s |
| dmk_zk_outstanding_requests | 堆积的未处理请求数,数值越大表示ZK请求处理压力越高。 | 30s |
| dmk_zk_min_latency | 最小事务处理时延,单位ms。 | 30s |
| dmk_zk_avg_latency | 平均事务处理时延,单位ms。 | 30s |
| dmk_zk_max_latency | 最大事务处理时延,单位ms。 | 30s |
| dmk_zk_disk_min_latency | 最小写磁盘时延,单位ms。 | 30s |
| dmk_zk_disk_avg_latency | 平均写磁盘时延,单位ms。 | 30s |
| dmk_zk_disk_max_latency | 最大写磁盘时延,单位ms。 | 30s |
| dmk_zk_max_update_latency | 最大更新操作时延,单位ms。 | 30s |
| dmk_zk_max_read_latency | 最大读操作时延,单位ms。 | 30s |
| dmk_zk_max_propagation_latency | 最大传播延迟,表示请求到达ZK服务端节点之后到应用到整个集群的耗时,单位ms。 | 30s |
| dmk_zk_max_prep_process_time | 预处理时间的最大值,单位ms。 | 30s |
| dmk_zk_max_commit_process_time | 提交请求处理时间的最大值,表示提交事务时处理请求的最大时延,单位ms。 | 30s |
| dmk_zk_max_quorum_ack_latency | 最大仲裁确认延时,即从主节点收到请求到该请求被大多数节点确认并回复的最大时延,单位ms。 | 30s |
| dmk_zk_max_local_write_committed_time_ms | 本地写入提交的最大时延,单位ms。 | 30s |
| dmk_zk_max_write_batch_time_in_commit_processor | 在提交处理器中批处理写入的最大时延,单位ms。 | 30s |
| dmk_zk_first_cnt_read | 统计周期内,读请求第一的计数。 | 30s |
| dmk_zk_first_cnt_write | 统计周期内,写请求第一的计数。 | 30s |
| dmk_zk_second_cnt_read | 统计周期内,读请求第二的计数。 | 30s |
| dmk_zk_second_cnt_write | 统计周期内,写请求第二的计数。 | 30s |
| 指标ID | 指标含义 | 监控周期 |
|---|---|---|
| ems.store_controller.process.cpu_usage | store_controller 进程总 CPU 占用 | 30s |
| ems.store_controller.process.memory_used | store_controller 进程内存占用 | 30s |
| ems.store_controller.process.threads | store_controller 进程线程个数 | 30s |
| 指标ID | 指标含义 | 监控周期 |
|---|---|---|
| dmk_zk_cpu_usage | ZK进程的cpu使用率,top命令获取。 | 30s |
| dmk_zk_mem_usage | ZK进程使用的物理内存,以M为单位。 | 30s |
| dmk_zk_datadisk_usage | ZK数据盘的使用量,df命令获取。 | 30s |
| dmk_zk_fd_num | ZK进程打开的文件描述符个数。 | 30s |
| dmk_zk_socket_num | ZK进程打开的socket文件个数。 | 30s |
| dmk_zk_process_status | ZK进程状态(R/S/D/T/Z/X) -> (0/1/2/3/4/5)。 | 30s |
| dmk_zk_datadisk_utils | ZK数据盘的io使用率,iostat命令获取。 | 30s |
| dmk_zk_data_size | ZK数据目录总大小,以M为单位。 | 30s |
| dmk_zk_instance_status | ZK的主备状态(leader/follower/observer)->(2/1/3)。 | 30s |
| dmk_zk_alive_num | ZK集群健康节点个数,如果为0表示ZK集群已经失冗余。 | 30s |
| dmk_zk_alive_percent | ZK集群健康的节点比例,如果小于50%表示集群已经失冗余。 | 30s |
| dmk_zk_subhealth_status | ZK集群亚健康状态,1表示亚健康,不能再接受ZK故障。主节点数据有效,备节点始终为0。 | 30s |
| dmk_zk_approximate_data_size | 所有znode的数据总大小近似值,以字节为单位。 | 30s |
| dmk_zk_znode_count | znode数量。 | 30s |
| dmk_zk_watch_count | watch数量。 | 30s |
| dmk_zk_alive_connections | 和ZK进程连接的session数。 | 30s |
| dmk_zk_outstanding_requests | 堆积的未处理请求数,数值越大表示ZK请求处理压力越高。 | 30s |
| dmk_zk_min_latency | 最小事务处理时延,单位ms。 | 30s |
| dmk_zk_avg_latency | 平均事务处理时延,单位ms。 | 30s |
| dmk_zk_max_latency | 最大事务处理时延,单位ms。 | 30s |
| dmk_zk_disk_min_latency | 最小写磁盘时延,单位ms。 | 30s |
| dmk_zk_disk_avg_latency | 平均写磁盘时延,单位ms。 | 30s |
| dmk_zk_disk_max_latency | 最大写磁盘时延,单位ms。 | 30s |
| dmk_zk_max_update_latency | 最大更新操作时延,单位ms。 | 30s |
| dmk_zk_max_read_latency | 最大读操作时延,单位ms。 | 30s |
| dmk_zk_max_propagation_latency | 最大传播延迟,表示请求到达ZK服务端节点之后到应用到整个集群的耗时,单位ms。 | 30s |
| dmk_zk_max_prep_process_time | 预处理时间的最大值,单位ms。 | 30s |
| dmk_zk_max_commit_process_time | 提交请求处理时间的最大值,表示提交事务时处理请求的最大时延,单位ms。 | 30s |
| dmk_zk_max_quorum_ack_latency | 最大仲裁确认延时,即从主节点收到请求到该请求被大多数节点确认并回复的最大时延,单位ms。 | 30s |
| dmk_zk_max_local_write_committed_time_ms | 本地写入提交的最大时延,单位ms。 | 30s |
| dmk_zk_max_write_batch_time_in_commit_processor | 在提交处理器中批处理写入的最大时延,单位ms。 | 30s |
| dmk_zk_first_cnt_read | 统计周期内,读请求第一的计数。 | 30s |
| dmk_zk_first_cnt_write | 统计周期内,写请求第一的计数。 | 30s |
| dmk_zk_second_cnt_read | 统计周期内,读请求第二的计数。 | 30s |
| dmk_zk_second_cnt_write | 统计周期内,写请求第二的计数。 | 30s |