各云服务推荐的指标及告警策略
本章节为您介绍部分云服务在配置告警时,推荐使用的指标及告警策略。告警策略会根据云服务业务调整所有变化,以下内容仅供参考,请根据实际业务需求进行配置。
弹性云服务器
命名空间 | 指标名称 | 指标ID | 指标值类型 | 连续触发次数 | 比较关系 | 重要告警阈值 | 紧急告警阈值 | 单位 | 告警频率 |
|---|---|---|---|---|---|---|---|---|---|
SYS.ECS | CPU使用率 | cpu_util | 原始值 | 3 | > | 80 | 90 | % | 1小时 |
(Windows)内存使用率 | mem_util | 原始值 | 3 | > | 80 | 90 | % | 1小时 | |
(Windows)磁盘使用率 | disk_util_inband | 原始值 | 3 | > | 80 | 90 | % | 1小时 | |
AGT.ECS | (Agent) CPU使用率 | cpu_usage | 原始值 | 3 | > | 80 | 90 | % | 1小时 |
(Agent) 内存使用率 | mem_usedPercent | 原始值 | 1 | > | 80 | 90 | % | 1小时 | |
(Agent) 接收误包率 | net_errin | 原始值 | 5 | > | 0 | - | % | 5分钟 | |
(Agent) 发送误包率 | net_errout | 原始值 | 5 | > | 0 | - | % | 5分钟 | |
(Agent) 接收丢包率 | net_dropin | 原始值 | 5 | > | 0 | - | % | 5分钟 | |
(Agent) 发送丢包率 | net_dropout | 原始值 | 5 | > | 0 | - | % | 5分钟 | |
(Agent) 阻塞进程数 | proc_blocked_count | 原始值 | 5 | > | 0 | - | count | 1小时 | |
(Agent) NTP偏移量 | ntp_offset | 原始值 | 3 | >= | 5000 | 10000 | ms | 1小时 | |
(Agent) 磁盘I/O使用率 | disk_ioUtils | 原始值 | 3 | > | 80 | 90 | % | 1小时 | |
(Agent) 磁盘使用率 | disk_usedPercent | 原始值 | 3 | > | 80 | 90 | % | 1小时 | |
(Agent) inode已使用占比 | disk_inodesUsedPercent | 原始值 | 3 | > | 80 | 90 | % | 1小时 | |
(Agent) 文件系统读写状态 | disk_fs_rwstate | 原始值 | 2 | = | - | 1 | 不涉及 | 1小时 | |
(Agent) NPU健康状况 | npu_device_health | 原始值 | 1 | = | 2 | 3 | 不涉及 | 1小时 | |
(Agent) NPU驱动健康状况 | npu_driver_health | 原始值 | 5 | != | - | 0 | 不涉及 | 只告警一次 | |
(Agent) NPU显存使用率 | npu_util_rate_mem | 原始值 | 5 | > | 98 | - | % | 只告警一次 | |
(Agent) NPU卡AI核心使用率 | npu_util_rate_ai_core | 原始值 | 10 | > | 98 | - | % | 只告警一次 | |
(Agent) NPU控制CPU使用率 | npu_util_rate_ctrl_cpu | 原始值 | 10 | > | 98 | - | % | 只告警一次 | |
(Agent)NPU的AICPU平均使用率 | npu_aicpu_avg_util_rate | 原始值 | 10 | > | 98 | - | % | 只告警一次 | |
(Agent) HBM ECC检测开关状态 | npu_hbm_ecc_enable | 原始值 | 5 | = | 0 | - | 不涉及 | 只告警一次 | |
(Agent) HBM双比特错误隔离内存页数量 | npu_hbm_double_bit_isolated_pages_cnt | 原始值 | 5 | >= | 64 | - | count | 只告警一次 | |
(Agent)NPU的HBM占用率 | npu_util_rate_hbm | 原始值 | 5 | > | 95 | 98 | % | 只告警一次 | |
(Agent)NPU光模块壳温 | npu_opt_temperature | 原始值 | 5 | > < | - | 80 -10 | °C | 只告警一次 | |
NPU卡Vector核心使用率 | npu_util_rate_vector_core | 原始值 | 10 | > | 98 | - | % | 只告警一次 | |
NPU Macro1 Serdes Lane0的信噪比 | npu_macro1_serdes_lane0_snr | 原始值 | 5 | < | - | 500000 | db | 只告警一次 | |
NPU Macro1 Serdes Lane1的信噪比 | npu_macro1_serdes_lane1_snr | 原始值 | 5 | < | - | 500000 | db | 只告警一次 | |
NPU Macro1 Serdes Lane2的信噪比 | npu_macro1_serdes_lane2_snr | 原始值 | 5 | < | - | 500000 | db | 只告警一次 | |
NPU Macro1 Serdes Lane3的信噪比 | npu_macro1_serdes_lane3_snr | 原始值 | 5 | < | - | 500000 | db | 只告警一次 | |
NPU Macro2 Serdes Lane0的信噪比 | npu_macro2_serdes_lane0_snr | 原始值 | 5 | < | - | 500000 | db | 只告警一次 | |
NPU Macro2 Serdes Lane1的信噪比 | npu_macro2_serdes_lane1_snr | 原始值 | 5 | < | - | 500000 | db | 只告警一次 | |
NPU Macro2 Serdes Lane2的信噪比 | npu_macro2_serdes_lane2_snr | 原始值 | 5 | < | - | 500000 | db | 只告警一次 | |
NPU Macro2 Serdes Lane3的信噪比 | npu_macro2_serdes_lane3_snr | 原始值 | 5 | < | - | 500000 | db | 只告警一次 | |
NPU Macro3 Serdes Lane0的信噪比 | npu_macro3_serdes_lane0_snr | 原始值 | 5 | < | - | 500000 | db | 只告警一次 | |
NPU Macro3 Serdes Lane1的信噪比 | npu_macro3_serdes_lane1_snr | 原始值 | 5 | < | - | 500000 | db | 只告警一次 | |
NPU Macro3 Serdes Lane2的信噪比 | npu_macro3_serdes_lane2_snr | 原始值 | 5 | < | - | 500000 | db | 只告警一次 | |
NPU Macro3 Serdes Lane3的信噪比 | npu_macro3_serdes_lane3_snr | 原始值 | 5 | < | - | 500000 | db | 只告警一次 | |
NPU Macro4 Serdes Lane0的信噪比 | npu_macro4_serdes_lane0_snr | 原始值 | 5 | < | - | 500000 | db | 只告警一次 | |
NPU Macro4 Serdes Lane1的信噪比 | npu_macro4_serdes_lane1_snr | 原始值 | 5 | < | - | 500000 | db | 只告警一次 | |
NPU Macro4 Serdes Lane2的信噪比 | npu_macro4_serdes_lane2_snr | 原始值 | 5 | < | - | 500000 | db | 只告警一次 | |
NPU Macro4 Serdes Lane3的信噪比 | npu_macro4_serdes_lane3_snr | 原始值 | 5 | < | - | 500000 | db | 只告警一次 | |
NPU Macro5 Serdes Lane0的信噪比 | npu_macro5_serdes_lane0_snr | 原始值 | 5 | < | - | 500000 | db | 只告警一次 | |
NPU Macro5 Serdes Lane1的信噪比 | npu_macro5_serdes_lane1_snr | 原始值 | 5 | < | - | 500000 | db | 只告警一次 | |
NPU Macro5 Serdes Lane2的信噪比 | npu_macro5_serdes_lane2_snr | 原始值 | 5 | < | - | 500000 | db | 只告警一次 | |
NPU Macro5 Serdes Lane3的信噪比 | npu_macro5_serdes_lane3_snr | 原始值 | 5 | < | - | 500000 | db | 只告警一次 | |
NPU Macro6 Serdes Lane0的信噪比 | npu_macro6_serdes_lane0_snr | 原始值 | 5 | < | - | 500000 | db | 只告警一次 | |
NPU Macro6 Serdes Lane1的信噪比 | npu_macro6_serdes_lane1_snr | 原始值 | 5 | < | - | 500000 | db | 只告警一次 | |
NPU Macro6 Serdes Lane2的信噪比 | npu_macro6_serdes_lane2_snr | 原始值 | 5 | < | - | 500000 | db | 只告警一次 | |
NPU Macro6 Serdes Lane3的信噪比 | npu_macro6_serdes_lane3_snr | 原始值 | 5 | < | - | 500000 | db | 只告警一次 | |
NPU Macro7 Serdes Lane0的信噪比 | npu_macro7_serdes_lane0_snr | 原始值 | 5 | < | - | 500000 | db | 只告警一次 | |
NPU Macro7 Serdes Lane1的信噪比 | npu_macro7_serdes_lane1_snr | 原始值 | 5 | < | - | 500000 | db | 只告警一次 | |
NPU Macro7 Serdes Lane2的信噪比 | npu_macro7_serdes_lane2_snr | 原始值 | 5 | < | - | 500000 | db | 只告警一次 | |
NPU Macro7 Serdes Lane3的信噪比 | npu_macro7_serdes_lane3_snr | 原始值 | 5 | < | - | 500000 | db | 只告警一次 | |
NPU Macro1重传报文数 | npu_macro1_retry_cnt | 原始值 | 5 | > | 0 | - | count | 只告警一次 | |
NPU Macro2重传报文数 | npu_macro2_retry_cnt | 原始值 | 5 | > | 0 | - | count | 只告警一次 | |
NPU Macro3重传报文数 | npu_macro3_retry_cnt | 原始值 | 5 | > | 0 | - | count | 只告警一次 | |
NPU Macro4重传报文数 | npu_macro4_retry_cnt | 原始值 | 5 | > | 0 | - | count | 只告警一次 | |
NPU Macro5重传报文数 | npu_macro5_retry_cnt | 原始值 | 5 | > | 0 | - | count | 只告警一次 | |
NPU Macro6重传报文数 | npu_macro6_retry_cnt | 原始值 | 5 | > | 0 | - | count | 只告警一次 | |
NPU Macro7重传报文数 | npu_macro7_retry_cnt | 原始值 | 5 | > | 0 | - | count | 只告警一次 | |
NPU Macro1接收错误报文数 | npu_macro1_crc_error_cnt | 原始值 | 5 | > | 0 | - | count | 只告警一次 | |
NPU Macro2接收错误报文数 | npu_macro2_crc_error_cnt | 原始值 | 5 | > | 0 | - | count | 只告警一次 | |
NPU Macro3接收错误报文数 | npu_macro3_crc_error_cnt | 原始值 | 5 | > | 0 | - | count | 只告警一次 | |
NPU Macro4接收错误报文数 | npu_macro4_crc_error_cnt | 原始值 | 5 | > | 0 | - | count | 只告警一次 | |
NPU Macro5接收错误报文数 | npu_macro5_crc_error_cnt | 原始值 | 5 | > | 0 | - | count | 只告警一次 | |
NPU Macro6接收错误报文数 | npu_macro6_crc_error_cnt | 原始值 | 5 | > | 0 | - | count | 只告警一次 | |
NPU Macro7接收错误报文数 | npu_macro7_crc_error_cnt | 原始值 | 5 | > | 0 | - | count | 只告警一次 | |
NPU Macro1接收误码率 | npu_macro1_crc_error_rate | 原始值 | 5 | > | 0 | - | count | 只告警一次 | |
NPU Macro2接收误码率 | npu_macro2_crc_error_rate | 原始值 | 5 | > | 0 | - | % | 只告警一次 | |
NPU Macro3接收误码率 | npu_macro3_crc_error_rate | 原始值 | 5 | > | 0 | - | % | 只告警一次 | |
NPU Macro4接收误码率 | npu_macro4_crc_error_rate | 原始值 | 5 | > | 0 | - | % | 只告警一次 | |
NPU Macro5接收误码率 | npu_macro5_crc_error_rate | 原始值 | 5 | > | 0 | - | % | 只告警一次 | |
NPU Macro6接收误码率 | npu_macro6_crc_error_rate | 原始值 | 5 | > | 0 | - | % | 只告警一次 | |
NPU Macro7接收误码率 | npu_macro7_crc_error_rate | 原始值 | 5 | > | 0 | - | % | 只告警一次 | |
NPU Macro1 0lane模式最大持续时长 | npu_macro1_0lane_max_consec_sec | 原始值 | 1 | > | - | 5 | s | 只告警一次 | |
NPU Macro2 0lane模式最大持续时长 | npu_macro2_0lane_max_consec_sec | 原始值 | 1 | > | - | 5 | s | 只告警一次 | |
NPU Macro3 0lane模式最大持续时长 | npu_macro3_0lane_max_consec_sec | 原始值 | 1 | > | - | 5 | s | 只告警一次 | |
NPU Macro4 0lane模式最大持续时长 | npu_macro4_0lane_max_consec_sec | 原始值 | 1 | > | - | 5 | s | 只告警一次 | |
NPU Macro5 0lane模式最大持续时长 | npu_macro5_0lane_max_consec_sec | 原始值 | 1 | > | - | 5 | s | 只告警一次 | |
NPU Macro6 0lane模式最大持续时长 | npu_macro6_0lane_max_consec_sec | 原始值 | 1 | > | - | 5 | s | 只告警一次 | |
NPU Macro7 0lane模式最大持续时长 | npu_macro7_0lane_max_consec_sec | 原始值 | 1 | > | - | 5 | s | 只告警一次 | |
NPU Macro1 0lane模式持续总时长 | npu_macro1_0lane_total_sec | 原始值 | 1 | > | - | 20 | s | 只告警一次 | |
NPU Macro2 0lane模式持续总时长 | npu_macro2_0lane_total_sec | 原始值 | 1 | > | - | 20 | s | 只告警一次 | |
NPU Macro3 0lane模式持续总时长 | npu_macro3_0lane_total_sec | 原始值 | 1 | > | - | 20 | s | 只告警一次 | |
NPU Macro4 0lane模式持续总时长 | npu_macro4_0lane_total_sec | 原始值 | 1 | > | - | 20 | s | 只告警一次 | |
NPU Macro5 0lane模式持续总时长 | npu_macro5_0lane_total_sec | 原始值 | 1 | > | - | 20 | s | 只告警一次 | |
NPU Macro6 0lane模式持续总时长 | npu_macro6_0lane_total_sec | 原始值 | 1 | > | - | 20 | s | 只告警一次 | |
NPU Macro7 0lane模式持续总时长 | npu_macro7_0lane_total_sec | 原始值 | 1 | > | - | 20 | s | 只告警一次 | |
NPU RoCE的重传报文数 | npu_roce_new_pkt_rty_num | 原始值 | 5 | 环比上升 | 1 | - | % | 只告警一次 | |
NPU RoCE接收的PSN异常报文数 | npu_roce_out_of_order_num | 原始值 | 5 | 环比上升 | 1 | - | % | 只告警一次 |
API网关专享版
命名空间 | 指标名称 | 指标ID | 指标值类型 | 连续触发次数 | 比较关系 | 重要告警阈值 | 紧急告警阈值 | 单位 | 告警频率 |
|---|---|---|---|---|---|---|---|---|---|
SYS.APIC | 5xx异常次数 | req_count_5xx | 原始值 | 1 | 环比上升 | 20 | 30 | % | 1小时 |
平均延迟毫秒数 | avg_latency | 原始值 | 3 | >= | 3000 | 5000 | ms | 1小时 | |
网关节点系统负载 | node_system_load | 原始值 | 3 | = | 2 | 3 | count | 1小时 | |
网关节点cpu使用率 | node_cpu_usage | 原始值 | 3 | > | 30 | 60 | % | 1小时 | |
网关节点内存使用率 | node_memory_usage | 原始值 | 3 | > | 30 | 60 | % | 1小时 | |
被流控的调用次数 | throttled_calls | 原始值 | 1 | 环比上升 | 50 | 70 | % | 1小时 |
NAT网关
命名空间 | 指标名称 | 指标ID | 指标值类型 | 连续触发次数 | 比较关系 | 重要告警阈值 | 紧急告警阈值 | 单位 | 告警频率 |
|---|---|---|---|---|---|---|---|---|---|
SYS.NAT | 入方向PPS | inbound_pps | 原始值 | 3 | > | - | 800000 | 个 | 1小时 |
入方向PPS | inbound_pps | 原始值 | 3 | 环比波动 | 20 | - | % | 1小时 | |
出方向PPS | outbound_pps | 原始值 | 3 | > | - | >800000 | 个 | 1小时 | |
出方向PPS | outbound_pps | 原始值 | 3 | 环比波动 | 20 | - | % | 1小时 | |
SNAT连接数使用率 | snat_connection_ratio | 原始值 | 3 | > | - | 80 | % | 1小时 | |
丢包数(SNAT连接数超限) | packets_drop_count_snat_connection_beyond | 原始值 | 3 | > | - | 0 | 个 | 1小时 | |
丢包数(PPS超限) | packets_drop_count_pps_beyond | 原始值 | 3 | > | - | 0 | 个 | 1小时 | |
丢包数(EIP端口分配超限) | packets_drop_count_eip_port_alloc_beyond | 原始值 | 3 | > | - | 0 | 个 | 1小时 | |
总PPS使用率 | total_pps_ratio | 原始值 | 3 | > | - | 80 | % | 1小时 |
Web应用防火墙
命名空间 | 指标名称 | 指标ID | 指标值类型 | 连续触发次数 | 比较关系 | 重要告警阈值 | 紧急告警阈值 | 单位 | 告警频率 |
|---|---|---|---|---|---|---|---|---|---|
SYS.WAF | CPU使用率 | cpu_util | 原始值 | 3 | > | 80 | 90 | % | 1小时 |
内存使用率 | mem_util | 原始值 | 3 | > | 80 | 90 | % | 1小时 | |
磁盘使用率 | disk_util | 原始值 | 3 | > | 80 | - | % | 1小时 | |
活跃连接数 | active_connections | 原始值 | 3 | > | 40000 | - | count | 1小时 | |
WAF返回码(5XX) | waf_http_5xx | 原始值 | 1 | 环比上升 | 10 | 15 | % | 1小时 | |
业务返回码(5XX) | upstream_code_5xx | 原始值 | 3 | > | 15 | 20 | 次 | 1小时 |
弹性负载均衡
命名空间 | 指标名称 | 指标ID | 指标值类型 | 连续触发次数 | 比较关系 | 重要告警阈值 | 紧急告警阈值 | 单位 | 告警频率 |
|---|---|---|---|---|---|---|---|---|---|
SYS.ELB | 并发连接数 | m1_cps | 原始值 | 3 | > | 40000 | 45000 | 个 | 1小时 |
新建连接数 | m4_ncps | 原始值 | 3 | > | 4000 | 4500 | 个/秒 | 1小时 | |
异常主机数 | m9_abnormal_servers | 原始值 | 3 | > | - | 0 | 个 | 1小时 | |
丢弃连接数 | dropped_connections | 原始值 | 3 | > | - | 0 | 个/秒 | 1小时 | |
丢弃数据包 | dropped_packets | 原始值 | 3 | > | - | 0 | 个/秒 | 1小时 | |
丢弃网络带宽 | dropped_traffic | 原始值 | 3 | > | - | 0 | bit/s | 1小时 | |
4层新建连接数使用率 | l4_ncps_usage | 原始值 | 3 | > | 80 | 90 | % | 1小时 | |
4层并发连接使用率 | l4_con_usage | 原始值 | 3 | > | 80 | 90 | % | 1小时 | |
4层入带宽使用率 | l4_in_bps_usage | 原始值 | 3 | > | 80 | 90 | % | 1小时 | |
4层出带宽使用率 | l4_out_bps_usage | 原始值 | 3 | > | 80 | 90 | % | 1小时 | |
7层新建连接数使用率 | l7_ncps_usage | 原始值 | 3 | > | 80 | 90 | % | 1小时 | |
7层并发连接使用率 | l7_con_usage | 原始值 | 3 | > | 80 | 90 | % | 1小时 | |
7层入带宽使用率 | l7_in_bps_usage | 原始值 | 3 | > | 80 | 90 | % | 1小时 | |
7层出带宽使用率 | l7_out_bps_usage | 原始值 | 3 | > | 80 | 90 | % | 1小时 | |
7层查询速率使用率 | l7_qps_usage | 原始值 | 3 | > | 80 | 90 | % | 1小时 | |
并发连接数 | m1_cps | 原始值 | 1 | 环比下降 | - | 80 | % | 1小时 | |
新建连接数 | m4_ncps | 原始值 | 1 | 环比下降 | - | 80 | % | 1小时 | |
7层协议响应状态码(5XX) | mf_l7_http_5xx | 原始值 | 1 | 环比上升 | - | 50 | % | 1小时 | |
7层协议RT平均值 | m14_l7_rt | 原始值 | 1 | 环比上升 | - | 50 | % | 1小时 | |
负载均衡响应状态码(5XX) | elb_http_5xx | 原始值 | 1 | 环比上升 | - | 50 | % | 1小时 | |
七层5XX请求占比 | l7_5xx_ratio | 原始值 | 3 | >= | - | 5 | % | 1小时 | |
七层2XX请求占比 | l7_2xx_ratio | 原始值 | 3 | <= | - | 95 | % | 1小时 |
弹性文件服务
命名空间 | 指标名称 | 指标ID | 指标值类型 | 连续触发次数 | 比较关系 | 重要告警阈值 | 紧急告警阈值 | 单位 | 告警频率 |
|---|---|---|---|---|---|---|---|---|---|
SYS.SFS | 文件系统读带宽 | read_bytes_intranet | 原始值 | 1 | 环比下降 | 100 | - | % | 3小时 |
文件系统写带宽 | write_bytes_intranet | 原始值 | 1 | 环比下降 | 100 | - | % | 3小时 | |
文件系统读TPS | read_tps | 原始值 | 1 | 环比下降 | 100 | - | % | 3小时 | |
文件系统写TPS | write_tps | 原始值 | 1 | 环比下降 | 100 | - | % | 3小时 |
弹性文件服务Turbo
命名空间 | 指标名称 | 指标ID | 指标值类型 | 连续触发次数 | 比较关系 | 重要告警阈值 | 紧急告警阈值 | 单位 | 告警频率 |
|---|---|---|---|---|---|---|---|---|---|
SYS.EFS | 容量使用率 | used_capacity_percent | 原始值 | 5 | > | 90 | 95 | % | 1小时 |
inode使用率 | used_inode_percent | 原始值 | 5 | > | 90 | 95 | % | 1小时 |
对象存储服务
命名空间 | 指标名称 | 指标ID | 指标值类型 | 连续触发次数 | 比较关系 | 重要告警阈值 | 紧急告警阈值 | 单位 | 告警频率 |
|---|---|---|---|---|---|---|---|---|---|
SYS.OBS | 请求成功率 | request_success_rate | 原始值 | 2 | < | - | 99.97 | % | 1小时 |
分布式缓存服务
命名空间 | 指标名称 | 指标ID | 指标值类型 | 连续触发次数 | 比较关系 | 重要告警阈值 | 紧急告警阈值 | 单位 | 告警频率 |
|---|---|---|---|---|---|---|---|---|---|
SYS.DCS | 内存利用率 | memory_usage | 原始值 | 2 | > | 70 | 80 | % | 1小时 |
CPU利用率 | cpu_usage | 原始值 | 2 | 环比下降 | - | 100 | % | 1小时 | |
实例节点状态 | node_status | 原始值 | 2 | = | - | 1 | 不涉及 | 1小时 | |
CPU平均使用率 | cpu_avg_usage | 原始值 | 2 | > | 70 | 80 | % | 1小时 | |
最大时延 | command_max_rt | 原始值 | 2 | > | - | 900000 | μs | 1小时 | |
平均时延 | command_avg_rt | 原始值 | 2 | > | - | 150000 | μs | 1小时 | |
连接数使用率 | connections_usage | 原始值 | 2 | > | 70 | 80 | % | 1小时 | |
CPU利用率 | cpu_usage | 原始值 | 2 | > | 70 | 80 | % | 1小时 | |
是否存在慢日志 | mc_is_slow_log_exist | 原始值 | 1 | > | - | 0 | 不涉及 | 1小时 |
分布式数据库中间件
命名空间 | 指标名称 | 指标ID | 指标值类型 | 连续触发次数 | 比较关系 | 重要告警阈值 | 紧急告警阈值 | 单位 | 告警频率 |
|---|---|---|---|---|---|---|---|---|---|
SYS.DDMS | CPU使用率 | ddm_cpu_util | 原始值 | 3 | > | 80 | 90 | % | 1小时 |
内存使用率 | ddm_mem_util | 原始值 | 3 | > | 85 | 90 | % | 1小时 | |
慢SQL数 | ddm_slow_log | 原始值 | 3 | > | 50 | 100 | 条数 | 1天 | |
连接数使用率 | ddm_connection_util | 原始值 | 2 | >= | 80 | 85 | % | 1小时 | |
DDM节点连通性异常检测 | ddm_node_status_alarm_code | 原始值 | 1 | = | - | 1 | 不涉及 | 1小时 |
分布式消息服务
命名空间 | 指标名称 | 指标ID | 指标值类型 | 连续触发次数 | 比较关系 | 重要告警阈值 | 紧急告警阈值 | 单位 | 告警频率 |
|---|---|---|---|---|---|---|---|---|---|
SYS.DMS | 消费者数 | consumers | 原始值 | 2 | > | 3600 | - | 个 | 1小时 |
可消费消息数 | messages_ready | 原始值 | 1 | > | 10000 | - | 个 | 1小时 | |
未确认消息数 | messages_unacknowledged | 原始值 | 1 | > | 10000 | - | 个 | 1小时 | |
实例磁盘容量使用率 | instance_disk_usage | 原始值 | 3 | > | 80 | 90 | % | 1小时 | |
磁盘容量使用率 | broker_disk_usage | 原始值 | 3 | > | 80 | 90 | % | 1小时 | |
内存使用率 | broker_memory_usage | 原始值 | 3 | > | 80 | 90 | % | 1小时 | |
节点存活状态 | broker_alive | 原始值 | 1 | = | - | 0 | 不涉及 | 1小时 | |
连接数 | broker_connections | 原始值 | 3 | > | - | 2000 | 个 | 1小时 | |
CPU使用率 | broker_cpu_usage | 原始值 | 3 | 环比下降 | - | 100 | % | 1小时 | |
磁盘平均读操作耗时 | broker_disk_read_await | 原始值 | 3 | > | - | 5000 | ms | 1小时 | |
磁盘平均写操作耗时 | broker_disk_write_await | 原始值 | 3 | > | - | 5000 | ms | 1小时 | |
节点生产请求P99处理时长 | broker_produce_p99 | 原始值 | 3 | > | 50 | - | ms | 1小时 | |
节点生产请求P99.9处理时长 | broker_produce_p999 | 原始值 | 3 | > | 50 | - | ms | 1小时 | |
生产成功率 | broker_produce_success_rate | 原始值 | 1 | < | - | 90 | % | 1小时 | |
死信主题消息量 | dlq_accumulation | 原始值 | 3 | > | 0 | - | 个 | 1小时 | |
死信消息增长量 | dlq_increase | 原始值 | 3 | > | 0 | - | Count | 1小时 | |
队列可消费消息数 | topic_messages_remained | 原始值 | 1 | > | 10000 | - | 个 | 1小时 | |
消息堆积数(消费组可消费消息数) | consumer_messages_remained | 原始值 | 1 | > | 10000 | - | 个 | 1小时 | |
Socket连接数 | socket_used | 原始值 | 3 | > | 2500 | - | 个 | 1小时 | |
节点存活状态 | rabbitmq_alive | 原始值 | 1 | = | - | 0 | 不涉及 | 1小时 | |
磁盘容量使用率 | rabbitmq_disk_usage | 原始值 | 3 | > | 80 | 85 | % | 1小时 | |
CPU使用率 | rabbitmq_cpu_usage | 原始值 | 3 | - | >80 | >90% 或者 环比下降 100% | % | 1小时 | |
内存使用率 | rabbitmq_memory_usage | 原始值 | 3 | > | - | 30 | % | 1小时 | |
内存高水位状态 | rabbitmq_memory_high_watermark | 原始值 | 1 | > | - | 0 | 不涉及 | 1小时 | |
磁盘高水位状态 | rabbitmq_disk_insufficient | 原始值 | 1 | > | - | 0 | 不涉及 | 1小时 | |
连接数使用率 | connections_usage | 原始值 | 1 | > | - | 80 | % | 1小时 | |
消息堆积数 | instance_accumulation | 原始值 | 1 | > | 10000 | 环比上升50% | 个 | 1小时 | |
生产被流控次数 | instance_produce_ratelimit_times | 原始值 | 1 | >= | - | 1 | Count | 1小时 | |
消息堆积数(消费组可消费消息数) | group_accumulation | 原始值 | 1 | > | 10000 | - | 个 | 1小时 | |
任务状态 | task_status | 原始值 | 1 | = | 0 | - | 不涉及 | 1小时 | |
消息时延 | message_delay | 原始值 | 3 | > | 1000 | - | ms | 1小时 | |
分区数 | current_partitions | 原始值 | 3 | > | 90 | - | 个 | 1小时 | |
消息堆积数 | group_msgs | 原始值 | 1 | > | 10000 | - | 个 | 1小时 | |
队列可消费消息数 | queue_messages_ready | 原始值 | 1 | > | 10000 | - | 个 | 1小时 | |
生产请求平均处理时长 | broker_produce_mean | 原始值 | 3 | > | - | 50 | 毫秒 | 1小时 | |
JVM堆内存使用率 | broker_heap_usage | 原始值 | 3 | > | 80 | 90 | % | 1小时 | |
连接数 | broker_connections | 原始值 | 1 | > | - | 4000 | 个 | 1小时 | |
CPU使用率 | broker_cpu_usage | 原始值 | 3 | > | 80 | 90 | % | 1小时 | |
网络带宽利用率 | network_bandwidth_usage | 原始值 | 3 | > | 70 | 80 | % | 1小时 |
关系型数据库
命名空间 | 指标名称 | 指标ID | 指标值类型 | 连续触发次数 | 比较关系 | 重要告警阈值 | 紧急告警阈值 | 单位 | 告警频率 |
|---|---|---|---|---|---|---|---|---|---|
SYS.RDS | CPU使用率 | rds001_cpu_util | 原始值 | 3 | >= | 80 | 90 | % | 1小时 |
内存使用率 | rds002_mem_util | 原始值 | 3 | >= | 90 | 95 | % | 1小时 | |
磁盘利用率 | rds039_disk_util | 原始值 | 3 | >= | 80 | 95 | % | 1小时 | |
连接数使用率 | rds072_conn_usage | 原始值 | 3 | >= | 80 | 90 | % | 1小时 | |
实时复制时延 | rds073_replication_delay | 原始值 | 3 | >= | 300 | 600 | 秒 | 1小时 | |
活跃连接数使用率 | rds_conn_active_usage | 原始值 | 3 | >= | 80 | 95 | % | 1小时 | |
备机(只读)流复制状态 | slave_replication_status | 原始值 | 3 | = | - | 0 | Count | 1小时 | |
复制时延 | rds046_replication_lag | 原始值 | 3 | >= | 300000 | 600000 | 毫秒 | 1小时 | |
连接数使用率 | rds083_conn_usage | 原始值 | 3 | >= | 80 | 90 | 比率 | 1小时 |
关系型数据库集群版
命名空间 | 指标名称 | 指标ID | 指标值类型 | 连续触发次数 | 比较关系 | 重要告警阈值 | 紧急告警阈值 | 单位 | 告警频率 |
|---|---|---|---|---|---|---|---|---|---|
SYS.RDS_MYSQL_CLUSTER | 活跃连接数使用率 | rds_conn_active_usage | 原始值 | 3 | >= | 80 | 95 | % | 1小时 |
CPU使用率 | rds001_cpu_util | 原始值 | 3 | >= | 80 | 90 | % | 1小时 | |
内存使用率 | rds002_mem_util | 原始值 | 3 | >= | 90 | 95 | % | 1小时 | |
磁盘利用率 | rds039_disk_util | 原始值 | 3 | >= | 80 | 95 | % | 1小时 | |
连接数使用率 | rds072_conn_usage | 原始值 | 3 | >= | 80 | 90 | % | 1小时 | |
实时复制时延 | rds073_replication_delay | 原始值 | 3 | >= | 300 | 600 | 秒 | 1小时 |
内容分发网络
命名空间 | 指标名称 | 指标ID | 指标值类型 | 连续触发次数 | 比较关系 | 重要告警阈值 | 紧急告警阈值 | 单位 | 告警频率 |
|---|---|---|---|---|---|---|---|---|---|
SYS.CDN | 带宽 | bw | 原始值 | 3 | 环比波动 | 10 | 20 | % | 1小时 |
回源失败率 | bs_fail_rate | 原始值 | 3 | > | 3 | 10 | % | 1小时 | |
状态码汇总4xx | http_code_4xx | 原始值 | 3 | 环比上升 | 60 | 80 | % | 1小时 | |
状态码4xx占比 | http_code_4xx_rate | 原始值 | 3 | >= | 10 | 30 | % | 1小时 | |
状态码汇总5xx | http_code_5xx | 原始值 | 3 | 环比上升 | 60 | 80 | % | 1小时 | |
状态码5xx占比 | http_code_5xx_rate | 原始值 | 3 | > | 1 | 5 | % | 1小时 | |
流量命中率 | hit_flux_rate | 原始值 | 3 | < | 80 | 50 | % | 1小时 | |
状态码回源5xx占比 | bs_http_code_5xx_rate | 原始值 | 3 | > | 1 | 5 | % | 1小时 |
视频直播
命名空间 | 指标名称 | 指标ID | 指标值类型 | 连续触发次数 | 比较关系 | 重要告警阈值 | 紧急告警阈值 | 单位 | 告警频率 |
|---|---|---|---|---|---|---|---|---|---|
SYS.LIVE | 5xx状态码占比 | http_5xx_proportion | 原始值 | 1 | > | 0 | 1 | % | 1小时 |
数据仓库服务
命名空间 | 指标名称 | 指标ID | 指标值类型 | 连续触发次数 | 比较关系 | 重要告警阈值 | 紧急告警阈值 | 单位 | 告警频率 |
|---|---|---|---|---|---|---|---|---|---|
SYS.DWS | CPU使用率 | dws010_cpu_usage | 原始值 | 3 | > | 85 | 90 | % | 1天 |
内存使用率 | dws011_mem_usage | 原始值 | 3 | > | 90 | 95 | % | 1天 | |
磁盘利用率 | dws015_disk_usage | 原始值 | 3 | > | 80 | 90 | % | 1天 | |
硬盘读吞吐量 | dws018_disk_read_throughput | 原始值 | 5 | > | - | 300000000 | Byte/s | 6小时 | |
硬盘写吞吐量 | dws019_disk_write_throughput | 原始值 | 5 | > | - | 300000000 | Byte/s | 6小时 |
数据复制服务
命名空间 | 指标名称 | 指标ID | 指标值类型 | 连续触发次数 | 比较关系 | 重要告警阈值 | 紧急告警阈值 | 单位 | 告警频率 |
|---|---|---|---|---|---|---|---|---|---|
SYS.DRS | CPU使用率 | cpu_util | 原始值 | 3 | > | 80 | 90 | % | 1小时 |
内存使用率 | mem_util | 原始值 | 3 | > | 85 | 90 | % | 1小时 | |
磁盘利用率 | disk_util | 原始值 | 3 | > | 80 | 90 | % | 1小时 | |
源库WAL抽取延迟 | extract_latency | 原始值 | 3 | > | 300000 | 600000 | ms | 1小时 | |
数据同步延迟 | apply_latency | 原始值 | 3 | > | 300000 | 600000 | ms | 1小时 | |
同步状态 | apply_current_state | 原始值 | 3 | = | - | 10 | 不涉及 | 1小时 | |
任务状态 | apply_job_status | 原始值 | 3 | = | - | 1 | 不涉及 | 1小时 |
数据库安全服务
命名空间 | 指标名称 | 指标ID | 指标值类型 | 连续触发次数 | 比较关系 | 重要告警阈值 | 紧急告警阈值 | 单位 | 告警频率 |
|---|---|---|---|---|---|---|---|---|---|
SYS.DBSS | CPU使用率 | cpu_util | 原始值 | 3 | > | 80 | 85 | % | 1小时 |
内存使用率 | mem_util | 原始值 | 3 | > | 80 | 85 | % | 1小时 | |
磁盘使用率 | disk_util | 原始值 | 3 | > | 80 | 85 | % | 1小时 |
数据库代理
命名空间 | 指标名称 | 指标ID | 指标值类型 | 连续触发次数 | 比较关系 | 重要告警阈值 | 紧急告警阈值 | 单位 | 告警频率 |
|---|---|---|---|---|---|---|---|---|---|
SYS.DBPROXY | CPU使用率 | rds001_cpu_util | 原始值 | 3 | > | 80 | 90 | % | 1小时 |
内存使用率 | rds002_mem_util | 原始值 | 3 | > | 90 | 95 | % | 1小时 | |
内网出带宽使用率(%) | l4_out_bps_usage | 原始值 | 2 | > | 90 | 95 | % | 1小时 | |
内网入带宽使用率(%) | l4_in_bps_usage | 原始值 | 2 | > | 90 | 95 | % | 1小时 | |
ELB后端异常代理节点数 | m9_abnormal_servers | 原始值 | 1 | > | - | 0 | count | 1小时 |
文档数据库服务
命名空间 | 指标名称 | 指标ID | 指标值类型 | 连续触发次数 | 比较关系 | 重要告警阈值 | 紧急告警阈值 | 单位 | 告警频率 |
|---|---|---|---|---|---|---|---|---|---|
SYS.DDS | 主备延时 | mongo026_repl_lag | 原始值 | 3 | >= | 300 | 600 | 秒 | 1小时 |
CPU使用率 | mongo031_cpu_usage | 原始值 | 3 | >= | 80 | 98 | % | 1小时 | |
内存使用率 | mongo032_mem_usage | 原始值 | 3 | >= | 90 | 98 | % | 1小时 | |
磁盘利用率 | mongo035_disk_usage | 原始值 | 3 | >= | 80 | 95 | % | 1小时 | |
硬盘读耗时 | mongo039_avg_disk_sec_per_read | 原始值 | 3 | >= | 0.05 | 0.1 | 秒 | 1小时 | |
硬盘写耗时 | mongo040_avg_disk_sec_per_write | 原始值 | 3 | >= | 0.05 | 0.1 | 秒 | 1小时 | |
当前活动连接数百分比 | mongo007_connections_usage | 原始值 | 3 | >= | 80 | 95 | % | 1小时 | |
Wiredtiger使用中的缓存百分比 | mongo054_wt_cache_used_percent | 原始值 | 3 | >= | 85 | 95 | % | 1小时 | |
Wiredtiger脏数据的缓存百分比 | mongo055_wt_cache_dirty_percent | 原始值 | 3 | >= | 20 | 25 | % | 1小时 |
虚拟私有云
命名空间 | 指标名称 | 指标ID | 指标值类型 | 连续触发次数 | 比较关系 | 重要告警阈值 | 紧急告警阈值 | 单位 | 告警频率 |
|---|---|---|---|---|---|---|---|---|---|
SYS.VPC | 出网带宽使用率 | upstream_bandwidth_usage | 原始值 | 3 | > | - | 80 | % | 1小时 |
入网带宽使用率 | downstream_bandwidth_usage | 原始值 | 3 | > | - | 80 | % | 1小时 | |
出网带宽使用率 | upstream_bandwidth_usage | 原始值 | 3 | 环比波动 | 20 | - | % | 1小时 | |
入网带宽使用率 | downstream_bandwidth_usage | 原始值 | 3 | 环比波动 | 20 | - | % | 1小时 |
云防火墙
命名空间 | 指标名称 | 指标ID | 指标值类型 | 连续触发次数 | 比较关系 | 重要告警阈值 | 紧急告警阈值 | 单位 | 告警频率 |
|---|---|---|---|---|---|---|---|---|---|
SYS.CFW | 防护带宽使用率 | protection_bandwidth_usage | 原始值 | 3 | > | 85 | 95 | % | 1小时 |
互联网防护带宽使用率 | internet_protection_bandwidth_usage_rate | 原始值 | 3 | > | 85 | 95 | % | 1小时 | |
VPC间防护带宽使用率 | vpc_protection_bandwidth_usage_rate | 原始值 | 3 | > | 85 | 95 | % | 1小时 |
云连接
命名空间 | 指标名称 | 指标ID | 指标值类型 | 连续触发次数 | 比较关系 | 重要告警阈值 | 紧急告警阈值 | 单位 | 告警频率 |
|---|---|---|---|---|---|---|---|---|---|
SYS.CC | 网络带宽使用率 | network_bandwidth_usage | 原始值 | 3 | > | - | 80 | % | 1小时 |
云数据库 TaurusDB
命名空间 | 指标名称 | 指标ID | 指标值类型 | 连续触发次数 | 比较关系 | 重要告警阈值 | 紧急告警阈值 | 单位 | 告警频率 |
|---|---|---|---|---|---|---|---|---|---|
SYS.GAUSSDB | CPU使用率 | gaussdb_mysql001_cpu_util | 原始值 | 3 | > | 80 | 90 | % | 1小时 |
内存使用率 | gaussdb_mysql002_mem_util | 原始值 | 3 | > | - | 90 | % | 1小时 | |
连接数使用率 | gaussdb_mysql072_conn_usage | 原始值 | 3 | > | 80 | 90 | % | 1小时 | |
数据盘使用率 | gaussdb_mysql113_data_disk_used_ratio | 原始值 | 3 | > | 80 | 90 | % | 1小时 |
云搜索服务
命名空间 | 指标名称 | 指标ID | 指标值类型 | 连续触发次数 | 比较关系 | 重要告警阈值 | 紧急告警阈值 | 单位 | 告警频率 |
|---|---|---|---|---|---|---|---|---|---|
SYS.ES | 最大磁盘使用率 | disk_util | 原始值 | 5 | >= | 85 | 90 | % | 1小时 |
集群健康状态 | status | 原始值 | 5 | >= | 1 | 2 | 不涉及 | 1小时 | |
最大JVM堆使用率 | max_jvm_heap_usage | 原始值 | 1 | > | 80 | 85 | % | 1小时 | |
最大CPU利用率 | max_cpu_usage | 原始值 | 2 | > | 80 | 85 | % | 1小时 | |
节点数量 | nodes_count | 原始值 | 3 | 环比下降 | - | 10 | % | 1小时 | |
Write队列中总排队任务数 | sum_thread_pool_write_queue | 原始值 | 5 | >= | 500 | 1000 | 不涉及 | 1小时 | |
Search队列中总排队任务数 | sum_thread_pool_search_queue | 原始值 | 5 | >= | 500 | 800 | 不涉及 | 1小时 | |
Write队列中总的已拒绝任务数 | sum_thread_pool_write_rejected | 原始值 | 5 | >= | 10 | 20 | 不涉及 | 1小时 | |
Search队列中总的已拒绝任务数 | sum_thread_pool_search_rejected | 原始值 | 5 | >= | 10 | 20 | 不涉及 | 1小时 | |
最大Task运行时长 | task_max_running_time | 原始值 | 1 | >= | - | 60000 | ms | 1小时 |
云专线
命名空间 | 指标名称 | 指标ID | 指标值类型 | 连续触发次数 | 比较关系 | 重要告警阈值 | 紧急告警阈值 | 单位 | 告警频率 |
|---|---|---|---|---|---|---|---|---|---|
SYS.DCAAS | 端口状态 | network_status | 原始值 | 1 | != | - | 1 | 不涉及 | 5分钟 |
网络流入错误包量 | in_errors | 原始值 | 1 | > | - | 0 | 包 | 5分钟 | |
时延 | latency | 原始值 | 3 | 环比上升 | - | 20 | % | 1小时 | |
丢包率 | packet_loss_rate | 原始值 | 3 | > | 5 | 10 | % | 1小时 | |
IPV4 BGP PEER状态 | bgp_peer_status_v4 | 原始值 | 1 | != | - | 1 | 不涉及 | 1小时 | |
IPV6 BGP PEER状态 | bgp_peer_status_v6 | 原始值 | 1 | != | - | 1 | 不涉及 | 1小时 |

