文档首页/ 云监控服务 CES/ 最佳实践/ 云资源监控/ 各云服务推荐的指标及告警策略
更新时间:2025-09-28 GMT+08:00
分享

各云服务推荐的指标及告警策略

本章节为您介绍部分云服务在配置告警时,推荐使用的指标及告警策略。告警策略会根据云服务业务调整所有变化,以下内容仅供参考,请根据实际业务需求进行配置。

弹性云服务器

命名空间

指标名称

指标ID

指标值类型

连续触发次数

比较关系

重要告警阈值

紧急告警阈值

单位

告警频率

SYS.ECS

CPU使用率

cpu_util

原始值

3

>

80

90

%

1小时

(Windows)内存使用率

mem_util

原始值

3

>

80

90

%

1小时

(Windows)磁盘使用率

disk_util_inband

原始值

3

>

80

90

%

1小时

AGT.ECS

(Agent) CPU使用率

cpu_usage

原始值

3

>

80

90

%

1小时

(Agent) 内存使用率

mem_usedPercent

原始值

1

>

80

90

%

1小时

(Agent) 接收误包率

net_errin

原始值

5

>

0

-

%

5分钟

(Agent) 发送误包率

net_errout

原始值

5

>

0

-

%

5分钟

(Agent) 接收丢包率

net_dropin

原始值

5

>

0

-

%

5分钟

(Agent) 发送丢包率

net_dropout

原始值

5

>

0

-

%

5分钟

(Agent) 阻塞进程数

proc_blocked_count

原始值

5

>

0

-

count

1小时

(Agent) NTP偏移量

ntp_offset

原始值

3

>=

5000

10000

ms

1小时

(Agent) 磁盘I/O使用率

disk_ioUtils

原始值

3

>

80

90

%

1小时

(Agent) 磁盘使用率

disk_usedPercent

原始值

3

>

80

90

%

1小时

(Agent) inode已使用占比

disk_inodesUsedPercent

原始值

3

>

80

90

%

1小时

(Agent) 文件系统读写状态

disk_fs_rwstate

原始值

2

=

-

1

不涉及

1小时

(Agent) 磁盘I/O使用率

disk_ioUtils

原始值

3

>

80

90

%

1小时

(Agent) NPU健康状况

npu_device_health

原始值

1

=

2

3

不涉及

1小时

(Agent) NPU驱动健康状况

npu_driver_health

原始值

5

!=

-

0

不涉及

只告警一次

(Agent) NPU显存使用率

npu_util_rate_mem

原始值

5

>

98

-

%

只告警一次

(Agent) NPU卡AI核心使用率

npu_util_rate_ai_core

原始值

10

>

98

-

%

只告警一次

(Agent) NPU控制CPU使用率

npu_util_rate_ctrl_cpu

原始值

10

>

98

-

%

只告警一次

(Agent)NPU的AICPU平均使用率

npu_aicpu_avg_util_rate

原始值

10

>

98

-

%

只告警一次

(Agent) HBM ECC检测开关状态

npu_hbm_ecc_enable

原始值

5

=

0

-

不涉及

只告警一次

(Agent) HBM双比特错误隔离内存页数量

npu_hbm_double_bit_isolated_pages_cnt

原始值

5

>=

64

-

count

只告警一次

(Agent)NPU的HBM占用率

npu_util_rate_hbm

原始值

5

>

95

98

%

只告警一次

(Agent)NPU光模块壳温

npu_opt_temperature

原始值

5

>

<

-

80

-10

°C

只告警一次

NPU卡Vector核心使用率

npu_util_rate_vector_core

原始值

10

>

98

-

%

只告警一次

NPU Macro1 Serdes Lane0的信噪比

npu_macro1_serdes_lane0_snr

原始值

5

<

-

500000

db

只告警一次

NPU Macro1 Serdes Lane1的信噪比

npu_macro1_serdes_lane1_snr

原始值

5

<

-

500000

db

只告警一次

NPU Macro1 Serdes Lane2的信噪比

npu_macro1_serdes_lane2_snr

原始值

5

<

-

500000

db

只告警一次

NPU Macro1 Serdes Lane3的信噪比

npu_macro1_serdes_lane3_snr

原始值

5

<

-

500000

db

只告警一次

NPU Macro2 Serdes Lane0的信噪比

npu_macro2_serdes_lane0_snr

原始值

5

<

-

500000

db

只告警一次

NPU Macro2 Serdes Lane1的信噪比

npu_macro2_serdes_lane1_snr

原始值

5

<

-

500000

db

只告警一次

NPU Macro2 Serdes Lane2的信噪比

npu_macro2_serdes_lane2_snr

原始值

5

<

-

500000

db

只告警一次

NPU Macro2 Serdes Lane3的信噪比

npu_macro2_serdes_lane3_snr

原始值

5

<

-

500000

db

只告警一次

NPU Macro3 Serdes Lane0的信噪比

npu_macro3_serdes_lane0_snr

原始值

5

<

-

500000

db

只告警一次

NPU Macro3 Serdes Lane1的信噪比

npu_macro3_serdes_lane1_snr

原始值

5

<

-

500000

db

只告警一次

NPU Macro3 Serdes Lane2的信噪比

npu_macro3_serdes_lane2_snr

原始值

5

<

-

500000

db

只告警一次

NPU Macro3 Serdes Lane3的信噪比

npu_macro3_serdes_lane3_snr

原始值

5

<

-

500000

db

只告警一次

NPU Macro4 Serdes Lane0的信噪比

npu_macro4_serdes_lane0_snr

原始值

5

<

-

500000

db

只告警一次

NPU Macro4 Serdes Lane1的信噪比

npu_macro4_serdes_lane1_snr

原始值

5

<

-

500000

db

只告警一次

NPU Macro4 Serdes Lane2的信噪比

npu_macro4_serdes_lane2_snr

原始值

5

<

-

500000

db

只告警一次

NPU Macro4 Serdes Lane3的信噪比

npu_macro4_serdes_lane3_snr

原始值

5

<

-

500000

db

只告警一次

NPU Macro5 Serdes Lane0的信噪比

npu_macro5_serdes_lane0_snr

原始值

5

<

-

500000

db

只告警一次

NPU Macro5 Serdes Lane1的信噪比

npu_macro5_serdes_lane1_snr

原始值

5

<

-

500000

db

只告警一次

NPU Macro5 Serdes Lane2的信噪比

npu_macro5_serdes_lane2_snr

原始值

5

<

-

500000

db

只告警一次

NPU Macro5 Serdes Lane3的信噪比

npu_macro5_serdes_lane3_snr

原始值

5

<

-

500000

db

只告警一次

NPU Macro6 Serdes Lane0的信噪比

npu_macro6_serdes_lane0_snr

原始值

5

<

-

500000

db

只告警一次

NPU Macro6 Serdes Lane1的信噪比

npu_macro6_serdes_lane1_snr

原始值

5

<

-

500000

db

只告警一次

NPU Macro6 Serdes Lane2的信噪比

npu_macro6_serdes_lane2_snr

原始值

5

<

-

500000

db

只告警一次

NPU Macro6 Serdes Lane3的信噪比

npu_macro6_serdes_lane3_snr

原始值

5

<

-

500000

db

只告警一次

NPU Macro7 Serdes Lane0的信噪比

npu_macro7_serdes_lane0_snr

原始值

5

<

-

500000

db

只告警一次

NPU Macro7 Serdes Lane1的信噪比

npu_macro7_serdes_lane1_snr

原始值

5

<

-

500000

db

只告警一次

NPU Macro7 Serdes Lane2的信噪比

npu_macro7_serdes_lane2_snr

原始值

5

<

-

500000

db

只告警一次

NPU Macro7 Serdes Lane3的信噪比

npu_macro7_serdes_lane3_snr

原始值

5

<

-

500000

db

只告警一次

NPU Macro1重传报文数

npu_macro1_retry_cnt

原始值

5

>

0

-

count

只告警一次

NPU Macro2重传报文数

npu_macro2_retry_cnt

原始值

5

>

0

-

count

只告警一次

NPU Macro3重传报文数

npu_macro3_retry_cnt

原始值

5

>

0

-

count

只告警一次

NPU Macro4重传报文数

npu_macro4_retry_cnt

原始值

5

>

0

-

count

只告警一次

NPU Macro5重传报文数

npu_macro5_retry_cnt

原始值

5

>

0

-

count

只告警一次

NPU Macro6重传报文数

npu_macro6_retry_cnt

原始值

5

>

0

-

count

只告警一次

NPU Macro7重传报文数

npu_macro7_retry_cnt

原始值

5

>

0

-

count

只告警一次

NPU Macro1接收错误报文数

npu_macro1_crc_error_cnt

原始值

5

>

0

-

count

只告警一次

NPU Macro2接收错误报文数

npu_macro2_crc_error_cnt

原始值

5

>

0

-

count

只告警一次

NPU Macro3接收错误报文数

npu_macro3_crc_error_cnt

原始值

5

>

0

-

count

只告警一次

NPU Macro4接收错误报文数

npu_macro4_crc_error_cnt

原始值

5

>

0

-

count

只告警一次

NPU Macro5接收错误报文数

npu_macro5_crc_error_cnt

原始值

5

>

0

-

count

只告警一次

NPU Macro6接收错误报文数

npu_macro6_crc_error_cnt

原始值

5

>

0

-

count

只告警一次

NPU Macro7接收错误报文数

npu_macro7_crc_error_cnt

原始值

5

>

0

-

count

只告警一次

NPU Macro1接收误码率

npu_macro1_crc_error_rate

原始值

5

>

0

-

count

只告警一次

NPU Macro2接收误码率

npu_macro2_crc_error_rate

原始值

5

>

0

-

%

只告警一次

NPU Macro3接收误码率

npu_macro3_crc_error_rate

原始值

5

>

0

-

%

只告警一次

NPU Macro4接收误码率

npu_macro4_crc_error_rate

原始值

5

>

0

-

%

只告警一次

NPU Macro5接收误码率

npu_macro5_crc_error_rate

原始值

5

>

0

-

%

只告警一次

NPU Macro6接收误码率

npu_macro6_crc_error_rate

原始值

5

>

0

-

%

只告警一次

NPU Macro7接收误码率

npu_macro7_crc_error_rate

原始值

5

>

0

-

%

只告警一次

NPU Macro1 0lane模式最大持续时长

npu_macro1_0lane_max_consec_sec

原始值

1

>

-

5

s

只告警一次

NPU Macro2 0lane模式最大持续时长

npu_macro2_0lane_max_consec_sec

原始值

1

>

-

5

s

只告警一次

NPU Macro3 0lane模式最大持续时长

npu_macro3_0lane_max_consec_sec

原始值

1

>

-

5

s

只告警一次

NPU Macro4 0lane模式最大持续时长

npu_macro4_0lane_max_consec_sec

原始值

1

>

-

5

s

只告警一次

NPU Macro5 0lane模式最大持续时长

npu_macro5_0lane_max_consec_sec

原始值

1

>

-

5

s

只告警一次

NPU Macro6 0lane模式最大持续时长

npu_macro6_0lane_max_consec_sec

原始值

1

>

-

5

s

只告警一次

NPU Macro7 0lane模式最大持续时长

npu_macro7_0lane_max_consec_sec

原始值

1

>

-

5

s

只告警一次

NPU Macro1 0lane模式持续总时长

npu_macro1_0lane_total_sec

原始值

1

>

-

20

s

只告警一次

NPU Macro2 0lane模式持续总时长

npu_macro2_0lane_total_sec

原始值

1

>

-

20

s

只告警一次

NPU Macro3 0lane模式持续总时长

npu_macro3_0lane_total_sec

原始值

1

>

-

20

s

只告警一次

NPU Macro4 0lane模式持续总时长

npu_macro4_0lane_total_sec

原始值

1

>

-

20

s

只告警一次

NPU Macro5 0lane模式持续总时长

npu_macro5_0lane_total_sec

原始值

1

>

-

20

s

只告警一次

NPU Macro6 0lane模式持续总时长

npu_macro6_0lane_total_sec

原始值

1

>

-

20

s

只告警一次

NPU Macro7 0lane模式持续总时长

npu_macro7_0lane_total_sec

原始值

1

>

-

20

s

只告警一次

NPU RoCE的重传报文数

npu_roce_new_pkt_rty_num

原始值

5

环比上升

1

-

%

只告警一次

NPU RoCE接收的PSN异常报文数

npu_roce_out_of_order_num

原始值

5

环比上升

1

-

%

只告警一次

API网关专享版

命名空间

指标名称

指标ID

指标值类型

连续触发次数

比较关系

重要告警阈值

紧急告警阈值

单位

告警频率

SYS.APIC

5xx异常次数

req_count_5xx

原始值

1

环比上升

20

30

%

1小时

平均延迟毫秒数

avg_latency

原始值

3

>=

3000

5000

ms

1小时

网关节点系统负载

node_system_load

原始值

3

=

2

3

count

1小时

网关节点cpu使用率

node_cpu_usage

原始值

3

>

30

60

%

1小时

网关节点内存使用率

node_memory_usage

原始值

3

>

30

60

%

1小时

5xx 异常次数

error_5xx

原始值

1

环比上升

20

30

%

1小时

被流控的调用次数

throttled_calls

原始值

1

环比上升

50

70

%

1小时

平均延迟毫秒数

avg_latency

原始值

3

>=

3000

5000

ms

1小时

NAT网关

命名空间

指标名称

指标ID

指标值类型

连续触发次数

比较关系

重要告警阈值

紧急告警阈值

单位

告警频率

SYS.NAT

入方向PPS

inbound_pps

原始值

3

>

环比波动20%

>800000

1小时

出方向PPS

outbound_pps

原始值

3

>

环比波动20%

>800000

1小时

SNAT连接数使用率

snat_connection_ratio

原始值

3

>

-

80

%

1小时

丢包数(SNAT连接数超限)

packets_drop_count_snat_connection_beyond

原始值

3

>

-

0

1小时

丢包数(PPS超限)

packets_drop_count_pps_beyond

原始值

3

>

-

0

1小时

丢包数(EIP端口分配超限)

packets_drop_count_eip_port_alloc_beyond

原始值

3

>

-

0

1小时

丢包数(SNAT连接数超限)

packets_drop_count_snat_connection_beyond

原始值

3

>

-

0

1小时

丢包数(PPS超限)

packets_drop_count_pps_beyond

原始值

3

>

-

0

1小时

丢包数(EIP端口分配超限)

packets_drop_count_eip_port_alloc_beyond

原始值

3

>

-

0

1小时

总PPS使用率

total_pps_ratio

原始值

3

>

-

80

%

1小时

SNAT连接数使用率

snat_connection_ratio

原始值

3

>

-

80

%

1小时

Web应用防火墙

命名空间

指标名称

指标ID

指标值类型

连续触发次数

比较关系

重要告警阈值

紧急告警阈值

单位

告警频率

SYS.WAF

CPU使用率

cpu_util

原始值

3

>

80

90

%

1小时

内存使用率

mem_util

原始值

3

>

80

90

%

1小时

磁盘使用率

disk_util

原始值

3

>

80

-

%

1小时

活跃连接数

active_connections

原始值

3

>

40000

-

count

1小时

WAF返回码(5XX)

waf_http_5xx

原始值

1

环比上升

10

15

%

1小时

业务返回码(5XX)

upstream_code_5xx

原始值

3

>

15

20

1小时

弹性负载均衡

命名空间

指标名称

指标ID

指标值类型

连续触发次数

比较关系

重要告警阈值

紧急告警阈值

单位

告警频率

SYS.ELB

并发连接数

m1_cps

原始值

3

>

40000

45000

1小时

新建连接数

m4_ncps

原始值

3

>

4000

4500

个/秒

1小时

异常主机数

m9_abnormal_servers

原始值

3

>

-

0

1小时

丢弃连接数

dropped_connections

原始值

3

>

-

0

个/秒

1小时

丢弃数据包

dropped_packets

原始值

3

>

-

0

个/秒

1小时

丢弃网络带宽

dropped_traffic

原始值

3

>

-

0

bit/s

1小时

4层新建连接数使用率

l4_ncps_usage

原始值

3

>

80

90

%

1小时

4层并发连接使用率

l4_con_usage

原始值

3

>

80

90

%

1小时

4层入带宽使用率

l4_in_bps_usage

原始值

3

>

80

90

%

1小时

4层出带宽使用率

l4_out_bps_usage

原始值

3

>

80

90

%

1小时

7层新建连接数使用率

l7_ncps_usage

原始值

3

>

80

90

%

1小时

7层并发连接使用率

l7_con_usage

原始值

3

>

80

90

%

1小时

7层入带宽使用率

l7_in_bps_usage

原始值

3

>

80

90

%

1小时

7层出带宽使用率

l7_out_bps_usage

原始值

3

>

80

90

%

1小时

7层查询速率使用率

l7_qps_usage

原始值

3

>

80

90

%

1小时

并发连接数

m1_cps

原始值

1

环比下降

-

80

%

1小时

新建连接数

m4_ncps

原始值

1

环比下降

-

80

%

1小时

7层协议响应状态码(5XX)

mf_l7_http_5xx

原始值

1

环比上升

-

50

%

1小时

7层协议RT平均值

m14_l7_rt

原始值

1

环比上升

-

50

%

1小时

负载均衡响应状态码(5XX)

elb_http_5xx

原始值

1

环比上升

-

50

%

1小时

七层5XX请求占比

l7_5xx_ratio

原始值

3

>=

-

5

%

1小时

七层2XX请求占比

l7_2xx_ratio

原始值

3

<=

-

95

%

1小时

异常主机数

m9_abnormal_servers

原始值

3

>

-

0

1小时

弹性文件服务

命名空间

指标名称

指标ID

指标值类型

连续触发次数

比较关系

重要告警阈值

紧急告警阈值

单位

告警频率

SYS.SFS

文件系统读带宽

read_bytes_intranet

原始值

1

环比下降

100

-

%

3小时

文件系统写带宽

write_bytes_intranet

原始值

1

环比下降

100

-

%

3小时

文件系统读TPS

read_tps

原始值

1

环比下降

100

-

%

3小时

文件系统写TPS

write_tps

原始值

1

环比下降

100

-

%

3小时

弹性文件服务Turbo

命名空间

指标名称

指标ID

指标值类型

连续触发次数

比较关系

重要告警阈值

紧急告警阈值

单位

告警频率

SYS.EFS

容量使用率

used_capacity_percent

原始值

5

>

90

95

%

1小时

inode使用率

used_inode_percent

原始值

5

>

90

95

%

1小时

对象存储服务

命名空间

指标名称

指标ID

指标值类型

连续触发次数

比较关系

重要告警阈值

紧急告警阈值

单位

告警频率

SYS.OBS

请求成功率

request_success_rate

原始值

2

<

-

99.97

%

1小时

请求成功率

request_success_rate

原始值

2

<

-

99.97

%

1小时

分布式缓存服务

命名空间

指标名称

指标ID

指标值类型

连续触发次数

比较关系

重要告警阈值

紧急告警阈值

单位

告警频率

SYS.DCS

内存利用率

memory_usage

原始值

2

>

70

80

%

1小时

CPU利用率

cpu_usage

原始值

2

-

>70%

>80%

或者

环比下降 100%

%

1小时

实例节点状态

node_status

原始值

2

=

-

1

不涉及

1小时

CPU平均使用率

cpu_avg_usage

原始值

2

>

70

80

%

1小时

实例节点状态

node_status

原始值

2

=

-

1

不涉及

1小时

CPU利用率

cpu_usage

原始值

2

>

70

80

%

1小时

内存利用率

memory_usage

原始值

2

>

70

80

%

1小时

最大时延

command_max_rt

原始值

2

>

-

900000

μs

1小时

平均时延

command_avg_rt

原始值

2

>

-

150000

μs

1小时

连接数使用率

connections_usage

原始值

2

>

70

80

%

1小时

CPU利用率

cpu_usage

原始值

2

>

70

80

%

1小时

内存利用率

memory_usage

原始值

2

>

70

80

%

1小时

CPU利用率

cpu_usage

原始值

2

>

70

>80%

或者

环比下降 100%

%

1小时

实例节点状态

node_status

原始值

2

=

-

1

不涉及

1小时

内存利用率

memory_usage

原始值

2

>

70

80

%

1小时

CPU利用率

cpu_usage

原始值

2

>

70

80

%

1小时

是否存在慢日志

mc_is_slow_log_exist

原始值

1

>

-

0

不涉及

1小时

分布式数据库中间件

命名空间

指标名称

指标ID

指标值类型

连续触发次数

比较关系

重要告警阈值

紧急告警阈值

单位

告警频率

SYS.DDMS

CPU使用率

ddm_cpu_util

原始值

3

>

80

90

%

1小时

内存使用率

ddm_mem_util

原始值

3

>

85

90

%

1小时

慢SQL数

ddm_slow_log

原始值

3

>

50

100

条数

1天

连接数使用率

ddm_connection_util

原始值

2

>=

80

85

%

1小时

DDM节点连通性异常检测

ddm_node_status_alarm_code

原始值

1

=

-

1

不涉及

1小时

分布式消息服务

命名空间

指标名称

指标ID

指标值类型

连续触发次数

比较关系

重要告警阈值

紧急告警阈值

单位

告警频率

SYS.DMS

消费者数

consumers

原始值

2

>

3600

-

1小时

可消费消息数

messages_ready

原始值

1

>

10000

-

1小时

未确认消息数

messages_unacknowledged

原始值

1

>

10000

-

1小时

实例磁盘容量使用率

instance_disk_usage

原始值

3

>

80

90

%

1小时

磁盘容量使用率

broker_disk_usage

原始值

3

>

80

90

%

1小时

内存使用率

broker_memory_usage

原始值

3

>

80

90

%

1小时

节点存活状态

broker_alive

原始值

1

=

-

0

不涉及

1小时

连接数

broker_connections

原始值

3

>

-

2000

1小时

CPU使用率

broker_cpu_usage

原始值

3

-

>80%

>90%

或者

环比下降100%

%

1小时

磁盘平均读操作耗时

broker_disk_read_await

原始值

3

>

-

5000

ms

1小时

磁盘平均写操作耗时

broker_disk_write_await

原始值

3

>

-

5000

ms

1小时

节点生产请求P99处理时长

broker_produce_p99

原始值

3

>

50

-

ms

1小时

节点生产请求P99.9处理时长

broker_produce_p999

原始值

3

>

50

-

ms

1小时

生产成功率

broker_produce_success_rate

原始值

1

<

-

90

%

1小时

死信主题消息量

dlq_accumulation

原始值

3

>

0

-

1小时

死信消息增长量

dlq_increase

原始值

3

>

0

-

Count

1小时

队列可消费消息数

topic_messages_remained

原始值

1

>

10000

-

1小时

消息堆积数(消费组可消费消息数)

consumer_messages_remained

原始值

1

>

10000

-

1小时

Socket连接数

socket_used

原始值

3

>

2500

-

1小时

节点存活状态

rabbitmq_alive

原始值

1

=

-

0

不涉及

1小时

磁盘容量使用率

rabbitmq_disk_usage

原始值

3

>

80

85

%

1小时

CPU使用率

rabbitmq_cpu_usage

原始值

3

-

>80

>90%

或者

环比下降 100%

%

1小时

内存使用率

rabbitmq_memory_usage

原始值

3

>

-

30

%

1小时

内存高水位状态

rabbitmq_memory_high_watermark

原始值

1

>

-

0

不涉及

1小时

磁盘高水位状态

rabbitmq_disk_insufficient

原始值

1

>

-

0

不涉及

1小时

连接数使用率

connections_usage

原始值

1

>

-

80

%

1小时

消息堆积数

instance_accumulation

原始值

1

>

10000

环比上升50%

1小时

实例磁盘容量使用率

instance_disk_usage

原始值

3

>

80

90

%

1小时

生产被流控次数

instance_produce_ratelimit_times

原始值

1

>=

-

1

Count

1小时

消息堆积数(消费组可消费消息数)

group_accumulation

原始值

1

>

10000

-

1小时

任务状态

task_status

原始值

1

=

0

-

不涉及

1小时

消息时延

message_delay

原始值

3

>

1000

-

ms

1小时

分区数

current_partitions

原始值

3

>

90

-

1小时

消息堆积数

group_msgs

原始值

1

>

10000

-

1小时

队列可消费消息数

queue_messages_ready

原始值

1

>

10000

-

1小时

生产请求平均处理时长

broker_produce_mean

原始值

3

>

-

50

毫秒

1小时

磁盘容量使用率

broker_disk_usage

原始值

3

>

80

90

%

1小时

内存使用率

broker_memory_usage

原始值

3

>

80

90

%

1小时

JVM堆内存使用率

broker_heap_usage

原始值

3

>

80

90

%

1小时

节点存活状态

broker_alive

原始值

1

=

-

0

不涉及

1小时

连接数

broker_connections

原始值

1

>

-

4000

1小时

CPU使用率

broker_cpu_usage

原始值

3

>

80

90

%

1小时

磁盘平均读操作耗时

broker_disk_read_await

原始值

3

>

-

5000

ms

1小时

磁盘平均写操作耗时

broker_disk_write_await

原始值

3

>

-

5000

ms

1小时

网络带宽利用率

network_bandwidth_usage

原始值

3

>

70

80

%

1小时

关系型数据库

命名空间

指标名称

指标ID

指标值类型

连续触发次数

比较关系

重要告警阈值

紧急告警阈值

单位

告警频率

SYS.RDS

CPU使用率

rds001_cpu_util

原始值

3

>=

80

95

%

1小时

内存使用率

rds002_mem_util

原始值

3

>=

90

95

%

1小时

磁盘利用率

rds039_disk_util

原始值

3

>=

80

95

%

1小时

CPU使用率

rds001_cpu_util

原始值

3

>=

80

90

%

1小时

内存使用率

rds002_mem_util

原始值

3

>=

90

95

%

1小时

磁盘利用率

rds039_disk_util

原始值

3

>=

80

95

%

1小时

连接数使用率

rds072_conn_usage

原始值

3

>=

80

90

%

1小时

实时复制时延

rds073_replication_delay

原始值

3

>=

300

600

1小时

活跃连接数使用率

rds_conn_active_usage

原始值

3

>=

80

95

%

1小时

CPU使用率

rds001_cpu_util

原始值

3

>=

80

90

%

1小时

内存使用率

rds002_mem_util

原始值

3

>=

90

95

%

1小时

备机(只读)流复制状态

slave_replication_status

原始值

3

=

-

0

Count

1小时

磁盘利用率

rds039_disk_util

原始值

3

>=

80

95

%

1小时

复制时延

rds046_replication_lag

原始值

3

>=

300000

600000

毫秒

1小时

连接数使用率

rds083_conn_usage

原始值

3

>=

80

90

比率

1小时

CPU使用率

rds001_cpu_util

原始值

3

>=

80

90

%

1小时

内存使用率

rds002_mem_util

原始值

3

>=

90

95

%

1小时

磁盘利用率

rds039_disk_util

原始值

3

>=

80

95

%

1小时

连接数使用率

rds072_conn_usage

原始值

3

>=

80

90

%

1小时

实时复制时延

rds073_replication_delay

原始值

3

>=

300

600

1小时

活跃连接数使用率

rds_conn_active_usage

原始值

3

>=

80

95

%

1小时

关系型数据库集群版

命名空间

指标名称

指标ID

指标值类型

连续触发次数

比较关系

重要告警阈值

紧急告警阈值

单位

告警频率

SYS.RDS_MYSQL_CLUSTER

活跃连接数使用率

rds_conn_active_usage

原始值

3

>=

80

95

%

1小时

CPU使用率

rds001_cpu_util

原始值

3

>=

80

90

%

1小时

内存使用率

rds002_mem_util

原始值

3

>=

90

95

%

1小时

磁盘利用率

rds039_disk_util

原始值

3

>=

80

95

%

1小时

连接数使用率

rds072_conn_usage

原始值

3

>=

80

90

%

1小时

实时复制时延

rds073_replication_delay

原始值

3

>=

300

600

1小时

内容分发网络

命名空间

指标名称

指标ID

指标值类型

连续触发次数

比较关系

重要告警阈值

紧急告警阈值

单位

告警频率

SYS.CDN

带宽

bw

原始值

3

环比波动

10

20

%

1小时

回源失败率

bs_fail_rate

原始值

3

>

3

10

%

1小时

状态码汇总4xx

http_code_4xx

原始值

3

环比上升

60

80

%

1小时

状态码4xx占比

http_code_4xx_rate

原始值

3

>=

10

30

%

1小时

状态码汇总5xx

http_code_5xx

原始值

3

环比上升

60

80

%

1小时

状态码5xx占比

http_code_5xx_rate

原始值

3

>

1

5

%

1小时

流量命中率

hit_flux_rate

原始值

3

<

80

50

%

1小时

状态码回源5xx占比

bs_http_code_5xx_rate

原始值

3

>

1

5

%

1小时

视频直播

命名空间

指标名称

指标ID

指标值类型

连续触发次数

比较关系

重要告警阈值

紧急告警阈值

单位

告警频率

SYS.LIVE

5xx状态码占比

http_5xx_proportion

原始值

1

>

0

1

%

1小时

5xx状态码占比

http_code_5xx_proportion

原始值

1

>

0

1

%

1小时

数据仓库服务

命名空间

指标名称

指标ID

指标值类型

连续触发次数

比较关系

重要告警阈值

紧急告警阈值

单位

告警频率

SYS.DWS

CPU使用率

dws010_cpu_usage

原始值

3

>

85

90

%

1天

内存使用率

dws011_mem_usage

原始值

3

>

90

95

%

1天

磁盘利用率

dws015_disk_usage

原始值

3

>

80

90

%

1天

硬盘读吞吐量

dws018_disk_read_throughput

原始值

5

>

-

300000000

Byte/s

6小时

硬盘写吞吐量

dws019_disk_write_throughput

原始值

5

>

-

300000000

Byte/s

6小时

数据复制服务

命名空间

指标名称

指标ID

指标值类型

连续触发次数

比较关系

重要告警阈值

紧急告警阈值

单位

告警频率

SYS.DRS

CPU使用率

cpu_util

原始值

3

>

80

90

%

1小时

内存使用率

mem_util

原始值

3

>

85

90

%

1小时

磁盘利用率

disk_util

原始值

3

>

80

90

%

1小时

源库WAL抽取延迟

extract_latency

原始值

3

>

300000

600000

ms

1小时

数据同步延迟

apply_latency

原始值

3

>

300000

600000

ms

1小时

同步状态

apply_current_state

原始值

3

=

-

10

不涉及

1小时

任务状态

apply_job_status

原始值

3

=

-

1

不涉及

1小时

数据库安全服务

命名空间

指标名称

指标ID

指标值类型

连续触发次数

比较关系

重要告警阈值

紧急告警阈值

单位

告警频率

SYS.DBSS

CPU使用率

cpu_util

原始值

3

>

80

85

%

1小时

内存使用率

mem_util

原始值

3

>

80

85

%

1小时

磁盘使用率

disk_util

原始值

3

>

80

85

%

1小时

数据库代理

命名空间

指标名称

指标ID

指标值类型

连续触发次数

比较关系

重要告警阈值

紧急告警阈值

单位

告警频率

SYS.DBPROXY

CPU使用率

rds001_cpu_util

原始值

3

>

80

90

%

1小时

内存使用率

rds002_mem_util

原始值

3

>

90

95

%

1小时

内网出带宽使用率(%)

l4_out_bps_usage

原始值

2

>

90

95

%

1小时

内网入带宽使用率(%)

l4_in_bps_usage

原始值

2

>

90

95

%

1小时

ELB后端异常代理节点数

m9_abnormal_servers

原始值

1

>

-

0

count

1小时

文档数据库服务

命名空间

指标名称

指标ID

指标值类型

连续触发次数

比较关系

重要告警阈值

紧急告警阈值

单位

告警频率

SYS.DDS

主备延时

mongo026_repl_lag

原始值

3

>=

300

600

1小时

CPU使用率

mongo031_cpu_usage

原始值

3

>=

80

98

%

1小时

内存使用率

mongo032_mem_usage

原始值

3

>=

90

98

%

1小时

磁盘利用率

mongo035_disk_usage

原始值

3

>=

80

95

%

1小时

硬盘读耗时

mongo039_avg_disk_sec_per_read

原始值

3

>=

0.05

0.1

1小时

硬盘写耗时

mongo040_avg_disk_sec_per_write

原始值

3

>=

0.05

0.1

1小时

当前活动连接数百分比

mongo007_connections_usage

原始值

3

>=

80

95

%

1小时

Wiredtiger使用中的缓存百分比

mongo054_wt_cache_used_percent

原始值

3

>=

85

95

%

1小时

Wiredtiger脏数据的缓存百分比

mongo055_wt_cache_dirty_percent

原始值

3

>=

20

25

%

1小时

虚拟私有云

命名空间

指标名称

指标ID

指标值类型

连续触发次数

比较关系

重要告警阈值

紧急告警阈值

单位

告警频率

SYS.VPC

出网带宽使用率

upstream_bandwidth_usage

原始值

3

>

环比波动20%

80

%

1小时

入网带宽使用率

downstream_bandwidth_usage

原始值

3

>

环比波动20%

80

%

1小时

出网带宽使用率

upstream_bandwidth_usage

原始值

3

>

环比波动20%

80

%

1小时

入网带宽使用率

downstream_bandwidth_usage

原始值

3

>

环比波动20%

80

%

1小时

云防火墙

命名空间

指标名称

指标ID

指标值类型

连续触发次数

比较关系

重要告警阈值

紧急告警阈值

单位

告警频率

SYS.CFW

防护带宽使用率

protection_bandwidth_usage

原始值

3

>

85

95

%

1小时

互联网防护带宽使用率

internet_protection_bandwidth_usage_rate

原始值

3

>

85

95

%

1小时

VPC间防护带宽使用率

vpc_protection_bandwidth_usage_rate

原始值

3

>

85

95

%

1小时

云连接

命名空间

指标名称

指标ID

指标值类型

连续触发次数

比较关系

重要告警阈值

紧急告警阈值

单位

告警频率

SYS.CC

网络带宽使用率

network_bandwidth_usage

原始值

3

>

-

80

%

1小时

云数据库 TaurusDB

命名空间

指标名称

指标ID

指标值类型

连续触发次数

比较关系

重要告警阈值

紧急告警阈值

单位

告警频率

SYS.GAUSSDB

CPU使用率

gaussdb_mysql001_cpu_util

原始值

3

>

80

90

%

1小时

内存使用率

gaussdb_mysql002_mem_util

原始值

3

>

-

90

%

1小时

连接数使用率

gaussdb_mysql072_conn_usage

原始值

3

>

80

90

%

1小时

数据盘使用率

gaussdb_mysql113_data_disk_used_ratio

原始值

3

>

80

90

%

1小时

云搜索服务

命名空间

指标名称

指标ID

指标值类型

连续触发次数

比较关系

重要告警阈值

紧急告警阈值

单位

告警频率

SYS.ES

最大磁盘使用率

disk_util

原始值

5

>=

85

90

%

1小时

集群健康状态

status

原始值

5

>=

1

2

不涉及

1小时

最大JVM堆使用率

max_jvm_heap_usage

原始值

1

>

80

85

%

1小时

最大CPU利用率

max_cpu_usage

原始值

2

>

80

85

%

1小时

节点数量

nodes_count

原始值

3

环比下降

-

10

%

1小时

Write队列中总排队任务数

sum_thread_pool_write_queue

原始值

5

>=

500

1000

不涉及

1小时

Search队列中总排队任务数

sum_thread_pool_search_queue

原始值

5

>=

500

800

不涉及

1小时

Write队列中总的已拒绝任务数

sum_thread_pool_write_rejected

原始值

5

>=

10

20

不涉及

1小时

Search队列中总的已拒绝任务数

sum_thread_pool_search_rejected

原始值

5

>=

10

20

不涉及

1小时

最大Task运行时长

task_max_running_time

原始值

1

>=

-

60000

ms

1小时

云专线

命名空间

指标名称

指标ID

指标值类型

连续触发次数

比较关系

重要告警阈值

紧急告警阈值

单位

告警频率

SYS.DCAAS

端口状态

network_status

原始值

1

!=

-

1

不涉及

5分钟

网络流入错误包量

in_errors

原始值

1

>

-

0

5分钟

端口状态

network_status

原始值

1

!=

-

1

不涉及

5分钟

时延

latency

原始值

3

环比上升

-

20

%

1小时

丢包率

packet_loss_rate

原始值

3

>

5

10

%

1小时

时延

latency

原始值

3

环比上升

-

20

%

1小时

丢包率

packet_loss_rate

原始值

3

>

5

10

%

1小时

IPV4 BGP PEER状态

bgp_peer_status_v4

原始值

1

!=

-

1

不涉及

1小时

IPV6 BGP PEER状态

bgp_peer_status_v6

原始值

1

!=

-

1

不涉及

1小时

相关文档