各云服务推荐的指标及告警策略
本章节为您介绍部分云服务在配置告警时,推荐使用的指标及告警策略。告警策略会根据云服务业务调整所有变化,以下内容仅供参考,请根据实际业务需求进行配置。
弹性云服务器
命名空间 |
指标名称 |
指标ID |
指标值类型 |
连续触发次数 |
比较关系 |
重要告警阈值 |
紧急告警阈值 |
单位 |
告警频率 |
---|---|---|---|---|---|---|---|---|---|
SYS.ECS |
CPU使用率 |
cpu_util |
原始值 |
3 |
> |
80 |
90 |
% |
1小时 |
(Windows)内存使用率 |
mem_util |
原始值 |
3 |
> |
80 |
90 |
% |
1小时 |
|
(Windows)磁盘使用率 |
disk_util_inband |
原始值 |
3 |
> |
80 |
90 |
% |
1小时 |
|
AGT.ECS |
(Agent) CPU使用率 |
cpu_usage |
原始值 |
3 |
> |
80 |
90 |
% |
1小时 |
(Agent) 内存使用率 |
mem_usedPercent |
原始值 |
1 |
> |
80 |
90 |
% |
1小时 |
|
(Agent) 接收误包率 |
net_errin |
原始值 |
5 |
> |
0 |
- |
% |
5分钟 |
|
(Agent) 发送误包率 |
net_errout |
原始值 |
5 |
> |
0 |
- |
% |
5分钟 |
|
(Agent) 接收丢包率 |
net_dropin |
原始值 |
5 |
> |
0 |
- |
% |
5分钟 |
|
(Agent) 发送丢包率 |
net_dropout |
原始值 |
5 |
> |
0 |
- |
% |
5分钟 |
|
(Agent) 阻塞进程数 |
proc_blocked_count |
原始值 |
5 |
> |
0 |
- |
count |
1小时 |
|
(Agent) NTP偏移量 |
ntp_offset |
原始值 |
3 |
>= |
5000 |
10000 |
ms |
1小时 |
|
(Agent) 磁盘I/O使用率 |
disk_ioUtils |
原始值 |
3 |
> |
80 |
90 |
% |
1小时 |
|
(Agent) 磁盘使用率 |
disk_usedPercent |
原始值 |
3 |
> |
80 |
90 |
% |
1小时 |
|
(Agent) inode已使用占比 |
disk_inodesUsedPercent |
原始值 |
3 |
> |
80 |
90 |
% |
1小时 |
|
(Agent) 文件系统读写状态 |
disk_fs_rwstate |
原始值 |
2 |
= |
- |
1 |
不涉及 |
1小时 |
|
(Agent) 磁盘I/O使用率 |
disk_ioUtils |
原始值 |
3 |
> |
80 |
90 |
% |
1小时 |
|
(Agent) NPU健康状况 |
npu_device_health |
原始值 |
1 |
= |
2 |
3 |
不涉及 |
1小时 |
|
(Agent) NPU驱动健康状况 |
npu_driver_health |
原始值 |
5 |
!= |
- |
0 |
不涉及 |
只告警一次 |
|
(Agent) NPU显存使用率 |
npu_util_rate_mem |
原始值 |
5 |
> |
98 |
- |
% |
只告警一次 |
|
(Agent) NPU卡AI核心使用率 |
npu_util_rate_ai_core |
原始值 |
10 |
> |
98 |
- |
% |
只告警一次 |
|
(Agent) NPU控制CPU使用率 |
npu_util_rate_ctrl_cpu |
原始值 |
10 |
> |
98 |
- |
% |
只告警一次 |
|
(Agent)NPU的AICPU平均使用率 |
npu_aicpu_avg_util_rate |
原始值 |
10 |
> |
98 |
- |
% |
只告警一次 |
|
(Agent) HBM ECC检测开关状态 |
npu_hbm_ecc_enable |
原始值 |
5 |
= |
0 |
- |
不涉及 |
只告警一次 |
|
(Agent) HBM双比特错误隔离内存页数量 |
npu_hbm_double_bit_isolated_pages_cnt |
原始值 |
5 |
>= |
64 |
- |
count |
只告警一次 |
|
(Agent)NPU的HBM占用率 |
npu_util_rate_hbm |
原始值 |
5 |
> |
95 |
98 |
% |
只告警一次 |
|
(Agent)NPU光模块壳温 |
npu_opt_temperature |
原始值 |
5 |
> < |
- |
80 -10 |
°C |
只告警一次 |
|
NPU卡Vector核心使用率 |
npu_util_rate_vector_core |
原始值 |
10 |
> |
98 |
- |
% |
只告警一次 |
|
NPU Macro1 Serdes Lane0的信噪比 |
npu_macro1_serdes_lane0_snr |
原始值 |
5 |
< |
- |
500000 |
db |
只告警一次 |
|
NPU Macro1 Serdes Lane1的信噪比 |
npu_macro1_serdes_lane1_snr |
原始值 |
5 |
< |
- |
500000 |
db |
只告警一次 |
|
NPU Macro1 Serdes Lane2的信噪比 |
npu_macro1_serdes_lane2_snr |
原始值 |
5 |
< |
- |
500000 |
db |
只告警一次 |
|
NPU Macro1 Serdes Lane3的信噪比 |
npu_macro1_serdes_lane3_snr |
原始值 |
5 |
< |
- |
500000 |
db |
只告警一次 |
|
NPU Macro2 Serdes Lane0的信噪比 |
npu_macro2_serdes_lane0_snr |
原始值 |
5 |
< |
- |
500000 |
db |
只告警一次 |
|
NPU Macro2 Serdes Lane1的信噪比 |
npu_macro2_serdes_lane1_snr |
原始值 |
5 |
< |
- |
500000 |
db |
只告警一次 |
|
NPU Macro2 Serdes Lane2的信噪比 |
npu_macro2_serdes_lane2_snr |
原始值 |
5 |
< |
- |
500000 |
db |
只告警一次 |
|
NPU Macro2 Serdes Lane3的信噪比 |
npu_macro2_serdes_lane3_snr |
原始值 |
5 |
< |
- |
500000 |
db |
只告警一次 |
|
NPU Macro3 Serdes Lane0的信噪比 |
npu_macro3_serdes_lane0_snr |
原始值 |
5 |
< |
- |
500000 |
db |
只告警一次 |
|
NPU Macro3 Serdes Lane1的信噪比 |
npu_macro3_serdes_lane1_snr |
原始值 |
5 |
< |
- |
500000 |
db |
只告警一次 |
|
NPU Macro3 Serdes Lane2的信噪比 |
npu_macro3_serdes_lane2_snr |
原始值 |
5 |
< |
- |
500000 |
db |
只告警一次 |
|
NPU Macro3 Serdes Lane3的信噪比 |
npu_macro3_serdes_lane3_snr |
原始值 |
5 |
< |
- |
500000 |
db |
只告警一次 |
|
NPU Macro4 Serdes Lane0的信噪比 |
npu_macro4_serdes_lane0_snr |
原始值 |
5 |
< |
- |
500000 |
db |
只告警一次 |
|
NPU Macro4 Serdes Lane1的信噪比 |
npu_macro4_serdes_lane1_snr |
原始值 |
5 |
< |
- |
500000 |
db |
只告警一次 |
|
NPU Macro4 Serdes Lane2的信噪比 |
npu_macro4_serdes_lane2_snr |
原始值 |
5 |
< |
- |
500000 |
db |
只告警一次 |
|
NPU Macro4 Serdes Lane3的信噪比 |
npu_macro4_serdes_lane3_snr |
原始值 |
5 |
< |
- |
500000 |
db |
只告警一次 |
|
NPU Macro5 Serdes Lane0的信噪比 |
npu_macro5_serdes_lane0_snr |
原始值 |
5 |
< |
- |
500000 |
db |
只告警一次 |
|
NPU Macro5 Serdes Lane1的信噪比 |
npu_macro5_serdes_lane1_snr |
原始值 |
5 |
< |
- |
500000 |
db |
只告警一次 |
|
NPU Macro5 Serdes Lane2的信噪比 |
npu_macro5_serdes_lane2_snr |
原始值 |
5 |
< |
- |
500000 |
db |
只告警一次 |
|
NPU Macro5 Serdes Lane3的信噪比 |
npu_macro5_serdes_lane3_snr |
原始值 |
5 |
< |
- |
500000 |
db |
只告警一次 |
|
NPU Macro6 Serdes Lane0的信噪比 |
npu_macro6_serdes_lane0_snr |
原始值 |
5 |
< |
- |
500000 |
db |
只告警一次 |
|
NPU Macro6 Serdes Lane1的信噪比 |
npu_macro6_serdes_lane1_snr |
原始值 |
5 |
< |
- |
500000 |
db |
只告警一次 |
|
NPU Macro6 Serdes Lane2的信噪比 |
npu_macro6_serdes_lane2_snr |
原始值 |
5 |
< |
- |
500000 |
db |
只告警一次 |
|
NPU Macro6 Serdes Lane3的信噪比 |
npu_macro6_serdes_lane3_snr |
原始值 |
5 |
< |
- |
500000 |
db |
只告警一次 |
|
NPU Macro7 Serdes Lane0的信噪比 |
npu_macro7_serdes_lane0_snr |
原始值 |
5 |
< |
- |
500000 |
db |
只告警一次 |
|
NPU Macro7 Serdes Lane1的信噪比 |
npu_macro7_serdes_lane1_snr |
原始值 |
5 |
< |
- |
500000 |
db |
只告警一次 |
|
NPU Macro7 Serdes Lane2的信噪比 |
npu_macro7_serdes_lane2_snr |
原始值 |
5 |
< |
- |
500000 |
db |
只告警一次 |
|
NPU Macro7 Serdes Lane3的信噪比 |
npu_macro7_serdes_lane3_snr |
原始值 |
5 |
< |
- |
500000 |
db |
只告警一次 |
|
NPU Macro1重传报文数 |
npu_macro1_retry_cnt |
原始值 |
5 |
> |
0 |
- |
count |
只告警一次 |
|
NPU Macro2重传报文数 |
npu_macro2_retry_cnt |
原始值 |
5 |
> |
0 |
- |
count |
只告警一次 |
|
NPU Macro3重传报文数 |
npu_macro3_retry_cnt |
原始值 |
5 |
> |
0 |
- |
count |
只告警一次 |
|
NPU Macro4重传报文数 |
npu_macro4_retry_cnt |
原始值 |
5 |
> |
0 |
- |
count |
只告警一次 |
|
NPU Macro5重传报文数 |
npu_macro5_retry_cnt |
原始值 |
5 |
> |
0 |
- |
count |
只告警一次 |
|
NPU Macro6重传报文数 |
npu_macro6_retry_cnt |
原始值 |
5 |
> |
0 |
- |
count |
只告警一次 |
|
NPU Macro7重传报文数 |
npu_macro7_retry_cnt |
原始值 |
5 |
> |
0 |
- |
count |
只告警一次 |
|
NPU Macro1接收错误报文数 |
npu_macro1_crc_error_cnt |
原始值 |
5 |
> |
0 |
- |
count |
只告警一次 |
|
NPU Macro2接收错误报文数 |
npu_macro2_crc_error_cnt |
原始值 |
5 |
> |
0 |
- |
count |
只告警一次 |
|
NPU Macro3接收错误报文数 |
npu_macro3_crc_error_cnt |
原始值 |
5 |
> |
0 |
- |
count |
只告警一次 |
|
NPU Macro4接收错误报文数 |
npu_macro4_crc_error_cnt |
原始值 |
5 |
> |
0 |
- |
count |
只告警一次 |
|
NPU Macro5接收错误报文数 |
npu_macro5_crc_error_cnt |
原始值 |
5 |
> |
0 |
- |
count |
只告警一次 |
|
NPU Macro6接收错误报文数 |
npu_macro6_crc_error_cnt |
原始值 |
5 |
> |
0 |
- |
count |
只告警一次 |
|
NPU Macro7接收错误报文数 |
npu_macro7_crc_error_cnt |
原始值 |
5 |
> |
0 |
- |
count |
只告警一次 |
|
NPU Macro1接收误码率 |
npu_macro1_crc_error_rate |
原始值 |
5 |
> |
0 |
- |
count |
只告警一次 |
|
NPU Macro2接收误码率 |
npu_macro2_crc_error_rate |
原始值 |
5 |
> |
0 |
- |
% |
只告警一次 |
|
NPU Macro3接收误码率 |
npu_macro3_crc_error_rate |
原始值 |
5 |
> |
0 |
- |
% |
只告警一次 |
|
NPU Macro4接收误码率 |
npu_macro4_crc_error_rate |
原始值 |
5 |
> |
0 |
- |
% |
只告警一次 |
|
NPU Macro5接收误码率 |
npu_macro5_crc_error_rate |
原始值 |
5 |
> |
0 |
- |
% |
只告警一次 |
|
NPU Macro6接收误码率 |
npu_macro6_crc_error_rate |
原始值 |
5 |
> |
0 |
- |
% |
只告警一次 |
|
NPU Macro7接收误码率 |
npu_macro7_crc_error_rate |
原始值 |
5 |
> |
0 |
- |
% |
只告警一次 |
|
NPU Macro1 0lane模式最大持续时长 |
npu_macro1_0lane_max_consec_sec |
原始值 |
1 |
> |
- |
5 |
s |
只告警一次 |
|
NPU Macro2 0lane模式最大持续时长 |
npu_macro2_0lane_max_consec_sec |
原始值 |
1 |
> |
- |
5 |
s |
只告警一次 |
|
NPU Macro3 0lane模式最大持续时长 |
npu_macro3_0lane_max_consec_sec |
原始值 |
1 |
> |
- |
5 |
s |
只告警一次 |
|
NPU Macro4 0lane模式最大持续时长 |
npu_macro4_0lane_max_consec_sec |
原始值 |
1 |
> |
- |
5 |
s |
只告警一次 |
|
NPU Macro5 0lane模式最大持续时长 |
npu_macro5_0lane_max_consec_sec |
原始值 |
1 |
> |
- |
5 |
s |
只告警一次 |
|
NPU Macro6 0lane模式最大持续时长 |
npu_macro6_0lane_max_consec_sec |
原始值 |
1 |
> |
- |
5 |
s |
只告警一次 |
|
NPU Macro7 0lane模式最大持续时长 |
npu_macro7_0lane_max_consec_sec |
原始值 |
1 |
> |
- |
5 |
s |
只告警一次 |
|
NPU Macro1 0lane模式持续总时长 |
npu_macro1_0lane_total_sec |
原始值 |
1 |
> |
- |
20 |
s |
只告警一次 |
|
NPU Macro2 0lane模式持续总时长 |
npu_macro2_0lane_total_sec |
原始值 |
1 |
> |
- |
20 |
s |
只告警一次 |
|
NPU Macro3 0lane模式持续总时长 |
npu_macro3_0lane_total_sec |
原始值 |
1 |
> |
- |
20 |
s |
只告警一次 |
|
NPU Macro4 0lane模式持续总时长 |
npu_macro4_0lane_total_sec |
原始值 |
1 |
> |
- |
20 |
s |
只告警一次 |
|
NPU Macro5 0lane模式持续总时长 |
npu_macro5_0lane_total_sec |
原始值 |
1 |
> |
- |
20 |
s |
只告警一次 |
|
NPU Macro6 0lane模式持续总时长 |
npu_macro6_0lane_total_sec |
原始值 |
1 |
> |
- |
20 |
s |
只告警一次 |
|
NPU Macro7 0lane模式持续总时长 |
npu_macro7_0lane_total_sec |
原始值 |
1 |
> |
- |
20 |
s |
只告警一次 |
|
NPU RoCE的重传报文数 |
npu_roce_new_pkt_rty_num |
原始值 |
5 |
环比上升 |
1 |
- |
% |
只告警一次 |
|
NPU RoCE接收的PSN异常报文数 |
npu_roce_out_of_order_num |
原始值 |
5 |
环比上升 |
1 |
- |
% |
只告警一次 |
API网关专享版
命名空间 |
指标名称 |
指标ID |
指标值类型 |
连续触发次数 |
比较关系 |
重要告警阈值 |
紧急告警阈值 |
单位 |
告警频率 |
---|---|---|---|---|---|---|---|---|---|
SYS.APIC |
5xx异常次数 |
req_count_5xx |
原始值 |
1 |
环比上升 |
20 |
30 |
% |
1小时 |
平均延迟毫秒数 |
avg_latency |
原始值 |
3 |
>= |
3000 |
5000 |
ms |
1小时 |
|
网关节点系统负载 |
node_system_load |
原始值 |
3 |
= |
2 |
3 |
count |
1小时 |
|
网关节点cpu使用率 |
node_cpu_usage |
原始值 |
3 |
> |
30 |
60 |
% |
1小时 |
|
网关节点内存使用率 |
node_memory_usage |
原始值 |
3 |
> |
30 |
60 |
% |
1小时 |
|
5xx 异常次数 |
error_5xx |
原始值 |
1 |
环比上升 |
20 |
30 |
% |
1小时 |
|
被流控的调用次数 |
throttled_calls |
原始值 |
1 |
环比上升 |
50 |
70 |
% |
1小时 |
|
平均延迟毫秒数 |
avg_latency |
原始值 |
3 |
>= |
3000 |
5000 |
ms |
1小时 |
NAT网关
命名空间 |
指标名称 |
指标ID |
指标值类型 |
连续触发次数 |
比较关系 |
重要告警阈值 |
紧急告警阈值 |
单位 |
告警频率 |
---|---|---|---|---|---|---|---|---|---|
SYS.NAT |
入方向PPS |
inbound_pps |
原始值 |
3 |
> |
环比波动20% |
>800000 |
个 |
1小时 |
出方向PPS |
outbound_pps |
原始值 |
3 |
> |
环比波动20% |
>800000 |
个 |
1小时 |
|
SNAT连接数使用率 |
snat_connection_ratio |
原始值 |
3 |
> |
- |
80 |
% |
1小时 |
|
丢包数(SNAT连接数超限) |
packets_drop_count_snat_connection_beyond |
原始值 |
3 |
> |
- |
0 |
个 |
1小时 |
|
丢包数(PPS超限) |
packets_drop_count_pps_beyond |
原始值 |
3 |
> |
- |
0 |
个 |
1小时 |
|
丢包数(EIP端口分配超限) |
packets_drop_count_eip_port_alloc_beyond |
原始值 |
3 |
> |
- |
0 |
个 |
1小时 |
|
丢包数(SNAT连接数超限) |
packets_drop_count_snat_connection_beyond |
原始值 |
3 |
> |
- |
0 |
个 |
1小时 |
|
丢包数(PPS超限) |
packets_drop_count_pps_beyond |
原始值 |
3 |
> |
- |
0 |
个 |
1小时 |
|
丢包数(EIP端口分配超限) |
packets_drop_count_eip_port_alloc_beyond |
原始值 |
3 |
> |
- |
0 |
个 |
1小时 |
|
总PPS使用率 |
total_pps_ratio |
原始值 |
3 |
> |
- |
80 |
% |
1小时 |
|
SNAT连接数使用率 |
snat_connection_ratio |
原始值 |
3 |
> |
- |
80 |
% |
1小时 |
Web应用防火墙
命名空间 |
指标名称 |
指标ID |
指标值类型 |
连续触发次数 |
比较关系 |
重要告警阈值 |
紧急告警阈值 |
单位 |
告警频率 |
---|---|---|---|---|---|---|---|---|---|
SYS.WAF |
CPU使用率 |
cpu_util |
原始值 |
3 |
> |
80 |
90 |
% |
1小时 |
内存使用率 |
mem_util |
原始值 |
3 |
> |
80 |
90 |
% |
1小时 |
|
磁盘使用率 |
disk_util |
原始值 |
3 |
> |
80 |
- |
% |
1小时 |
|
活跃连接数 |
active_connections |
原始值 |
3 |
> |
40000 |
- |
count |
1小时 |
|
WAF返回码(5XX) |
waf_http_5xx |
原始值 |
1 |
环比上升 |
10 |
15 |
% |
1小时 |
|
业务返回码(5XX) |
upstream_code_5xx |
原始值 |
3 |
> |
15 |
20 |
次 |
1小时 |
弹性负载均衡
命名空间 |
指标名称 |
指标ID |
指标值类型 |
连续触发次数 |
比较关系 |
重要告警阈值 |
紧急告警阈值 |
单位 |
告警频率 |
---|---|---|---|---|---|---|---|---|---|
SYS.ELB |
并发连接数 |
m1_cps |
原始值 |
3 |
> |
40000 |
45000 |
个 |
1小时 |
新建连接数 |
m4_ncps |
原始值 |
3 |
> |
4000 |
4500 |
个/秒 |
1小时 |
|
异常主机数 |
m9_abnormal_servers |
原始值 |
3 |
> |
- |
0 |
个 |
1小时 |
|
丢弃连接数 |
dropped_connections |
原始值 |
3 |
> |
- |
0 |
个/秒 |
1小时 |
|
丢弃数据包 |
dropped_packets |
原始值 |
3 |
> |
- |
0 |
个/秒 |
1小时 |
|
丢弃网络带宽 |
dropped_traffic |
原始值 |
3 |
> |
- |
0 |
bit/s |
1小时 |
|
4层新建连接数使用率 |
l4_ncps_usage |
原始值 |
3 |
> |
80 |
90 |
% |
1小时 |
|
4层并发连接使用率 |
l4_con_usage |
原始值 |
3 |
> |
80 |
90 |
% |
1小时 |
|
4层入带宽使用率 |
l4_in_bps_usage |
原始值 |
3 |
> |
80 |
90 |
% |
1小时 |
|
4层出带宽使用率 |
l4_out_bps_usage |
原始值 |
3 |
> |
80 |
90 |
% |
1小时 |
|
7层新建连接数使用率 |
l7_ncps_usage |
原始值 |
3 |
> |
80 |
90 |
% |
1小时 |
|
7层并发连接使用率 |
l7_con_usage |
原始值 |
3 |
> |
80 |
90 |
% |
1小时 |
|
7层入带宽使用率 |
l7_in_bps_usage |
原始值 |
3 |
> |
80 |
90 |
% |
1小时 |
|
7层出带宽使用率 |
l7_out_bps_usage |
原始值 |
3 |
> |
80 |
90 |
% |
1小时 |
|
7层查询速率使用率 |
l7_qps_usage |
原始值 |
3 |
> |
80 |
90 |
% |
1小时 |
|
并发连接数 |
m1_cps |
原始值 |
1 |
环比下降 |
- |
80 |
% |
1小时 |
|
新建连接数 |
m4_ncps |
原始值 |
1 |
环比下降 |
- |
80 |
% |
1小时 |
|
7层协议响应状态码(5XX) |
mf_l7_http_5xx |
原始值 |
1 |
环比上升 |
- |
50 |
% |
1小时 |
|
7层协议RT平均值 |
m14_l7_rt |
原始值 |
1 |
环比上升 |
- |
50 |
% |
1小时 |
|
负载均衡响应状态码(5XX) |
elb_http_5xx |
原始值 |
1 |
环比上升 |
- |
50 |
% |
1小时 |
|
七层5XX请求占比 |
l7_5xx_ratio |
原始值 |
3 |
>= |
- |
5 |
% |
1小时 |
|
七层2XX请求占比 |
l7_2xx_ratio |
原始值 |
3 |
<= |
- |
95 |
% |
1小时 |
|
异常主机数 |
m9_abnormal_servers |
原始值 |
3 |
> |
- |
0 |
个 |
1小时 |
弹性文件服务
命名空间 |
指标名称 |
指标ID |
指标值类型 |
连续触发次数 |
比较关系 |
重要告警阈值 |
紧急告警阈值 |
单位 |
告警频率 |
---|---|---|---|---|---|---|---|---|---|
SYS.SFS |
文件系统读带宽 |
read_bytes_intranet |
原始值 |
1 |
环比下降 |
100 |
- |
% |
3小时 |
文件系统写带宽 |
write_bytes_intranet |
原始值 |
1 |
环比下降 |
100 |
- |
% |
3小时 |
|
文件系统读TPS |
read_tps |
原始值 |
1 |
环比下降 |
100 |
- |
% |
3小时 |
|
文件系统写TPS |
write_tps |
原始值 |
1 |
环比下降 |
100 |
- |
% |
3小时 |
弹性文件服务Turbo
命名空间 |
指标名称 |
指标ID |
指标值类型 |
连续触发次数 |
比较关系 |
重要告警阈值 |
紧急告警阈值 |
单位 |
告警频率 |
---|---|---|---|---|---|---|---|---|---|
SYS.EFS |
容量使用率 |
used_capacity_percent |
原始值 |
5 |
> |
90 |
95 |
% |
1小时 |
inode使用率 |
used_inode_percent |
原始值 |
5 |
> |
90 |
95 |
% |
1小时 |
对象存储服务
命名空间 |
指标名称 |
指标ID |
指标值类型 |
连续触发次数 |
比较关系 |
重要告警阈值 |
紧急告警阈值 |
单位 |
告警频率 |
---|---|---|---|---|---|---|---|---|---|
SYS.OBS |
请求成功率 |
request_success_rate |
原始值 |
2 |
< |
- |
99.97 |
% |
1小时 |
请求成功率 |
request_success_rate |
原始值 |
2 |
< |
- |
99.97 |
% |
1小时 |
分布式缓存服务
命名空间 |
指标名称 |
指标ID |
指标值类型 |
连续触发次数 |
比较关系 |
重要告警阈值 |
紧急告警阈值 |
单位 |
告警频率 |
---|---|---|---|---|---|---|---|---|---|
SYS.DCS |
内存利用率 |
memory_usage |
原始值 |
2 |
> |
70 |
80 |
% |
1小时 |
CPU利用率 |
cpu_usage |
原始值 |
2 |
- |
>70% |
>80% 或者 环比下降 100% |
% |
1小时 |
|
实例节点状态 |
node_status |
原始值 |
2 |
= |
- |
1 |
不涉及 |
1小时 |
|
CPU平均使用率 |
cpu_avg_usage |
原始值 |
2 |
> |
70 |
80 |
% |
1小时 |
|
实例节点状态 |
node_status |
原始值 |
2 |
= |
- |
1 |
不涉及 |
1小时 |
|
CPU利用率 |
cpu_usage |
原始值 |
2 |
> |
70 |
80 |
% |
1小时 |
|
内存利用率 |
memory_usage |
原始值 |
2 |
> |
70 |
80 |
% |
1小时 |
|
最大时延 |
command_max_rt |
原始值 |
2 |
> |
- |
900000 |
μs |
1小时 |
|
平均时延 |
command_avg_rt |
原始值 |
2 |
> |
- |
150000 |
μs |
1小时 |
|
连接数使用率 |
connections_usage |
原始值 |
2 |
> |
70 |
80 |
% |
1小时 |
|
CPU利用率 |
cpu_usage |
原始值 |
2 |
> |
70 |
80 |
% |
1小时 |
|
内存利用率 |
memory_usage |
原始值 |
2 |
> |
70 |
80 |
% |
1小时 |
|
CPU利用率 |
cpu_usage |
原始值 |
2 |
> |
70 |
>80% 或者 环比下降 100% |
% |
1小时 |
|
实例节点状态 |
node_status |
原始值 |
2 |
= |
- |
1 |
不涉及 |
1小时 |
|
内存利用率 |
memory_usage |
原始值 |
2 |
> |
70 |
80 |
% |
1小时 |
|
CPU利用率 |
cpu_usage |
原始值 |
2 |
> |
70 |
80 |
% |
1小时 |
|
是否存在慢日志 |
mc_is_slow_log_exist |
原始值 |
1 |
> |
- |
0 |
不涉及 |
1小时 |
分布式数据库中间件
命名空间 |
指标名称 |
指标ID |
指标值类型 |
连续触发次数 |
比较关系 |
重要告警阈值 |
紧急告警阈值 |
单位 |
告警频率 |
---|---|---|---|---|---|---|---|---|---|
SYS.DDMS |
CPU使用率 |
ddm_cpu_util |
原始值 |
3 |
> |
80 |
90 |
% |
1小时 |
内存使用率 |
ddm_mem_util |
原始值 |
3 |
> |
85 |
90 |
% |
1小时 |
|
慢SQL数 |
ddm_slow_log |
原始值 |
3 |
> |
50 |
100 |
条数 |
1天 |
|
连接数使用率 |
ddm_connection_util |
原始值 |
2 |
>= |
80 |
85 |
% |
1小时 |
|
DDM节点连通性异常检测 |
ddm_node_status_alarm_code |
原始值 |
1 |
= |
- |
1 |
不涉及 |
1小时 |
分布式消息服务
命名空间 |
指标名称 |
指标ID |
指标值类型 |
连续触发次数 |
比较关系 |
重要告警阈值 |
紧急告警阈值 |
单位 |
告警频率 |
---|---|---|---|---|---|---|---|---|---|
SYS.DMS |
消费者数 |
consumers |
原始值 |
2 |
> |
3600 |
- |
个 |
1小时 |
可消费消息数 |
messages_ready |
原始值 |
1 |
> |
10000 |
- |
个 |
1小时 |
|
未确认消息数 |
messages_unacknowledged |
原始值 |
1 |
> |
10000 |
- |
个 |
1小时 |
|
实例磁盘容量使用率 |
instance_disk_usage |
原始值 |
3 |
> |
80 |
90 |
% |
1小时 |
|
磁盘容量使用率 |
broker_disk_usage |
原始值 |
3 |
> |
80 |
90 |
% |
1小时 |
|
内存使用率 |
broker_memory_usage |
原始值 |
3 |
> |
80 |
90 |
% |
1小时 |
|
节点存活状态 |
broker_alive |
原始值 |
1 |
= |
- |
0 |
不涉及 |
1小时 |
|
连接数 |
broker_connections |
原始值 |
3 |
> |
- |
2000 |
个 |
1小时 |
|
CPU使用率 |
broker_cpu_usage |
原始值 |
3 |
- |
>80% |
>90% 或者 环比下降100% |
% |
1小时 |
|
磁盘平均读操作耗时 |
broker_disk_read_await |
原始值 |
3 |
> |
- |
5000 |
ms |
1小时 |
|
磁盘平均写操作耗时 |
broker_disk_write_await |
原始值 |
3 |
> |
- |
5000 |
ms |
1小时 |
|
节点生产请求P99处理时长 |
broker_produce_p99 |
原始值 |
3 |
> |
50 |
- |
ms |
1小时 |
|
节点生产请求P99.9处理时长 |
broker_produce_p999 |
原始值 |
3 |
> |
50 |
- |
ms |
1小时 |
|
生产成功率 |
broker_produce_success_rate |
原始值 |
1 |
< |
- |
90 |
% |
1小时 |
|
死信主题消息量 |
dlq_accumulation |
原始值 |
3 |
> |
0 |
- |
个 |
1小时 |
|
死信消息增长量 |
dlq_increase |
原始值 |
3 |
> |
0 |
- |
Count |
1小时 |
|
队列可消费消息数 |
topic_messages_remained |
原始值 |
1 |
> |
10000 |
- |
个 |
1小时 |
|
消息堆积数(消费组可消费消息数) |
consumer_messages_remained |
原始值 |
1 |
> |
10000 |
- |
个 |
1小时 |
|
Socket连接数 |
socket_used |
原始值 |
3 |
> |
2500 |
- |
个 |
1小时 |
|
节点存活状态 |
rabbitmq_alive |
原始值 |
1 |
= |
- |
0 |
不涉及 |
1小时 |
|
磁盘容量使用率 |
rabbitmq_disk_usage |
原始值 |
3 |
> |
80 |
85 |
% |
1小时 |
|
CPU使用率 |
rabbitmq_cpu_usage |
原始值 |
3 |
- |
>80 |
>90% 或者 环比下降 100% |
% |
1小时 |
|
内存使用率 |
rabbitmq_memory_usage |
原始值 |
3 |
> |
- |
30 |
% |
1小时 |
|
内存高水位状态 |
rabbitmq_memory_high_watermark |
原始值 |
1 |
> |
- |
0 |
不涉及 |
1小时 |
|
磁盘高水位状态 |
rabbitmq_disk_insufficient |
原始值 |
1 |
> |
- |
0 |
不涉及 |
1小时 |
|
连接数使用率 |
connections_usage |
原始值 |
1 |
> |
- |
80 |
% |
1小时 |
|
消息堆积数 |
instance_accumulation |
原始值 |
1 |
> |
10000 |
环比上升50% |
个 |
1小时 |
|
实例磁盘容量使用率 |
instance_disk_usage |
原始值 |
3 |
> |
80 |
90 |
% |
1小时 |
|
生产被流控次数 |
instance_produce_ratelimit_times |
原始值 |
1 |
>= |
- |
1 |
Count |
1小时 |
|
消息堆积数(消费组可消费消息数) |
group_accumulation |
原始值 |
1 |
> |
10000 |
- |
个 |
1小时 |
|
任务状态 |
task_status |
原始值 |
1 |
= |
0 |
- |
不涉及 |
1小时 |
|
消息时延 |
message_delay |
原始值 |
3 |
> |
1000 |
- |
ms |
1小时 |
|
分区数 |
current_partitions |
原始值 |
3 |
> |
90 |
- |
个 |
1小时 |
|
消息堆积数 |
group_msgs |
原始值 |
1 |
> |
10000 |
- |
个 |
1小时 |
|
队列可消费消息数 |
queue_messages_ready |
原始值 |
1 |
> |
10000 |
- |
个 |
1小时 |
|
生产请求平均处理时长 |
broker_produce_mean |
原始值 |
3 |
> |
- |
50 |
毫秒 |
1小时 |
|
磁盘容量使用率 |
broker_disk_usage |
原始值 |
3 |
> |
80 |
90 |
% |
1小时 |
|
内存使用率 |
broker_memory_usage |
原始值 |
3 |
> |
80 |
90 |
% |
1小时 |
|
JVM堆内存使用率 |
broker_heap_usage |
原始值 |
3 |
> |
80 |
90 |
% |
1小时 |
|
节点存活状态 |
broker_alive |
原始值 |
1 |
= |
- |
0 |
不涉及 |
1小时 |
|
连接数 |
broker_connections |
原始值 |
1 |
> |
- |
4000 |
个 |
1小时 |
|
CPU使用率 |
broker_cpu_usage |
原始值 |
3 |
> |
80 |
90 |
% |
1小时 |
|
磁盘平均读操作耗时 |
broker_disk_read_await |
原始值 |
3 |
> |
- |
5000 |
ms |
1小时 |
|
磁盘平均写操作耗时 |
broker_disk_write_await |
原始值 |
3 |
> |
- |
5000 |
ms |
1小时 |
|
网络带宽利用率 |
network_bandwidth_usage |
原始值 |
3 |
> |
70 |
80 |
% |
1小时 |
关系型数据库
命名空间 |
指标名称 |
指标ID |
指标值类型 |
连续触发次数 |
比较关系 |
重要告警阈值 |
紧急告警阈值 |
单位 |
告警频率 |
---|---|---|---|---|---|---|---|---|---|
SYS.RDS |
CPU使用率 |
rds001_cpu_util |
原始值 |
3 |
>= |
80 |
95 |
% |
1小时 |
内存使用率 |
rds002_mem_util |
原始值 |
3 |
>= |
90 |
95 |
% |
1小时 |
|
磁盘利用率 |
rds039_disk_util |
原始值 |
3 |
>= |
80 |
95 |
% |
1小时 |
|
CPU使用率 |
rds001_cpu_util |
原始值 |
3 |
>= |
80 |
90 |
% |
1小时 |
|
内存使用率 |
rds002_mem_util |
原始值 |
3 |
>= |
90 |
95 |
% |
1小时 |
|
磁盘利用率 |
rds039_disk_util |
原始值 |
3 |
>= |
80 |
95 |
% |
1小时 |
|
连接数使用率 |
rds072_conn_usage |
原始值 |
3 |
>= |
80 |
90 |
% |
1小时 |
|
实时复制时延 |
rds073_replication_delay |
原始值 |
3 |
>= |
300 |
600 |
秒 |
1小时 |
|
活跃连接数使用率 |
rds_conn_active_usage |
原始值 |
3 |
>= |
80 |
95 |
% |
1小时 |
|
CPU使用率 |
rds001_cpu_util |
原始值 |
3 |
>= |
80 |
90 |
% |
1小时 |
|
内存使用率 |
rds002_mem_util |
原始值 |
3 |
>= |
90 |
95 |
% |
1小时 |
|
备机(只读)流复制状态 |
slave_replication_status |
原始值 |
3 |
= |
- |
0 |
Count |
1小时 |
|
磁盘利用率 |
rds039_disk_util |
原始值 |
3 |
>= |
80 |
95 |
% |
1小时 |
|
复制时延 |
rds046_replication_lag |
原始值 |
3 |
>= |
300000 |
600000 |
毫秒 |
1小时 |
|
连接数使用率 |
rds083_conn_usage |
原始值 |
3 |
>= |
80 |
90 |
比率 |
1小时 |
|
CPU使用率 |
rds001_cpu_util |
原始值 |
3 |
>= |
80 |
90 |
% |
1小时 |
|
内存使用率 |
rds002_mem_util |
原始值 |
3 |
>= |
90 |
95 |
% |
1小时 |
|
磁盘利用率 |
rds039_disk_util |
原始值 |
3 |
>= |
80 |
95 |
% |
1小时 |
|
连接数使用率 |
rds072_conn_usage |
原始值 |
3 |
>= |
80 |
90 |
% |
1小时 |
|
实时复制时延 |
rds073_replication_delay |
原始值 |
3 |
>= |
300 |
600 |
秒 |
1小时 |
|
活跃连接数使用率 |
rds_conn_active_usage |
原始值 |
3 |
>= |
80 |
95 |
% |
1小时 |
关系型数据库集群版
命名空间 |
指标名称 |
指标ID |
指标值类型 |
连续触发次数 |
比较关系 |
重要告警阈值 |
紧急告警阈值 |
单位 |
告警频率 |
---|---|---|---|---|---|---|---|---|---|
SYS.RDS_MYSQL_CLUSTER |
活跃连接数使用率 |
rds_conn_active_usage |
原始值 |
3 |
>= |
80 |
95 |
% |
1小时 |
CPU使用率 |
rds001_cpu_util |
原始值 |
3 |
>= |
80 |
90 |
% |
1小时 |
|
内存使用率 |
rds002_mem_util |
原始值 |
3 |
>= |
90 |
95 |
% |
1小时 |
|
磁盘利用率 |
rds039_disk_util |
原始值 |
3 |
>= |
80 |
95 |
% |
1小时 |
|
连接数使用率 |
rds072_conn_usage |
原始值 |
3 |
>= |
80 |
90 |
% |
1小时 |
|
实时复制时延 |
rds073_replication_delay |
原始值 |
3 |
>= |
300 |
600 |
秒 |
1小时 |
内容分发网络
命名空间 |
指标名称 |
指标ID |
指标值类型 |
连续触发次数 |
比较关系 |
重要告警阈值 |
紧急告警阈值 |
单位 |
告警频率 |
---|---|---|---|---|---|---|---|---|---|
SYS.CDN |
带宽 |
bw |
原始值 |
3 |
环比波动 |
10 |
20 |
% |
1小时 |
回源失败率 |
bs_fail_rate |
原始值 |
3 |
> |
3 |
10 |
% |
1小时 |
|
状态码汇总4xx |
http_code_4xx |
原始值 |
3 |
环比上升 |
60 |
80 |
% |
1小时 |
|
状态码4xx占比 |
http_code_4xx_rate |
原始值 |
3 |
>= |
10 |
30 |
% |
1小时 |
|
状态码汇总5xx |
http_code_5xx |
原始值 |
3 |
环比上升 |
60 |
80 |
% |
1小时 |
|
状态码5xx占比 |
http_code_5xx_rate |
原始值 |
3 |
> |
1 |
5 |
% |
1小时 |
|
流量命中率 |
hit_flux_rate |
原始值 |
3 |
< |
80 |
50 |
% |
1小时 |
|
状态码回源5xx占比 |
bs_http_code_5xx_rate |
原始值 |
3 |
> |
1 |
5 |
% |
1小时 |
视频直播
命名空间 |
指标名称 |
指标ID |
指标值类型 |
连续触发次数 |
比较关系 |
重要告警阈值 |
紧急告警阈值 |
单位 |
告警频率 |
---|---|---|---|---|---|---|---|---|---|
SYS.LIVE |
5xx状态码占比 |
http_5xx_proportion |
原始值 |
1 |
> |
0 |
1 |
% |
1小时 |
5xx状态码占比 |
http_code_5xx_proportion |
原始值 |
1 |
> |
0 |
1 |
% |
1小时 |
数据仓库服务
命名空间 |
指标名称 |
指标ID |
指标值类型 |
连续触发次数 |
比较关系 |
重要告警阈值 |
紧急告警阈值 |
单位 |
告警频率 |
---|---|---|---|---|---|---|---|---|---|
SYS.DWS |
CPU使用率 |
dws010_cpu_usage |
原始值 |
3 |
> |
85 |
90 |
% |
1天 |
内存使用率 |
dws011_mem_usage |
原始值 |
3 |
> |
90 |
95 |
% |
1天 |
|
磁盘利用率 |
dws015_disk_usage |
原始值 |
3 |
> |
80 |
90 |
% |
1天 |
|
硬盘读吞吐量 |
dws018_disk_read_throughput |
原始值 |
5 |
> |
- |
300000000 |
Byte/s |
6小时 |
|
硬盘写吞吐量 |
dws019_disk_write_throughput |
原始值 |
5 |
> |
- |
300000000 |
Byte/s |
6小时 |
数据复制服务
命名空间 |
指标名称 |
指标ID |
指标值类型 |
连续触发次数 |
比较关系 |
重要告警阈值 |
紧急告警阈值 |
单位 |
告警频率 |
---|---|---|---|---|---|---|---|---|---|
SYS.DRS |
CPU使用率 |
cpu_util |
原始值 |
3 |
> |
80 |
90 |
% |
1小时 |
内存使用率 |
mem_util |
原始值 |
3 |
> |
85 |
90 |
% |
1小时 |
|
磁盘利用率 |
disk_util |
原始值 |
3 |
> |
80 |
90 |
% |
1小时 |
|
源库WAL抽取延迟 |
extract_latency |
原始值 |
3 |
> |
300000 |
600000 |
ms |
1小时 |
|
数据同步延迟 |
apply_latency |
原始值 |
3 |
> |
300000 |
600000 |
ms |
1小时 |
|
同步状态 |
apply_current_state |
原始值 |
3 |
= |
- |
10 |
不涉及 |
1小时 |
|
任务状态 |
apply_job_status |
原始值 |
3 |
= |
- |
1 |
不涉及 |
1小时 |
数据库安全服务
命名空间 |
指标名称 |
指标ID |
指标值类型 |
连续触发次数 |
比较关系 |
重要告警阈值 |
紧急告警阈值 |
单位 |
告警频率 |
---|---|---|---|---|---|---|---|---|---|
SYS.DBSS |
CPU使用率 |
cpu_util |
原始值 |
3 |
> |
80 |
85 |
% |
1小时 |
内存使用率 |
mem_util |
原始值 |
3 |
> |
80 |
85 |
% |
1小时 |
|
磁盘使用率 |
disk_util |
原始值 |
3 |
> |
80 |
85 |
% |
1小时 |
数据库代理
命名空间 |
指标名称 |
指标ID |
指标值类型 |
连续触发次数 |
比较关系 |
重要告警阈值 |
紧急告警阈值 |
单位 |
告警频率 |
---|---|---|---|---|---|---|---|---|---|
SYS.DBPROXY |
CPU使用率 |
rds001_cpu_util |
原始值 |
3 |
> |
80 |
90 |
% |
1小时 |
内存使用率 |
rds002_mem_util |
原始值 |
3 |
> |
90 |
95 |
% |
1小时 |
|
内网出带宽使用率(%) |
l4_out_bps_usage |
原始值 |
2 |
> |
90 |
95 |
% |
1小时 |
|
内网入带宽使用率(%) |
l4_in_bps_usage |
原始值 |
2 |
> |
90 |
95 |
% |
1小时 |
|
ELB后端异常代理节点数 |
m9_abnormal_servers |
原始值 |
1 |
> |
- |
0 |
count |
1小时 |
文档数据库服务
命名空间 |
指标名称 |
指标ID |
指标值类型 |
连续触发次数 |
比较关系 |
重要告警阈值 |
紧急告警阈值 |
单位 |
告警频率 |
---|---|---|---|---|---|---|---|---|---|
SYS.DDS |
主备延时 |
mongo026_repl_lag |
原始值 |
3 |
>= |
300 |
600 |
秒 |
1小时 |
CPU使用率 |
mongo031_cpu_usage |
原始值 |
3 |
>= |
80 |
98 |
% |
1小时 |
|
内存使用率 |
mongo032_mem_usage |
原始值 |
3 |
>= |
90 |
98 |
% |
1小时 |
|
磁盘利用率 |
mongo035_disk_usage |
原始值 |
3 |
>= |
80 |
95 |
% |
1小时 |
|
硬盘读耗时 |
mongo039_avg_disk_sec_per_read |
原始值 |
3 |
>= |
0.05 |
0.1 |
秒 |
1小时 |
|
硬盘写耗时 |
mongo040_avg_disk_sec_per_write |
原始值 |
3 |
>= |
0.05 |
0.1 |
秒 |
1小时 |
|
当前活动连接数百分比 |
mongo007_connections_usage |
原始值 |
3 |
>= |
80 |
95 |
% |
1小时 |
|
Wiredtiger使用中的缓存百分比 |
mongo054_wt_cache_used_percent |
原始值 |
3 |
>= |
85 |
95 |
% |
1小时 |
|
Wiredtiger脏数据的缓存百分比 |
mongo055_wt_cache_dirty_percent |
原始值 |
3 |
>= |
20 |
25 |
% |
1小时 |
虚拟私有云
命名空间 |
指标名称 |
指标ID |
指标值类型 |
连续触发次数 |
比较关系 |
重要告警阈值 |
紧急告警阈值 |
单位 |
告警频率 |
---|---|---|---|---|---|---|---|---|---|
SYS.VPC |
出网带宽使用率 |
upstream_bandwidth_usage |
原始值 |
3 |
> |
环比波动20% |
80 |
% |
1小时 |
入网带宽使用率 |
downstream_bandwidth_usage |
原始值 |
3 |
> |
环比波动20% |
80 |
% |
1小时 |
|
出网带宽使用率 |
upstream_bandwidth_usage |
原始值 |
3 |
> |
环比波动20% |
80 |
% |
1小时 |
|
入网带宽使用率 |
downstream_bandwidth_usage |
原始值 |
3 |
> |
环比波动20% |
80 |
% |
1小时 |
云防火墙
命名空间 |
指标名称 |
指标ID |
指标值类型 |
连续触发次数 |
比较关系 |
重要告警阈值 |
紧急告警阈值 |
单位 |
告警频率 |
---|---|---|---|---|---|---|---|---|---|
SYS.CFW |
防护带宽使用率 |
protection_bandwidth_usage |
原始值 |
3 |
> |
85 |
95 |
% |
1小时 |
互联网防护带宽使用率 |
internet_protection_bandwidth_usage_rate |
原始值 |
3 |
> |
85 |
95 |
% |
1小时 |
|
VPC间防护带宽使用率 |
vpc_protection_bandwidth_usage_rate |
原始值 |
3 |
> |
85 |
95 |
% |
1小时 |
云连接
命名空间 |
指标名称 |
指标ID |
指标值类型 |
连续触发次数 |
比较关系 |
重要告警阈值 |
紧急告警阈值 |
单位 |
告警频率 |
---|---|---|---|---|---|---|---|---|---|
SYS.CC |
网络带宽使用率 |
network_bandwidth_usage |
原始值 |
3 |
> |
- |
80 |
% |
1小时 |
云数据库 TaurusDB
命名空间 |
指标名称 |
指标ID |
指标值类型 |
连续触发次数 |
比较关系 |
重要告警阈值 |
紧急告警阈值 |
单位 |
告警频率 |
---|---|---|---|---|---|---|---|---|---|
SYS.GAUSSDB |
CPU使用率 |
gaussdb_mysql001_cpu_util |
原始值 |
3 |
> |
80 |
90 |
% |
1小时 |
内存使用率 |
gaussdb_mysql002_mem_util |
原始值 |
3 |
> |
- |
90 |
% |
1小时 |
|
连接数使用率 |
gaussdb_mysql072_conn_usage |
原始值 |
3 |
> |
80 |
90 |
% |
1小时 |
|
数据盘使用率 |
gaussdb_mysql113_data_disk_used_ratio |
原始值 |
3 |
> |
80 |
90 |
% |
1小时 |
云搜索服务
命名空间 |
指标名称 |
指标ID |
指标值类型 |
连续触发次数 |
比较关系 |
重要告警阈值 |
紧急告警阈值 |
单位 |
告警频率 |
---|---|---|---|---|---|---|---|---|---|
SYS.ES |
最大磁盘使用率 |
disk_util |
原始值 |
5 |
>= |
85 |
90 |
% |
1小时 |
集群健康状态 |
status |
原始值 |
5 |
>= |
1 |
2 |
不涉及 |
1小时 |
|
最大JVM堆使用率 |
max_jvm_heap_usage |
原始值 |
1 |
> |
80 |
85 |
% |
1小时 |
|
最大CPU利用率 |
max_cpu_usage |
原始值 |
2 |
> |
80 |
85 |
% |
1小时 |
|
节点数量 |
nodes_count |
原始值 |
3 |
环比下降 |
- |
10 |
% |
1小时 |
|
Write队列中总排队任务数 |
sum_thread_pool_write_queue |
原始值 |
5 |
>= |
500 |
1000 |
不涉及 |
1小时 |
|
Search队列中总排队任务数 |
sum_thread_pool_search_queue |
原始值 |
5 |
>= |
500 |
800 |
不涉及 |
1小时 |
|
Write队列中总的已拒绝任务数 |
sum_thread_pool_write_rejected |
原始值 |
5 |
>= |
10 |
20 |
不涉及 |
1小时 |
|
Search队列中总的已拒绝任务数 |
sum_thread_pool_search_rejected |
原始值 |
5 |
>= |
10 |
20 |
不涉及 |
1小时 |
|
最大Task运行时长 |
task_max_running_time |
原始值 |
1 |
>= |
- |
60000 |
ms |
1小时 |
云专线
命名空间 |
指标名称 |
指标ID |
指标值类型 |
连续触发次数 |
比较关系 |
重要告警阈值 |
紧急告警阈值 |
单位 |
告警频率 |
---|---|---|---|---|---|---|---|---|---|
SYS.DCAAS |
端口状态 |
network_status |
原始值 |
1 |
!= |
- |
1 |
不涉及 |
5分钟 |
网络流入错误包量 |
in_errors |
原始值 |
1 |
> |
- |
0 |
包 |
5分钟 |
|
端口状态 |
network_status |
原始值 |
1 |
!= |
- |
1 |
不涉及 |
5分钟 |
|
时延 |
latency |
原始值 |
3 |
环比上升 |
- |
20 |
% |
1小时 |
|
丢包率 |
packet_loss_rate |
原始值 |
3 |
> |
5 |
10 |
% |
1小时 |
|
时延 |
latency |
原始值 |
3 |
环比上升 |
- |
20 |
% |
1小时 |
|
丢包率 |
packet_loss_rate |
原始值 |
3 |
> |
5 |
10 |
% |
1小时 |
|
IPV4 BGP PEER状态 |
bgp_peer_status_v4 |
原始值 |
1 |
!= |
- |
1 |
不涉及 |
1小时 |
|
IPV6 BGP PEER状态 |
bgp_peer_status_v6 |
原始值 |
1 |
!= |
- |
1 |
不涉及 |
1小时 |