GaussDB指标告警配置建议
通过在云监控服务界面设置告警规则,用户可自定义监控目标与通知策略,及时了解实例的运行状况,从而起到预警作用。本章节介绍了设置GaussDB指标告警规则的配置及建议。
创建指标告警规则
- 登录管理控制台。
- 在“服务列表”中选择“管理与监管 > 云监控服务CES”,进入“云服务监控”信息页面。
- 单击左侧导航栏中的“云服务监控 ”。
- 单击列表中的“云数据库 GaussDB GAUSSDBV5”。
- 选择需要添加告警规则的实例,单击操作列的“更多 > 创建告警规则”。
- 在“创建告警规则”页面,填选相关信息。
表1 告警规则信息 参数
参数说明
名称
系统会随机产生一个名称,用户也可以进行修改。只能由中文、英文字母、数字、下划线、中划线组成,且长度不能超过128位。
描述
告警规则描述信息,此参数非必填项,长度不能超过256位。
触发规则
选择配置告警策略的方式,支持选择关联模板和自定义创建两种方式。
- 自定义创建:用户根据需要自定义配置告警策略。
- 关联模板:当GaussDB多个实例需要配置相同的告警规则时,使用告警模板可省去手动重复配置的过程。
模板
当触发规则为关联模板时,需要选择导入的模板。
您可以选择系统预置的默认告警模板,或者选择自定义模板。
选择关联模板后,所关联模板内容修改后,该告警规则中所包含策略也会跟随修改。
告警策略
当触发规则选择“自定义创建”时,需要设置触发告警规则的告警策略。
是否触发告警取决于连续周期的数据是否达到阈值。例如CPU使用率监控周期为5分钟,连续三个周期平均值≥80%,则触发告警。
告警规则内最多可添加50条告警策略,若其中一条告警策略达到条件都会触发告警。
表2 告警通知 参数
参数说明
发送通知
通过开关按钮配置是否发送邮件、短信、HTTP和HTTPS通知用户。默认开启。
通知方式
根据需要可选择通知策略、通知组或主题订阅的方式。
- 通知策略支持告警分级别灵活通知,更全量通知渠道等更多功能。
- 通知组的通知内容模板在云监控服务配置。
- 主题订阅的通知内容模板需要在消息通知服务配置。
通知策略
当通知方式选择通知策略时,需要选择告警通知的策略。通知策略是包含通知组选择、生效时间、通知内容模板等参数的组合编排。
创建通知策略请参见创建/修改/删除通知策略。
通知组
当通知方式选择通知组时,需要选择发送告警通知的通知组。
创建通知组请参见创建通知对象/通知组。
通知对象
当通知方式选择主题订阅时,需要选择发送告警通知的对象,可选择云账号联系人或主题。
通知内容模板
当通知方式选择通知组或主题订阅时,需要选择发送告警通知时的内容模板,支持选择已有模板或创建通知内容模板。
生效时间
当通知方式选择通知组或主题订阅时,需要设置生效时间。
该告警仅在生效时间段发送通知消息,非生效时段则在隔日生效时段发送通知消息。
如生效时间为08:00-20:00,则该告警规则仅在08:00-20:00发送通知消息。
触发条件
当通知方式选择通知组或主题订阅时,需要设置触发条件。
可以选择“出现告警”、“恢复正常”两种状态,作为触发告警通知的条件。
归属企业项目
告警规则所属的企业项目。只有拥有该企业项目权限的用户才可以查看和管理该告警规则。
标签
标签由键值对组成,用于标识云资源,可对云资源进行分类和搜索。建议在TMS中创建预定义标签。
如您的组织已经设定云监控的相关标签策略,则需按照标签策略规则为告警规则添加标签。标签如果不符合标签策略的规则,则可能会导致告警规则创建失败,请联系组织管理员了解标签策略详情。
- 键的长度最大128字符,值的长度最大225字符。
- 最多可创建20个标签。
- 单击“立即创建”,告警规则创建完成。
关于告警参数的配置,请参见《云监控用户指南》。
指标告警配置建议
指标ID |
指标名称 |
指标含义 |
最佳实践阈值 |
最佳实践告警级别 |
---|---|---|---|---|
io_bandwidth_usage |
磁盘io带宽占用率 |
当前磁盘io带宽与磁盘最大带宽比值。 |
连续3个周期 原始值 > 80 % |
重要 |
iops_usage |
IOPS使用率 |
当前IOPS与磁盘最大IOPS比值。 |
连续3个周期 原始值 > 80 % |
重要 |
rds001_cpu_util |
CPU使用率 |
该指标用于统计测量对象的CPU使用率。 |
连续3个周期 原始值 > 80 % |
重要 |
rds002_mem_util |
内存使用率 |
该指标用于统计测量对象的内存使用率。 |
连续3个周期 原始值 > 90 % |
重要 |
rds007_instance_disk_usage |
实例数据磁盘已使用百分比 |
该指标用于统计测量对象的实例数据磁盘使用率,该值为实时值。 |
连续3个周期 原始值 > 75%(建议不能高于80%) |
重要 |
rds020_avg_disk_ms_per_write |
数据磁盘单次写入花费的时间 |
该指标用于统计测量对象的节点数据磁盘单次写入花费的时间,取时间段的平均值。 |
连续3个周期 原始值 > 8 ms |
重要 |
rds021_avg_disk_ms_per_read |
数据磁盘单次读取花费的时间 |
该指标用于统计测量对象的节点数据磁盘单次读取花费的时间,取时间段的平均值。 |
连续3个周期 原始值 > 8 ms |
重要 |
rds036_deadlocks |
死锁次数 |
该指标用于统计数据库发生事务死锁的次数,取该时间段的增量值。 |
连续3个周期 原始值 > 5 Counts |
重要 |
rds048_P80 |
80% SQL的响应时间 |
该指标用于统计数据库80% SQL的响应时间,该值为实时值。 |
连续3个周期 原始值 > 10000000us |
重要 |
rds049_P95 |
95% SQL的响应时间 |
该指标用于统计数据库95% SQL的响应时间,该值为实时值。 |
连续3个周期 原始值 > 15000000us |
重要 |
rds060_long_running_transaction_exectime |
数据库最长事务的执行时长 |
该指标用于统计测量对象的数据库最长事务的执行时长, 该值为实时值。 |
连续3个周期 原始值 > 7200s(建议大于2小时手动kill掉,根据业务情况自行调整) |
重要 |
rds063_slowquery_user |
用户库慢SQL数量 |
该指标用于统计指定周期内主DN/CN上用户库慢SQL数量,该值为实时值。 |
连续3个周期 原始值 > 15 Counts |
重要 |
rds065_dynamic_used_memory_usage |
动态内存使用率 |
该指标用于统计测量对象的动态内存使用率,该值为实时值。 |
连续3个周期 原始值 > 80 % |
重要 |
rds066_replication_slot_wal_log_size |
复制槽保留的WAL日志大小 |
该指标用于统计主DN上复制槽中保留的WAL日志的大小, 该值为实时值。 |
连续3个周期 原始值 > [磁盘大小的10%] Byte(客户基于购买的磁盘大小动态调整,建议10%) |
重要 |
rds070_thread_pool |
线程池使用率 |
该指标用于统计CN和DN的线程池使用率,该值为实时值。 |
连续3个周期 原始值 > 85% |
重要 |