TaurusDB指标告警配置建议
通过在云监控服务界面设置告警规则,用户可自定义监控目标与通知策略,及时了解实例的运行状况,从而起到预警作用。本章节介绍了设置TaurusDB指标告警规则的配置及建议。
创建指标告警规则
- 登录管理控制台。
- 单击管理控制台左上角的
,选择区域和项目。
- 在“服务列表”中选择“管理与监管 > 云监控服务 CES”,进入云监控服务信息页面。
您也可以通过如下方式跳转到云监控服务页面:
- 在TaurusDB的“实例管理”页面,选择目标实例,单击操作列中的“查看监控指标”,跳转到云监控服务页面。
- 在TaurusDB的“实例管理”页面,单击目标实例名称进入实例概览页面,在页面右上角,单击
,选择“查看监控指标”,跳转到云监控页面。
- 在TaurusDB的实例概览页面底部,节点信息对应的操作列下,单击“查看监控指标”,跳转到云监控页面。
- 选择“告警 > 告警规则”,单击“创建告警规则”。
- 在“创建告警规则”界面,根据界面提示配置参数。
图1 设置告警规则信息
表1 告警规则信息 参数
参数说明
名称
系统会随机产生一个名称,用户也可以进行修改。
描述
告警规则描述。
告警类型
选择指标。
云产品
选择云数据库 TaurusDB产品。
资源层级
推荐选择云产品。
监控范围
- 全部资源:当前云产品下任何资源满足告警策略时,都会发送告警通知。可单击“选择排除资源”排除不需要监控的资源。
- 资源分组:该分组下任何资源满足告警策略时,都会触发告警通知。
- 指定资源:在“监控对象”单击“选择指定资源”进行指定资源的选择。
触发规则
模板
触发规则选择关联模板时,需要选择模板。
您可以选择系统预置的默认告警模板,或者选择自定义模板。
告警策略
触发规则选择自定义创建时,需要设置告警策略。
是否触发告警取决于连续周期的数据是否达到阈值。例如每5分钟收集一次CPU使用率的平均值数据,连续3次≥80%,则每5分钟触发告警一次。
告警级别
根据告警的严重程度不同等级,可选择紧急、重要、次要、提示。
图2 设置告警通知表2 告警通知 参数
参数说明
发送通知
配置是否发送邮件、短信、HTTP和HTTPS通知用户。
通知方式
根据需要可选择通知组或主题订阅两种方式。
通知组
需要发送告警通知的通知组。
通知对象
选择主题订阅时设置需要发送告警通知的对象,可选择云账号联系人或主题名称。
- 云账号联系人为注册时的手机和邮箱。
- 主题是消息发布或客户端订阅通知的特定事件类型。
生效时间
该告警仅在生效时间段发送通知消息,非生效时段则在隔日生效时段发送通知消息。
如生效时间为08:00-20:00,则该告警规则仅在08:00-20:00发送通知消息。
触发条件
可以选择“出现告警”、“恢复正常”两种状态,作为触发告警通知的条件。
归属企业项目
告警规则所属的企业项目。只有拥有该企业项目权限的用户才可以查看和管理该告警规则。
标签
标签由键值对组成,用于标识云资源,可对云资源进行分类和搜索。
- 单击“立即创建”,告警规则创建完成。
关于告警参数的配置,请参见《云监控用户指南》。
指标告警配置建议
指标ID |
指标名称 |
指标含义 |
最佳实践阈值 |
最佳实践告警级别 |
告警后的处理建议 |
---|---|---|---|---|---|
gaussdb_mysql001_cpu_util |
CPU使用率 |
该指标用于统计测量对象的CPU利用率。 |
连续3个周期原始值 > 80 % |
重要 |
|
gaussdb_mysql002_mem_util |
内存使用率 |
该指标用于统计测量对象的内存利用率。 |
连续3个周期原始值 > 90 % |
重要 |
|
gaussdb_mysql072_conn_usage |
连接数使用率 |
该指标用于统计当前已用的TaurusDB连接数占最大连接数的百分比。 |
连续3个周期原始值 > 80 % |
重要 |
建议排查连接数较多原因,优化相关业务。 连接数过多存在的隐患及优化方案请参考TaurusDB实例连接数过多,存在什么隐患和TaurusDB数据库连接数满的排查思路。 |
gaussdb_mysql077_replication_delay |
数据同步延迟 |
该指标用于采集实例的数据同步延迟时间。
说明:
该指标仅用于只读节点。 |
连续3个周期原始值 > 1 s |
重要 |
通常是由于主库存在较大的DDL或存在大量写入更新类语句导致,如果只读节点对数据时效较为敏感,建议在业务低峰期做DDL操作或者优化业务降低短时间内的写入数据量。 |
gaussdb_mysql104_dfv_write_delay |
存储写时延 |
该指标用于统计某段时间写入数据到存储层的平均时延。 |
连续3个周期 原始值 > 50 ms |
重要 |
建议排查实例是否存在CPU、内存、连接数等的性能瓶颈,参考对应指标建议解决性能瓶颈问题。 |
gaussdb_mysql105_dfv_read_delay |
存储读时延 |
该指标用于统计某段时间从存储层读取数据的平均时延。 |
连续3个周期 原始值 > 50 ms |
重要 |
建议排查实例是否存在CPU、内存、连接数等的性能瓶颈,参考对应指标建议解决性能瓶颈问题。 |
gaussdb_mysql119_disk_used_ratio |
磁盘使用率 |
该指标用于统计磁盘的使用率。 |
连续3个周期原始值 > 80 % |
重要 |
建议扩容磁盘。 |
gaussdb_mysql128_long_trx_count |
未关闭的长事务个数 |
该指标用于统计未关闭的长事务个数。 |
连续3个周期原始值 >1 Counts |
重要 |
建议优化长事务相关的业务。可参考如下案例: |