更新时间:2024-11-11 GMT+08:00

GaussDB支持的事件说明

事件监控提供了事件类型数据上报、查询和告警的功能。方便您将业务中的各类重要事件或对云资源的操作事件收集到云监控服务,并在事件发生时进行告警。

事件即云监控服务保存并监控的数据库资源的关键操作,您可以通过“事件”了解到谁在什么时间对系统哪些资源做了什么操作,如规格变更等。

事件监控为您提供上报自定义事件的接口,方便您将业务产生的异常事件或重要变更事件采集上报到云监控服务。

事件监控默认开通,您可以在事件监控中查看系统事件和自定义事件的监控详情,目前支持的系统事件请参见表1

表1 云数据库GaussDB支持的事件

事件来源

事件名称

事件ID

事件级别

事件说明

处理建议

事件影响

GaussDB

进程状态告警

ProcessStatusAlarm

重要

GaussDB关键进程退出,包括:CMS/CMA、ETCD、GTM、CN、DN。

等待进程自动恢复或者自动主备切换,观察业务是否恢复。如果业务未恢复,您可以在管理控制台右上角,选择工单 > 新建工单”,提交工单

主机进程故障,在主机上进行的业务将中断回滚。备机进程故障不影响业务。

组件状态告警

ComponentStatusAlarm

重要

GaussDB关键组件无响应,包括:CMA、ETCD、GTM、CN、DN。

等待进程自动恢复或者自动主备切换,观察业务是否恢复。如果业务未恢复,您可以在管理控制台右上角,选择工单 > 新建工单”,提交工单

主机进程无响应,在主机上进行的业务将无响应。备机进程故障不影响业务。

集群状态告警

ClusterStatusAlarm

重要

集群状态异常,包括:

集群只读、ETCD多数派故障、集群分布不均衡。

您可以在管理控制台右上角,选择工单 > 新建工单”,提交工单。

集群只读: 业务只读。

ETCD多数派故障:集群不可用。

集群分布不均衡:集群性能/可靠性降低。

硬件资源告警

HardwareResourceAlarm

重要

集群中出现严重的硬件故障,包括:磁盘损坏、GTM网络通信故障。

您可以在管理控制台右上角,选择工单 > 新建工单”,提交工单。

业务部分/全部受损。

状态转换告警

StateTransitionAlarm

重要

集群出现如下重要事件:DN build/build失败、DN强切、DN主备切换/failover、GTM主备切换/failover。

等待自动恢复,观察业务是否恢复。如果业务未恢复,您可以在管理控制台右上角,选择工单 > 新建工单”,提交工单

部分业务受损。

其他异常告警

OtherAbnormalAlarm

重要

磁盘使用阈值告警等。

关注业务变化,及时计划扩容。

超过使用阈值,将无法扩容。

实例运行状态异常

TaurusInstanceRunningStatusAbnormal

重要

由于灾难或者物理机故障导致实例故障时,会上报该事件,属于关键告警事件。

您可以在管理控制台右上角,选择工单 > 新建工单”,提交工单。

可能导致数据库服务不可用。

实例运行状态异常已恢复

TaurusInstanceRunningStatusRecovered

重要

针对灾难性的故障,GaussDB有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。

不需要处理。

节点运行状态异常

TaurusNodeRunningStatusAbnormal

重要

由于灾难或者物理机故障导致数据库节点故障时,会上报该事件,属于关键告警事件。

检查数据库服务是否可以正常使用,并在管理控制台右上角,选择工单 > 新建工单”,提交工单。

可能导致数据库服务不可用。

节点运行状态异常已恢复

TaurusNodeRunningStatusRecovered

重要

针对灾难性的故障,GaussDB有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。

不需要处理。

创建实例业务失败

GaussDBV5CreateInstanceFailed

重要

创建实例失败产生的事件,一般是配额大小不足,底层资源耗尽导致。

先释放不再使用的实例再尝试重新发放,或者您可以在管理控制台右上角,选择工单 > 新建工单”,提交工单调整配额上限。

无法创建数据库实例。

添加节点失败

GaussDBV5ExpandClusterFailed

重要

一般是由于底层资源不足等原因导致。

您可以在管理控制台右上角,选择工单 > 新建工单”,提交工单协调资源,删除添加失败的节点,重新尝试添加新节点。

存储扩容失败

GaussDBV5EnlargeVolumeFailed

重要

一般是由于底层资源不足等原因导致。

您可以在管理控制台右上角,选择工单 > 新建工单”,提交工单协调资源再重试扩容操作。

如果磁盘满,会导致业务中断。

重启失败

GaussDBV5RestartInstanceFailed

重要

一般是由于网络问题等原因导致。

重试重启操作或在管理控制台右上角,选择工单 > 新建工单”,提交工单。

可能导致数据库服务不可用。

全量备份失败

GaussDBV5FullBackupFailed

重要

一般是备份文件导出失败或上传失败等原因导致。

您可以在管理控制台右上角,选择工单 > 新建工单”,提交工单。

无法备份数据。

差量备份失败

GaussDBV5DifferentialBackupFailed

重要

一般是备份文件导出失败或上传失败等原因导致。

您可以在管理控制台右上角,选择工单 > 新建工单”,提交工单。

无法备份数据。

删除备份失败

GaussDBV5DeleteBackupFailed

重要

一般是清理备份文件失败导致。

您可以在管理控制台右上角,选择工单 > 新建工单”,提交工单。

可能导致OBS文件残留。

绑定EIP失败

GaussDBV5BindEIPFailed

重要

弹性公网IP已被占用或IP资源不足等原因导致。

您可以在管理控制台右上角,选择工单 > 新建工单”,提交工单。

导致实例无法使用公网链接或访问。

解绑EIP失败

GaussDBV5UnbindEIPFailed

重要

网络故障或公网EIP服务故障等原因导致。

重新解绑IP或在管理控制台右上角,选择工单 > 新建工单”,提交工单。

可能导致IP资源残留。

参数组应用失败

GaussDBV5ApplyParamFailed

重要

一般是由于修改参数组命令超时导致。

重新尝试修改参数组操作。

参数修改失败

GaussDBV5UpdateInstanceParamGroupFailed

重要

一般是由于修改参数组命令超时导致。

重新尝试修改参数组操作。

备份恢复失败

GaussDBV5RestoreFromBcakupFailed

重要

一般是由底层资源不足或备份文件下载失败等原因导致。

您可以在管理控制台右上角,选择工单 > 新建工单”,提交工单。

可能导致在恢复失败期间数据库服务不可用。