云监控服务 CES云监控服务 CES

文档首页> 云监控服务 CES> 用户指南> 事件监控> 事件监控支持的事件说明
更新时间:2021/08/23 GMT+08:00
分享

事件监控支持的事件说明

表1 弹性云服务器

事件来源

事件名称

事件级别

事件说明

处理建议

事件影响

ECS

开始自动恢复

重要

弹性云服务器所在的主机出现故障时,系统会自动将弹性云服务器迁移至正常的物理机,迁移过程中系统会自动重启云服务器。

等待自动恢复事件结束,观察业务是否受到影响。

业务存在中断的可能。

结束自动恢复

重要

当自动迁移完成后,弹性云服务器已恢复正常。

当收到“结束自动恢复”时,云服务器已正常工作,可继续使用。

业务恢复正常。

自动恢复超时(后台处理中)

重要

迁移弹性云服务器至正常的物理机操作超时。

迁移业务至其他云服务器。

业务中断。

GPU链路故障

紧急

弹性云服务器所在的主机上GPU卡故障。包括:

  • GPU卡故障。
  • GPU卡故障恢复中。

业务应用做成高可用。

GPU卡故障恢复后,确认业务是否自动恢复。

业务中断。

FPGA链路故障

紧急

弹性云服务器所在的主机上FPGA卡故障。包括:

  • FPGA卡故障。
  • FPGA卡故障恢复中。

业务应用做成高可用。

FPGA卡故障恢复后,确认业务是否自动恢复。

业务中断。

运行状态异常

重要

弹性云服务器故障或网卡异常导致运行状态异常。

业务应用做成高可用。

云服务器恢复后,确认业务是否自动恢复。

业务中断。

运行状态异常已恢复

重要

弹性云服务器运行状态恢复正常。

等待运行状态恢复正常,观察业务是否收到影响。

业务恢复正常。

删除虚拟机

重要

删除云服务器。包括:

  • 在管理控制台进行删除操作。
  • 通过API接口下发删除指令。

确认删除操作是否为主动执行。

业务中断。

重启虚拟机

次要

云服务器重启。包括:

  • 在管理控制台进行重启操作。
  • 通过API接口下发重启指令。

确认操作是否为主动执行。

  • 业务应用做成高可用。
  • 云服务器开机后,确认业务是否自动恢复。

业务中断。

关闭虚拟机

次要

云服务器关机。包括:

  • 在管理控制台进行关机操作。
  • 通过API接口下发关机指令。
  • 确认操作是否为主动执行。
  • 业务应用做成高可用。
  • 云服务器开机后,确认业务是否自动恢复。

业务中断。

删除网卡

重要

云服务器删除网卡。包括:

  • 在管理控制台删除网卡。
  • 通过API接口下发删除网卡指令。
  • 确认操作是否为主动执行。
  • 业务应用做成高可用。
  • 删除网卡后,确认业务是否自动恢复。

网卡被删除,存在业务中断的可能。

变更规格

次要

云服务器规格变更。包括:

  • 在管理控制台进行变更规格。
  • 通过API接口下发变更规格指令。
  • 确认操作是否为主动执行。
  • 业务应用做成高可用。
  • 变更规格后,确认业务是否自动恢复。

业务中断。

GuestOS系统层重启告警

一般

GuestOS内部重启。

联系运维人员处理。

在系统重启场景下,可能导致业务中断。

本地盘故障

重要

云服务器所使用的本地盘发生故障。

联系运维人员处理。

本地盘不可用。

主机进程异常导致虚拟机故障

紧急

云服务器所在宿主机服务进程异常,导致云服务器故障。

联系运维人员处理

云服务器故障。

开机失败

重要

云服务器开机失败。

重试开机,若仍开机失败,联系运维人员处理。

云服务器无法开机。

自动恢复:弹性云服务器所在的硬件出现故障时,系统会自动将弹性云服务器迁移至正常的物理机,该过程会导致云服务器重启。

表2 裸金属服务器

事件来源

事件名称

事件级别

事件说明

处理建议

事件影响

BMS

主机重启

重要

裸金属实例重启。包括:

  • 在管理控制台进行重启操作
  • 通过API接口下发重启指令
  • 业务应用做成高可用。
  • 主机恢复后,确认业务是否自动恢复。

业务中断

异常重启

重要

裸金属实例异常重启。包括:

  • 操作系统异常导致重启
  • 主机硬件故障导致重启
  • 业务应用做成高可用。
  • 主机恢复后,确认业务是否自动恢复。

业务中断

主机关机

重要

裸金属实例关机。包括:

  • 在管理控制台进行关机操作
  • 通过API接口下发关机指令
  • 业务应用做成高可用。
  • 主机恢复后,确认业务是否自动恢复。

业务中断

异常关机

重要

裸金属实例异常关机。包括:

  • 主机异常下电
  • 主机硬件故障导致关机
  • 业务应用做成高可用。
  • 主机恢复后,确认业务是否自动恢复。

业务中断

网络中断

重要

裸金属服务器网络中断。包括:

  • 主机异常关机、重启
  • 交换机故障引起的网络中断
  • 网关节点故障引起的中断
  • 业务应用做成高可用。
  • 主机恢复后,确认业务是否自动恢复。

业务中断

PCIe异常

重要

裸金属服务器PCIe设备硬件故障。包括:

  • 主板故障
  • PCIe设备故障
  • 业务应用做成高可用。
  • 主机恢复后,确认业务是否自动恢复。

影响网络或硬盘读写业务

硬盘故障

重要

裸金属服务器磁盘故障。包括:

  • 硬盘背板故障
  • 硬盘本身故障
  • 业务应用做成高可用。
  • 主机恢复后,确认业务是否自动恢复。

影响数据读写业务或主机无法启动

云存储连接异常

重要

裸金属服务器云硬盘链接异常。包括:

  • SDI卡故障
  • 远端存储故障
  • 业务应用做成高可用。
  • 主机恢复后,确认业务是否自动恢复。

影响数据读写业务或主机无法启动

表3 弹性公网IP

事件来源

事件名称

事件级别

事件说明

处理建议

事件影响

EIP

EIP带宽超限事件

重要

当前使用带宽已超过购买的带宽,可能会导致网络变慢或丢包发生。

说明:

EIP带宽超限事件当前仅在“华北-北京一”、“华东-上海一”、“华东-上海二”和“华南-广州”区域上线。

检查EIP带宽是否一直增加,业务是否正常,并考虑扩容。

网络变慢或丢包发生

释放EIP

次要

EIP资源被删除。

检查是否误操作删除资源。

无法访问公网

EIP封堵

紧急

带宽超过5GB就会封堵,相当于把流量直接丢弃。带宽严重超限或受到攻击,一般是受到了DDoS攻击。

更换EIP,避免业务受到影响。

同时查看事件中的封堵原因,进行相应处理。

业务受影响

EIP解封

紧急

EIP封堵已被解封。

换回原EIP,将被解封EIP重新使用,避免资源浪费。

表4 云备份

事件来源

事件名称

事件级别

事件说明

处理建议

事件影响

CBR

备份失败

紧急

创建备份失败

尝试手动创建备份或者联系客服

可能造成数据丢失

恢复失败

紧急

使用备份恢复资源失败

尝试使用其他备份恢复或者联系客服

可能造成数据丢失

备份删除失败

紧急

备份删除失败

稍后重试删除或者联系客服

可能造成计费异常

存储库删除失败

紧急

储存库删除失败

稍后重试或联系客服

可能造成计费异常

备份复制失败

紧急

备份复制失败

稍后重试或联系客服

可能造成数据丢失

备份成功

重要

创建备份成功

恢复成功

重要

使用备份恢复资源成功

观察数据是否已成功恢复。

备份删除成功

重要

备份删除成功

存储库删除成功

重要

储存库删除成功

备份复制成功

重要

备份复制成功

表5 关系型数据库--资源异常事件

事件来源

事件名称

事件级别

事件说明

处理建议

事件影响

RDS

创建实例业务失败

重要

创建实例失败产生的事件,一般是磁盘个数,配额大小不足,底层资源耗尽导致。

检查磁盘个数、配额大小,释放资源后重新创建。

无法创建数据库实例。

实例全量备份失败

重要

单次全量备份失败产生的事件,不影响以前成功备份的文件,但会对“恢复到指定时间点”的功能有一些影响,导致“恢复到指定时间点”时增量备份的恢复时间延长。

重新执行一次手工备份。

备份失败。

主备切换异常

重要

主备切换异常是由于网络、物理机有某种故障导致备机没有接管主机的业务,短时间内会恢复到原主机继续提供服务。

检查应用和数据库之间的连接是否重新建立了连接。

复制状态异常

重要

出现”复制状态异常“事件通常有两种情况:

1、主备之间复制时延太大(一般在写入大量数据或执行大事务的时候出现),在业务高峰期容易出现阻塞。

2、主备间的网络中断,导致主备复制异常。

提交工单。

但不会导致原来单实例的读写中断,客户的应用是无感知的。

复制状态异常已恢复

重要

即复制时延已回到正常范围内,或者主备之间的网络通信恢复。

不需要处理。

实例运行状态异常

重要

由于灾难或者物理机故障导致单机或者主实例故障时会上报本事件,属于关键告警事件。

检查是否有设置自动备份策略,并且提交工单。

可能导致数据库服务不可用。

实例运行状态异常已恢复

重要

针对灾难性的故障,RDS有高可用工具会自动进行备机重建,重建完成之后即会上报本事件。

不需要处理。

单实例转主备实例失败

重要

创建备机时或备机创建完成后主备机之间配置同步发生故障时会产生此事件,一般是由于备节点所在数据中心资源不足导致。

提交工单。

“单实例转主备实例失败”不会导致原来单实例的读写中断,客户的应用是无感知的。

表6 关系型数据库--操作类事件

事件来源

事件名称

事件级别

RDS

重置数据库管理员密码

重要

集群扩容等操作

重要

删除集群下的实例

次要

修改备份策略

次要

修改参数组

次要

删除参数组

次要

重置参数组

次要

修改数据库端口号

重要

表7 文档数据库服务

事件来源

事件名称

事件级别

事件说明

处理建议

事件影响

DDS

创建实例业务失败

重要

创建文档数据库实例失败产生的事件,一般是由于磁盘个数、配额不足,底层资源耗尽导致。

检查磁盘个数、配额大小是否满足需求,并考虑释放资源后重新创建实例。

无法创建数据库实例。

复制状态异常

重要

出现“复制状态异常”事件通常有两种情况:

1、主备之间复制时延太大(一般在写入大量数据或执行大事务的时候出现),在业务低峰期,备节点数据会逐渐追上主节点。

2、主备间的网络中断,导致主备复制异常。

提交工单。

不会导致原来实例的读写中断,客户的应用是无感知的。

复制状态异常已恢复

重要

复制时延已回到正常范围内,或者主备之间的网络通信恢复。

不需要处理。

实例运行状态异常

重要

由于灾难或者物理机故障导致实例故障时,会上报该事件,属于关键告警事件。

提交工单。

可能导致数据库服务不可用。

实例运行状态异常已恢复

重要

针对灾难性的故障,NoSQL有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。

不需要处理。

节点运行状态异常

重要

由于灾难或者物理机故障导致数据库节点故障时,会上报该事件,属于关键告警事件。

检查数据库服务是否可以正常使用,并提交工单。

可能导致数据库服务不可用。

节点运行状态异常已恢复

重要

针对灾难性的故障,NoSQL有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。

不需要处理。

实例主备切换

重要

在手动触发的主备倒换或节点故障自动触发的故障倒换场景下,会上报该事件。

不需要处理。

表8 云数据库GaussDB NoSQL

事件来源

事件名称

事件级别

事件说明

处理建议

事件影响

NoSQL

创建实例业务失败

重要

一般是由于实例配额不足或底层资源不足等原因导致。

先释放不再使用的实例再尝试重新发放,或者提交工单调整配额上限。

无法创建数据库实例。

变更规格失败

重要

一般是由于底层资源不足等原因导致。

提交工单让运维在后台协调资源再重试规格变更操作。

业务中断。

添加节点失败

重要

一般是由于底层资源不足等原因导致。

提交工单让运维在后台协调资源,删除添加失败的节点,重新尝试添加新节点。

删除节点失败

重要

一般是由于底层释放资源失败导致。

重新尝试删除节点。

扩卷失败

重要

一般是由于底层资源不足等原因导致。

提交工单让运维在后台协调资源再重试扩卷操作。

如果磁盘满,会导致业务中断。

重置密码失败

重要

一般是由于重置密码命令超时导致。

重新尝试重置密码操作。

修改参数组失败

重要

一般是由于修改参数组命令超时导致。

重新尝试修改参数组操作。

设置备份策略失败

重要

一般是由于数据库连接异常导致。

重新重试设置备份策略操作。

创建手动备份失败

重要

一般是备份文件导出失败或上传失败等原因导致。

提交工单让运维处理。

无法备份数据。

创建自动备份失败

重要

一般是备份文件导出失败或上传失败等原因导致。

提交工单让运维处理。

无法备份数据。

实例运行状态异常

重要

由于灾难或者物理机故障导致实例故障时,会上报该事件,属于关键告警事件。

提交工单。

可能导致数据库服务不可用。

实例运行状态异常已恢复

重要

针对灾难性的故障,NoSQL有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。

不需要处理。

节点运行状态异常

重要

由于灾难或者物理机故障导致数据库节点故障时,会上报该事件,属于关键告警事件。

检查数据库服务是否可以正常使用,并提交工单。

可能导致数据库服务不可用。

节点运行状态异常已恢复

重要

针对灾难性的故障,NoSQL有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。

不需要处理。

实例主备切换

重要

在手动触发的主备倒换或节点故障自动触发的故障倒换场景下,会上报该事件。

不需要处理。

出现热点分区键

重要

客观上是因为主键设置不合理,使得热点数据集中分布在一个分区。客户端不合理的应用程序设计, 造成对某一key的频繁读写。

1. 选择合理的分区键。

2. 业务增加缓存,业务应用先从缓存中读取热点数据。

影响业务请求成功率,存在影响集群性能及稳定性的风险。

出现超大分区键

重要

主键设计不合理,单个分区的记录数或数据量过大,引起了节点负载不均。

1. 选择合理的分区键

2. 基于现有分区键,增加分区键散列。

随着数据量增长,集群稳定性会下降。

表9 云数据库GaussDB(for MySQL)

事件来源

事件名称

事件级别

事件说明

处理建议

事件影响

GaussDB(for MySQL)

创建实例业务失败

重要

创建实例失败产生的事件,一般是配额大小不足,底层资源耗尽导致。

检查配额大小,释放资源后重新创建。

无法创建数据库实例。

实例只读升主业务失败

重要

实例只读升主异常主要是由于网络、物理机有某种故障导致只读节点没有接管主节点的业务,短时间内会恢复到原主节点继续提供服务。

提交工单。

无发完成实例只读节点升主。

添加只读节点失败

重要

创建实例只读节点失败产生的事件,一般是底层资源耗尽导致。

检查并释放资源后重新创建。

无法创建数据库实例只读节点。

规格变更业务失败

重要

规格变更失败产生的事件,一般是配额大小不足,底层资源耗尽导致。

提交工单。

无法完成规格变更。

表10 云数据库GaussDB(for openGauss)

事件来源

事件名称

事件级别

事件说明

处理建议

事件影响

GaussDB(for openGauss)

进程状态告警

重要

openGauss关键进程退出,包括:CMS/CMA、ETCD、GTM、CN、DN。

等待进程自动恢复或者自动主备切换,观察业务是否恢复。如果业务未恢复,联系SRE。

主机进程故障,在主机上进行的业务将中断回滚。备机进程故障不影响业务。

组件状态告警

重要

openGauss关键组件无响应,包括:CMA、ETCD、GTM、CN、DN。

等待进程自动恢复或者自动主备切换,观察业务是否恢复。如果业务未恢复,联系SRE。

主机进程无响应,在主机上进行的业务将无响应。备机进程故障不影响业务。

集群状态告警

重要

集群状态异常,包括:

集群只读、ETCD多数派故障、集群分布不均衡。

联系SRE。

集群只读: 业务只读。

ETCD多数派故障:集群不可用。

集群分布不均衡:集群性能/可靠性降低。

硬件资源告警

重要

集群中出现严重的硬件故障,包括:磁盘损坏、GTM网络通信故障。

联系SRE。

业务部分/全部受损。

状态转换告警

重要

集群出现如下重要事件:DN build/build失败、DN强切、DN主备切换/failover、GTM主备切换/failover。

等待自动恢复,观察业务是否恢复。如果业务未恢复,联系SRE。

部分业务受损。

其他异常告警

重要

磁盘使用阈值告警等。

关注业务变化,及时计划扩容。

超过使用阈值,将无法扩容。

表11 虚拟私有云

事件来源

事件名称

事件级别

VPC

删除VPC

重要

修改VPC

次要

删除Subnet

次要

修改Subnet

次要

修改带宽

次要

删除VPN

重要

修改VPN

次要

表12 云硬盘

事件来源

事件名称

事件级别

EVS

更新磁盘

次要

扩容磁盘

次要

删除磁盘

重要

表13 统一身份认证服务

事件来源

事件名称

事件级别

IAM

用户登录

次要

用户登出

次要

登录重置密码

重要

创建用户

次要

删除用户

重要

修改用户

次要

创建用户组

次要

删除用户组

重要

修改用户组

次要

创建idp

次要

删除idp

重要

修改idp

次要

更新metadata

次要

更新帐号登录策略

重要

创建AK/SK

重要

删除AK/SK

重要

创建project

次要

更新project

次要

冻结项目

重要

表14 秘钥管理服务

事件来源

事件名称

事件级别

KMS

禁用密钥

重要

计划删除密钥

次要

退役授权

重要

撤销授权

重要

表15 对象存储服务

事件来源

事件名称

事件级别

OBS

删除桶

重要

删除桶policy配置

重要

设置桶的ACL

次要

设置桶的策略

次要

分享:

    相关文档

    相关产品