事件监控支持的事件说明
事件来源 | 事件名称 | 事件ID | 事件级别 | 事件说明 | 处理建议 | 事件影响 |
|---|---|---|---|---|---|---|
NoSQL | 创建实例业务失败 | NoSQLCreateInstanceFailed | 重要 | 一般是由于实例配额不足或底层资源不足等原因导致。 | 先释放不再使用的实例再尝试重新发放,或者您可以在管理控制台右上角,选择“工单 > 新建工单”,提交工单调整配额上限。 | 无法创建数据库实例。 |
变更规格失败 | NoSQLResizeInstanceFailed | 重要 | 一般是由于底层资源不足等原因导致。 | 您可以在管理控制台右上角,选择“工单 > 新建工单”,提交工单让运维在后台协调资源再重试规格变更操作。 | 业务中断。 | |
添加节点失败 | NoSQLAddNodesFailed | 重要 | 一般是由于底层资源不足等原因导致。 | 提您可以在管理控制台右上角,选择“工单 > 新建工单”,交工单让运维在后台协调资源,删除添加失败的节点,重新尝试添加新节点。 | 无 | |
删除节点失败 | NoSQLDeleteNodesFailed | 重要 | 一般是由于底层释放资源失败导致。 | 重新尝试删除节点。 | 无 | |
扩卷失败 | NoSQLScaleUpStorageFailed | 重要 | 一般是由于底层资源不足等原因导致。 | 您可以在管理控制台右上角,选择“工单 > 新建工单”,提交工单让运维在后台协调资源再重试扩卷操作。 | 如果磁盘满,会导致业务中断。 | |
重置密码失败 | NoSQLResetPasswordFailed | 重要 | 一般是由于重置密码命令超时导致。 | 重新尝试重置密码操作。 | 无 | |
修改参数模板失败 | NoSQLUpdateInstanceParamGroupFailed | 重要 | 一般是由于修改参数模板命令超时导致。 | 重新尝试修改参数模板操作。 | 无 | |
设置备份策略失败 | NoSQLSetBackupPolicyFailed | 重要 | 一般是由于数据库连接异常导致。 | 重新重试设置备份策略操作。 | 无 | |
创建手动备份失败 | NoSQLCreateManualBackupFailed | 重要 | 一般是备份文件导出失败或上传失败等原因导致。 | 您可以在管理控制台右上角,选择“工单 > 新建工单”,提交工单让运维处理。 | 无法备份数据。 | |
创建自动备份失败 | NoSQLCreateAutomatedBackupFailed | 重要 | 一般是备份文件导出失败或上传失败等原因导致。 | 您可以在管理控制台右上角,选择“工单 > 新建工单”,提交工单让运维处理。 | 无法备份数据。 | |
实例运行状态异常 | NoSQLFaultyDBInstance | 重要 | 由于灾难或者物理机故障导致实例故障时,会上报该事件,属于关键告警事件。 | 您可以在管理控制台右上角,选择“工单 > 新建工单”,提交工单让运维处理。 | 可能导致数据库服务不可用。 | |
实例运行状态异常已恢复 | NoSQLDBInstanceRecovered | 重要 | 针对灾难性的故障,NoSQL有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。 | 不需要处理。 | 无 | |
节点运行状态异常 | NoSQLFaultyDBNode | 重要 | 由于灾难或者物理机故障导致数据库节点故障时,会上报该事件,属于关键告警事件。 | 检查数据库服务是否可以正常使用,并在管理控制台右上角,选择“工单 > 新建工单”,提交工单让运维处理。 | 可能导致数据库服务不可用。 | |
节点运行状态异常已恢复 | NoSQLDBNodeRecovered | 重要 | 针对灾难性的故障,NoSQL有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。 | 不需要处理。 | 无 | |
实例主备切换 | NoSQLPrimaryStandbySwitched | 重要 | 在手动触发的主备倒换或节点故障自动触发的故障倒换场景下,会上报该事件。 | 不需要处理。 | 无 | |
出现热点分区键 | HotKeyOccurs | 重要 | 客观上是因为主键设置不合理,使得热点数据集中分布在一个分区。客户端不合理的应用程序设计,造成对某一key的频繁读写。 | 1. 选择合理的分区键。 2. 业务增加缓存,业务应用先从缓存中读取热点数据。 | 影响业务请求成功率,存在影响集群性能及稳定性的风险。 | |
出现超大分区键 | BigKeyOccurs | 重要 | 主键设计不合理,单个分区的记录数或数据量过大,引起了节点负载不均。 | 1. 选择合理的分区键。 2. 基于现有分区键,增加分区键散列。 | 随着数据量增长,集群稳定性会下降。 | |
数据盘空间不足 | NoSQLRiskyDataDiskUsage | 重要 | 数据盘空间不足,产生此告警。 | 请参见扩容和缩容磁盘进行磁盘扩容。 | 实例被设为只读模式,数据无法写入。 | |
数据盘空间已扩容并恢复可写 | NoSQLDataDiskUsageRecovered | 重要 | 数据盘空间已扩容并恢复可写,产生此事件。 | 无需处理。 | 无 | |
创建索引失败 | NoSQLCreateIndexFailed | 重要 | 业务负载超过实例规格瓶颈,此时再创建索引会耗费更多实例资源,导致响应变慢甚至卡顿,最终超时,引起索引创建失败。 | 1、根据业务负载,选择匹配的实例规格。 2、在业务低峰期创建索引。 3、使用后台方式创建索引。 4、索引字段,结合业务进行合理选择。 | 索引创建失败或不完整,导致索引无效,需要删掉索引重新创建。 | |
发生写入降速 | NoSQLStallingOccurs | 重要 | 写入速度快,接近集群规模和实例规格范围允许最大写能力,从而触发数据库自身的限流机制,会发生请求失败情况 | 1. 根据业务的最大写请求速率,调整集群规模或者节点规格。 2. 衡量业务的最大写请求速率,分散业务写峰值速率。 | 影响业务的请求的成功率。 | |
发生写入停止 | NoSQLStoppingOccurs | 重要 | 写入速度过快,达到集群规模和实例规格范围允许最大写能力,从而触发数据库自身的限流机制,会发生请求失败情况 | 1. 根据业务的最大写请求速率,调整集群规模或者节点规格。 2. 衡量业务的最大写请求速率,分散业务写峰值速率。 | 影响业务的请求的成功率。 | |
重启数据库失败 | NoSQLRestartDBFailed | 重要 | 一般是由于实例状态异常等原因导致。 | 您可以在管理控制台右上角,选择“工单 > 新建工单”,提交工单让运维处理。 | 数据库实例状态可能存在异常。 | |
恢复到新实例失败 | NoSQLRestoreToNewInstanceFailed | 重要 | 一般是由于底层资源不足等原因导致。 | 您可以在管理控制台右上角,选择“工单 > 新建工单”,提交工单让运维在后台协调资源,重新尝试添加新节点。 | 无法恢复到新的数据库实例。 | |
恢复到已有实例失败 | NoSQLRestoreToExistInstanceFailed | 重要 | 一般是由于备份文件下载或恢复失败等原因导致。 | 您可以在管理控制台右上角,选择“工单 > 新建工单”,提交工单让运维处理。 | 当前数据库实例可能处于不可用状态。 | |
删除备份文件失败 | NoSQLDeleteBackupFailed | 重要 | 一般是由于备份文件从obs删除失败导致。 | 重新尝试删除备份文件。 | 无 | |
切换慢日志明文开关失败 | NoSQLSwitchSlowlogPlainTextFailed | 重要 | 一般是由于接口不支持切换等原因导致。 | 请查阅GeminiDB用户指南,确认接口支持打开慢日志明文开关。您可以在管理控制台右上角,选择“工单 > 新建工单”,提交工单让运维处理。 | 无 | |
绑定EIP失败 | NoSQLBindEipFailed | 重要 | 一般是由于节点状态不正常,节点已经绑定EIP或EIP非法等原因导致。 | 检查节点是否正常,EIP是否合法。 | 无法通过公网访问数据库实例。 | |
解绑EIP失败 | NoSQLUnbindEipFailed | 重要 | 一般是由于节点状态不正常,节点未绑定EIP等原因导致。 | 检查节点和EIP状态是否正常。 | 无 | |
修改参数失败 | NoSQLModifyParameterFailed | 重要 | 一般是由于参数取值非法等原因导致。 | 排查参数值是否符合在合法范围内,您可以在管理控制台右上角,选择“工单 > 新建工单”,提交工单让运维处理。 | 无 | |
参数模板应用失败 | NoSQLApplyParameterGroupFailed | 重要 | 一般是由于实例状态异常导致参数模板无法应用等原因导致。 | 您可以在管理控制台右上角,选择“工单 > 新建工单”,提交工单让运维处理。 | 无 | |
开启或关闭SSL失败 | NoSQLSwitchSSLFailed | 重要 | 一般是由于修改SSL命令超时导致。 | 重新提交一次或者您可以在管理控制台右上角,选择“工单 > 新建工单”,提交工单处理,并先保持切换之前使用SSL的连接方式。 | 是否使用SSL连接。 | |
单行数据量太大 | LargeRowOccurs | 重要 | 用户单行数据量过大,可能会导致查询超时,进而节点OOM异常等各种故障发生。 | 1. 对每列和每行的写入长度做限制,遵从规范,使得单行的key和value长度和不超过阈值。 2. 排查业务是否出现异常写入和异常编码,导致写入大row。 | 过大的单行记录,随着数据量增长,集群稳定性会下降。 | |
用户计划删除KMS密钥 | planDeleteKmsKey | 重要 | 由于用户计划删除KMS密钥导致。 | 及时检查此密钥关联的GeminiDB实例是否已删除或不再使用,密钥删除后将影响实例业务的正常运行。 | 密钥到期后会自动删除,删除后将影响实例业务的正常运行。 | |
查询墓碑数过多 | TooManyQueryTombstones | 重要 | 查询墓碑数过多,可能会导致查询超时,影响查询性能。 | 使用合理的查询删除方式,避免大批次的范围查询 | 可能会导致查询超时,影响查询性能。 | |
超大集合列 | TooLargeCollectionColumn | 重要 | 当集合列元素个数太多时,会出现集合列查询失败。 | 对集合列的元素个数做限制,遵从规范不超过阈值。 排查业务是否出现异常写入和异常编码,导致写入大集合列。 | 会出现集合列查询失败。 |

