事件监控支持的事件说明
事件来源 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|
NoSQL |
创建实例业务失败 |
NoSQLCreateInstanceFailed |
重要 |
一般是由于实例配额不足或底层资源不足等原因导致。 |
先释放不再使用的实例再尝试重新发放,或者提交工单调整配额上限。 |
无法创建数据库实例。 |
变更规格失败 |
NoSQLResizeInstanceFailed |
重要 |
一般是由于底层资源不足等原因导致。 |
提交工单让运维在后台协调资源再重试规格变更操作。 |
业务中断。 |
|
添加节点失败 |
NoSQLAddNodesFailed |
重要 |
一般是由于底层资源不足等原因导致。 |
提交工单让运维在后台协调资源,删除添加失败的节点,重新尝试添加新节点。 |
无 |
|
删除节点失败 |
NoSQLDeleteNodesFailed |
重要 |
一般是由于底层释放资源失败导致。 |
重新尝试删除节点。 |
无 |
|
扩卷失败 |
NoSQLScaleUpStorageFailed |
重要 |
一般是由于底层资源不足等原因导致。 |
提交工单让运维在后台协调资源再重试扩卷操作。 |
如果磁盘满,会导致业务中断。 |
|
重置密码失败 |
NoSQLResetPasswordFailed |
重要 |
一般是由于重置密码命令超时导致。 |
重新尝试重置密码操作。 |
无 |
|
修改参数模板失败 |
NoSQLUpdateInstanceParamGroupFailed |
重要 |
一般是由于修改参数模板命令超时导致。 |
重新尝试修改参数模板操作。 |
无 |
|
设置备份策略失败 |
NoSQLSetBackupPolicyFailed |
重要 |
一般是由于数据库连接异常导致。 |
重新重试设置备份策略操作。 |
无 |
|
创建手动备份失败 |
NoSQLCreateManualBackupFailed |
重要 |
一般是备份文件导出失败或上传失败等原因导致。 |
提交工单让运维处理。 |
无法备份数据。 |
|
创建自动备份失败 |
NoSQLCreateAutomatedBackupFailed |
重要 |
一般是备份文件导出失败或上传失败等原因导致。 |
提交工单让运维处理。 |
无法备份数据。 |
|
实例运行状态异常 |
NoSQLFaultyDBInstance |
重要 |
由于灾难或者物理机故障导致实例故障时,会上报该事件,属于关键告警事件。 |
提交工单。 |
可能导致数据库服务不可用。 |
|
实例运行状态异常已恢复 |
NoSQLDBInstanceRecovered |
重要 |
针对灾难性的故障,NoSQL有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。 |
不需要处理。 |
无 |
|
节点运行状态异常 |
NoSQLFaultyDBNode |
重要 |
由于灾难或者物理机故障导致数据库节点故障时,会上报该事件,属于关键告警事件。 |
检查数据库服务是否可以正常使用,并提交工单。 |
可能导致数据库服务不可用。 |
|
节点运行状态异常已恢复 |
NoSQLDBNodeRecovered |
重要 |
针对灾难性的故障,NoSQL有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。 |
不需要处理。 |
无 |
|
实例主备切换 |
NoSQLPrimaryStandbySwitched |
重要 |
在手动触发的主备倒换或节点故障自动触发的故障倒换场景下,会上报该事件。 |
不需要处理。 |
无 |
|
出现热点分区键 |
HotKeyOccurs |
重要 |
客观上是因为主键设置不合理,使得热点数据集中分布在一个分区。客户端不合理的应用程序设计,造成对某一key的频繁读写。 |
1. 选择合理的分区键。 2. 业务增加缓存,业务应用先从缓存中读取热点数据。 |
影响业务请求成功率,存在影响集群性能及稳定性的风险。 |
|
出现超大分区键 |
BigKeyOccurs |
重要 |
主键设计不合理,单个分区的记录数或数据量过大,引起了节点负载不均。 |
1. 选择合理的分区键 2. 基于现有分区键,增加分区键散列。 |
随着数据量增长,集群稳定性会下降。 |
|
数据盘空间不足 |
NoSQLRiskyDataDiskUsage |
重要 |
数据盘空间不足,产生此告警。 |
请参见对应服务用户指南中“扩容磁盘”的内容,进行磁盘扩容。 |
实例被设为只读模式,数据无法写入。 |
|
数据盘空间已扩容并恢复可写 |
NoSQLDataDiskUsageRecovered |
重要 |
数据盘空间已扩容并恢复可写,产生此事件。 |
无需处理。 |
无 |
|
创建索引失败 |
NoSQLCreateIndexFailed |
重要 |
业务负载超过实例规格瓶颈,此时再创建索引会耗费更多实例资源,导致响应变慢甚至卡顿,最终超时,引起索引创建失败。 |
1、根据业务负载,选择匹配的实例规格 2、在业务低峰期创建索引 3、使用后台方式创建索引 4、索引字段,结合业务进行合理选择。 |
索引创建失败或不完整,导致索引无效,需要删掉索引重新创建。 |
|
发生写入降速 |
NoSQLStallingOccurs |
重要 |
写入速度快,接近集群规模和实例规格范围允许最大写能力,从而触发数据库自身的限流机制,会发生请求失败情况 |
1. 根据业务的最大写请求速率,调整集群规模或者节点规格 2. 衡量业务的最大写请求速率,分散业务写峰值速率 |
影响业务的请求的成功率 |
|
发生写入停止 |
NoSQLStoppingOccurs |
重要 |
写入速度过快,达到集群规模和实例规格范围允许最大写能力,从而触发数据库自身的限流机制,会发生请求失败情况 |
1. 根据业务的最大写请求速率,调整集群规模或者节点规格 2. 衡量业务的最大写请求速率,分散业务写峰值速率 |
影响业务的请求的成功率 |
|
重启数据库失败 |
NoSQLRestartDBFailed |
重要 |
一般是由于实例状态异常等原因导致。 |
提交工单让运维处理。 |
数据库实例状态可能存在异常。 |
|
恢复到新实例失败 |
NoSQLRestoreToNewInstanceFailed |
重要 |
一般是由于底层资源不足等原因导致。 |
提交工单让运维在后台协调资源,重新尝试添加新节点。 |
无法恢复到新的数据库实例。 |
|
恢复到已有实例失败 |
NoSQLRestoreToExistInstanceFailed |
重要 |
一般是由于备份文件下载或恢复失败等原因导致。 |
提交工单让运维处理。 |
当前数据库实例可能处于不可用状态。 |
|
删除备份文件失败 |
NoSQLDeleteBackupFailed |
重要 |
一般是由于备份文件从obs删除失败导致。 |
重新尝试删除备份文件。 |
无 |
|
切换慢日志明文开关失败 |
NoSQLSwitchSlowlogPlainTextFailed |
重要 |
一般是由于接口不支持切换等原因导致。 |
请查阅NoSQL用户指南,确认接口支持打开慢日志明文开关。提交工单让运维处理。 |
无 |
|
绑定EIP失败 |
NoSQLBindEipFailed |
重要 |
一般是由于节点状态不正常,节点已经绑定EIP或EIP非法等原因导致。 |
检查节点是否正常,EIP是否合法。 |
无法通过公网访问数据库实例。 |
|
解绑EIP失败 |
NoSQLUnbindEipFailed |
重要 |
一般是由于节点状态不正常,节点已经未绑定EIP等原因导致。 |
检查节点和EIP状态是否正常。 |
无 |
|
修改参数失败 |
NoSQLModifyParameterFailed |
重要 |
一般是由于参数取值非法等原因导致。 |
排查参数值是否符合在合法范围内,提交工单让运维处理。 |
无 |
|
参数模板应用失败 |
NoSQLApplyParameterGroupFailed |
重要 |
一般是由于实例状态异常导致参数模板无法应用等原因导致。 |
提交工单让运维处理。 |
无 |
|
开启或关闭SSL失败 |
NoSQLSwitchSSLFailed |
重要 |
一般是由于修改SSL命令超时导致。 |
重新提交一次或者提交工单处理,并先保持切换之前使用SSL的连接方式。 |
是否使用SSL连接。 |
|
单行数据量太大 |
LargeRowOccurs |
重要 |
用户单行数据量过大,可能会导致查询超时,进而节点OOM异常等各种故障发生。 |
1. 对每列和每行的写入长度做限制,遵从规范,使得单行的的key和value长度和不超过阈值。 2. 排查业务是否出现异常写入和异常编码,导致写入大row。 |
过大的单行记录,随着数据量增长,集群稳定性会下降。 |