事件监控支持的事件说明
事件来源 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|
弹性云服务器 |
恢复超时(后台处理中) |
faultAutoRecovery |
重要 |
迁移弹性云服务器至正常的物理机操作超时。 |
迁移业务至其他云服务器。 |
业务中断。 |
因系统故障触发重启 |
startAutoRecovery |
重要 |
弹性云服务器所在的主机出现故障时,系统会自动将弹性云服务器迁移至正常的物理机,迁移过程中系统会自动重启云服务器。 |
等待恢复成功,观察业务是否受到影响。 |
业务存在中断的可能。 |
|
因系统故障重启已完成 |
endAutoRecovery |
重要 |
当自动迁移完成后,弹性云服务器已恢复正常。 |
当收到“恢复成功”时,云服务器已正常工作,可继续使用。 |
业务恢复正常。 |
|
GPU链路故障 |
GPULinkFault |
紧急 |
弹性云服务器所在的主机上GPU卡故障。包括:
|
业务应用做成高可用。 GPU卡故障恢复后,确认业务是否自动恢复。 |
业务中断。 |
|
FPGA链路故障 |
FPGALinkFault |
紧急 |
弹性云服务器所在的主机上FPGA卡故障。包括:
|
业务应用做成高可用。 FPGA卡故障恢复后,确认业务是否自动恢复。 |
业务中断。 |
|
删除虚拟机 |
deleteServer |
重要 |
删除云服务器。包括:
|
确认删除操作是否为主动执行。 |
业务中断。 |
|
重启虚拟机 |
rebootServer |
次要 |
云服务器重启。包括:
|
确认操作是否为主动执行。
|
业务中断。 |
|
关闭虚拟机 |
stopServer |
次要 |
云服务器关机。包括:
说明:
“关闭虚拟机”事件需要开启云审计后才生效,详细请参见《云审计服务用户指南》。 |
|
业务中断。 |
|
删除网卡 |
deleteNic |
重要 |
云服务器删除网卡。包括:
|
|
网卡被删除,存在业务中断的可能。 |
|
变更规格 |
resizeServer |
次要 |
云服务器规格变更。包括:
|
|
业务中断。 |
|
GuestOS系统层重启告警 |
RestartGuestOS |
一般 |
GuestOS内部重启。 |
联系运维人员处理。 |
在系统重启场景下,可能导致业务中断。 |
|
主机进程异常导致虚拟机故障 |
VMFaultsByHostProcessExceptions |
紧急 |
云服务器所在宿主机服务进程异常,导致云服务器故障。 |
联系运维人员处理 |
云服务器故障。 |
|
开机失败 |
faultPowerOn |
重要 |
云服务器开机失败。 |
重试开机,若仍开机失败,联系运维人员处理。 |
云服务器无法开机。 |
|
宿主机存在宕机风险 |
hostMayCrash |
重要 |
弹性云服务器所在的宿主机存在宕机风险,且由于一些原因,无法通过热迁移手段规避该风险。 |
将该弹性云服务器上业务移除,并将该弹性云服务器删除或关机,等待运维人员处理完风险后再开机。 |
可能因为宿主机宕机而导致业务中断。 |
|
开始热迁移 |
liveMigrationStarted |
重要 |
弹性云服务器所在的主机可能出现故障,提前对虚拟机进行热迁移,避免宕机后导致业务中断。 |
等待事件结束,观察业务是否受到影响。 |
业务可能出现1s以内的网络中断。 |
|
结束热迁移 |
liveMigrationCompleted |
重要 |
热迁移已经结束,弹性云服务器已恢复正常。 |
观察业务是否正常运行。 |
无。 |
|
热迁移失败 |
liveMigrationFailed |
重要 |
弹性云服务器热迁移出现问题,未热迁移成功。 |
观察业务是否正常运行。 |
小概率存在业务中断的可能。 |
自动恢复:弹性云服务器所在的硬件出现故障时,系统会自动将弹性云服务器迁移至正常的物理机,该过程会导致云服务器重启。
事件来源 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|
BMS |
主机重启 |
osReboot |
重要 |
裸金属实例重启。包括:
|
|
业务中断 |
异常重启 |
serverReboot |
重要 |
裸金属实例异常重启。包括:
|
|
业务中断 |
|
主机关机 |
osShutdown |
重要 |
裸金属实例关机。包括:
|
|
业务中断 |
|
异常关机 |
serverShutdown |
重要 |
裸金属实例异常关机。包括:
|
|
业务中断 |
|
网络中断 |
linkDown |
重要 |
裸金属服务器网络中断。包括:
|
|
业务中断 |
|
PCIE异常 |
pcieError |
重要 |
裸金属服务器PCIe设备硬件故障。包括:
|
|
影响网络或硬盘读写业务 |
|
硬盘故障 |
diskError |
重要 |
裸金属服务器磁盘故障。包括:
|
|
影响数据读写业务或主机无法启动 |
|
云存储连接异常 |
storageError |
重要 |
裸金属服务器云硬盘链接异常。包括:
|
|
影响数据读写业务或主机无法启动 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
EIP |
SYS.EIP |
EIP带宽超限事件 |
EIPBandwidthOverflow |
重要 |
当前使用带宽已超过购买的带宽,可能会导致网络变慢或丢包发生。其中,该事件取值为周期内的最大值,而EIP的出入网带宽指标数据,取值为周期时间点的值。 其中: “egressDropBandwidth”为本周期内出云丢弃带宽值(Byte),“egressAcceptBandwidth”为本周期内出云通过带宽值(Byte),“egressMaxBandwidthPerSec”为本周期内出云带宽峰值(Byte/s),“ingressAcceptBandwidth”为本周期内入云通过带宽值(Byte),“ingressMaxBandwidthPerSec”为本周期内入云带宽峰值(Byte/s),“ingressDropBandwidth”为本周期内入云丢弃带宽值(Byte)。 |
检查EIP带宽是否一直增加,业务是否正常,并考虑扩容。 |
网络变慢或丢包发生 |
释放EIP |
deleteEip |
次要 |
EIP资源被删除。 |
检查是否误操作删除资源。 |
无法访问公网 |
||
EIP封堵 |
blockEIP |
紧急 |
带宽超过5GB就会封堵,相当于把流量直接丢弃。带宽严重超限或受到攻击,一般是受到了DDoS攻击。 |
更换EIP,避免业务受到影响。 同时查看事件中的封堵原因,进行相应处理。 |
业务受影响 |
||
EIP解封 |
unblockEIP |
紧急 |
EIP封堵已被解封。 |
换回原EIP,将被解封EIP重新使用,避免资源浪费。 |
无 |
||
EIP开始DDoS清洗 |
ddosCleanEIP |
严重 |
客户购买的EIP发生了DDoS清洗。 |
查看是否遭受攻击。 |
客户的业务可能受损。 |
||
EIP结束DDoS清洗 |
ddosEndCleanEip |
严重 |
客户购买的EIP结束了DDoS清洗。 |
查看是否遭受攻击。 |
客户的业务可能受损。 |
||
企业级Qos带宽超限事件 |
EIPBandwidthRuleOverflow |
重要 |
当前使用企业级Qos带宽已超过分配的带宽,可能会导致网络变慢或丢包发生。其中,该事件取值为周期内的最大值,而EIP的出入网带宽指标数据,取值为周期时间点的值。 其中:“egressDropBandwidth”为本周期内出云丢弃带宽值(Byte),“egressAcceptBandwidth”为本周期内出云通过带宽值(Byte),“egressMaxBandwidthPerSec”为本周期内出云带宽峰值(Byte/s),“ingressAcceptBandwidth”为本周期内入云通过带宽值(Byte),“ingressMaxBandwidthPerSec”为本周期内入云带宽峰值(Byte/s),“ingressDropBandwidth”为本周期内入云丢弃带宽值(Byte)。 |
检查EIP带宽是否一直增加,业务是否正常,并考虑扩容。 |
网络变慢或丢包发生。 |
事件来源 |
事件名称 |
事件ID |
事件级别 |
---|---|---|---|
EIP |
释放EIP |
deleteEip |
次要 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
DDoS高防 |
SYS.DDOS |
DDoS攻击事件 |
ddosAttackEvents |
严重 |
客户购买的高防实例线路出现了DDoS攻击。 |
根据攻击流量和攻击类型判断对业务的影响,如果攻击流量超过客户购买的弹性带宽需要更换线路或提升规格。 |
客户的业务可能受损。 |
域名调度事件 |
domainNameDispatchEvents |
重要 |
域名对应的高防cname触发了调度,修改了解析记录到其他的高防IP上。 |
请关注该域名的业务情况。 |
一般情况下业务不受影响。 |
||
黑洞事件 |
blackHoleEvents |
重要 |
客户的高防实例攻击流量超出购买的防护阈值。 |
黑洞解封时间默认为30分钟,具体时长与当日黑洞触发次数和攻击峰值相关,最长可达24小时。如需提前解封,需要用户升级DDoS高防服务并联系技术支持。 |
客户的业务可能受损。 |
||
黑洞恢复 |
cancelBlackHole |
提示 |
客户的高防实例从黑洞状态恢复。 |
仅作提示,无需特殊处理。 |
客户的业务恢复。 |
||
IP调度事件 |
ipDispatchEvents |
重要 |
IP路由发生变化 |
请关注该IP的业务情况。 |
一般情况下业务不受影响。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
CBR |
SYS.CBR |
创建备份失败 |
backupFailed |
紧急 |
创建备份失败 |
尝试手动创建备份或者联系技术支持 |
可能造成数据丢失 |
使用备份恢复资源失败 |
restorationFailed |
紧急 |
使用备份恢复资源失败 |
尝试使用其他备份恢复或者联系技术支持 |
可能造成数据丢失 |
||
备份删除失败 |
backupDeleteFailed |
紧急 |
备份删除失败 |
稍后重试删除或者联系技术支持 |
可能造成计费异常 |
||
存储库删除失败 |
vaultDeleteFailed |
紧急 |
储存库删除失败 |
稍后重试或联系技术支持 |
可能造成计费异常 |
||
复制失败 |
replicationFailed |
紧急 |
备份复制失败 |
稍后重试或联系技术支持 |
可能造成数据丢失 |
||
创建备份成功 |
backupSucceeded |
重要 |
创建备份成功 |
无 |
无 |
||
使用备份恢复资源成功 |
restorationSucceeded |
重要 |
使用备份恢复资源成功 |
观察数据是否已成功恢复。 |
无 |
||
备份删除成功 |
backupDeletionSucceeded |
重要 |
备份删除成功 |
无 |
无 |
||
存储库删除成功 |
vaultDeletionSucceeded |
重要 |
存储库删除成功 |
无 |
无 |
||
复制成功 |
replicationSucceeded |
重要 |
备份复制成功 |
无 |
无 |
||
客户端离线 |
agentOffline |
紧急 |
客户端离线 |
请确保客户端状态正常且能够正常连接云服务平台。 |
可能造成备份任务失败。 |
||
客户端上线 |
agentOnline |
重要 |
客户端上线 |
无。 |
无。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
RDS |
SYS.RDS |
创建实例业务失败 |
createInstanceFailed |
重要 |
创建实例失败产生的事件,一般是磁盘个数,配额大小不足,底层资源耗尽导致。 |
检查磁盘个数、配额大小,释放资源后重新创建。 |
无法创建数据库实例。 |
实例全量备份失败 |
fullBackupFailed |
重要 |
单次全量备份失败产生的事件,不影响以前成功备份的文件,但会对“恢复到指定时间点”的功能有一些影响,导致“恢复到指定时间点”时增量备份的恢复时间延长。 |
重新执行一次手工备份。 |
备份失败。 |
||
主备切换异常 |
activeStandBySwitchFailed |
重要 |
主备切换异常是由于网络、物理机有某种故障导致备机没有接管主机的业务,短时间内会恢复到原主机继续提供服务。 |
检查应用和数据库之间的连接是否重新建立了连接。 |
无 |
||
主备切换失败复制状态异常 |
abnormalReplicationStatus |
重要 |
出现”复制状态异常“事件通常有两种情况: 1、主机与备机或只读实例之间复制时延太大(一般在写入大量数据或执行大事务的时候出现),在业务高峰期容易出现阻塞。 2、主机与备机或只读实例之间的网络中断,导致主机与备机或只读实例复制异常。 |
提交工单。 |
但不会导致原来单实例的读写中断,客户的应用是无感知的。 |
||
复制状态异常已恢复 |
replicationStatusRecovered |
重要 |
即复制时延已回到正常范围内,或者主备之间的网络通信恢复。 |
不需要处理。 |
无 |
||
实例运行状态异常 |
faultyDBInstance |
重要 |
由于灾难或者物理机故障导致单机或者主实例故障时会上报本事件,属于关键告警事件。 |
检查是否有设置自动备份策略,并且提交工单。 |
可能导致数据库服务不可用。 |
||
实例运行状态异常已恢复 |
DBInstanceRecovered |
重要 |
RDS单机实例灾难或物理机故障恢复,主备实例自动进行主备故障切换,完成后会上报本事件。 |
不需要处理。 |
无 |
||
单实例转主备实例失败 |
singleToHaFailed |
重要 |
创建备机时或备机创建完成后主备机之间配置同步发生故障时会产生此事件,一般是由于备节点所在数据中心资源不足导致。 |
提交工单。 |
“单实例转主备实例失败”不会导致原来单实例的读写中断,客户的应用是无感知的。 |
||
数据库进程重新启动 |
DatabaseProcessRestarted |
重要 |
一般是内存不足、负载过高导致数据库进程停止 |
通过云监控的数据,查看是否有内存飙升、cpu长期过高、磁盘满使用率不足等的情况,可以选择提升CPU内存规格或者优化业务逻辑。 |
进程异常退出的时候,业务中断。RDS服务会自动拉起进程,尝试恢复业务。 |
||
实例磁盘满 |
instanceDiskFull |
重要 |
一般是由于数据空间占用过大导致。 |
实例磁盘满,请进行扩容操作。 |
实例由于磁盘空间满将会变成只读实例,数据库不可进行写入操作。 |
||
实例磁盘满恢复 |
instanceDiskFullRecovered |
重要 |
实例磁盘状态恢复正常。 |
不需要处理。 |
实例解除只读状态,恢复写操作。 |
||
kafka连接失败 |
kafkaConnectionFailed |
重要 |
一般是由于网络波动或kafka服务端出现异常等原因导致。 |
检查网络状况和kafka服务端状态。 |
审计日志无法发送到kafka服务端。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
---|---|---|---|---|---|
RDS |
SYS.RDS |
重置数据库管理员密码 |
resetPassword |
重要 |
重置数据库管理员密码。 |
集群扩容等操作 |
instanceAction |
重要 |
磁盘扩容、规格变更。 |
||
删除集群下的实例 |
deleteInstance |
次要 |
删除集群下的实例。 |
||
修改备份策略 |
setBackupPolicy |
次要 |
修改备份策略。 |
||
修改参数组 |
updateParameterGroup |
次要 |
修改参数组。 |
||
删除参数组 |
deleteParameterGroup |
次要 |
删除参数组。 |
||
重置参数组 |
resetParameterGroup |
次要 |
重置参数组。 |
||
修改数据库端口号 |
changeInstancePort |
重要 |
修改数据库端口号。 |
||
实例主备切换 |
PrimaryStandbySwitched |
重要 |
实例主备切换。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
DDS |
SYS.DDS |
创建实例业务失败 |
DDSCreateInstanceFailed |
重要 |
创建文档数据库实例失败产生的事件,一般是由于磁盘个数、配额不足,底层资源耗尽导致。 |
检查磁盘个数、配额大小是否满足需求,并考虑释放资源后重新创建实例。 |
无法创建数据库实例。 |
复制状态异常 |
DDSAbnormalReplicationStatus |
重要 |
出现”复制状态异常“事件通常有两种情况: 1、主机与备机或只读实例之间复制时延太大(一般在写入大量数据或执行大事务的时候出现),在业务高峰期容易出现阻塞。 2、主机与备机或只读实例之间的网络中断,导致主机与备机或只读实例复制异常。 |
提交工单。 |
不会导致原来实例的读写中断,客户的应用是无感知的。 |
||
复制状态异常已恢复 |
DDSReplicationStatusRecovered |
重要 |
复制时延已回到正常范围内,或者主备之间的网络通信恢复。 |
不需要处理。 |
无 |
||
实例运行状态异常 |
DDSFaultyDBInstance |
重要 |
由于灾难或者物理机故障导致实例故障时,会上报该事件,属于关键告警事件。 |
提交工单。 |
可能导致数据库服务不可用。 |
||
实例运行状态异常已恢复 |
DDSDBInstanceRecovered |
重要 |
针对灾难性的故障,NoSQL有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。 |
不需要处理。 |
无 |
||
节点运行状态异常 |
DDSFaultyDBNode |
重要 |
由于灾难或者物理机故障导致数据库节点故障时,会上报该事件,属于关键告警事件。 |
检查数据库服务是否可以正常使用,并提交工单。 |
可能导致数据库服务不可用。 |
||
节点运行状态异常已恢复 |
DDSDBNodeRecovered |
重要 |
针对灾难性的故障,NoSQL有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。 |
不需要处理。 |
无 |
||
实例主备切换 |
DDSPrimaryStandbySwitched |
重要 |
在手动触发的主备倒换或节点故障自动触发的故障倒换场景下,会上报该事件。 |
不需要处理。 |
无 |
||
数据盘空间不足 |
DDSRiskyDataDiskUsage |
重要 |
数据盘空间不足,产生此告警。 |
请参见对应服务用户指南中“扩容磁盘”的内容,进行磁盘扩容。 |
实例被设为只读模式,数据无法写入。 |
||
数据盘空间已扩容并恢复可写 |
DDSDataDiskUsageRecovered |
重要 |
数据盘空间已扩容并恢复可写,产生此事件。 |
无需处理。 |
无影响。 |
||
用户计划删除KMS密钥 |
DDSplanDeleteKmsKey |
重要 |
一般是由于用户计划删除kms的key导致。 |
计划删除kms的key后,及时恢复kms的key或者及时解密数据。 |
kms的key被删除后用户无法进行磁盘加密。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
NoSQL |
SYS.NoSQL |
创建实例业务失败 |
NoSQLCreateInstanceFailed |
重要 |
一般是由于实例配额不足或底层资源不足等原因导致。 |
先释放不再使用的实例再尝试重新发放,或者提交工单调整配额上限。 |
无法创建数据库实例。 |
变更规格失败 |
NoSQLResizeInstanceFailed |
重要 |
一般是由于底层资源不足等原因导致。 |
提交工单让运维在后台协调资源再重试规格变更操作。 |
业务中断。 |
||
添加节点失败 |
NoSQLAddNodesFailed |
重要 |
一般是由于底层资源不足等原因导致。 |
提交工单让运维在后台协调资源,删除添加失败的节点,重新尝试添加新节点。 |
无 |
||
删除节点失败 |
NoSQLDeleteNodesFailed |
重要 |
一般是由于底层释放资源失败导致。 |
重新尝试删除节点。 |
无 |
||
扩卷失败 |
NoSQLScaleUpStorageFailed |
重要 |
一般是由于底层资源不足等原因导致。 |
提交工单让运维在后台协调资源再重试扩卷操作。 |
如果磁盘满,会导致业务中断。 |
||
重置密码失败 |
NoSQLResetPasswordFailed |
重要 |
一般是由于重置密码命令超时导致。 |
重新尝试重置密码操作。 |
无 |
||
修改参数组失败 |
NoSQLUpdateInstanceParamGroupFailed |
重要 |
一般是由于修改参数组命令超时导致。 |
重新尝试修改参数组操作。 |
无 |
||
设置备份策略失败 |
NoSQLSetBackupPolicyFailed |
重要 |
一般是由于数据库连接异常导致。 |
重新重试设置备份策略操作。 |
无 |
||
创建手动备份失败 |
NoSQLCreateManualBackupFailed |
重要 |
一般是备份文件导出失败或上传失败等原因导致。 |
提交工单让运维处理。 |
无法备份数据。 |
||
创建自动备份失败 |
NoSQLCreateAutomatedBackupFailed |
重要 |
一般是备份文件导出失败或上传失败等原因导致。 |
提交工单让运维处理。 |
无法备份数据。 |
||
实例运行状态异常 |
NoSQLFaultyDBInstance |
重要 |
由于灾难或者物理机故障导致实例故障时,会上报该事件,属于关键告警事件。 |
提交工单。 |
可能导致数据库服务不可用。 |
||
实例运行状态异常已恢复 |
NoSQLDBInstanceRecovered |
重要 |
针对灾难性的故障,NoSQL有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。 |
不需要处理。 |
无 |
||
节点运行状态异常 |
NoSQLFaultyDBNode |
重要 |
由于灾难或者物理机故障导致数据库节点故障时,会上报该事件,属于关键告警事件。 |
检查数据库服务是否可以正常使用,并提交工单。 |
可能导致数据库服务不可用。 |
||
节点运行状态异常已恢复 |
NoSQLDBNodeRecovered |
重要 |
针对灾难性的故障,NoSQL有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。 |
不需要处理。 |
无 |
||
实例主备切换 |
NoSQLPrimaryStandbySwitched |
重要 |
在手动触发的主备倒换或节点故障自动触发的故障倒换场景下,会上报该事件。 |
不需要处理。 |
无 |
||
出现热点分区键 |
HotKeyOccurs |
重要 |
客观上是因为主键设置不合理,使得热点数据集中分布在一个分区。客户端不合理的应用程序设计,造成对某一key的频繁读写。 |
1. 选择合理的分区键。 2. 业务增加缓存,业务应用先从缓存中读取热点数据。 |
影响业务请求成功率,存在影响集群性能及稳定性的风险。 |
||
出现超大分区键 |
BigKeyOccurs |
重要 |
主键设计不合理,单个分区的记录数或数据量过大,引起了节点负载不均。 |
1. 选择合理的分区键 2. 基于现有分区键,增加分区键散列。 |
随着数据量增长,集群稳定性会下降。 |
||
数据盘空间不足 |
NoSQLRiskyDataDiskUsage |
重要 |
数据盘空间不足,产生此告警。 |
请参见对应服务用户指南中“扩容磁盘”的内容,进行磁盘扩容。 |
实例被设为只读模式,数据无法写入。 |
||
数据盘空间已扩容并恢复可写 |
NoSQLDataDiskUsageRecovered |
重要 |
数据盘空间已扩容并恢复可写,产生此事件。 |
无需处理。 |
无 |
||
创建索引失败 |
NoSQLCreateIndexFailed |
重要 |
业务负载超过实例规格瓶颈,此时再创建索引会耗费更多实例资源,导致响应变慢甚至卡顿,最终超时,引起索引创建失败。 |
1、根据业务负载,选择匹配的实例规格 2、在业务低峰期创建索引 3、使用后台方式创建索引 4、索引字段,结合业务进行合理选择。 |
索引创建失败或不完整,导致索引无效,需要删掉索引重新创建。 |
||
发生写入降速 |
NoSQLStallingOccurs |
重要 |
写入速度快,接近集群规模和实例规格范围允许最大写能力,从而触发数据库自身的限流机制,会发生请求失败情况 |
1. 根据业务的最大写请求速率,调整集群规模或者节点规格 2. 衡量业务的最大写请求速率,分散业务写峰值速率 |
影响业务的请求的成功率 |
||
发生写入停止 |
NoSQLStoppingOccurs |
重要 |
写入速度过快,达到集群规模和实例规格范围允许最大写能力,从而触发数据库自身的限流机制,会发生请求失败情况 |
1. 根据业务的最大写请求速率,调整集群规模或者节点规格 2. 衡量业务的最大写请求速率,分散业务写峰值速率 |
影响业务的请求的成功率 |
||
重启数据库失败 |
NoSQLRestartDBFailed |
重要 |
一般是由于实例状态异常等原因导致。 |
提交工单让运维处理。 |
数据库实例状态可能存在异常。 |
||
恢复到新实例失败 |
NoSQLRestoreToNewInstanceFailed |
重要 |
一般是由于底层资源不足等原因导致。 |
提交工单让运维在后台协调资源,重新尝试添加新节点。 |
无法恢复到新的数据库实例。 |
||
恢复到已有实例失败 |
NoSQLRestoreToExistInstanceFailed |
重要 |
一般是由于备份文件下载或恢复失败等原因导致。 |
提交工单让运维处理。 |
当前数据库实例可能处于不可用状态。 |
||
删除备份文件失败 |
NoSQLDeleteBackupFailed |
重要 |
一般是由于备份文件从obs删除失败导致。 |
重新尝试删除备份文件。 |
无 |
||
切换慢日志明文开关失败 |
NoSQLSwitchSlowlogPlainTextFailed |
重要 |
一般是由于引擎不支持切换等原因导致。 |
请查阅NoSQL用户指南,确认引擎支持打开慢日志明文开关。提交工单让运维处理。 |
无 |
||
绑定EIP失败 |
NoSQLBindEipFailed |
重要 |
一般是由于节点状态不正常,节点已经绑定EIP或EIP非法等原因导致。 |
检查节点是否正常,EIP是否合法。 |
无法通过公网访问数据库实例。 |
||
解绑EIP失败 |
NoSQLUnbindEipFailed |
重要 |
一般是由于节点状态不正常,节点已经未绑定EIP等原因导致。 |
检查节点和EIP状态是否正常。 |
无 |
||
修改参数失败 |
NoSQLModifyParameterFailed |
重要 |
一般是由于参数取值非法等原因导致。 |
排查参数值是否符合在合法范围内,提交工单让运维处理。 |
无 |
||
参数组应用失败 |
NoSQLApplyParameterGroupFailed |
重要 |
一般是由于实例状态异常导致参数组无法应用等原因导致。 |
提交工单让运维处理。 |
无 |
||
开启或关闭SSL失败 |
NoSQLSwitchSSLFailed |
重要 |
一般是由于修改SSL命令超时导致。 |
重新提交一次或者提交工单处理,并先保持切换之前使用SSL的连接方式。 |
是否使用SSL连接。 |
||
单行数据量太大 |
LargeRowOccurs |
重要 |
用户单行数据量过大,可能会导致查询超时,进而节点OOM异常退出等各种故障发生。 |
1. 对每列和每行的写入长度做限制,遵从规范,使得单行的的key和value长度和不超过阈值。 2. 排查业务是否出现异常写入和异常编码,导致写入大row。 |
过大的单行记录,随着数据量增长,集群稳定性会下降。 |
||
用户计划删除KMS密钥 |
NoSQLplanDeleteKmsKey |
重要 |
一般是由于用户计划删除kms的key导致。 |
计划删除kms的key后,及时恢复kms的key或者及时解密数据。 |
kms的key被删除后用户无法进行磁盘加密。 |
||
查询墓碑数过多 |
TooManyQueryTombstones |
重要 |
查询墓碑数过多,可能会导致查询超时,影响查询性能。 |
使用合理的查询删除方式,避免大批次的范围查询 |
可能会导致查询超时,影响查询性能。 |
||
超大集合列 |
TooLargeCollectionColumn |
重要 |
当集合列元素个数太多时,会出现集合列查询失败。 |
|
会出现集合列查询失败。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
GaussDB(for MySQL) |
SYS.GAUSSDB |
实例增量备份业务失败 |
TaurusIncrementalBackupInstanceFailed |
重要 |
实例增量备份失败产生的事件,一般是管理节点到实例网络或者实例到OBS存储的网络异常,或者实例备份环境异常。 |
提交工单。 |
无法完成实例备份业务操作。 |
添加只读节点失败 |
addReadonlyNodesFailed |
重要 |
创建实例只读节点失败产生的事件,一般是底层资源耗尽导致。 |
检查并释放资源后重新创建。 |
无法创建数据库实例只读节点。 |
||
创建实例业务失败 |
createInstanceFailed |
重要 |
创建实例失败产生的事件,一般是配额大小不足,底层资源耗尽导致。 |
检查配额大小,释放资源后重新创建。 |
无法创建数据库实例。 |
||
主备切换异常 |
activeStandBySwitchFailed |
重要 |
主备切换异常主要是由于网络、物理机有某种故障导致只读节点没有接管主节点的业务,短时间内会恢复到原主节点继续提供服务。 |
提交工单。 |
无法完成主备切换(只读升主)。 |
||
规格变更业务失败 |
flavorAlterationFailed |
重要 |
规格变更失败产生的事件,一般是配额大小不足,底层资源耗尽导致。 |
提交工单。 |
无法完成规格变更。 |
||
实例运行状态异常 |
TaurusInstanceRunningStatusAbnormal |
重要 |
实例运行状态异常产生的事件,可能原因是实例进程故障,或者实例到DFV存储间通信问题。 |
提交工单。 |
实例异常,业务可能受损。 |
||
实例运行状态异常已恢复 |
TaurusInstanceRunningStatusRecovered |
重要 |
实例运行状态异常后恢复产生的事件。 |
观察业务运行情况。 |
无。 |
||
节点运行状态异常 |
TaurusNodeRunningStatusAbnormal |
重要 |
运行节点状态异常产生的事件,可能原因是节点进程故障,或者节点到DFV存储间通信问题。 |
观察实例状态和业务运行情况。 |
节点异常,可能触发只读升主。 |
||
节点运行状态异常已恢复 |
TaurusNodeRunningStatusRecovered |
重要 |
节点运行状态异常后恢复产生的事件。 |
观察业务情况。 |
无。 |
||
删除只读节点失败 |
TaurusDeleteReadOnlyNodeFailed |
重要 |
删除只读节点失败产生的事件,可能原因是管理面到实例节点通信异常或者请求IaaS删除虚机失败。 |
提交工单。 |
无法完成删除只读节点操作。 |
||
实例重置密码失败 |
TaurusResetInstancePasswordFailed |
重要 |
实例重置密码失败产生的事件,可能原因是管理面到实例通信异常或者实例状态异常件。 |
检查确认实例状态后重试,未解决则提交工单。 |
无法完成实例重置密码操作。 |
||
实例重启失败 |
TaurusRestartInstanceFailed |
重要 |
实例重启失败产生的事件,可能原因是管理面到实例通信异常或者实例状态异常件。 |
检查确认实例状态后重试,未解决则提交工单。 |
无法完成实例重启操作。 |
||
恢复到新实例失败 |
TaurusRestoreToNewInstanceFailed |
重要 |
恢复到新实例失败产生的事件,一般是新创建实例配额大小不足,底层资源耗尽导致或者数据恢复逻辑出错。 |
如果是新创建实例失败,检查配额大小,释放资源后重新恢复到新实例,其他情况提交工单。 |
无法完成恢复到新实例。 |
||
实例绑定EIP失败 |
TaurusBindEIPToInstanceFailed |
重要 |
实例绑定EIP失败产生的事件,绑定任务执行错误。 |
提交工单。 |
无法完成绑定EIP操作。 |
||
实例解绑EIP失败 |
TaurusUnbindEIPFromInstanceFailed |
重要 |
实例解绑EIP失败产生的事件,绑定任务执行错误。 |
提交工单。 |
无法完成解绑EIP操作。 |
||
实例修改参数失败 |
TaurusUpdateInstanceParameterFailed |
重要 |
实例修改参数失败产生的事件,一般是管理节点到实例网络异常,或者实例状态异常。 |
检查确认实例状态后重试,未解决则提交工单。 |
无法完成实例修改参数操作。 |
||
实例参数组应用失败 |
TaurusApplyParameterGroupToInstanceFailed |
重要 |
实例参数组应用失败产生的事件,一般是管理节点到实例网络异常,或者实例状态异常。 |
检查确认实例状态后重试,未解决则提交工单。 |
无法完成实例参数组应用操作。 |
||
实例全量备份业务失败 |
TaurusBackupInstanceFailed |
重要 |
实例全量备份失败产生的事件,一般是管理节点到实例网络或者实例到OBS存储的网络异常,或者实例备份环境异常。 |
提交工单。 |
无法完成实例备份业务操作。 |
||
实例发生主备倒换 |
TaurusActiveStandbySwitched |
重要 |
实例发生主备倒换,主要是由于主节点的网络,物理机以及数据库运行出现故障时,GaussDB HA系统会按照倒换优先级将1个只读节点升为主机,以持续提供服务。 |
|
倒换时业务连接会短时间中断,升主完成后可重新连接数据库。 |
||
数据库设置为只读模式 |
NodeReadonlyMode |
重要 |
数据库设置为只读状态,只支持查询类操作。 |
提交工单。 |
数据库设置只读状态后,所有写业务返回失败。 |
||
数据库设置为读写模式 |
NodeReadWriteMode |
重要 |
数据库设置为读写状态 |
提交工单。 |
无 |
||
实例容灾切换 |
DisasterSwitchOver |
重要 |
实例故障不可用,通过主备切换保证数据库继续对外提供服务。 |
联系技术支持团队处理。 |
访问数据库的业务出现闪断,高可用服务通过切换机制保证新机器升主继续对外提供服务。 |
||
数据库进程重新启动 |
TaurusDatabaseProcessRestarted |
重要 |
一般是内存不足、负载过高导致数据库进程停止。 |
通过云监控的数据,查看是否有内存飙升、CPU长期过高等的情况,可以选择提升CPU内存规格或者优化业务逻辑。 |
数据库进程挂掉的时候,该节点业务中断。高可用服务会自动拉起进程,尝试恢复业务。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
GaussDB |
SYS.GAUSSDBV5 |
进程状态告警 |
ProcessStatusAlarm |
重要 |
GaussDB关键进程退出,包括:CMS/CMA、ETCD、GTM、CN、DN。 |
等待进程自动恢复或者自动主备切换,观察业务是否恢复。如果业务未恢复,联系SRE。 |
主机进程故障,在主机上进行的业务将中断回滚。备机进程故障不影响业务。 |
组件状态告警 |
ComponentStatusAlarm |
重要 |
GaussDB关键组件无响应,包括:CMA、ETCD、GTM、CN、DN。 |
等待进程自动恢复或者自动主备切换,观察业务是否恢复。如果业务未恢复,联系SRE。 |
主机进程无响应,在主机上进行的业务将无响应。备机进程故障不影响业务。 |
||
集群状态告警 |
ClusterStatusAlarm |
重要 |
集群状态异常,包括: 集群只读、ETCD多数派故障、集群分布不均衡。 |
联系SRE。 |
集群只读: 业务只读。 ETCD多数派故障:集群不可用。 集群分布不均衡:集群性能/可靠性降低。 |
||
硬件资源告警 |
HardwareResourceAlarm |
重要 |
集群中出现严重的硬件故障,包括:磁盘损坏、GTM网络通信故障。 |
联系SRE。 |
业务部分/全部受损。 |
||
状态转换告警 |
StateTransitionAlarm |
重要 |
集群出现如下重要事件:DN build/build失败、DN强切、DN主备切换/failover、GTM主备切换/failover。 |
等待自动恢复,观察业务是否恢复。如果业务未恢复,联系SRE。 |
部分业务受损。 |
||
其他异常告警 |
OtherAbnormalAlarm |
重要 |
磁盘使用阈值告警等。 |
关注业务变化,及时计划扩容。 |
超过使用阈值,将无法扩容。 |
||
实例运行状态异常 |
TaurusInstanceRunningStatusAbnormal |
重要 |
由于灾难或者物理机故障导致实例故障时,会上报该事件,属于关键告警事件。 |
提交工单。 |
可能导致数据库服务不可用。 |
||
实例运行状态异常已恢复 |
TaurusInstanceRunningStatusRecovered |
重要 |
针对灾难性的故障,GaussDB有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。 |
不需要处理。 |
无 |
||
节点运行状态异常 |
TaurusNodeRunningStatusAbnormal |
重要 |
由于灾难或者物理机故障导致数据库节点故障时,会上报该事件,属于关键告警事件。 |
检查数据库服务是否可以正常使用,并提交工单。 |
可能导致数据库服务不可用。 |
||
节点运行状态异常已恢复 |
TaurusNodeRunningStatusRecovered |
重要 |
针对灾难性的故障,GaussDB有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。 |
不需要处理。 |
无 |
||
创建实例业务失败 |
GaussDBV5CreateInstanceFailed |
重要 |
创建实例失败产生的事件,一般是配额大小不足,底层资源耗尽导致。 |
先释放不再使用的实例再尝试重新发放,或者提交工单调整配额上限。 |
无法创建数据库实例。 |
||
添加节点失败 |
GaussDBV5ExpandClusterFailed |
重要 |
一般是由于底层资源不足等原因导致。 |
提交工单让运维在后台协调资源,删除添加失败的节点,重新尝试添加新节点。 |
无 |
||
存储扩容失败 |
GaussDBV5EnlargeVolumeFailed |
重要 |
一般是由于底层资源不足等原因导致。 |
提交工单让运维在后台协调资源再重试扩容操作。 |
如果磁盘满,会导致业务中断。 |
||
重启失败 |
GaussDBV5RestartInstanceFailed |
重要 |
一般是由于网络问题等原因导致 |
重试重启操作或提交工单让运维处理。 |
可能导致数据库服务不可用。 |
||
全量备份失败 |
GaussDBV5FullBackupFailed |
重要 |
一般是备份文件导出失败或上传失败等原因导致。 |
提交工单让运维处理。 |
无法备份数据。 |
||
差量备份失败 |
GaussDBV5DifferentialBackupFailed |
重要 |
一般是备份文件导出失败或上传失败等原因导致。 |
提交工单让运维处理。 |
无法备份数据。 |
||
删除备份失败 |
GaussDBV5DeleteBackupFailed |
重要 |
无需实现。 |
- |
- |
||
绑定EIP失败 |
GaussDBV5BindEIPFailed |
重要 |
弹性公网IP已被占用或IP资源等原因导致。 |
提交工单让运维处理。 |
导致实例无法使用公网链接或访问 |
||
解绑EIP失败 |
GaussDBV5UnbindEIPFailed |
重要 |
网络故障或公网EIP服务故障等原因导致。 |
重新解绑Ip或提交工单让运维处理。 |
可能导致IP资源残留 |
||
参数组应用失败 |
GaussDBV5ApplyParamFailed |
重要 |
一般是由于修改参数组命令超时导致。 |
重新尝试修改参数组操作。 |
无 |
||
参数修改失败 |
GaussDBV5UpdateInstanceParamGroupFailed |
重要 |
一般是由于修改参数组命令超时导致。 |
重新尝试修改参数组操作。 |
无 |
||
备份恢复失败 |
GaussDBV5RestoreFromBcakupFailed |
重要 |
一般是由底层资源不足或备份文件下载失败等原因导致 |
提交工单。 |
可能导致在恢复失败期间数据库服务不可用 |
||
升级热补丁失败 |
GaussDBV5UpgradeHotfixFailed |
重要 |
一般是内核升级时报错导致。 |
查看工作流报错信息,重做跳过等。 |
无 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
DDM |
SYS.DDM |
创建实例失败 |
createDdmInstanceFailed |
重要 |
一般是由于底层资源不足等原因导致。 |
释放资源后重新创建。 |
无法创建DDM实例。 |
变更规格失败 |
resizeFlavorFailed |
重要 |
一般是由于底层资源不足等原因导致。 |
请工单联系运维在后台协调资源再重试规格变更操作。 |
部分节点业务中断 |
||
节点扩容失败 |
enlargeNodeFailed |
重要 |
一般是由于底层资源不足等原因导致。 |
请工单联系运维后台协调资源,删除添加失败的节点,重新尝试添加节点 |
节点扩容失败 |
||
节点缩容失败 |
reduceNodeFailed |
重要 |
一般是由于底层释放资源失败等原因导致。 |
请工单联系运维后台处理资源。 |
节点缩容失败 |
||
重启实例失败 |
restartInstanceFailed |
重要 |
一般是由于底层关联数据库实例异常等原因导致。 |
建议先排查底层数据库实例是否异常,如果无异常请工单联系运维进行排查。 |
部分节点业务中断 |
||
创建逻辑库失败 |
createLogicDbFailed |
重要 |
一般是由于以下几种原因导致的: 1、数据库实例账号密码错误;2、DDM实例与底层数据库实例安全组设置错误,导致无法通信。 |
请排查: 1、数据库实例账号密码是否错误;2、DDM实例与底层数据库实例安全组是否设置正确等问题。 |
业务无法正常运行 |
||
绑定弹性公网IP失败 |
bindEipFailed |
重要 |
一般是由于EIP服务繁忙。 |
稍后重试,紧急情况下请联系运维排查问题。 |
无法通过公网访问服务 |
||
逻辑库扩容失败 |
migrateLogicDbFailed |
重要 |
一般是由于底层处理失败。 |
请工单联系运维处理。 |
无法实现逻辑库扩容 |
||
逻辑库扩容重试失败 |
retryMigrateLogicDbFailed |
重要 |
一般是由于底层处理失败。 |
请工单联系运维处理。 |
无法实现逻辑库扩容 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
CPH |
SYS.CPH |
主机关机 |
cphServerOsShutdown |
重要 |
云手机服务器关机。包括:
|
业务应用做成高可用。 云手机服务器恢复后,确认业务是否自动恢复。 |
业务中断。 |
异常关机 |
cphServerShutdown |
重要 |
云手机服务器异常关机。包括:
|
业务应用做成高可用。 云手机服务器恢复后,确认业务是否自动恢复。 |
业务中断。 |
||
主机重启 |
cphServerOsReboot |
重要 |
云手机服务器重启。包括:
|
业务应用做成高可用。 云手机服务器恢复后,确认业务是否自动恢复。 |
业务中断 |
||
异常重启 |
cphServerReboot |
重要 |
云手机服务器异常重启。包括:
|
业务应用做成高可用。 云手机服务器恢复后,确认业务是否自动恢复。 |
业务中断。 |
||
网络中断 |
cphServerlinkDown |
重要 |
云手机服务器网络中断。包括:
|
业务应用做成高可用。 云手机服务器恢复后,确认业务是否自动恢复。 |
业务中断。 |
||
PCIE异常 |
cphServerPcieError |
重要 |
云手机服务器PCIe设备硬件故障。包括:
|
业务应用做成高可用。 云手机服务器恢复后,确认业务是否自动恢复。 |
影响网络或硬盘读写业务 |
||
硬盘故障 |
cphServerDiskError |
重要 |
云手机服务器磁盘故障。包括:
|
业务应用做成高可用。 云手机服务器恢复后,确认业务是否自动恢复。 |
影响数据读写业务或主机无法启动 |
||
云存储连接异常 |
cphServerStorageError |
重要 |
云手机服务器云硬盘链接异常。包括:
|
业务应用做成高可用。 主机恢复后,确认业务是否自动恢复。 |
影响数据读写业务或主机无法启动 |
||
显卡掉线 |
cphServerGpuOffline |
重要 |
云手机服务器GPU显卡松动掉线 |
云手机服务器进行一次关机、开机操作 |
显卡掉线涉及的云手机出现运行故障,重启重置手机无法恢复 |
||
显卡TimeOut |
cphServerGpuTimeOut |
重要 |
云手机服务器GPU显卡TimeOut |
重启云手机服务器 |
显卡Timeout涉及的云手机出现运行故障,重启重置手机无法恢复 |
||
磁盘空间满 |
cphServerDiskFull |
重要 |
云手机服务器磁盘空间满 |
客户需要清理云手机里的业务数据,释放空间 |
云手机亚健康,容易出现故障无法启动 |
||
磁盘变只读 |
cphServerDiskReadOnly |
重要 |
云手机服务器磁盘变成只读 |
重启云手机服务器 |
云手机亚健康,容易出现故障无法启动 |
||
云手机元数据损坏 |
cphPhoneMetaDataDamage |
重要 |
云手机的容器元数据损坏 |
联系运维处理 |
云手机重启重置无法恢复 |
||
GPU故障 |
gpuAbnormal |
致命 |
GPU发生故障 |
提交工单转运维处理 |
业务中断 |
||
GPU恢复正常 |
gpuNormal |
提示 |
GPU从故障中恢复正常 |
无需处理 |
无 |
||
内核崩溃 |
kernelCrash |
致命 |
内核崩溃crash |
提交工单转运维处理 |
crash期间业务中断 |
||
内核OOM |
kernelOom |
重要 |
内核日志提示out of memory |
提交工单转运维处理 |
业务中断 |
||
硬件故障 |
hardwareError |
致命 |
内核日志报Hardware Error |
提交工单转运维处理 |
业务中断 |
||
PCIE故障 |
pcieAer |
致命 |
内核日志报PCIE Bus Error |
提交工单转运维处理 |
业务中断 |
||
SCSI故障 |
scsiError |
致命 |
内核日志报SCSI error |
提交工单转运维处理 |
业务中断 |
||
镜像存储只读故障 |
partReadOnly |
致命 |
镜像存储分区挂载属性变为readonly |
提交工单转运维处理 |
业务中断 |
||
镜像存储超级块损坏故障 |
badSuperBlock |
致命 |
镜像存储分区相关文件系统超级块损坏 |
提交工单转运维处理 |
业务中断 |
||
镜像存储sharedpath只读故障 |
isuladMasterReadOnly |
致命 |
镜像存储的/.sharedpath/master挂载属性只读 |
提交工单转运维处理 |
业务中断 |
||
云手机数据盘只读故障 |
cphDiskReadOnly |
致命 |
云手机数据盘挂载属性变为readonly |
提交工单转运维处理 |
业务中断 |
||
云手机数据盘超级块损坏故障 |
cphDiskBadSuperBlock |
致命 |
云手机数据盘相关文件系统超级块损坏 |
提交工单转运维处理 |
业务中断 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
L2CG |
SYS.ESW |
IP地址冲突 |
IPConflict |
重要 |
一般是由于线上(本端子网)与线下(远端网段)存在相关IP地址的主机导致。 |
通过查看ARP、交换机信息等措施,排查出具体IP冲突的主机,根据业务场景调整IP避免冲突。 |
可能导致冲突IP相关网络通信异常。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
---|---|---|---|---|
弹性公网IP和带宽 |
SYS.VPC |
删除VPC |
deleteVpc |
重要 |
修改VPC |
modifyVpc |
次要 |
||
删除Subnet |
deleteSubnet |
次要 |
||
修改Subnet |
modifySubnet |
次要 |
||
修改带宽 |
modifyBandwidth |
次要 |
||
删除VPN |
deleteVpn |
重要 |
||
修改VPN |
modifyVpn |
次要 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
EVS |
SYS.EVS |
更新磁盘 |
updateVolume |
次要 |
更新一个云硬盘的名称和描述。 |
无需处理。 |
无。 |
扩容磁盘 |
extendVolume |
次要 |
对云硬盘进行扩容。 |
无需处理。 |
无。 |
||
删除磁盘 |
deleteVolume |
重要 |
删除一个云硬盘。 |
无需处理。 |
删除的磁盘将不能被恢复。 |
||
磁盘性能达到QoS上限 |
reachQoS |
重要 |
磁盘性能频繁达到该规格的QoS上限,从而触发流控,导致IO访问时延变大。 |
磁盘性能频繁达到该规格的QoS上限,从而触发流控,导致IO访问时延变大,意味该类型的磁盘可能无法满足当前业务需求,建议提升磁盘规格。 |
磁盘性能频繁达到该规格的QoS上限,从而触发流控,导致IO访问时延变大,意味该类型的磁盘可能无法满足当前业务需求,建议提升磁盘规格 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
---|---|---|---|---|
IAM |
SYS.IAM |
用户登录 |
login |
次要 |
用户登出 |
logout |
次要 |
||
登录重置密码 |
changePassword |
重要 |
||
创建用户 |
createUser |
次要 |
||
删除用户 |
deleteUser |
重要 |
||
修改用户 |
updateUser |
次要 |
||
创建用户组 |
createUserGroup |
次要 |
||
删除用户组 |
deleteUserGroup |
重要 |
||
修改用户组 |
updateUserGroup |
次要 |
||
创建idp |
createIdentityProvider |
次要 |
||
删除idp |
deleteIdentityProvider |
重要 |
||
修改idp |
updateIdentityProvider |
次要 |
||
更新metadata |
updateMetadata |
次要 |
||
更新账号登录策略 |
updateSecurityPolicies |
重要 |
||
创建AK/SK |
addCredential |
重要 |
||
删除AK/SK |
deleteCredential |
重要 |
||
创建project |
createProject |
次要 |
||
更新project |
updateProject |
次要 |
||
冻结项目 |
suspendProject |
重要 |
事件来源 |
事件名称 |
事件ID |
事件级别 |
---|---|---|---|
DEW |
禁用密钥 |
disableKey |
重要 |
计划删除密钥 |
scheduleKeyDeletion |
次要 |
|
退役授权 |
retireGrant |
重要 |
|
撤销授权 |
revokeGrant |
重要 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
---|---|---|---|---|
OBS |
SYS.OBS |
删除桶 |
deleteBucket |
重要 |
删除桶policy配置 |
deleteBucketPolicy |
重要 |
||
设置桶的ACL |
setBucketAcl |
次要 |
||
设置桶的策略 |
setBucketPolicy |
次要 |
事件来源 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
---|---|---|---|---|---|
Cloud Eye |
插件故障事件 |
agentHeartbeatInterrupted |
重要 |
监控插件每1分钟发送1次心跳;当服务端3分钟收不到插件心跳时,“插件状态”显示为“故障”。 |
|
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
Data Space |
SYS.HWDS |
新增修订版本 |
newRevision |
次要 |
数据产品发布了新的修订版本。 |
收到事件通知后根据需要导出新的修订版本数据。 |
无。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
ESW |
SYS.ESW |
IP地址冲突 |
IPConflict |
重要 |
L2互联场景:一般是由于线上(本端子网)与线下(远端网段)存在相关IP地址的主机导致。 |
通过查看ARP、交换机信息等措施,排查出具体IP冲突的主机,根据业务场景调整IP避免冲突。 |
可能导致冲突IP相关网络通信异常。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
DCS |
SYS.DCS |
在线迁移发生全量重试 |
migrationFullResync |
次要 |
在线迁移在重试时,因无法进行增量同步,而触发了全量同步。 |
确认是否发生反复的全量重试,需要检查到源端的网络连接是否正常,是否源端压力过大。如果反复全量重试,联系运维人员处理。 |
迁移任务与源实例发生中断,重新触发了全量同步,可能导致源实例CPU冲高。 |
Redis主从倒换 |
masterStandbyFailover |
次要 |
Redis主节点异常,触发主从倒换机制,备节点升主。 |
检查原主节点状态,修复异常节点。 |
无。 |
||
Memcached主从倒换 |
memcachedMasterStandbyFailover |
次要 |
Memcached主节点异常,触发主从倒换机制,备节点升主。 |
检查业务是否自愈。如果应用未恢复,需要重启应用进行恢复。 |
实例长连接会中断。 |
||
Redis节点状态异常 |
redisNodeStatusAbnormal |
重要 |
Redis节点状态异常。 |
检查业务是否受影响 ,如果影响联系运维人员处理。 |
节点状态异常,主节点异常会自动主备切换。从节点异常,如果客户端直连从节点进行读写分离,读操作会出现异常。 |
||
Redis节点状态恢复正常 |
redisNodeStatusNormal |
重要 |
Redis节点从异常恢复正常。 |
检查业务是否恢复。如果应用未重连,需要重启应用进行恢复。 |
异常恢复事件。 |
||
数据迁移同步失败 |
migrateSyncDataFail |
重要 |
执行在线迁移任务时,迁移任务失败。 |
重新配置迁移任务重试迁移。如果仍然失败,联系运维人员处理。 |
数据迁移失败。 |
||
Memcached实例状态异常 |
memcachedInstanceStatusAbnormal |
重要 |
Memcached节点状态异常。 |
检查业务是否受影响 ,如果影响联系运维人员处理。 |
Memcached实例状态异常,实例可能无法访问。 |
||
Memcached实例状态异常恢复 |
memcachedInstanceStatusNormal |
重要 |
Memcached节点从异常恢复正常。 |
检查业务是否恢复。如果应用未重连,需要重启应用进行恢复。 |
异常恢复事件。 |
||
实例备份失败 |
instanceBackupFailure |
重要 |
DCS实例备份失败,一般可能是由于访问OBS失败等原因导致。 |
手动备份进行重试。 |
自动备份失败。 |
||
实例节点异常重启 |
instanceNodeAbnormalRestart |
重要 |
一般是由于DCS实例节点异常后重启导致。 |
检查业务是否自愈。如果应用未恢复,需要重启应用进行恢复。 |
实例长连接会中断。 |
||
终止超时lua脚本 |
scriptsStopped |
提醒 |
一般是由于lua脚本运行时间过长,自动终止脚本运行。 |
优化lua脚本,防止执行超时。 |
lua脚本执行时间超长,被强制中断。lua脚本执行时间过长,会阻塞整个实例。 |
||
节点自动重启 |
nodeRestarted |
提醒 |
一般是由于lua脚本运行时间过长,并且已执行写操作,自动重启节点终止脚本运行。 |
检查业务是否自愈。如果应用未恢复,需要重启应用进行恢复。 |
实例长连接会中断。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
ICA |
SYS.ICA |
BGP peer连接中断 |
BgpPeerDisconnection |
重要 |
BGP peer连接中断 |
登录网关设备,排查bgp peer断连原因 |
业务流量有可能会中断 |
BGP peer连接成功 |
BgpPeerConnectionSuccess |
重要 |
BGP peer连接成功 |
无 |
无 |
||
GRE隧道状态异常 |
AbnormalGreTunnelStatus |
重要 |
GRE隧道状态异常 |
登录网关设备,排查gre隧道状态异常原因 |
业务流量有可能会中断 |
||
GRE隧道状态正常 |
NormalGreTunnelStatus |
重要 |
GRE隧道状态正常 |
无 |
无 |
||
设备wan口上线 |
EquipmentWanGoingOnline |
重要 |
设备wan口上线 |
无 |
无 |
||
设备wan口下线 |
EquipmentWanGoingOffline |
重要 |
设备wan口下线 |
检查是否为人为操作或设备故障 |
设备无法正常使用 |
||
智能企业网关设备上线 |
IntelligentEnterpriseGatewayGoingOnline |
重要 |
智能企业网关设备上线 |
无 |
无 |
||
智能企业网关设备下线 |
IntelligentEnterpriseGatewayGoingOffline |
重要 |
智能企业网关设备下线 |
检查是否为人为操作或设备故障 |
设备无法正常使用 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
MAS |
SYS.MAS |
数据库状态异常 |
dbError |
重要 |
一般是由于MAS监控到用户数据库实例状态导致的。 |
用户登录MAS控制台查看原因及处理异常。 |
业务中断 |
数据库状态恢复 |
dbRecovery |
重要 |
数据库实例状态从异常恢复正常。 |
无。 |
业务中断 |
||
Redis状态异常 |
redisError |
重要 |
一般是由于MAS监控到用户Redis实例状态导致的。 |
用户登录MAS控制台查看原因及处理异常。 |
业务中断 |
||
Redis状态恢复 |
redisRecovery |
重要 |
Redis实例状态从异常恢复正常。 |
无。 |
业务中断 |
||
MongoDB状态异常 |
mongodbError |
重要 |
一般是由于MAS监控到用户MongoDB实例状态导致的。 |
用户登录MAS控制台查看原因及处理异常。 |
业务中断 |
||
MongoDB状态恢复 |
mongodbRecovery |
重要 |
API状态从异常恢复正常。 |
无。 |
业务中断 |
||
Elasticsearch状态异常 |
esError |
重要 |
一般是由于MAS监控到用户ElasticSearch实例状态导致的。 |
用户登录MAS控制台查看原因及处理异常。 |
业务中断 |
||
Elasticsearch状态恢复 |
esRecovery |
重要 |
ElasticSearch实例状态从异常恢复正常。 |
无。 |
业务中断 |
||
API接口状态异常 |
apiError |
重要 |
一般是由于MAS监控到用户API状态导致的。 |
用户登录MAS控制台查看原因及处理异常。 |
业务中断 |
||
API接口状态恢复 |
apiRecovery |
重要 |
API状态从异常恢复正常。 |
无。 |
业务中断 |
||
多活分区状态发生变化 |
netChange |
重要 |
MAS服务多活管理中心探测到多活分区状态发生变化 |
用户登录MAS控制台查看原因及处理异常。 |
可能导致多活分区网络的状态改变。 |
事件来源 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|
RMS |
配置不合规通知 |
configurationNoncomplianceNotification |
重要 |
审计规则执行结果为不合规。 |
修改资源不合规的配置项,使其合规。 |
无。 |
配置合规通知 |
configurationComplianceNotification |
提示 |
审计规则执行结果变为合规。 |
无。 |
无。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
---|---|---|---|---|---|
CSG |
SYS.CSG |
网关进程状态异常 |
gatewayProcessStatusAbnormal |
重要 |
当云存储网关进程状态异常时,则触发进程状态异常事件。 |
网关连接状态异常 |
gatewayToServiceConnectAbnormal |
重要 |
当云存储网关连续5个周期无状态上报时,则触发连接异常事件。 |
||
网关与OBS连接状态异常 |
gatewayToObsConnectAbnormal |
重要 |
当云存储网关无法连接到OBS时,则触发该事件。 |
||
文件系统只读 |
gatewayFileSystemReadOnly |
重要 |
当云存储网关上的分区文件系统只读时,则触发该事件。 |
||
文件共享只读 |
gatewayFileShareReadOnly |
重要 |
当文件共享因缓存盘存储空间不足,文件共享只读时,则触发该事件。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
MRS |
SYS.MRS |
DBServer主备倒换 |
dbServerSwitchover |
次要 |
DBServer主备倒换 |
主备倒换需要和运维人员确认是否为正常操作导致。 |
连续触发主备倒换可能影响Hive服务正常使用,导致Hive服务不可用。 |
Flume Channel溢出 |
flumeChannelOverflow |
次要 |
Flume Channel溢出 |
确认flume的channel配置是否合理,业务量是否有突增。 |
Flume任务无法正常写入数据到后端。 |
||
NameNode主备倒换 |
namenodeSwitchover |
次要 |
NameNode主备倒换 |
主备倒换需要和运维人员确认是否为正常操作导致。 |
连续触发主备倒换可能影响HDFS服务正常使用,读写HDFS文件可能失败。 |
||
ResourceManager主备倒换 |
resourceManagerSwitchover |
次要 |
ResourceManager主备倒换 |
主备倒换需要和运维人员确认是否为正常操作导致 |
连续触发主备倒换可能影响Yarn服务正常使用,导致任务出现异常甚至失败 |
||
JobHistoryServer主备倒换 |
jobHistoryServerSwitchover |
次要 |
JobHistoryServer主备倒换 |
主备倒换需要和运维人员确认是否为正常操作导致 |
连续触发主备倒换可能影响MapReduce服务正常使用,导致任务日志读取异常 |
||
HMaster主备倒换 |
hmasterFailover |
次要 |
HMaster主备倒换 |
主备倒换需要和运维人员确认是否为正常操作导致 |
连续触发主备倒换可能影响HBase服务正常使用 |
||
Hue发生主备切换 |
hueFailover |
次要 |
Hue发生主备切换 |
主备倒换需要和运维人员确认是否为正常操作导致 |
主备倒换可能影响HUE服务正常使用,导致页面无法使用等问题 |
||
Impala HaProxy服务发生主备切换 |
impalaHaProxyFailover |
次要 |
Impala HaProxy服务发生主备切换 |
主备倒换需要和运维人员确认是否为正常操作导致 |
连续触发主备倒换可能影响Impala服务正常使用 |
||
Impala StateStoreCatalog服务发生主备切换 |
impalaStateStoreCatalogFailover |
次要 |
Impala StateStoreCatalog服务发生主备切换 |
主备倒换需要和运维人员确认是否为正常操作导致 |
连续触发主备倒换可能影响Impala服务正常使用 |
||
LdapServer主备倒换 |
ldapServerFailover |
次要 |
LdapServer主备倒换 |
主备倒换需要和运维人员确认是否为正常操作导致 |
连续触发主备倒换可能影响LdapServer服务正常使用 |
||
Loader主备倒换 |
loaderSwitchover |
次要 |
Loader主备倒换 |
主备倒换需要和运维人员确认是否为正常操作导致 |
主备倒换可能影响Loader服务正常使用 |
||
Manager主备倒换 |
managerSwitchover |
提示 |
Manager主备倒换 |
主备倒换需要和运维人员确认是否为正常操作导致 |
Manager主备倒换可能导致Manager页面无法正常访问,部分监控可能出现异常数值 |
||
作业执行失败 |
jobRunningFailed |
提示 |
作业执行失败 |
查看作业管理页面,确认失败任务是否有异常 |
作业执行过程出现失败 |
||
作业被终止 |
jobkilled |
提示 |
作业被终止 |
确认任务是否人为下发终止命令 |
作业执行过程被终止 |
||
Oozie工作流执行失败 |
oozieWorkflowExecutionFailure |
次要 |
Oozie工作流执行失败 |
查看Oozie日志,确认任务失败原因 |
Oozie工作流执行失败 |
||
Oozie定时任务执行失败 |
oozieScheduledJobExecutionFailure |
次要 |
Oozie定时任务执行失败 |
查看Oozie日志,确认任务失败原因 |
Oozie定时任务执行失败 |
||
ClickHouse服务不可用 |
clickHouseServiceUnavailable |
紧急 |
ClickHouse服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-45425 ClickHouse服务不可用”章节。 |
ClickHouse服务异常,无法通过FusionInsight Manager对ClickHouse进行集群操作,无法使用ClickHouse服务功能。 |
||
DBService服务不可用 |
dbServiceServiceUnavailable |
紧急 |
DBService服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-27001 DBService服务不可用”章节。 |
数据库服务不可用,无法对上层服务提供数据入库、查询等功能,使部分服务异常。 |
||
DBService主备节点间心跳中断 |
dbServiceHeartbeatInterruptionBetweentheActiveAndStandbyNodes |
重要 |
DBService主备节点间心跳中断 |
请参考《MapReduce服务用户指南》的“ALM-27003 DBService主备节点间心跳中断”章节。 |
DBService主备间心跳中断时只有一个节点提供服务,一旦该节点故障,再无法切换到备节点,就会服务不可用。 |
||
DBService主备数据不同步 |
dataInconsistencyBetweenActiveAndStandbyDBServices |
紧急 |
DBService主备数据不同步 |
请参考《MapReduce服务用户指南》的“ALM-27004 DBService主备数据不同步”章节。 |
主备DBServer数据不同步,如果此时主实例异常,则会出现数据丢失或者数据异常的情况。 |
||
数据库进入只读模式 |
databaseEnterstheReadOnlyMode |
紧急 |
数据库进入只读模式 |
请参考《MapReduce服务用户指南》的“ALM-27007 数据库进入只读模式”章节。 |
数据库进入只读模式,业务数据丢失。 |
||
Flume服务不可用 |
flumeServiceUnavailable |
紧急 |
Flume服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-24000 Flume服务不可用”章节。 |
当Flume服务不可用时,Flume不能正常工作,数据传输业务中断。 |
||
Flume Agent异常 |
flumeAgentException |
重要 |
Flume Agent异常 |
请参考《MapReduce服务用户指南》的“ALM-24001 Flume Agent异常”章节。 |
产生告警的Flume Agent实例无法正常启动,定义在该实例下的数据传输任务暂时中断,对于实时数据传输,会丢失实时数据。 |
||
Flume Client连接中断 |
flumeClientDisconnected |
重要 |
Flume Client连接中断 |
请参考《MapReduce服务用户指南》的“ALM-24003 Flume Client连接中断”章节。 |
产生告警的Flume Client无法与Flume Server端进行通信,Flume Client端的数据无法传输到Flume Server端。 |
||
Flume读取数据异常 |
exceptionOccursWhenFlumeReadsData |
重要 |
Flume读取数据异常 |
请参考《MapReduce服务用户指南》的“ALM-24004 Flume读取数据异常”章节。 |
如果数据源有数据,Flume Source持续读取不到数据,数据采集会停止。 |
||
Flume传输数据异常 |
exceptionOccursWhenFlumeTransmitsData |
重要 |
Flume传输数据异常 |
请参考《MapReduce服务用户指南》的“ALM-24005 Flume传输数据异常”章节。 |
Flume Channel的磁盘空间使用量有继续增长的趋势,将会使数据导入到指定目的地的时间增长,当Flume Channel的磁盘空间使用量达到100%时会导致Flume Agent进程暂停工作。 |
||
Flume 证书文件非法或已损坏 |
flumeCertificateFileIsinvalid |
重要 |
Flume 证书文件非法或已损坏 |
请参考《MapReduce服务用户指南》的“ALM-24010 Flume证书文件非法或已损坏”章节。 |
Flume证书文件已经非法或损坏,功能受限,Flume客户端将无法访问Flume服务端。 |
||
Flume 证书文件即将过期 |
flumeCertificateFileIsAboutToExpire |
重要 |
Flume 证书文件即将过期 |
请参考《MapReduce服务用户指南》的“ALM-24011 Flume证书文件即将过期”章节。 |
Flume证书文件即将失效,对系统目前运行无影响。 |
||
Flume 证书文件已过期 |
flumeCertificateFileIsExpired |
重要 |
Flume 证书文件已过期 |
请参考《MapReduce服务用户指南》的“ALM-24012 Flume证书文件已过期”章节。 |
Flume证书文件已过期,功能受限,Flume客户端将无法访问Flume服务端。 |
||
Flume MonitorServer证书文件失效 |
flumeMonitorServerCertificateFileIsInvalid |
重要 |
Flume MonitorServer证书文件失效 |
请参考《MapReduce服务用户指南》的“ALM-24013 Flume MonitorServer证书文件非法或已损坏”章节。 |
MonitorServer证书文件已经非法或损坏,功能受限,Flume客户端将无法访问Flume服务端。 |
||
Flume MonitorServer证书文件即将过期 |
flumeMonitorServerCertificate FileIsAboutToExpire |
重要 |
Flume MonitorServer证书文件即将过期 |
请参考《MapReduce服务用户指南》的“ALM-24014 Flume MonitorServer证书文件即将过期”章节。 |
MonitorServer证书文件即将失效,对系统目前运行无影响。 |
||
Flume MonitorServer证书文件已过期 |
flumeMonitorServerCertificateFileIsExpired |
重要 |
Flume MonitorServer证书文件已过期 |
请参考《MapReduce服务用户指南》的“ALM-24015 Flume MonitorServer证书文件已过期”章节。 |
MonitorServer证书文件已过期,功能受限,Flume客户端将无法访问Flume服务端。 |
||
HDFS服务不可用 |
hdfsServiceUnavailable |
紧急 |
HDFS服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-14000 HDFS服务不可用”章节。 |
无法为基于HDFS服务的HBase和MapReduce等上层部件提供服务。用户无法读写文件。 |
||
NameService服务异常 |
nameServiceServiceUnavailable |
重要 |
NameService服务异常 |
请参考《MapReduce服务用户指南》的“ALM-14010 NameService服务异常”章节。 |
无法为基于该NameService服务的HBase和MapReduce等上层部件提供服务。用户无法读写文件。 |
||
DataNode数据目录配置不合理 |
datanodeDataDirectoryIsNotConfiguredProperly |
重要 |
DataNode数据目录配置不合理 |
请参考《MapReduce服务用户指南》的“ALM-14011 DataNode数据目录配置不合理”章节。 |
如果将DataNode数据目录挂载在根目录等系统关键目录,长时间运行后会将根目录写满,导致系统故障。 不合理的DataNode数据目录配置,会造成HDFS的性能下降。 |
||
Journalnode数据不同步 |
journalnodeIsOutOfSynchronization |
重要 |
Journalnode数据不同步 |
请参考《MapReduce服务用户指南》的“ALM-14012 Journalnode数据不同步”章节。 |
当一个JournalNode节点工作状态异常时,其数据就会与其他JournalNode节点的数据不同步。如果超过一半的JournalNode节点的数据不同步时,NameNode将无法工作,导致HDFS服务不可用。 |
||
NameNode FsImage文件更新失败 |
failedToUpdateTheNameNodeFsImageFile |
重要 |
NameNode FsImage文件更新失败 |
请参考《MapReduce服务用户指南》的“ALM-14013 NameNode FsImage文件更新失败”章节。 |
如果主NameNode数据目录的FsImage没有更新,则说明HDFS元数据合并功能异常,需要修复。如不修复,HDFS在运行一段时间后,Editlog会一直增长。此时如果重启HDFS,由于要加载非常多的Editlog,会导致启动非常耗时。另外,该告警的产生也说明备NameNode功能异常,导致NameNode的HA机制失效。一旦主NameNode故障,则整个HDFS服务将不可用。 |
||
DataNode磁盘故障 |
datanodeDiskFault |
重要 |
DataNode磁盘故障 |
请参考《MapReduce服务用户指南》的“ALM-14027 DataNode磁盘故障”章节。 |
上报DataNode磁盘故障告警时,表示该DataNode节点上存在故障的磁盘分区,可能会导致已写入的文件丢失。 |
||
Yarn服务不可用 |
yarnServiceUnavailable |
紧急 |
Yarn服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-18000 Yarn服务不可用”章节。 |
集群无法提供Yarn服务。用户无法执行新的application。已提交的application无法执行。 |
||
NodeManager心跳丢失 |
nodemanagerHeartbeatLost |
重要 |
NodeManager心跳丢失 |
请参考《MapReduce服务用户指南》的“ALM-18002 NodeManager心跳丢失”章节。 |
丢失的NodeManager节点无法提供Yarn服务。 容器减少,集群性能下降。 |
||
NodeManager不健康 |
nodemanagerUnhealthy |
重要 |
NodeManager不健康 |
请参考《MapReduce服务用户指南》的“ALM-18003 NodeManager不健康”章节。 |
故障的NodeManager节点无法提供Yarn服务。 容器减少,集群性能下降。 |
||
Yarn 任务执行超时 |
yarnApplicationTimeout |
次要 |
Yarn 任务执行超时 |
请参考《MapReduce服务用户指南》的“ALM-18020 Yarn任务执行超时”章节。 |
任务执行超时后的运行时间内,该告警一直存在,但任务仍继续正常执行,没有任何影响。 |
||
Mapreduce服务不可用 |
mapreduceServiceUnavailable |
紧急 |
Mapreduce服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-18021 Mapreduce服务不可用”章节。 |
集群无法提供Mapreduce服务,如无法通过Mapreduce查看任务日志,无法提供Mapreduce服务的日志归档功能等。 |
||
Yarn队列资源不足 |
insufficientYarnQueueResources |
次要 |
Yarn队列资源不足 |
请参考《MapReduce服务用户指南》的“ALM-18022 Yarn队列资源不足”章节。 |
应用任务结束时间变长。 新应用提交后长时间无法运行。 |
||
HBase服务不可用 |
hbaseServiceUnavailable |
紧急 |
HBase服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-19000 HBase服务不可用”章节。 |
无法进行数据读写和创建表等操作。 |
||
HBase系统表目录或文件丢失 |
systemTablePathOrFileOfHBaseIsMissing |
紧急 |
HBase系统表目录或文件丢失 |
请参考《MapReduce服务用户指南》的“ALM-19012 HBase系统表目录或文件丢失”章节。 |
HBase服务重启/启动失败。 |
||
Hive服务不可用 |
hiveServiceUnavailable |
紧急 |
Hive服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-16004 Hive服务不可用”章节。 |
Hive无法提供数据加载,查询,提取服务。 |
||
Hive数据仓库被删除 |
hiveDataWarehouseIsDeleted |
紧急 |
Hive数据仓库被删除 |
请参考《MapReduce服务用户指南》的“ALM-16045 Hive数据仓库被删除”章节。 |
Hive默认数据仓库被删除,会导致在默认数据仓库中创建库、创建表失败,影响业务正常使用。 |
||
Hive数据仓库权限被修改 |
hiveDataWarehousePermissionIsModified |
紧急 |
Hive数据仓库权限被修改 |
请参考《MapReduce服务用户指南》的“ALM-16046 Hive数据仓库权限被修改”章节。 |
Hive默认数据仓库的权限被修改,会影响当前用户,用户组,其他用户在默认数据仓库中创建库、创建表等操作的操作权限范围。会扩大或缩小权限。 |
||
HiveServer已从Zookeeper注销 |
hiveServerHasBeenDeregisteredFromZookeeper |
重要 |
HiveServer已从Zookeeper注销 |
请参考《MapReduce服务用户指南》的“ALM-16047 HiveServer已从Zookeeper注销”章节。 |
当无法在Zookeeper上读取到Hive的配置,将会导致HiveServer不可用。 |
||
tez或者spark库路径不存在 |
tezlibOrSparklibIsNotExist |
重要 |
tez或者spark库路径不存在 |
请参考《MapReduce服务用户指南》的“ALM-16048 Tez或者Spark库路径不存在”章节。 |
Tez或者Spark库路径不存在,会影响Hive on Tez,Hive on Spark的功能。 |
||
Hue服务不可用 |
hueServiceUnavailable |
紧急 |
Hue服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-20002 Hue服务不可用”章节。 |
系统无法提供数据加载,查询,提取服务。 |
||
Impala服务不可用 |
impalaServiceUnavailable |
紧急 |
Impala服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-29000 Impala服务不可用”章节。 |
Impala服务异常,无法通过FusionInsight Manager对Impala进行集群操作,无法使用Impala服务功能。 |
||
Kafka服务不可用 |
kafkaServiceUnavailable |
紧急 |
Kafka服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-38000 Kafka服务不可用”章节。 |
集群无法对外提供Kafka服务,用户无法执行新的Kafka任务。 |
||
Kafka默认用户状态异常 |
statusOfKafkaDefaultUserIsAbnormal |
紧急 |
Kafka默认用户状态异常 |
请参考《MapReduce服务用户指南》的“ALM-38007 Kafka默认用户状态异常”章节。 |
Kafka默认用户状态异常,会影响Broker之间的元数据同步,以及Kafka与ZooKeeper之间的交互,进而影响业务生产、消费和Topic的创建、删除等操作。 |
||
Kafka数据目录状态异常 |
abnormalKafkaDataDirectoryStatus |
重要 |
Kafka数据目录状态异常 |
请参考《MapReduce服务用户指南》的“ALM-38008 Kafka数据目录状态异常”章节。 |
Kafka数据目录状态异常,会导致该数据目录上所有Partition的当前副本下线,多个节点同时出现数据目录状态异常,可能会导致部分Partition不可用。 |
||
存在单副本的Topic |
topicsWithSingleReplica |
警告 |
存在单副本的Topic |
请参考《MapReduce服务用户指南》的“ALM-38010 存在单副本的Topic”章节。 |
单副本的Topic存在单点故障风险,当副本所在节点异常时,会直接导致Partition没有leader,影响该Topic上的业务。 |
||
KrbServer服务不可用 |
krbServerServiceUnavailable |
紧急 |
KrbServer服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-25500 KrbServer服务不可用”章节。 |
告警发生时,不能对集群中的组件KrbServer进行任何操作。其它组件的KrbServer认证将受影响。集群中依赖KrbServer的组件运行状态将为故障。 |
||
Kudu服务不可用 |
kuduServiceUnavailable |
紧急 |
Kudu服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-29100 Kudu服务不可用”章节。 |
用户无法使用Kudu服务。 |
||
LdapServer服务不可用 |
ldapServerServiceUnavailable |
紧急 |
LdapServer服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-25000 LdapServer服务不可用”章节。 |
告警发生时,不能对集群中的KrbServer和LdapServer用户进行任何操作。例如,无法在FusionInsight Manager页面添加、删除或修改任何用户、用户组或角色,也无法修改用户密码。集群中原有的用户验证不受影响。 |
||
LdapServer数据同步异常 |
abnormalLdapServerDataSynchronization |
紧急 |
LdapServer数据同步异常 |
请参考《MapReduce服务用户指南》的“ALM-25004 LdapServer数据同步异常”章节。 |
LdapServer数据不一致时,有可能是Manager上的LdapServer数据损坏,也有可能是集群上的LdapServer数据损坏,此时数据损坏的LdapServer进程将无法对外提供服务,影响Manager和集群的认证功能。 |
||
Nscd服务异常 |
nscdServiceIsAbnormal |
重要 |
Nscd服务异常 |
请参考《MapReduce服务用户指南》的“ALM-25005 Nscd服务异常”章节。 |
nscd服务异常时,可能会影响该节点从LdapServer上同步数据,此时,使用id命令可能会获取不到Ldap中的数据,影响上层业务。 |
||
Sssd服务异常 |
sssdServiceIsAbnormal |
重要 |
Sssd服务异常 |
请参考《MapReduce服务用户指南》的“ALM-25006 Sssd服务异常”章节。 |
sssd服务异常时,可能会影响该节点从LdapServer上同步数据,此时,使用id命令可能会获取不到ldap中的数据,影响上层业务。 |
||
Loader服务不可用 |
loaderServiceUnavailable |
紧急 |
Loader服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-23001 Loader服务不可用”章节。 |
如果Loader服务不可用,数据加载,导入,转换的功能也不可用。 |
||
Oozie服务不可用 |
oozieServiceUnavailable |
紧急 |
Oozie服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-17003 Oozie服务不可用”章节。 |
无法使用Oozie服务提交作业。 |
||
Ranger服务不可用 |
rangerServiceUnavailable |
紧急 |
Ranger服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-45275 Ranger服务不可用”章节。 |
当Ranger服务不可用时,Ranger无法正常工作,Ranger原生UI无法访问。 |
||
RangerAdmin状态异常 |
abnormalRangerAdminStatus |
重要 |
RangerAdmin状态异常 |
请参考《MapReduce服务用户指南》的“ALM-45276 RangerAdmin状态异常”章节。 |
当存在单个RangerAdmin状态异常时,不影响Ranger原生UI访问;当两个RangerAdmin状态异常时,Ranger原生UI无法访问,无法执行创建、修改、删除策略等操作。 |
||
Spark2x服务不可用 |
spark2xServiceUnavailable |
紧急 |
Spark2x服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-43001 Spark2x服务不可用”章节。 |
用户提交的Spark任务执行失败。 |
||
Storm服务不可用 |
stormServiceUnavailable |
紧急 |
Storm服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-26051 Storm服务不可用”章节。 |
集群无法对外提供Storm服务,用户无法执行新的Storm任务。 |
||
ZooKeeper服务不可用 |
zooKeeperServiceUnavailable |
紧急 |
ZooKeeper服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-13000 ZooKeeper服务不可用”章节。 |
ZooKeeper无法为上层组件提供协调服务,依赖ZooKeeper的组件可能无法正常运行。 |
||
ZooKeeper中组件顶层目录的配额设置失败 |
failedToSetTheQuotaOfTopDirectoriesOfZooKeeperComponent |
次要 |
ZooKeeper中组件顶层目录的配额设置失败 |
请参考《MapReduce服务用户指南》的“ALM-13005 ZooKeeper中组件顶层目录的配额设置失败”章节。 |
组件可以向对应的ZooKeeper顶层目录中写入大量数据,导致Zookeeper服务不可用。 |