事件监控支持的事件说明_事件监控_用户指南（阿布扎比区域）

表1 弹性云服务器
事件来源	事件名称	事件ID	事件级别	事件说明	处理建议	事件影响
弹性云服务器	恢复超时（后台处理中）	faultAutoRecovery	重要	迁移弹性云服务器至正常的物理机操作超时。	迁移业务至其他云服务器。	业务中断。
	因系统故障触发重启	startAutoRecovery	重要	弹性云服务器所在的主机出现故障时，系统会自动将弹性云服务器迁移至正常的物理机，迁移过程中系统会自动重启云服务器。	等待恢复成功，观察业务是否受到影响。	业务存在中断的可能。
	因系统故障重启已完成	endAutoRecovery	重要	当自动迁移完成后，弹性云服务器已恢复正常。	当收到“恢复成功”时，云服务器已正常工作，可继续使用。	业务恢复正常。
	GPU链路故障	GPULinkFault	紧急	弹性云服务器所在的主机上GPU卡故障。包括： GPU卡故障。 GPU卡故障恢复中。	业务应用做成高可用。 GPU卡故障恢复后，确认业务是否自动恢复。	业务中断。
	FPGA链路故障	FPGALinkFault	紧急	弹性云服务器所在的主机上FPGA卡故障。包括： FPGA卡故障。 FPGA卡故障恢复中。	业务应用做成高可用。 FPGA卡故障恢复后，确认业务是否自动恢复。	业务中断。
	删除虚拟机	deleteServer	重要	删除云服务器。包括：在管理控制台进行删除操作。通过API接口下发删除指令。	确认删除操作是否为主动执行。	业务中断。
	重启虚拟机	rebootServer	次要	云服务器重启。包括：在管理控制台进行重启操作。通过API接口下发重启指令。	确认操作是否为主动执行。业务应用做成高可用。云服务器开机后，确认业务是否自动恢复。	业务中断。
	关闭虚拟机	stopServer	次要	云服务器关机。包括：在管理控制台进行关机操作。通过API接口下发关机指令。说明： “关闭虚拟机”事件需要开启云审计后才生效，详细请参见《云审计服务用户指南》。	确认操作是否为主动执行。业务应用做成高可用。云服务器开机后，确认业务是否自动恢复。	业务中断。
	删除网卡	deleteNic	重要	云服务器删除网卡。包括：在管理控制台删除网卡。通过API接口下发删除网卡指令。	确认操作是否为主动执行。业务应用做成高可用。删除网卡后，确认业务是否自动恢复。	网卡被删除，存在业务中断的可能。
	变更规格	resizeServer	次要	云服务器规格变更。包括：在管理控制台进行变更规格。通过API接口下发变更规格指令。	确认操作是否为主动执行。业务应用做成高可用。变更规格后，确认业务是否自动恢复。	业务中断。
	GuestOS系统层重启告警	RestartGuestOS	一般	GuestOS内部重启。	联系运维人员处理。	在系统重启场景下，可能导致业务中断。
	主机进程异常导致虚拟机故障	VMFaultsByHostProcessExceptions	紧急	弹性云服务器所在的主机出现故障导致云服务器故障，系统会自动拉起弹性云服务器。	请检查云服务器和业务应用是否恢复正常。	云服务器故障。
	开机失败	faultPowerOn	重要	云服务器开机失败。	重试开机，若仍开机失败，联系运维人员处理。	云服务器无法开机。
	宿主机存在宕机风险	hostMayCrash	重要	弹性云服务器所在的宿主机存在宕机风险，且由于一些原因，无法通过热迁移手段规避该风险。	将该弹性云服务器上业务移除，并将该弹性云服务器删除或关机，等待运维人员处理完风险后再开机。	可能因为宿主机宕机而导致业务中断。
	开始热迁移	liveMigrationStarted	重要	弹性云服务器所在的主机可能出现故障，提前对虚拟机进行热迁移，避免宕机后导致业务中断。	等待事件结束，观察业务是否受到影响。	业务可能出现1s以内的网络中断。
	结束热迁移	liveMigrationCompleted	重要	热迁移已经结束，弹性云服务器已恢复正常。	观察业务是否正常运行。	无。
	热迁移失败	liveMigrationFailed	重要	弹性云服务器热迁移出现问题，未热迁移成功。	观察业务是否正常运行。	小概率存在业务中断的可能。

表2 裸金属服务器
事件来源	事件名称	事件ID	事件级别	事件说明	处理建议	事件影响
BMS	主机重启	osReboot	重要	裸金属实例重启。包括：在管理控制台进行重启操作通过API接口下发重启指令	业务应用做成高可用。主机恢复后，确认业务是否自动恢复。	业务中断
	异常重启	serverReboot	重要	裸金属实例异常重启。包括：操作系统异常导致重启主机硬件故障导致重启	业务应用做成高可用。主机恢复后，确认业务是否自动恢复。	业务中断
	主机关机	osShutdown	重要	裸金属实例关机。包括：在管理控制台进行关机操作通过API接口下发关机指令	业务应用做成高可用。主机恢复后，确认业务是否自动恢复。	业务中断
	异常关机	serverShutdown	重要	裸金属实例异常关机。包括：主机异常下电主机硬件故障导致关机	业务应用做成高可用。主机恢复后，确认业务是否自动恢复。	业务中断
	网络中断	linkDown	重要	裸金属服务器网络中断。包括：主机异常关机、重启交换机故障引起的网络中断网关节点故障引起的中断	业务应用做成高可用。主机恢复后，确认业务是否自动恢复。	业务中断
	PCIE异常	pcieError	重要	裸金属服务器PCIe设备硬件故障。包括：主板故障 PCIe设备故障	业务应用做成高可用。主机恢复后，确认业务是否自动恢复。	影响网络或硬盘读写业务
	硬盘故障	diskError	重要	裸金属服务器磁盘故障。包括：硬盘背板故障硬盘本身故障	业务应用做成高可用。主机恢复后，确认业务是否自动恢复。	影响数据读写业务或主机无法启动
	云存储连接异常	storageError	重要	裸金属服务器云硬盘连接异常。包括： SDI卡故障远端存储故障	业务应用做成高可用。主机恢复后，确认业务是否自动恢复。	影响数据读写业务或主机无法启动

表3 弹性公网IP
事件来源	命名空间	事件名称	事件ID	事件级别	事件说明	处理建议	事件影响
EIP	SYS.EIP	EIP带宽超限事件	EIPBandwidthOverflow	重要	当前使用带宽已超过购买的带宽，可能会导致网络变慢或丢包发生。其中，该事件取值为周期内的最大值，而EIP的出入网带宽指标数据，取值为周期时间点的值。其中： “egressDropBandwidth”为本周期内出云丢弃带宽值（Byte），“egressAcceptBandwidth”为本周期内出云通过带宽值（Byte），“egressMaxBandwidthPerSec”为本周期内出云带宽峰值（Byte/s），“ingressAcceptBandwidth”为本周期内入云通过带宽值（Byte），“ingressMaxBandwidthPerSec”为本周期内入云带宽峰值（Byte/s），“ingressDropBandwidth”为本周期内入云丢弃带宽值（Byte）。	检查EIP带宽是否一直增加，业务是否正常，并考虑扩容。	网络变慢或丢包发生
		释放EIP	deleteEip	次要	EIP资源被删除。	检查是否误操作删除资源。	无法访问公网
		EIP封堵	blockEIP	紧急	带宽超过5GB就会封堵，相当于把流量直接丢弃。带宽严重超限或受到攻击，一般是受到了DDoS攻击。	更换EIP，避免业务受到影响。同时查看事件中的封堵原因，进行相应处理。	业务受影响
		EIP解封	unblockEIP	紧急	EIP封堵已被解封。	换回原EIP，将被解封EIP重新使用，避免资源浪费。	无
		EIP开始DDoS清洗	ddosCleanEIP	严重	客户购买的EIP发生了DDoS清洗。	查看是否遭受攻击。	客户的业务可能受损。
		EIP结束DDoS清洗	ddosEndCleanEip	严重	客户购买的EIP结束了DDoS清洗。	查看是否遭受攻击。	客户的业务可能受损。
		企业级Qos带宽超限事件	EIPBandwidthRuleOverflow	重要	当前使用企业级Qos带宽已超过分配的带宽，可能会导致网络变慢或丢包发生。其中，该事件取值为周期内的最大值，而EIP的出入网带宽指标数据，取值为周期时间点的值。其中：“egressDropBandwidth”为本周期内出云丢弃带宽值（Byte），“egressAcceptBandwidth”为本周期内出云通过带宽值（Byte），“egressMaxBandwidthPerSec”为本周期内出云带宽峰值（Byte/s），“ingressAcceptBandwidth”为本周期内入云通过带宽值（Byte），“ingressMaxBandwidthPerSec”为本周期内入云带宽峰值（Byte/s），“ingressDropBandwidth”为本周期内入云丢弃带宽值（Byte）。	检查EIP带宽是否一直增加，业务是否正常，并考虑扩容。	网络变慢或丢包发生。
		EIP状态为未绑定	EipNotBoundStatus	重要	EIP未绑定实例资源	不涉及	EIP状态为未绑定时，会收取IP保有费用和按带宽计费的带宽费用

表4 弹性公网IP
事件来源	事件名称	事件ID	事件级别
EIP	释放EIP	deleteEip	次要

表5 DDoS高防
事件来源	命名空间	事件名称	事件ID	事件级别	事件说明	处理建议	事件影响
DDoS高防	SYS.DDOS	DDoS攻击事件	ddosAttackEvents	严重	客户购买的高防实例线路出现了DDoS攻击。	根据攻击流量和攻击类型判断对业务的影响，如果攻击流量超过客户购买的弹性带宽需要更换线路或提升规格。	客户的业务可能受损。
		域名调度事件	domainNameDispatchEvents	重要	域名对应的高防cname触发了调度，修改了解析记录到其他的高防IP上。	请关注该域名的业务情况。	一般情况下业务不受影响。
		黑洞事件	blackHoleEvents	重要	客户的高防实例攻击流量超出购买的防护阈值。	黑洞解封时间默认为30分钟，具体时长与当日黑洞触发次数和攻击峰值相关，最长可达24小时。如需提前解封，需要用户升级DDoS高防服务并联系技术支持。	客户的业务可能受损。
		黑洞恢复	cancelBlackHole	提示	客户的高防实例从黑洞状态恢复。	仅作提示，无需特殊处理。	客户的业务恢复。
		IP调度事件	ipDispatchEvents	重要	IP路由发生变化	请关注该IP的业务情况。	一般情况下业务不受影响。

表6 云备份
事件来源	命名空间	事件名称	事件ID	事件级别	事件说明	处理建议	事件影响
CBR	SYS.CBR	创建备份失败	backupFailed	紧急	创建备份失败	尝试手动创建备份或者联系技术支持	可能造成数据丢失
		使用备份恢复资源失败	restorationFailed	紧急	使用备份恢复资源失败	尝试使用其他备份恢复或者联系技术支持	可能造成数据丢失
		备份删除失败	backupDeleteFailed	紧急	备份删除失败	稍后重试删除或者联系技术支持	可能造成计费异常
		存储库删除失败	vaultDeleteFailed	紧急	储存库删除失败	稍后重试或联系技术支持	可能造成计费异常
		复制失败	replicationFailed	紧急	备份复制失败	稍后重试或联系技术支持	可能造成数据丢失
		创建备份成功	backupSucceeded	重要	创建备份成功	无	无
		使用备份恢复资源成功	restorationSucceeded	重要	使用备份恢复资源成功	观察数据是否已成功恢复。	无
		备份删除成功	backupDeletionSucceeded	重要	备份删除成功	无	无
		存储库删除成功	vaultDeletionSucceeded	重要	存储库删除成功	无	无
		复制成功	replicationSucceeded	重要	备份复制成功	无	无
		客户端离线	agentOffline	紧急	客户端离线	请确保客户端状态正常且能够正常连接云服务平台。	可能造成备份任务失败。
		客户端上线	agentOnline	重要	客户端上线	无。	无。

表7 关系型数据库--资源异常事件
事件来源	命名空间	事件名称	事件ID	事件级别	事件说明	处理建议	事件影响
RDS	SYS.RDS	创建实例业务失败	createInstanceFailed	重要	创建实例失败产生的事件，一般是磁盘个数，配额大小不足，底层资源耗尽导致。	检查磁盘个数、配额大小，释放资源后重新创建。	无法创建数据库实例。
		实例全量备份失败	fullBackupFailed	重要	单次全量备份失败产生的事件，不影响以前成功备份的文件，但会对“恢复到指定时间点”的功能有一些影响，导致“恢复到指定时间点”时增量备份的恢复时间延长。	重新执行一次手工备份。	备份失败。
		主备切换异常	activeStandBySwitchFailed	重要	主备切换异常是由于网络、物理机有某种故障导致备机没有接管主机的业务，短时间内会恢复到原主机继续提供服务。	检查应用和数据库之间的连接是否重新建立了连接。	无
		主备切换失败	abnormalReplicationStatus	重要	出现”复制状态异常“事件通常有两种情况： 1、主机与备机或只读实例之间复制时延太大（一般在写入大量数据或执行大事务的时候出现），在业务高峰期容易出现阻塞。 2、主机与备机或只读实例之间的网络中断，导致主机与备机或只读实例复制异常。	提交工单。	但不会导致原来单实例的读写中断，客户的应用是无感知的。
		复制状态异常已恢复	replicationStatusRecovered	重要	即复制时延已回到正常范围内，或者主备之间的网络通信恢复。	不需要处理。	无
		实例运行状态异常	faultyDBInstance	重要	由于灾难或者物理机故障导致单机或者主实例故障时会上报本事件，属于关键告警事件。	检查是否有设置自动备份策略，并且提交工单。	可能导致数据库服务不可用。
		实例运行状态异常已恢复	DBInstanceRecovered	重要	RDS单机实例灾难或物理机故障恢复，主备实例自动进行主备故障切换，完成后会上报本事件。	不需要处理。	无
		单实例转主备实例失败	singleToHaFailed	重要	创建备机时或备机创建完成后主备机之间配置同步发生故障时会产生此事件，一般是由于备节点所在数据中心资源不足导致。	提交工单。	“单实例转主备实例失败”不会导致原来单实例的读写中断，客户的应用是无感知的。
		数据库进程重新启动	DatabaseProcessRestarted	重要	一般是内存不足、负载过高导致数据库进程停止	通过云监控的数据，查看是否有内存飙升、cpu长期过高、磁盘满使用率不足等的情况，可以选择提升CPU内存规格或者优化业务逻辑。	进程异常退出的时候，业务中断。RDS服务会自动拉起进程，尝试恢复业务。
		实例磁盘满	instanceDiskFull	重要	一般是由于数据空间占用过大导致。	实例磁盘满，请进行扩容操作。	实例由于磁盘空间满将会变成只读实例，数据库不可进行写入操作。
		实例磁盘满恢复	instanceDiskFullRecovered	重要	实例磁盘状态恢复正常。	不需要处理。	实例解除只读状态，恢复写操作。
		kafka连接失败	kafkaConnectionFailed	重要	一般是由于网络波动或kafka服务端出现异常等原因导致。	检查网络状况和kafka服务端状态。	审计日志无法发送到kafka服务端。

表8 关系型数据库--操作类事件
事件来源	命名空间	事件名称	事件ID	事件级别	事件说明
RDS	SYS.RDS	重置数据库管理员密码	resetPassword	重要	重置数据库管理员密码。
		集群扩容等操作	instanceAction	重要	磁盘扩容、规格变更。
		删除集群下的实例	deleteInstance	次要	删除集群下的实例。
		修改备份策略	setBackupPolicy	次要	修改备份策略。
		修改参数组	updateParameterGroup	次要	修改参数组。
		删除参数组	deleteParameterGroup	次要	删除参数组。
		重置参数组	resetParameterGroup	次要	重置参数组。
		修改数据库端口号	changeInstancePort	重要	修改数据库端口号。
		实例主备切换	PrimaryStandbySwitched	重要	实例主备切换。

表9 文档数据库服务
事件来源	命名空间	事件名称	事件ID	事件级别	事件说明	处理建议	事件影响
DDS	SYS.DDS	创建实例业务失败	DDSCreateInstanceFailed	重要	创建文档数据库实例失败产生的事件，一般是由于磁盘个数、配额不足，底层资源耗尽导致。	检查磁盘个数、配额大小是否满足需求，并考虑释放资源后重新创建实例。	无法创建数据库实例。
		复制状态异常	DDSAbnormalReplicationStatus	重要	出现“复制状态异常”事件通常有两种情况：主机与备机或只读实例之间复制时延太大（一般在写入大量数据或执行大事务的时候出现），在业务高峰期容易出现阻塞。主机与备机或只读实例之间的网络中断，导致主机与备机或只读实例复制异常。	提交工单。	不会导致原来实例的读写中断，但会影响备机上数据的实时性。主备之间复制时延持续增长，有备机脱节风险。
		复制状态异常已恢复	DDSReplicationStatusRecovered	重要	复制时延已回到正常范围内，或者主备之间的网络通信恢复。	不需要处理。	无
		实例运行状态异常	DDSFaultyDBInstance	重要	由于灾难或者物理机故障导致实例故障时，会上报该事件，属于关键告警事件。	提交工单。	可能导致数据库服务不可用。
		实例运行状态异常已恢复	DDSDBInstanceRecovered	重要	针对灾难性的故障，NoSQL有高可用工具会自动进行恢复或者手动恢复，执行完成后会上报该事件。	不需要处理。	无
		节点运行状态异常	DDSFaultyDBNode	重要	由于灾难或者物理机故障导致数据库节点故障时，会上报该事件，属于关键告警事件。	检查数据库服务是否可以正常使用，并提交工单。	可能导致数据库服务不可用。
		节点运行状态异常已恢复	DDSDBNodeRecovered	重要	针对灾难性的故障，NoSQL有高可用工具会自动进行恢复或者手动恢复，执行完成后会上报该事件。	不需要处理。	无
		实例主备切换	DDSPrimaryStandbySwitched	重要	在手动触发的主备倒换或节点故障自动触发的故障倒换场景下，会上报该事件。	不需要处理。	无
		数据盘空间不足	DDSRiskyDataDiskUsage	重要	数据盘空间不足，产生此告警。	请参见对应服务用户指南中“扩容磁盘”的内容，进行磁盘扩容。	实例被设为只读模式，数据无法写入。
		数据盘空间已扩容并恢复可写	DDSDataDiskUsageRecovered	重要	数据盘空间已扩容并恢复可写，产生此事件。	无需处理。	无影响。
		用户计划删除KMS密钥	planDeleteKmsKey	重要	一般是由于用户计划删除kms的key导致。	计划删除kms的key后，及时恢复kms的key或者及时解密数据。	kms的key被删除后用户无法进行磁盘加密。

**表10** 云数据库 GeminiDB
事件来源	命名空间	事件名称	事件ID	事件级别	事件说明	处理建议	事件影响
GeminiDB	SYS.NoSQL	创建实例业务失败	NoSQLCreateInstanceFailed	重要	一般是由于实例配额不足或底层资源不足等原因导致。	先释放不再使用的实例再尝试重新发放，或者提交工单调整配额上限。	无法创建数据库实例。
		变更规格失败	NoSQLResizeInstanceFailed	重要	一般是由于底层资源不足等原因导致。	提交工单让运维在后台协调资源再重试规格变更操作。	业务中断。
		添加节点失败	NoSQLAddNodesFailed	重要	一般是由于底层资源不足等原因导致。	提交工单让运维在后台协调资源，删除添加失败的节点，重新尝试添加新节点。	无
		删除节点失败	NoSQLDeleteNodesFailed	重要	一般是由于底层释放资源失败导致。	重新尝试删除节点。	无
		扩卷失败	NoSQLScaleUpStorageFailed	重要	一般是由于底层资源不足等原因导致。	提交工单让运维在后台协调资源再重试扩卷操作。	如果磁盘满，会导致业务中断。
		重置密码失败	NoSQLResetPasswordFailed	重要	一般是由于重置密码命令超时导致。	重新尝试重置密码操作。	无
		修改参数组失败	NoSQLUpdateInstanceParamGroupFailed	重要	一般是由于修改参数组命令超时导致。	重新尝试修改参数组操作。	无
		设置备份策略失败	NoSQLSetBackupPolicyFailed	重要	一般是由于数据库连接异常导致。	重新重试设置备份策略操作。	无
		创建手动备份失败	NoSQLCreateManualBackupFailed	重要	一般是备份文件导出失败或上传失败等原因导致。	提交工单让运维处理。	无法备份数据。
		创建自动备份失败	NoSQLCreateAutomatedBackupFailed	重要	一般是备份文件导出失败或上传失败等原因导致。	提交工单让运维处理。	无法备份数据。
		实例运行状态异常	NoSQLFaultyDBInstance	重要	由于灾难或者物理机故障导致实例故障时，会上报该事件，属于关键告警事件。	提交工单。	可能导致数据库服务不可用。
		实例运行状态异常已恢复	NoSQLDBInstanceRecovered	重要	针对灾难性的故障，NoSQL有高可用工具会自动进行恢复或者手动恢复，执行完成后会上报该事件。	不需要处理。	无
		节点运行状态异常	NoSQLFaultyDBNode	重要	由于灾难或者物理机故障导致数据库节点故障时，会上报该事件，属于关键告警事件。	检查数据库服务是否可以正常使用，并提交工单。	可能导致数据库服务不可用。
		节点运行状态异常已恢复	NoSQLDBNodeRecovered	重要	针对灾难性的故障，NoSQL有高可用工具会自动进行恢复或者手动恢复，执行完成后会上报该事件。	不需要处理。	无
		实例主备切换	NoSQLPrimaryStandbySwitched	重要	在手动触发的主备倒换或节点故障自动触发的故障倒换场景下，会上报该事件。	不需要处理。	无
		出现热点分区键	HotKeyOccurs	重要	客观上是因为主键设置不合理，使得热点数据集中分布在一个分区。客户端不合理的应用程序设计，造成对某一key的频繁读写。	1. 选择合理的分区键。 2. 业务增加缓存，业务应用先从缓存中读取热点数据。	影响业务请求成功率，存在影响集群性能及稳定性的风险。
		出现超大分区键	BigKeyOccurs	重要	主键设计不合理，单个分区的记录数或数据量过大，引起了节点负载不均。	1. 选择合理的分区键 2. 基于现有分区键，增加分区键散列。	随着数据量增长，集群稳定性会下降。
		数据盘空间不足	NoSQLRiskyDataDiskUsage	重要	数据盘空间不足，产生此告警。	请参见对应服务用户指南中“扩容磁盘”的内容，进行磁盘扩容。	实例被设为只读模式，数据无法写入。
		数据盘空间已扩容并恢复可写	NoSQLDataDiskUsageRecovered	重要	数据盘空间已扩容并恢复可写，产生此事件。	无需处理。	无
		创建索引失败	NoSQLCreateIndexFailed	重要	业务负载超过实例规格瓶颈，此时再创建索引会耗费更多实例资源，导致响应变慢甚至卡顿，最终超时，引起索引创建失败。	1、根据业务负载，选择匹配的实例规格 2、在业务低峰期创建索引 3、使用后台方式创建索引 4、索引字段，结合业务进行合理选择。	索引创建失败或不完整，导致索引无效，需要删掉索引重新创建。
		发生写入降速	NoSQLStallingOccurs	重要	写入速度快，接近集群规模和实例规格范围允许最大写能力，从而触发数据库自身的限流机制，会发生请求失败情况	1. 根据业务的最大写请求速率，调整集群规模或者节点规格 2. 衡量业务的最大写请求速率，分散业务写峰值速率	影响业务的请求的成功率
		发生写入停止	NoSQLStoppingOccurs	重要	写入速度过快，达到集群规模和实例规格范围允许最大写能力，从而触发数据库自身的限流机制，会发生请求失败情况	1. 根据业务的最大写请求速率，调整集群规模或者节点规格 2. 衡量业务的最大写请求速率，分散业务写峰值速率	影响业务的请求的成功率
		重启数据库失败	NoSQLRestartDBFailed	重要	一般是由于实例状态异常等原因导致。	提交工单让运维处理。	数据库实例状态可能存在异常。
		恢复到新实例失败	NoSQLRestoreToNewInstanceFailed	重要	一般是由于底层资源不足等原因导致。	提交工单让运维在后台协调资源，重新尝试添加新节点。	无法恢复到新的数据库实例。
		恢复到已有实例失败	NoSQLRestoreToExistInstanceFailed	重要	一般是由于备份文件下载或恢复失败等原因导致。	提交工单让运维处理。	当前数据库实例可能处于不可用状态。
		删除备份文件失败	NoSQLDeleteBackupFailed	重要	一般是由于备份文件从obs删除失败导致。	重新尝试删除备份文件。	无
		切换慢日志明文开关失败	NoSQLSwitchSlowlogPlainTextFailed	重要	一般是由于引擎不支持切换等原因导致。	请查阅NoSQL用户指南，确认引擎支持打开慢日志明文开关。提交工单让运维处理。	无
		绑定EIP失败	NoSQLBindEipFailed	重要	一般是由于节点状态不正常，节点已经绑定EIP或EIP非法等原因导致。	检查节点是否正常，EIP是否合法。	无法通过公网访问数据库实例。
		解绑EIP失败	NoSQLUnbindEipFailed	重要	一般是由于节点状态不正常，节点已经未绑定EIP等原因导致。	检查节点和EIP状态是否正常。	无
		修改参数失败	NoSQLModifyParameterFailed	重要	一般是由于参数取值非法等原因导致。	排查参数值是否符合在合法范围内，提交工单让运维处理。	无
		参数组应用失败	NoSQLApplyParameterGroupFailed	重要	一般是由于实例状态异常导致参数组无法应用等原因导致。	提交工单让运维处理。	无
		开启或关闭SSL失败	NoSQLSwitchSSLFailed	重要	一般是由于修改SSL命令超时导致。	重新提交一次或者提交工单处理，并先保持切换之前使用SSL的连接方式。	是否使用SSL连接。
		单行数据量太大	LargeRowOccurs	重要	用户单行数据量过大，可能会导致查询超时，进而节点OOM异常退出等各种故障发生。	1. 对每列和每行的写入长度做限制，遵从规范，使得单行的key和value长度和不超过阈值。 2. 排查业务是否出现异常写入和异常编码，导致写入大row。	过大的单行记录，随着数据量增长，集群稳定性会下降。
		用户计划删除KMS密钥	planDeleteKmsKey	重要	一般是由于用户计划删除kms的key导致。	计划删除kms的key后，及时恢复kms的key或者及时解密数据。	kms的key被删除后用户无法进行磁盘加密。
		查询墓碑数过多	TooManyQueryTombstones	重要	查询墓碑数过多，可能会导致查询超时，影响查询性能。	使用合理的查询删除方式，避免大批次的范围查询	可能会导致查询超时，影响查询性能。
		超大集合列	TooLargeCollectionColumn	重要	当集合列元素个数太多时，会出现集合列查询失败。	对集合列的元素个数做限制，遵从规范不超过阈值。排查业务是否出现异常写入和异常编码，导致写入大集合列。	会出现集合列查询失败。
		InfluxDB连接数满	InfluxDBConnectionFull	重要	一般是由于实例节点的连接数满导致。	1、检查当前规格是否无法承载业务，进行规格升级； 2、检查客户端处理是否合理，如连接未释放、长连接等情况；	无法在节点创建新连接，可能会导致客户端无法连接到InfluxDB数据库，影响业务稳定性。
		节点高可用倒换	nodeHaSwitch	重要	一般是由于底层网络抖动触发高可用导致倒换。	触发后检查业务是否正常，正常能自动恢复。	业务的时延出现几秒抖动。

**表11** 云数据库 TaurusDB
事件来源	命名空间	事件名称	事件ID	事件级别	事件说明	处理建议	事件影响
TaurusDB	SYS.GAUSSDB	实例增量备份业务失败	TaurusIncrementalBackupInstanceFailed	重要	实例增量备份失败产生的事件，一般是管理节点到实例网络或者实例到OBS存储的网络异常，或者实例备份环境异常。	提交工单。	无法完成实例备份业务操作。
		添加只读节点失败	addReadonlyNodesFailed	重要	创建实例只读节点失败产生的事件，一般是底层资源耗尽导致。	检查并释放资源后重新创建。	无法创建数据库实例只读节点。
		创建实例业务失败	createInstanceFailed	重要	创建实例失败产生的事件，一般是配额大小不足，底层资源耗尽导致。	检查配额大小，释放资源后重新创建。	无法创建数据库实例。
		主备切换异常	activeStandBySwitchFailed	重要	主备切换异常主要是由于网络、物理机有某种故障导致只读节点没有接管主节点的业务，短时间内会恢复到原主节点继续提供服务。	提交工单。	无法完成主备切换（只读升主）。
		规格变更业务失败	flavorAlterationFailed	重要	规格变更失败产生的事件，一般是配额大小不足，底层资源耗尽导致。	提交工单。	无法完成规格变更。
		实例运行状态异常	TaurusInstanceRunningStatusAbnormal	重要	实例运行状态异常产生的事件，可能原因是实例进程故障，或者实例到DFV存储间通信问题。	提交工单。	实例异常，业务可能受损。
		实例运行状态异常已恢复	TaurusInstanceRunningStatusRecovered	重要	实例运行状态异常后恢复产生的事件。	观察业务运行情况。	无。
		节点运行状态异常	TaurusNodeRunningStatusAbnormal	重要	运行节点状态异常产生的事件，可能原因是节点进程故障，或者节点到DFV存储间通信问题。	观察实例状态和业务运行情况。	节点异常，可能触发只读升主。
		节点运行状态异常已恢复	TaurusNodeRunningStatusRecovered	重要	节点运行状态异常后恢复产生的事件。	观察业务情况。	无。
		删除只读节点失败	TaurusDeleteReadOnlyNodeFailed	重要	删除只读节点失败产生的事件，可能原因是管理面到实例节点通信异常或者请求IaaS删除虚机失败。	提交工单。	无法完成删除只读节点操作。
		实例重置密码失败	TaurusResetInstancePasswordFailed	重要	实例重置密码失败产生的事件，可能原因是管理面到实例通信异常或者实例状态异常件。	检查确认实例状态后重试，未解决则提交工单。	无法完成实例重置密码操作。
		实例重启失败	TaurusRestartInstanceFailed	重要	实例重启失败产生的事件，可能原因是管理面到实例通信异常或者实例状态异常件。	检查确认实例状态后重试，未解决则提交工单。	无法完成实例重启操作。
		恢复到新实例失败	TaurusRestoreToNewInstanceFailed	重要	恢复到新实例失败产生的事件，一般是新创建实例配额大小不足，底层资源耗尽导致或者数据恢复逻辑出错。	如果是新创建实例失败，检查配额大小，释放资源后重新恢复到新实例，其他情况提交工单。	无法完成恢复到新实例。
		实例绑定EIP失败	TaurusBindEIPToInstanceFailed	重要	实例绑定EIP失败产生的事件，绑定任务执行错误。	提交工单。	无法完成绑定EIP操作。
		实例解绑EIP失败	TaurusUnbindEIPFromInstanceFailed	重要	实例解绑EIP失败产生的事件，绑定任务执行错误。	提交工单。	无法完成解绑EIP操作。
		实例修改参数失败	TaurusUpdateInstanceParameterFailed	重要	实例修改参数失败产生的事件，一般是管理节点到实例网络异常，或者实例状态异常。	检查确认实例状态后重试，未解决则提交工单。	无法完成实例修改参数操作。
		实例参数组应用失败	TaurusApplyParameterGroupToInstanceFailed	重要	实例参数组应用失败产生的事件，一般是管理节点到实例网络异常，或者实例状态异常。	检查确认实例状态后重试，未解决则提交工单。	无法完成实例参数组应用操作。
		实例全量备份业务失败	TaurusBackupInstanceFailed	重要	实例全量备份失败产生的事件，一般是管理节点到实例网络或者实例到OBS存储的网络异常，或者实例备份环境异常。	提交工单。	无法完成实例备份业务操作。
		实例发生主备倒换	TaurusActiveStandbySwitched	重要	实例发生主备倒换，主要是由于主节点的网络，物理机以及数据库运行出现故障时，GaussDB HA系统会按照倒换优先级将1个只读节点升为主机，以持续提供服务。	收到事件后，查看业务运行是否正常。看是否继续收到“实例只读升主业务失败”告警。	倒换时业务连接会短时间中断，升主完成后可重新连接数据库。
		数据库设置为只读模式	NodeReadonlyMode	重要	数据库设置为只读状态，只支持查询类操作。	提交工单。	数据库设置只读状态后，所有写业务返回失败。
		数据库设置为读写模式	NodeReadWriteMode	重要	数据库设置为读写状态	提交工单。	无
		实例容灾切换	DisasterSwitchOver	重要	实例故障不可用，通过主备切换保证数据库继续对外提供服务。	联系技术支持团队处理。	访问数据库的业务出现闪断，高可用服务通过切换机制保证新机器升主继续对外提供服务。
		数据库进程重新启动	TaurusDatabaseProcessRestarted	重要	一般是内存不足、负载过高导致数据库进程停止。	通过云监控的数据，查看是否有内存飙升、CPU长期过高等的情况，可以选择提升CPU内存规格或者优化业务逻辑。	数据库进程挂掉的时候，该节点业务中断。高可用服务会自动拉起进程，尝试恢复业务。

**表12** 云数据库GaussDB
事件来源	命名空间	事件名称	事件ID	事件级别	事件说明	处理建议	事件影响
GaussDB	SYS.GAUSSDBV5	进程状态告警	ProcessStatusAlarm	重要	GaussDB关键进程退出，包括：CMS/CMA、ETCD、GTM、CN、DN。	等待进程自动恢复或者自动主备切换，观察业务是否恢复。如果业务未恢复，联系SRE。	主机进程故障，在主机上进行的业务将中断回滚。备机进程故障不影响业务。
		组件状态告警	ComponentStatusAlarm	重要	GaussDB关键组件无响应，包括：CMA、ETCD、GTM、CN、DN。	等待进程自动恢复或者自动主备切换，观察业务是否恢复。如果业务未恢复，联系SRE。	主机进程无响应，在主机上进行的业务将无响应。备机进程故障不影响业务。
		集群状态告警	ClusterStatusAlarm	重要	集群状态异常，包括：集群只读、ETCD多数派故障、集群分布不均衡。	联系SRE。	集群只读：业务只读。 ETCD多数派故障：集群不可用。集群分布不均衡：集群性能/可靠性降低。
		硬件资源告警	HardwareResourceAlarm	重要	集群中出现严重的硬件故障，包括：磁盘损坏、GTM网络通信故障。	联系SRE。	业务部分/全部受损。
		状态转换告警	StateTransitionAlarm	重要	集群出现如下重要事件：DN build/build失败、DN强切、DN主备切换/failover、GTM主备切换/failover。	等待自动恢复，观察业务是否恢复。如果业务未恢复，联系SRE。	部分业务受损。
		其他异常告警	OtherAbnormalAlarm	重要	磁盘使用阈值告警等。	关注业务变化，及时计划扩容。	超过使用阈值，将无法扩容。
		创建实例业务失败	GaussDBV5CreateInstanceFailed	重要	创建实例失败产生的事件，一般是配额大小不足，底层资源耗尽导致。	先释放不再使用的实例再尝试重新发放，或者提交工单调整配额上限。	无法创建数据库实例。
		添加节点失败	GaussDBV5ExpandClusterFailed	重要	一般是由于底层资源不足等原因导致。	提交工单让运维在后台协调资源，删除添加失败的节点，重新尝试添加新节点。	无
		存储扩容失败	GaussDBV5EnlargeVolumeFailed	重要	一般是由于底层资源不足等原因导致。	提交工单让运维在后台协调资源再重试扩容操作。	如果磁盘满，会导致业务中断。
		重启失败	GaussDBV5RestartInstanceFailed	重要	一般是由于网络问题等原因导致	重试重启操作或提交工单让运维处理。	可能导致数据库服务不可用。
		全量备份失败	GaussDBV5FullBackupFailed	重要	一般是备份文件导出失败或上传失败等原因导致。	提交工单让运维处理。	无法备份数据。
		差量备份失败	GaussDBV5DifferentialBackupFailed	重要	一般是备份文件导出失败或上传失败等原因导致。	提交工单让运维处理。	无法备份数据。
		删除备份失败	GaussDBV5DeleteBackupFailed	重要	一般是由于备份文件从obs删除失败导致。	重新尝试删除备份文件。	无
		绑定EIP失败	GaussDBV5BindEIPFailed	重要	弹性公网IP已被占用或IP资源等原因导致。	提交工单让运维处理。	导致实例无法使用公网连接或访问
		解绑EIP失败	GaussDBV5UnbindEIPFailed	重要	网络故障或公网EIP服务故障等原因导致。	重新解绑Ip或提交工单让运维处理。	可能导致IP资源残留
		参数组应用失败	GaussDBV5ApplyParamFailed	重要	一般是由于修改参数组命令超时导致。	重新尝试修改参数组操作。	无
		参数修改失败	GaussDBV5UpdateInstanceParamGroupFailed	重要	一般是由于修改参数组命令超时导致。	重新尝试修改参数组操作。	无
		备份恢复失败	GaussDBV5RestoreFromBcakupFailed	重要	一般是由底层资源不足或备份文件下载失败等原因导致	提交工单。	可能导致在恢复失败期间数据库服务不可用
		升级热补丁失败	GaussDBV5UpgradeHotfixFailed	重要	一般是内核升级时报错导致。	查看工作流报错信息，重做跳过等。	无
		实例运行状态异常	GaussDBV5FaultyDBInstance	重要	由于灾难或者物理机故障导致实例故障时，会上报该事件，属于关键告警事件。	提交工单。	可能导致数据库服务不可用。
		实例运行状态异常已恢复	GaussDBV5InstanceRecovered	重要	针对灾难性的故障，GaussDB有高可用工具会自动进行恢复或者手动恢复，执行完成后会上报该事件。	不需要处理。	无
		节点运行状态异常	GaussDBV5FaultyDBNode	重要	由于灾难或者物理机故障导致数据库节点故障时，会上报该事件，属于关键告警事件。	由于灾难或者物理机故障导致数据库节点故障时，会上报该事件，属于关键告警事件。	可能导致数据库服务不可用。
		节点运行状态异常已恢复	GaussDBV5FaultyDBNodeRecovered	重要	针对灾难性的故障，GaussDB有高可用工具会自动进行恢复或者手动恢复，执行完成后会上报该事件。	不需要处理。	无

**表13** 分布式数据库中间件
事件来源	命名空间	事件名称	事件ID	事件级别	事件说明	处理建议	事件影响
DDM	SYS.DDM是DDM1.0版本的命名空间。 SYS.DDMS是DDM2.0版本的命名空间。	创建实例失败	createDdmInstanceFailed	重要	一般是由于底层资源不足等原因导致。	释放资源后重新创建。	无法创建DDM实例。
		变更规格失败	resizeFlavorFailed	重要	一般是由于底层资源不足等原因导致。	请工单联系运维在后台协调资源再重试规格变更操作。	部分节点业务中断
		节点扩容失败	enlargeNodeFailed	重要	一般是由于底层资源不足等原因导致。	请工单联系运维后台协调资源，删除添加失败的节点，重新尝试添加节点	节点扩容失败
		节点缩容失败	reduceNodeFailed	重要	一般是由于底层释放资源失败等原因导致。	请工单联系运维后台处理资源。	节点缩容失败
		重启实例失败	restartInstanceFailed	重要	一般是由于底层关联数据库实例异常等原因导致。	建议先排查底层数据库实例是否异常，如果无异常请工单联系运维进行排查。	部分节点业务中断
		创建逻辑库失败	createLogicDbFailed	重要	一般是由于以下几种原因导致的： 1、数据库实例账号密码错误；2、DDM实例与底层数据库实例安全组设置错误，导致无法通信。	请排查： 1、数据库实例账号密码是否错误；2、DDM实例与底层数据库实例安全组是否设置正确等问题。	业务无法正常运行
		绑定弹性公网IP失败	bindEipFailed	重要	一般是由于EIP服务繁忙。	稍后重试，紧急情况下请联系运维排查问题。	无法通过公网访问服务
		逻辑库扩容失败	migrateLogicDbFailed	重要	一般是由于底层处理失败。	请工单联系运维处理。	无法实现逻辑库扩容
		逻辑库扩容重试失败	retryMigrateLogicDbFailed	重要	一般是由于底层处理失败。	请工单联系运维处理。	无法实现逻辑库扩容

**表14** 云手机
事件来源	命名空间	事件名称	事件ID	事件级别	事件说明	处理建议	事件影响
CPH	SYS.CPH	主机关机	cphServerOsShutdown	重要	云手机服务器关机。包括：在管理控制台进行关机操作通过API接口下发关机指令	业务应用做成高可用。云手机服务器恢复后，确认业务是否自动恢复。	业务中断。
		异常关机	cphServerShutdown	重要	云手机服务器异常关机。包括：云手机服务器异常下电云手机服务器硬件故障导致关机	业务应用做成高可用。云手机服务器恢复后，确认业务是否自动恢复。	业务中断。
		主机重启	cphServerOsReboot	重要	云手机服务器重启。包括：在管理控制台进行重启操作通过API接口下发重启指令	业务应用做成高可用。云手机服务器恢复后，确认业务是否自动恢复。	业务中断
		异常重启	cphServerReboot	重要	云手机服务器异常重启。包括：操作系统异常导致重启云手机服务器硬件故障导致重启	业务应用做成高可用。云手机服务器恢复后，确认业务是否自动恢复。	业务中断。
		网络中断	cphServerlinkDown	重要	云手机服务器网络中断。包括：云手机服务器异常关机、重启交换机故障引起的网络中断网关节点故障引起的中断	业务应用做成高可用。云手机服务器恢复后，确认业务是否自动恢复。	业务中断。
		PCIE异常	cphServerPcieError	重要	云手机服务器PCIe设备硬件故障。包括：主板故障 PCIe设备故障	业务应用做成高可用。云手机服务器恢复后，确认业务是否自动恢复。	影响网络或硬盘读写业务
		硬盘故障	cphServerDiskError	重要	云手机服务器磁盘故障。包括：硬盘背板故障硬盘本身故障	业务应用做成高可用。云手机服务器恢复后，确认业务是否自动恢复。	影响数据读写业务或主机无法启动
		云存储连接异常	cphServerStorageError	重要	云手机服务器云硬盘连接异常。包括： SDI卡故障远端存储故障	业务应用做成高可用。主机恢复后，确认业务是否自动恢复。	影响数据读写业务或主机无法启动
		显卡掉线	cphServerGpuOffline	重要	云手机服务器GPU显卡松动掉线	云手机服务器进行一次关机、开机操作	显卡掉线涉及的云手机出现运行故障，重启重置手机无法恢复
		显卡TimeOut	cphServerGpuTimeOut	重要	云手机服务器GPU显卡TimeOut	重启云手机服务器	显卡Timeout涉及的云手机出现运行故障，重启重置手机无法恢复
		磁盘空间满	cphServerDiskFull	重要	云手机服务器磁盘空间满	客户需要清理云手机里的业务数据，释放空间	云手机亚健康，容易出现故障无法启动
		磁盘变只读	cphServerDiskReadOnly	重要	云手机服务器磁盘变成只读	重启云手机服务器	云手机亚健康，容易出现故障无法启动
		云手机元数据损坏	cphPhoneMetaDataDamage	重要	云手机的容器元数据损坏	联系运维处理	云手机重启重置无法恢复
		GPU故障	gpuAbnormal	致命	GPU发生故障	提交工单转运维处理	业务中断
		GPU恢复正常	gpuNormal	提示	GPU从故障中恢复正常	无需处理	无
		内核崩溃	kernelCrash	致命	内核崩溃crash	提交工单转运维处理	crash期间业务中断
		内核OOM	kernelOom	重要	内核日志提示out of memory	提交工单转运维处理	业务中断
		硬件故障	hardwareError	致命	内核日志报Hardware Error	提交工单转运维处理	业务中断
		PCIE故障	pcieAer	致命	内核日志报PCIE Bus Error	提交工单转运维处理	业务中断
		SCSI故障	scsiError	致命	内核日志报SCSI error	提交工单转运维处理	业务中断
		镜像存储只读故障	partReadOnly	致命	镜像存储分区挂载属性变为readonly	提交工单转运维处理	业务中断
		镜像存储超级块损坏故障	badSuperBlock	致命	镜像存储分区相关文件系统超级块损坏	提交工单转运维处理	业务中断
		镜像存储sharedpath只读故障	isuladMasterReadOnly	致命	镜像存储的/.sharedpath/master挂载属性只读	提交工单转运维处理	业务中断
		云手机数据盘只读故障	cphDiskReadOnly	致命	云手机数据盘挂载属性变为readonly	提交工单转运维处理	业务中断
		云手机数据盘超级块损坏故障	cphDiskBadSuperBlock	致命	云手机数据盘相关文件系统超级块损坏	提交工单转运维处理	业务中断

**表15** 二层连接网关
事件来源	命名空间	事件名称	事件ID	事件级别	事件说明	处理建议	事件影响
L2CG	SYS.ESW	IP地址冲突	IPConflict	重要	一般是由于线上（本端子网）与线下（远端网段）存在相关IP地址的主机导致。	通过查看ARP、交换机信息等措施，排查出具体IP冲突的主机，根据业务场景调整IP避免冲突。	可能导致冲突IP相关网络通信异常。

**表16** 虚拟私有云
事件来源	命名空间	事件名称	事件ID	事件级别
虚拟私有云	SYS.VPC	删除VPC	deleteVpc	重要
		修改VPC	modifyVpc	次要
		删除Subnet	deleteSubnet	次要
		修改Subnet	modifySubnet	次要
		修改带宽	modifyBandwidth	次要
		删除VPN	deleteVpn	重要
		修改VPN	modifyVpn	次要

**表17** 云硬盘
事件来源	命名空间	事件名称	事件ID	事件级别	事件说明	处理建议	事件影响
EVS	SYS.EVS	更新磁盘	updateVolume	次要	更新一个云硬盘的名称和描述。	无需处理。	无。
		扩容磁盘	extendVolume	次要	对云硬盘进行扩容。	无需处理。	无。
		删除磁盘	deleteVolume	重要	删除一个云硬盘。	无需处理。	删除的磁盘将不能被恢复。
		磁盘性能达到QoS上限说明： EVS已不支持该事件，云监控服务即将下线该事件相关内容。	reachQoS	重要	磁盘性能频繁达到该规格的QoS上限，从而触发流控，导致IO访问时延变大。	磁盘性能频繁达到该规格的QoS上限，从而触发流控，导致IO访问时延变大，意味该类型的磁盘可能无法满足当前业务需求，建议提升磁盘规格。	磁盘性能频繁达到该规格的QoS上限，从而触发流控，导致IO访问时延变大，意味该类型的磁盘可能无法满足当前业务需求，建议提升磁盘规格

**表18** 统一身份认证服务
事件来源	命名空间	事件名称	事件ID	事件级别
IAM	SYS.IAM	用户登录	login	次要
		用户登出	logout	次要
		登录重置密码	changePassword	重要
		创建用户	createUser	次要
		删除用户	deleteUser	重要
		修改用户	updateUser	次要
		创建用户组	createUserGroup	次要
		删除用户组	deleteUserGroup	重要
		修改用户组	updateUserGroup	次要
		创建idp	createIdentityProvider	次要
		删除idp	deleteIdentityProvider	重要
		修改idp	updateIdentityProvider	次要
		更新metadata	updateMetadata	次要
		更新账号登录策略	updateSecurityPolicies	重要
		创建AK/SK	addCredential	重要
		删除AK/SK	deleteCredential	重要
		创建project	createProject	次要
		更新project	updateProject	次要
		冻结项目	suspendProject	重要

**表19** 数据加密服务
事件来源	事件名称	事件ID	事件级别	事件说明	处理建议	事件影响
DEW	禁用密钥	disableKey	重要	客户触发了禁用密钥的操作，密钥处于无法使用状态。	若客户因业务需要禁用密钥，无需处置。若客户误操作禁用了密钥，请登录DEW控制台重新启用密钥。	若密钥正在被客户业务使用，可能造成业务受损。
	计划删除密钥	scheduleKeyDeletion	次要	客户触发了计划删除的操作，密钥处于无法使用状态。	若客户因业务需要删除密钥，无需处置。若客户误操作计划删除了密钥，请登录DEW控制台重新取消计划删除，并重新启用密钥。	若密钥正在被客户业务使用，可能造成业务受损。
	退役授权	retireGrant	重要	客户触发了退役授权的操作，密钥处于无法使用的状态。	若客户因业务需要取消对密钥授权，无需处置。若客户误操作取消对密钥授权，请登录DEW控制台重新进行授权。	若密钥正在被客户业务使用，可能造成业务受损。
	撤销授权	revokeGrant	重要	客户触发了撤销授权的操作，密钥处于无法使用的状态。	若客户因业务需要取消对密钥授权，无需处置。若客户误操作取消对密钥授权，请登录DEW控制台重新进行授权。	若密钥正在被客户业务使用，可能造成业务受损。

**表20** 对象存储服务
事件来源	命名空间	事件名称	事件ID	事件级别
OBS	SYS.OBS	删除桶	deleteBucket	重要
		删除桶policy配置	deleteBucketPolicy	重要
		设置桶的ACL	setBucketAcl	次要
		设置桶的策略	setBucketPolicy	次要

**表21** 云监控
事件来源	事件名称	事件ID	事件级别	事件说明	处理建议
Cloud Eye	插件故障事件	agentHeartbeatInterrupted	重要	监控插件每1分钟发送1次心跳；当服务端3分钟收不到插件心跳时，“插件状态”显示为“故障”。	查看Agent域名是否无法解析。查看账号是否欠费。 Agent进程故障，先尝试重启Agent如果重启后状态还是故障，可能Agent相关文件被破坏，请尝试重新安装Agent。查看服务器内部时间和本地标准时间不一致。请将Agent更新为最新版本。

**表22** 数据空间服务
事件来源	命名空间	事件名称	事件ID	事件级别	事件说明	处理建议	事件影响
Data Space	SYS.HWDS	新增修订版本	newRevision	次要	数据产品发布了新的修订版本。	收到事件通知后根据需要导出新的修订版本数据。	无。

**表23** 企业交换机
事件来源	命名空间	事件名称	事件ID	事件级别	事件说明	处理建议	事件影响
ESW	SYS.ESW	IP地址冲突	IPConflict	重要	L2互联场景：一般是由于线上（本端子网）与线下（远端网段）存在相关IP地址的主机导致。	通过查看ARP、交换机信息等措施，排查出具体IP冲突的主机，根据业务场景调整IP避免冲突。	可能导致冲突IP相关网络通信异常。

**表24** 分布式缓存服务
事件来源	命名空间	事件名称	事件ID	事件级别	事件说明	处理建议	事件影响
DCS	SYS.DCS	在线迁移发生全量重试	migrationFullResync	次要	在线迁移在重试时，因无法进行增量同步，而触发了全量同步。	确认是否发生反复的全量重试，需要检查到源端的网络连接是否正常，是否源端压力过大。如果反复全量重试，联系运维人员处理。	迁移任务与源实例发生中断，重新触发了全量同步，可能导致源实例CPU冲高。
		Memcached主从倒换	memcachedMasterStandbyFailover	次要	Memcached主节点异常，触发主从倒换机制，备节点升主。	检查业务是否自愈。如果应用未恢复，需要重启应用进行恢复。	实例长连接会中断。
		Redis节点状态异常	redisNodeStatusAbnormal	重要	Redis节点状态异常。	检查业务是否受影响，如果影响联系运维人员处理。	节点状态异常，主节点异常会自动主备切换。从节点异常，如果客户端直连从节点进行读写分离，读操作会出现异常。
		Redis节点状态恢复正常	redisNodeStatusNormal	重要	Redis节点从异常恢复正常。	检查业务是否恢复。如果应用未重连，需要重启应用进行恢复。	异常恢复事件。
		数据迁移同步失败	migrateSyncDataFail	重要	执行在线迁移任务时，迁移任务失败。	重新配置迁移任务重试迁移。如果仍然失败，联系运维人员处理。	数据迁移失败。
		Memcached实例状态异常	memcachedInstanceStatusAbnormal	重要	Memcached节点状态异常。	检查业务是否受影响，如果影响联系运维人员处理。	Memcached实例状态异常,实例可能无法访问。
		Memcached实例状态异常恢复	memcachedInstanceStatusNormal	重要	Memcached节点从异常恢复正常。	检查业务是否恢复。如果应用未重连，需要重启应用进行恢复。	异常恢复事件。
		实例备份失败	instanceBackupFailure	重要	DCS实例备份失败，一般可能是由于访问OBS失败等原因导致。	手动备份进行重试。	自动备份失败。
		实例节点异常重启	instanceNodeAbnormalRestart	重要	一般是由于DCS实例节点异常后重启导致。	检查业务是否自愈。如果应用未恢复，需要重启应用进行恢复。	实例长连接会中断。
		终止超时lua脚本	scriptsStopped	提醒	一般是由于lua脚本运行时间过长，自动终止脚本运行。	优化lua脚本，防止执行超时。	lua脚本执行时间超长，被强制中断。lua脚本执行时间过长，会阻塞整个实例。
		节点自动重启	nodeRestarted	提醒	一般是由于lua脚本运行时间过长，并且已执行写操作，自动重启节点终止脚本运行。	检查业务是否自愈。如果应用未恢复，需要重启应用进行恢复。	实例长连接会中断。
		实例主备切换（故障切换）	masterStandbyFailover	重要	主节点因为硬件故障或软件故障等原因发生异常，触发主备切换，实现实例自愈。	检查应用程序是否重新连接实例，是否自愈，如果应用程序没有重连，出现连接异常的情况，请重启应用程序恢复。	主备切换，会导致访问出错，到实例的长连接中断
		实例主备切换（任务切换）	masterStandbySwitchover	重要	在控制台使用主备切换功能或调用主备切换API进行主动主备切换触发的事件。在规格变更过程中或实例重启后，发生的主备切换事件。其他经过约定(如故障演练或资源迁移)，在后台主动运维发起的主备切换的事件。	检查应用程序是否重新连接实例，是否自愈，如果应用程序没有重连，出现连接异常的情况，请重启应用程序恢复。	主备切换，会导致访问出错，到实例的长连接中断

**表25** 智能云接入
事件来源	命名空间	事件名称	事件ID	事件级别	事件说明	处理建议	事件影响
ICA	SYS.ICA	BGP peer连接中断	BgpPeerDisconnection	重要	BGP peer连接中断	登录网关设备，排查bgp peer断连原因	业务流量有可能会中断
		BGP peer连接成功	BgpPeerConnectionSuccess	重要	BGP peer连接成功	无	无
		GRE隧道状态异常	AbnormalGreTunnelStatus	重要	GRE隧道状态异常	登录网关设备，排查gre隧道状态异常原因	业务流量有可能会中断
		GRE隧道状态正常	NormalGreTunnelStatus	重要	GRE隧道状态正常	无	无
		设备wan口上线	EquipmentWanGoingOnline	重要	设备wan口上线	无	无
		设备wan口下线	EquipmentWanGoingOffline	重要	设备wan口下线	检查是否为人为操作或设备故障	设备无法正常使用
		智能企业网关设备上线	IntelligentEnterpriseGatewayGoingOnline	重要	智能企业网关设备上线	无	无
		智能企业网关设备下线	IntelligentEnterpriseGatewayGoingOffline	重要	智能企业网关设备下线	检查是否为人为操作或设备故障	设备无法正常使用

**表26** 多活高可用服务
事件来源	命名空间	事件名称	事件ID	事件级别	事件说明	处理建议	事件影响
MAS	SYS.MAS	数据库状态异常	dbError	重要	一般是由于MAS监控到用户数据库实例状态导致的。	用户登录MAS控制台查看原因及处理异常。	业务中断
		数据库状态恢复	dbRecovery	重要	数据库实例状态从异常恢复正常。	无。	业务中断
		Redis状态异常	redisError	重要	一般是由于MAS监控到用户Redis实例状态导致的。	用户登录MAS控制台查看原因及处理异常。	业务中断
		Redis状态恢复	redisRecovery	重要	Redis实例状态从异常恢复正常。	无。	业务中断
		MongoDB状态异常	mongodbError	重要	一般是由于MAS监控到用户MongoDB实例状态导致的。	用户登录MAS控制台查看原因及处理异常。	业务中断
		MongoDB状态恢复	mongodbRecovery	重要	API状态从异常恢复正常。	无。	业务中断
		Elasticsearch状态异常	esError	重要	一般是由于MAS监控到用户ElasticSearch实例状态导致的。	用户登录MAS控制台查看原因及处理异常。	业务中断
		Elasticsearch状态恢复	esRecovery	重要	ElasticSearch实例状态从异常恢复正常。	无。	业务中断
		API接口状态异常	apiError	重要	一般是由于MAS监控到用户API状态导致的。	用户登录MAS控制台查看原因及处理异常。	业务中断
		API接口状态恢复	apiRecovery	重要	API状态从异常恢复正常。	无。	业务中断
		多活分区状态发生变化	netChange	重要	MAS服务多活管理中心探测到多活分区状态发生变化	用户登录MAS控制台查看原因及处理异常。	可能导致多活分区网络的状态改变。

**表27** 资源管理服务
事件来源	事件名称	事件ID	事件级别	事件说明	处理建议	事件影响
RMS	配置不合规通知	configurationNoncomplianceNotification	重要	审计规则执行结果为不合规。	修改资源不合规的配置项，使其合规。	无。
RMS	配置合规通知	configurationComplianceNotification	提示	审计规则执行结果变为合规。	无。	无。

**表28** 云存储网关
事件来源	命名空间	事件名称	事件ID	事件级别	事件说明
CSG	SYS.CSG	网关进程状态异常	gatewayProcessStatusAbnormal	重要	当云存储网关进程状态异常时，则触发进程状态异常事件。
		网关连接状态异常	gatewayToServiceConnectAbnormal	重要	当云存储网关连续5个周期无状态上报时，则触发连接异常事件。
		网关与OBS连接状态异常	gatewayToObsConnectAbnormal	重要	当云存储网关无法连接到OBS时，则触发该事件。
		文件系统只读	gatewayFileSystemReadOnly	重要	当云存储网关上的分区文件系统只读时，则触发该事件。
		文件共享只读	gatewayFileShareReadOnly	重要	当文件共享因缓存盘存储空间不足，文件共享只读时，则触发该事件。

**表29** MapReduce服务
事件来源	命名空间	事件名称	事件ID	事件级别	事件说明	处理建议	事件影响
MRS	SYS.MRS	DBServer主备倒换	dbServerSwitchover	次要	DBServer主备倒换	主备倒换需要和运维人员确认是否为正常操作导致。	连续触发主备倒换可能影响Hive服务正常使用，导致Hive服务不可用。
		Flume Channel溢出	flumeChannelOverflow	次要	Flume Channel溢出	确认flume的channel配置是否合理，业务量是否有突增。	Flume任务无法正常写入数据到后端。
		NameNode主备倒换	namenodeSwitchover	次要	NameNode主备倒换	主备倒换需要和运维人员确认是否为正常操作导致。	连续触发主备倒换可能影响HDFS服务正常使用，读写HDFS文件可能失败。
		ResourceManager主备倒换	resourceManagerSwitchover	次要	ResourceManager主备倒换	主备倒换需要和运维人员确认是否为正常操作导致	连续触发主备倒换可能影响Yarn服务正常使用，导致任务出现异常甚至失败
		JobHistoryServer主备倒换	jobHistoryServerSwitchover	次要	JobHistoryServer主备倒换	主备倒换需要和运维人员确认是否为正常操作导致	连续触发主备倒换可能影响MapReduce服务正常使用，导致任务日志读取异常
		HMaster主备倒换	hmasterFailover	次要	HMaster主备倒换	主备倒换需要和运维人员确认是否为正常操作导致	连续触发主备倒换可能影响HBase服务正常使用
		Hue发生主备切换	hueFailover	次要	Hue发生主备切换	主备倒换需要和运维人员确认是否为正常操作导致	主备倒换可能影响HUE服务正常使用，导致页面无法使用等问题
		Impala HaProxy服务发生主备切换	impalaHaProxyFailover	次要	Impala HaProxy服务发生主备切换	主备倒换需要和运维人员确认是否为正常操作导致	连续触发主备倒换可能影响Impala服务正常使用
		Impala StateStoreCatalog服务发生主备切换	impalaStateStoreCatalogFailover	次要	Impala StateStoreCatalog服务发生主备切换	主备倒换需要和运维人员确认是否为正常操作导致	连续触发主备倒换可能影响Impala服务正常使用
		LdapServer主备倒换	ldapServerFailover	次要	LdapServer主备倒换	主备倒换需要和运维人员确认是否为正常操作导致	连续触发主备倒换可能影响LdapServer服务正常使用
		Loader主备倒换	loaderSwitchover	次要	Loader主备倒换	主备倒换需要和运维人员确认是否为正常操作导致	主备倒换可能影响Loader服务正常使用
		Manager主备倒换	managerSwitchover	提示	Manager主备倒换	主备倒换需要和运维人员确认是否为正常操作导致	Manager主备倒换可能导致Manager页面无法正常访问，部分监控可能出现异常数值
		作业执行失败	jobRunningFailed	提示	作业执行失败	查看作业管理页面，确认失败任务是否有异常	作业执行过程出现失败
		作业被终止	jobkilled	提示	作业被终止	确认任务是否人为下发终止命令	作业执行过程被终止
		Oozie工作流执行失败	oozieWorkflowExecutionFailure	次要	Oozie工作流执行失败	查看Oozie日志，确认任务失败原因	Oozie工作流执行失败
		Oozie定时任务执行失败	oozieScheduledJobExecutionFailure	次要	Oozie定时任务执行失败	查看Oozie日志，确认任务失败原因	Oozie定时任务执行失败
		ClickHouse服务不可用	clickHouseServiceUnavailable	紧急	ClickHouse服务不可用	请参考《MapReduce服务用户指南》的“ALM-45425 ClickHouse服务不可用”章节。	ClickHouse服务异常，无法通过FusionInsight Manager对ClickHouse进行集群操作，无法使用ClickHouse服务功能。
		DBService服务不可用	dbServiceServiceUnavailable	紧急	DBService服务不可用	请参考《MapReduce服务用户指南》的“ALM-27001 DBService服务不可用”章节。	数据库服务不可用，无法对上层服务提供数据入库、查询等功能，使部分服务异常。
		DBService主备节点间心跳中断	dbServiceHeartbeatInterruptionBetweentheActiveAndStandbyNodes	重要	DBService主备节点间心跳中断	请参考《MapReduce服务用户指南》的“ALM-27003 DBService主备节点间心跳中断”章节。	DBService主备间心跳中断时只有一个节点提供服务，一旦该节点故障，再无法切换到备节点，就会服务不可用。
		DBService主备数据不同步	dataInconsistencyBetweenActiveAndStandbyDBServices	紧急	DBService主备数据不同步	请参考《MapReduce服务用户指南》的“ALM-27004 DBService主备数据不同步”章节。	主备DBServer数据不同步，如果此时主实例异常，则会出现数据丢失或者数据异常的情况。
		数据库进入只读模式	databaseEnterstheReadOnlyMode	紧急	数据库进入只读模式	请参考《MapReduce服务用户指南》的“ALM-27007 数据库进入只读模式”章节。	数据库进入只读模式，业务数据丢失。
		Flume服务不可用	flumeServiceUnavailable	紧急	Flume服务不可用	请参考《MapReduce服务用户指南》的“ALM-24000 Flume服务不可用”章节。	当Flume服务不可用时，Flume不能正常工作，数据传输业务中断。
		Flume Agent异常	flumeAgentException	重要	Flume Agent异常	请参考《MapReduce服务用户指南》的“ALM-24001 Flume Agent异常”章节。	产生告警的Flume Agent实例无法正常启动，定义在该实例下的数据传输任务暂时中断，对于实时数据传输，会丢失实时数据。
		Flume Client连接中断	flumeClientDisconnected	重要	Flume Client连接中断	请参考《MapReduce服务用户指南》的“ALM-24003 Flume Client连接中断”章节。	产生告警的Flume Client无法与Flume Server端进行通信，Flume Client端的数据无法传输到Flume Server端。
		Flume读取数据异常	exceptionOccursWhenFlumeReadsData	重要	Flume读取数据异常	请参考《MapReduce服务用户指南》的“ALM-24004 Flume读取数据异常”章节。	如果数据源有数据，Flume Source持续读取不到数据，数据采集会停止。
		Flume传输数据异常	exceptionOccursWhenFlumeTransmitsData	重要	Flume传输数据异常	请参考《MapReduce服务用户指南》的“ALM-24005 Flume传输数据异常”章节。	Flume Channel的磁盘空间使用量有继续增长的趋势，将会使数据导入到指定目的地的时间增长，当Flume Channel的磁盘空间使用量达到100%时会导致Flume Agent进程暂停工作。
		Flume 证书文件非法或已损坏	flumeCertificateFileIsinvalid	重要	Flume 证书文件非法或已损坏	请参考《MapReduce服务用户指南》的“ALM-24010 Flume证书文件非法或已损坏”章节。	Flume证书文件已经非法或损坏，功能受限，Flume客户端将无法访问Flume服务端。
		Flume 证书文件即将过期	flumeCertificateFileIsAboutToExpire	重要	Flume 证书文件即将过期	请参考《MapReduce服务用户指南》的“ALM-24011 Flume证书文件即将过期”章节。	Flume证书文件即将失效，对系统目前运行无影响。
		Flume 证书文件已过期	flumeCertificateFileIsExpired	重要	Flume 证书文件已过期	请参考《MapReduce服务用户指南》的“ALM-24012 Flume证书文件已过期”章节。	Flume证书文件已过期，功能受限，Flume客户端将无法访问Flume服务端。
		Flume MonitorServer证书文件失效	flumeMonitorServerCertificateFileIsInvalid	重要	Flume MonitorServer证书文件失效	请参考《MapReduce服务用户指南》的“ALM-24013 Flume MonitorServer证书文件非法或已损坏”章节。	MonitorServer证书文件已经非法或损坏，功能受限，Flume客户端将无法访问Flume服务端。
		Flume MonitorServer证书文件即将过期	flumeMonitorServerCertificate FileIsAboutToExpire	重要	Flume MonitorServer证书文件即将过期	请参考《MapReduce服务用户指南》的“ALM-24014 Flume MonitorServer证书文件即将过期”章节。	MonitorServer证书文件即将失效，对系统目前运行无影响。
		Flume MonitorServer证书文件已过期	flumeMonitorServerCertificateFileIsExpired	重要	Flume MonitorServer证书文件已过期	请参考《MapReduce服务用户指南》的“ALM-24015 Flume MonitorServer证书文件已过期”章节。	MonitorServer证书文件已过期，功能受限，Flume客户端将无法访问Flume服务端。
		HDFS服务不可用	hdfsServiceUnavailable	紧急	HDFS服务不可用	请参考《MapReduce服务用户指南》的“ALM-14000 HDFS服务不可用”章节。	无法为基于HDFS服务的HBase和MapReduce等上层部件提供服务。用户无法读写文件。
		NameService服务异常	nameServiceServiceUnavailable	重要	NameService服务异常	请参考《MapReduce服务用户指南》的“ALM-14010 NameService服务异常”章节。	无法为基于该NameService服务的HBase和MapReduce等上层部件提供服务。用户无法读写文件。
		DataNode数据目录配置不合理	datanodeDataDirectoryIsNotConfiguredProperly	重要	DataNode数据目录配置不合理	请参考《MapReduce服务用户指南》的“ALM-14011 DataNode数据目录配置不合理”章节。	如果将DataNode数据目录挂载在根目录等系统关键目录，长时间运行后会将根目录写满，导致系统故障。不合理的DataNode数据目录配置，会造成HDFS的性能下降。
		Journalnode数据不同步	journalnodeIsOutOfSynchronization	重要	Journalnode数据不同步	请参考《MapReduce服务用户指南》的“ALM-14012 Journalnode数据不同步”章节。	当一个JournalNode节点工作状态异常时，其数据就会与其他JournalNode节点的数据不同步。如果超过一半的JournalNode节点的数据不同步时，NameNode将无法工作，导致HDFS服务不可用。
		NameNode FsImage文件更新失败	failedToUpdateTheNameNodeFsImageFile	重要	NameNode FsImage文件更新失败	请参考《MapReduce服务用户指南》的“ALM-14013 NameNode FsImage文件更新失败”章节。	如果主NameNode数据目录的FsImage没有更新，则说明HDFS元数据合并功能异常，需要修复。如不修复，HDFS在运行一段时间后，Editlog会一直增长。此时如果重启HDFS，由于要加载非常多的Editlog，会导致启动非常耗时。另外，该告警的产生也说明备NameNode功能异常，导致NameNode的HA机制失效。一旦主NameNode故障，则整个HDFS服务将不可用。
		DataNode磁盘故障	datanodeDiskFault	重要	DataNode磁盘故障	请参考《MapReduce服务用户指南》的“ALM-14027 DataNode磁盘故障”章节。	上报DataNode磁盘故障告警时，表示该DataNode节点上存在故障的磁盘分区，可能会导致已写入的文件丢失。
		Yarn服务不可用	yarnServiceUnavailable	紧急	Yarn服务不可用	请参考《MapReduce服务用户指南》的“ALM-18000 Yarn服务不可用”章节。	集群无法提供Yarn服务。用户无法执行新的application。已提交的application无法执行。
		NodeManager心跳丢失	nodemanagerHeartbeatLost	重要	NodeManager心跳丢失	请参考《MapReduce服务用户指南》的“ALM-18002 NodeManager心跳丢失”章节。	丢失的NodeManager节点无法提供Yarn服务。容器减少，集群性能下降。
		NodeManager不健康	nodemanagerUnhealthy	重要	NodeManager不健康	请参考《MapReduce服务用户指南》的“ALM-18003 NodeManager不健康”章节。	故障的NodeManager节点无法提供Yarn服务。容器减少，集群性能下降。
		Yarn 任务执行超时	yarnApplicationTimeout	次要	Yarn 任务执行超时	请参考《MapReduce服务用户指南》的“ALM-18020 Yarn任务执行超时”章节。	任务执行超时后的运行时间内，该告警一直存在，但任务仍继续正常执行，没有任何影响。
		Mapreduce服务不可用	mapreduceServiceUnavailable	紧急	Mapreduce服务不可用	请参考《MapReduce服务用户指南》的“ALM-18021 Mapreduce服务不可用”章节。	集群无法提供Mapreduce服务，如无法通过Mapreduce查看任务日志，无法提供Mapreduce服务的日志归档功能等。
		Yarn队列资源不足	insufficientYarnQueueResources	次要	Yarn队列资源不足	请参考《MapReduce服务用户指南》的“ALM-18022 Yarn队列资源不足”章节。	应用任务结束时间变长。新应用提交后长时间无法运行。
		HBase服务不可用	hbaseServiceUnavailable	紧急	HBase服务不可用	请参考《MapReduce服务用户指南》的“ALM-19000 HBase服务不可用”章节。	无法进行数据读写和创建表等操作。
		HBase系统表目录或文件丢失	systemTablePathOrFileOfHBaseIsMissing	紧急	HBase系统表目录或文件丢失	请参考《MapReduce服务用户指南》的“ALM-19012 HBase系统表目录或文件丢失”章节。	HBase服务重启/启动失败。
		Hive服务不可用	hiveServiceUnavailable	紧急	Hive服务不可用	请参考《MapReduce服务用户指南》的“ALM-16004 Hive服务不可用”章节。	Hive无法提供数据加载，查询，提取服务。
		Hive数据仓库被删除	hiveDataWarehouseIsDeleted	紧急	Hive数据仓库被删除	请参考《MapReduce服务用户指南》的“ALM-16045 Hive数据仓库被删除”章节。	Hive默认数据仓库被删除，会导致在默认数据仓库中创建库、创建表失败，影响业务正常使用。
		Hive数据仓库权限被修改	hiveDataWarehousePermissionIsModified	紧急	Hive数据仓库权限被修改	请参考《MapReduce服务用户指南》的“ALM-16046 Hive数据仓库权限被修改”章节。	Hive默认数据仓库的权限被修改，会影响当前用户，用户组，其他用户在默认数据仓库中创建库、创建表等操作的操作权限范围。会扩大或缩小权限。
		HiveServer已从Zookeeper注销	hiveServerHasBeenDeregisteredFromZookeeper	重要	HiveServer已从Zookeeper注销	请参考《MapReduce服务用户指南》的“ALM-16047 HiveServer已从Zookeeper注销”章节。	当无法在Zookeeper上读取到Hive的配置，将会导致HiveServer不可用。
		tez或者spark库路径不存在	tezlibOrSparklibIsNotExist	重要	tez或者spark库路径不存在	请参考《MapReduce服务用户指南》的“ALM-16048 Tez或者Spark库路径不存在”章节。	Tez或者Spark库路径不存在，会影响Hive on Tez，Hive on Spark的功能。
		Hue服务不可用	hueServiceUnavailable	紧急	Hue服务不可用	请参考《MapReduce服务用户指南》的“ALM-20002 Hue服务不可用”章节。	系统无法提供数据加载，查询，提取服务。
		Impala服务不可用	impalaServiceUnavailable	紧急	Impala服务不可用	请参考《MapReduce服务用户指南》的“ALM-29000 Impala服务不可用”章节。	Impala服务异常，无法通过FusionInsight Manager对Impala进行集群操作，无法使用Impala服务功能。
		Kafka服务不可用	kafkaServiceUnavailable	紧急	Kafka服务不可用	请参考《MapReduce服务用户指南》的“ALM-38000 Kafka服务不可用”章节。	集群无法对外提供Kafka服务，用户无法执行新的Kafka任务。
		Kafka默认用户状态异常	statusOfKafkaDefaultUserIsAbnormal	紧急	Kafka默认用户状态异常	请参考《MapReduce服务用户指南》的“ALM-38007 Kafka默认用户状态异常”章节。	Kafka默认用户状态异常，会影响Broker之间的元数据同步，以及Kafka与ZooKeeper之间的交互，进而影响业务生产、消费和Topic的创建、删除等操作。
		Kafka数据目录状态异常	abnormalKafkaDataDirectoryStatus	重要	Kafka数据目录状态异常	请参考《MapReduce服务用户指南》的“ALM-38008 Kafka数据目录状态异常”章节。	Kafka数据目录状态异常，会导致该数据目录上所有Partition的当前副本下线，多个节点同时出现数据目录状态异常，可能会导致部分Partition不可用。
		存在单副本的Topic	topicsWithSingleReplica	警告	存在单副本的Topic	请参考《MapReduce服务用户指南》的“ALM-38010 存在单副本的Topic”章节。	单副本的Topic存在单点故障风险，当副本所在节点异常时，会直接导致Partition没有leader，影响该Topic上的业务。
		KrbServer服务不可用	krbServerServiceUnavailable	紧急	KrbServer服务不可用	请参考《MapReduce服务用户指南》的“ALM-25500 KrbServer服务不可用”章节。	告警发生时，不能对集群中的组件KrbServer进行任何操作。其它组件的KrbServer认证将受影响。集群中依赖KrbServer的组件运行状态将为故障。
		Kudu服务不可用	kuduServiceUnavailable	紧急	Kudu服务不可用	请参考《MapReduce服务用户指南》的“ALM-29100 Kudu服务不可用”章节。	用户无法使用Kudu服务。
		LdapServer服务不可用	ldapServerServiceUnavailable	紧急	LdapServer服务不可用	请参考《MapReduce服务用户指南》的“ALM-25000 LdapServer服务不可用”章节。	告警发生时，不能对集群中的KrbServer和LdapServer用户进行任何操作。例如，无法在FusionInsight Manager页面添加、删除或修改任何用户、用户组或角色，也无法修改用户密码。集群中原有的用户验证不受影响。
		LdapServer数据同步异常	abnormalLdapServerDataSynchronization	紧急	LdapServer数据同步异常	请参考《MapReduce服务用户指南》的“ALM-25004 LdapServer数据同步异常”章节。	LdapServer数据不一致时，有可能是Manager上的LdapServer数据损坏，也有可能是集群上的LdapServer数据损坏，此时数据损坏的LdapServer进程将无法对外提供服务，影响Manager和集群的认证功能。
		Nscd服务异常	nscdServiceIsAbnormal	重要	Nscd服务异常	请参考《MapReduce服务用户指南》的“ALM-25005 Nscd服务异常”章节。	nscd服务异常时，可能会影响该节点从LdapServer上同步数据，此时，使用id命令可能会获取不到Ldap中的数据，影响上层业务。
		Sssd服务异常	sssdServiceIsAbnormal	重要	Sssd服务异常	请参考《MapReduce服务用户指南》的“ALM-25006 Sssd服务异常”章节。	sssd服务异常时，可能会影响该节点从LdapServer上同步数据，此时，使用id命令可能会获取不到ldap中的数据，影响上层业务。
		Loader服务不可用	loaderServiceUnavailable	紧急	Loader服务不可用	请参考《MapReduce服务用户指南》的“ALM-23001 Loader服务不可用”章节。	如果Loader服务不可用，数据加载，导入，转换的功能也不可用。
Oozie服务不可用	oozieServiceUnavailable	紧急	Oozie服务不可用	请参考《MapReduce服务用户指南》的“ALM-17003 Oozie服务不可用”章节。	无法使用Oozie服务提交作业。
Ranger服务不可用	rangerServiceUnavailable	紧急	Ranger服务不可用	请参考《MapReduce服务用户指南》的“ALM-45275 Ranger服务不可用”章节。	当Ranger服务不可用时，Ranger无法正常工作，Ranger原生UI无法访问。
RangerAdmin状态异常	abnormalRangerAdminStatus	重要	RangerAdmin状态异常	请参考《MapReduce服务用户指南》的“ALM-45276 RangerAdmin状态异常”章节。	当存在单个RangerAdmin状态异常时，不影响Ranger原生UI访问；当两个RangerAdmin状态异常时，Ranger原生UI无法访问，无法执行创建、修改、删除策略等操作。
Spark2x服务不可用	spark2xServiceUnavailable	紧急	Spark2x服务不可用	请参考《MapReduce服务用户指南》的“ALM-43001 Spark2x服务不可用”章节。	用户提交的Spark任务执行失败。
Storm服务不可用	stormServiceUnavailable	紧急	Storm服务不可用	请参考《MapReduce服务用户指南》的“ALM-26051 Storm服务不可用”章节。	集群无法对外提供Storm服务，用户无法执行新的Storm任务。
ZooKeeper服务不可用	zooKeeperServiceUnavailable	紧急	ZooKeeper服务不可用	请参考《MapReduce服务用户指南》的“ALM-13000 ZooKeeper服务不可用”章节。	ZooKeeper无法为上层组件提供协调服务，依赖ZooKeeper的组件可能无法正常运行。
ZooKeeper中组件顶层目录的配额设置失败	failedToSetTheQuotaOfTopDirectoriesOfZooKeeperComponent	次要	ZooKeeper中组件顶层目录的配额设置失败	请参考《MapReduce服务用户指南》的“ALM-13005 ZooKeeper中组件顶层目录的配额设置失败”章节。	组件可以向对应的ZooKeeper顶层目录中写入大量数据，导致Zookeeper服务不可用。

事件监控支持的事件说明

意见反馈

文档内容是否对您有帮助？