计算
弹性云服务器 ECS
Flexus云服务
裸金属服务器 BMS
弹性伸缩 AS
镜像服务 IMS
专属主机 DeH
函数工作流 FunctionGraph
云手机服务器 CPH
Huawei Cloud EulerOS
网络
虚拟私有云 VPC
弹性公网IP EIP
虚拟专用网络 VPN
弹性负载均衡 ELB
NAT网关 NAT
云专线 DC
VPC终端节点 VPCEP
云连接 CC
企业路由器 ER
企业交换机 ESW
全球加速 GA
安全与合规
安全技术与应用
Web应用防火墙 WAF
企业主机安全 HSS
云防火墙 CFW
安全云脑 SecMaster
DDoS防护 AAD
数据加密服务 DEW
数据库安全服务 DBSS
云堡垒机 CBH
数据安全中心 DSC
云证书管理服务 CCM
边缘安全 EdgeSec
威胁检测服务 MTD
CDN与智能边缘
内容分发网络 CDN
CloudPond云服务
智能边缘云 IEC
迁移
主机迁移服务 SMS
对象存储迁移服务 OMS
云数据迁移 CDM
迁移中心 MGC
大数据
MapReduce服务 MRS
数据湖探索 DLI
表格存储服务 CloudTable
云搜索服务 CSS
数据接入服务 DIS
数据仓库服务 GaussDB(DWS)
数据治理中心 DataArts Studio
数据可视化 DLV
数据湖工厂 DLF
湖仓构建 LakeFormation
企业应用
云桌面 Workspace
应用与数据集成平台 ROMA Connect
云解析服务 DNS
专属云
专属计算集群 DCC
IoT物联网
IoT物联网
设备接入 IoTDA
智能边缘平台 IEF
用户服务
账号中心
费用中心
成本中心
资源中心
企业管理
工单管理
国际站常见问题
ICP备案
我的凭证
支持计划
客户运营能力
合作伙伴支持计划
专业服务
区块链
区块链服务 BCS
Web3节点引擎服务 NES
解决方案
SAP
高性能计算 HPC
视频
视频直播 Live
视频点播 VOD
媒体处理 MPC
实时音视频 SparkRTC
数字内容生产线 MetaStudio
存储
对象存储服务 OBS
云硬盘 EVS
云备份 CBR
存储容灾服务 SDRS
高性能弹性文件服务 SFS Turbo
弹性文件服务 SFS
云硬盘备份 VBS
云服务器备份 CSBS
数据快递服务 DES
专属分布式存储服务 DSS
容器
云容器引擎 CCE
容器镜像服务 SWR
应用服务网格 ASM
华为云UCS
云容器实例 CCI
管理与监管
云监控服务 CES
统一身份认证服务 IAM
资源编排服务 RFS
云审计服务 CTS
标签管理服务 TMS
云日志服务 LTS
配置审计 Config
资源访问管理 RAM
消息通知服务 SMN
应用运维管理 AOM
应用性能管理 APM
组织 Organizations
优化顾问 OA
IAM 身份中心
云运维中心 COC
资源治理中心 RGC
应用身份管理服务 OneAccess
数据库
云数据库 RDS
文档数据库服务 DDS
数据管理服务 DAS
数据复制服务 DRS
云数据库 GeminiDB
云数据库 GaussDB
分布式数据库中间件 DDM
数据库和应用迁移 UGO
云数据库 TaurusDB
人工智能
人脸识别服务 FRS
图引擎服务 GES
图像识别 Image
内容审核 Moderation
文字识别 OCR
AI开发平台ModelArts
图像搜索 ImageSearch
对话机器人服务 CBS
华为HiLens
视频智能分析服务 VIAS
语音交互服务 SIS
应用中间件
分布式缓存服务 DCS
API网关 APIG
微服务引擎 CSE
分布式消息服务Kafka版
分布式消息服务RabbitMQ版
分布式消息服务RocketMQ版
多活高可用服务 MAS
事件网格 EG
企业协同
华为云会议 Meeting
云通信
消息&短信 MSGSMS
云生态
合作伙伴中心
云商店
开发者工具
SDK开发指南
API签名指南
Terraform
华为云命令行工具服务 KooCLI
其他
产品价格详情
系统权限
管理控制台
客户关联华为云合作伙伴须知
消息中心
公共问题
开发与运维
应用管理与运维平台 ServiceStage
软件开发生产线 CodeArts
需求管理 CodeArts Req
部署 CodeArts Deploy
性能测试 CodeArts PerfTest
编译构建 CodeArts Build
流水线 CodeArts Pipeline
制品仓库 CodeArts Artifact
测试计划 CodeArts TestPlan
代码检查 CodeArts Check
代码托管 CodeArts Repo
云应用引擎 CAE
开天aPaaS
云消息服务 KooMessage
云手机服务 KooPhone
云空间服务 KooDrive
本文导读

展开导读

事件监控支持的事件说明

更新时间:2024-04-03 GMT+08:00
表1 弹性云服务器

事件来源

事件名称

事件ID

事件级别

事件说明

处理建议

事件影响

ECS

因硬件故障触发重启

startAutoRecovery

重要

弹性云服务器所在的主机出现故障时,系统会自动将弹性云服务器迁移至正常的物理机,迁移过程中系统会自动重启云服务器。

等待恢复成功,观察业务是否受到影响。

业务存在中断的可能。

因硬件故障重启已完成

endAutoRecovery

重要

当自动迁移完成后,弹性云服务器已恢复正常。

当收到“恢复成功”时,云服务器已正常工作,可继续使用。

业务恢复正常。

恢复超时(后台处理中)

faultAutoRecovery

重要

迁移弹性云服务器至正常的物理机操作超时。

迁移业务至其他云服务器。

业务中断。

GPU链路故障

GPULinkFault

紧急

弹性云服务器所在的主机上GPU卡故障。包括:

  • GPU卡故障。
  • GPU卡故障恢复中。

业务应用做成高可用。

GPU卡故障恢复后,确认业务是否自动恢复。

业务中断。

删除虚拟机

deleteServer

重要

删除云服务器。包括:

  • 在管理控制台进行删除操作。
  • 通过API接口下发删除指令。

确认删除操作是否为主动执行。

业务中断。

重启虚拟机

rebootServer

次要

云服务器重启。包括:

  • 在管理控制台进行重启操作。
  • 通过API接口下发重启指令。

确认操作是否为主动执行。

  • 业务应用做成高可用。
  • 云服务器开机后,确认业务是否自动恢复。

业务中断。

关闭虚拟机

stopServer

次要

云服务器关机。包括:

  • 在管理控制台进行关机操作。
  • 通过API接口下发关机指令。
说明:

“关闭虚拟机”事件需要开启云审计后才生效,详细请参见《云审计服务用户指南》。

  • 确认操作是否为主动执行。
  • 业务应用做成高可用。
  • 云服务器开机后,确认业务是否自动恢复。

业务中断。

删除网卡

deleteNic

重要

云服务器删除网卡。包括:

  • 在管理控制台删除网卡。
  • 通过API接口下发删除网卡指令。
  • 确认操作是否为主动执行。
  • 业务应用做成高可用。
  • 删除网卡后,确认业务是否自动恢复。

网卡被删除,存在业务中断的可能。

变更规格

resizeServer

次要

云服务器规格变更。包括:

  • 在管理控制台进行变更规格。
  • 通过API接口下发变更规格指令。
  • 确认操作是否为主动执行。
  • 业务应用做成高可用。
  • 变更规格后,确认业务是否自动恢复。

业务中断。

GuestOS系统层重启告警

RestartGuestOS

一般

GuestOS内部重启。

联系运维人员处理。

在系统重启场景下,可能导致业务中断。

主机进程异常导致虚拟机故障

VMFaultsByHostProcessExceptions

紧急

云服务器所在宿主机服务进程异常,导致云服务器故障。

联系运维人员处理

云服务器故障。

开机失败

faultPowerOn

重要

云服务器开机失败。

重试开机,若仍开机失败,联系运维人员处理。

云服务器无法开机。

宿主机存在宕机风险

hostMayCrash

重要

弹性云服务器所在的宿主机存在宕机风险,且由于一些原因,无法通过热迁移手段规避该风险。

将该弹性云服务器上业务移除,并将该弹性云服务器删除或关机,等待运维人员处理完风险后再开机。

可能因为宿主机宕机而导致业务中断。

实例计划迁移已完成

instance_migrate_completed

重要

由于底层硬件、系统运维等影响,实例在计划时间迁移,任务已完成。

等待运行状态恢复正常,确认业务是否自动恢复。

业务存在中断的可能

实例计划迁移执行中

instance_migrate_executing

重要

由于底层硬件、系统运维等影响,实例在计划时间迁移,任务执行中。

等待自动恢复事件结束,观察业务是否受到影响。

业务存在中断的可能

实例计划迁移已取消

instance_migrate_canceled

重要

由于底层硬件、系统运维等影响,实例在计划时间迁移,任务已取消。

实例计划迁移失败

instance_migrate_failed

重要

由于底层硬件、系统运维等影响,实例在计划时间迁移,任务失败。

联系运维人员处理

业务中断

实例计划迁移等待执行

instance_migrate_scheduled

重要

由于底层硬件、系统运维等影响,实例在计划时间迁移,任务等待执行。

确认执行窗口对业务的影响

实例计划规格变更失败

instance_resize_failed

重要

实例在计划时间规格变更,任务失败。

联系运维人员处理

业务中断

实例计划规格变更已完成

instance_resize_completed

重要

实例在计划时间规格变更,任务已完成。

实例计划规格变更执行中

instance_resize_executing

重要

实例在计划时间规格变更,任务执行中。

等待自动恢复事件结束,观察虚拟机是否正常变更成功。

业务中断

实例计划规格变更已取消

instance_resize_canceled

重要

实例在计划时间规格变更,任务已取消。

实例计划规格变更等待执行

instance_resize_scheduled

重要

实例在计划时间规格变更,任务等待执行。

确认执行窗口对业务的影响。

实例计划重新部署等待执行

instance_redeploy_scheduled

重要

由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机,任务等待执行。

确认执行窗口对业务的影响。

实例计划重启等待执行

instance_reboot_scheduled

重要

由于底层硬件、系统运维等影响,实例在计划时间重启,任务等待执行。

确认执行窗口对业务的影响。

实例计划停止等待执行

instance_stop_scheduled

重要

由于底层硬件、系统运维等影响,实例在计划时间停止,任务等待执行。

确认执行窗口对业务的影响。

开始热迁移

liveMigrationStarted

重要

弹性云服务器所在的主机可能出现故障,提前对虚拟机进行热迁移,避免宕机后导致业务中断。

等待事件结束,观察业务是否受到影响。

业务可能出现1s以内的网络中断。

结束热迁移

liveMigrationCompleted

重要

热迁移已经结束,弹性云服务器已恢复正常。

观察业务是否正常运行。

无。

热迁移失败

liveMigrationFailed

重要

弹性云服务器热迁移出现问题,未热迁移成功。

观察业务是否正常运行。

小概率存在业务中断的可能。

GPU SRAM存在Uncorrectable ECC告警

SRAMUncorrectableEccError

重要

GPU卡SRAM出现Uncorrectable ECC Error硬件故障

如果业务受损,请提交工单。

可能GPU硬件问题导致SRAM故障,导致业务异常退出

FPGA链路故障

FPGALinkFault

紧急

弹性云服务器所在的主机上FPGA卡故障。包括:

  • FPGA卡故障。
  • FPGA卡故障恢复中。

业务应用做成高可用。

FPGA卡故障恢复后,确认业务是否自动恢复。

业务中断。

实例计划重新部署问询中

instance_redeploy_inquiring

重要

由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机,任务问询中。

授权重新部署到新主机操作。

本地盘换盘取消

localdisk_recovery_canceled

重要

因本地盘故障,更换本地盘任务,任务已取消

本地盘换盘等待执行

localdisk_recovery_scheduled

重要

因本地盘故障,更换本地盘任务,任务等待执行

确认执行窗口对业务的影响

GPU存在通用Xid事件告警

commonXidError

重要

GPU卡出现Xid事件告警

如果业务受损,请提交工单。

gpu硬件、驱动、应用问题导致Xid事件,可能导致业务异常退出。

nvidia-smi命令卡住

nvidiaSmiHangEvent

重要

nvidia-smi命令超时,该命令可能卡住

如果业务受损,请提交工单。

可能是命令执行过程中,触发驱动问题,导致命令卡住,同时可能出现业务使用驱动报错问题。

NPU: 存在不可纠正ECC错误

UncorrectableEccErrorCount

重要

NPU卡出现Uncorrectable ECC Error硬件故障

如果业务受到影响,转硬件换卡

业务可能受到影响终止

实例计划重新部署已取消

instance_redeploy_canceled

重要

由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机。

实例计划重新部署执行中

instance_redeploy_executing

重要

由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机。

等待自动恢复事件结束,观察业务是否受到影响。

业务中断

实例计划重新部署已完成

instance_redeploy_completed

重要

由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机。

等待运行状态恢复正常,观察业务是否受到影响。

业务恢复正常

实例计划重新部署失败

instance_redeploy_failed

重要

由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机。

联系运维人员处理。

业务中断

本地盘换盘问询中

localdisk_recovery_inquiring

重要

本地盘故障

授权本地盘换盘操作。

本地盘不可用

本地盘换盘执行中

localdisk_recovery_executing

重要

本地盘故障

等待本地盘换盘结束,观察本地盘功能是否正常。

本地盘不可用

本地盘换盘已完成

localdisk_recovery_completed

重要

本地盘故障

等待运行状态恢复正常,确认本地盘功能是否自动恢复。

本地盘恢复正常

本地盘换盘失败

localdisk_recovery_failed

重要

本地盘故障

联系运维人员处理。

本地盘不可用

说明:

自动恢复:弹性云服务器所在的硬件出现故障时,系统会自动将弹性云服务器迁移至正常的物理机,该过程会导致云服务器重启。

表2 弹性公网IP

事件来源

事件名称

事件ID

事件级别

EIP

释放EIP

deleteEip

次要

表3 弹性公网IP和带宽

事件来源

事件名称

事件ID

事件级别

弹性公网IP和带宽

删除VPC

deleteVpc

重要

修改VPC

modifyVpc

次要

删除Subnet

deleteSubnet

次要

修改Subnet

modifySubnet

次要

修改带宽

modifyBandwidth

次要

删除VPN

deleteVpn

重要

修改VPN

modifyVpn

次要

表4 云硬盘

事件来源

事件名称

事件ID

事件级别

事件说明

处理建议

事件影响

EVS

更新磁盘

updateVolume

次要

更新一个云硬盘的名称和描述。

无需处理。

扩容磁盘

extendVolume

次要

对云硬盘进行扩容。

无需处理。

删除磁盘

deleteVolume

重要

删除一个云硬盘。

无需处理。

删除的磁盘将不能被恢复。

磁盘性能达到QoS上限

reachQoS

重要

磁盘性能频繁达到该规格的QoS上限,从而触发流控,导致IO访问时延变大。

磁盘性能频繁达到该规格的QoS上限,从而触发流控,导致IO访问时延变大,意味该类型的磁盘可能无法满足当前业务需求,建议提升磁盘规格。

磁盘性能频繁达到该规格的QoS上限,从而触发流控,导致IO访问时延变大,意味该类型的磁盘可能无法满足当前业务需求,建议提升磁盘规格

表5 统一身份认证服务

事件来源

事件名称

事件ID

事件级别

IAM

用户登录

login

次要

用户登出

logout

次要

登录重置密码

changePassword

重要

创建用户

createUser

次要

删除用户

deleteUser

重要

修改用户

updateUser

次要

创建用户组

createUserGroup

次要

删除用户组

deleteUserGroup

重要

修改用户组

updateUserGroup

次要

创建idp

createIdentityProvider

次要

删除idp

deleteIdentityProvider

重要

修改idp

updateIdentityProvider

次要

更新metadata

updateMetadata

次要

更新账号登录策略

updateSecurityPolicies

重要

创建AK/SK

addCredential

重要

删除AK/SK

deleteCredential

重要

创建project

createProject

次要

更新project

updateProject

次要

冻结项目

suspendProject

重要

表6 密钥管理服务

事件来源

事件名称

事件ID

事件级别

KMS

禁用密钥

disableKey

重要

计划删除密钥

scheduleKeyDeletion

次要

退役授权

retireGrant

重要

撤销授权

revokeGrant

重要

表7 对象存储服务

事件来源

事件名称

事件ID

事件级别

OBS

删除桶

deleteBucket

重要

删除桶policy配置

deleteBucketPolicy

重要

设置桶的ACL

setBucketAcl

次要

设置桶的策略

setBucketPolicy

次要

我们使用cookie来确保您的高速浏览体验。继续浏览本站,即表示您同意我们使用cookie。 详情

文档反馈

文档反馈

意见反馈

0/500

标记内容

同时提交标记内容