更新时间:2025-12-01 GMT+08:00
分享

事件中心

事件中心简介

在日常运维中,ModelArts会预测并主动规避资源所在底层宿主机的软硬件故障。当宿主机上的故障风险无法规避时,为避免资源可用性或性能受损对用户的业务造成更大影响,系统将生成并上报相关事件,便于用户及时知晓并授权修复资源。宿主机的运维修复操作需要用户授权同意维修后,才能启动对应流程,如:节点重启、系统维护、本地盘恢复等。

当资源池节点因不可恢复的故障需要进行节点修复时,系统会将计划事件推送至控制台的事件中心。您可以在左侧导航栏中单击“事件中心”,查看具体的事件信息、类型、状态和描述等,默认显示待授权、已授权和执行中的事件。移除筛选条件后,可以查看所有状态的事件。

您可以授权华为技术支持对故障节点进行授权修复操作或重部署操作:

授权修复操作:授权操作允许华为技术支持针对故障节点进行修复操作,具体修复操作根据计划事件类型进行选择。

授权重部署操作:重部署操作允许华为技术支持对故障节点进行整机替换(如果节点带有本地盘,本地盘数据将会丢失),恢复速度快。

完成运维操作后,华为技术支持会主动关闭已获得授权的事件,无需您进行额外操作。

授权修复操作

当故障节点满足授权操作执行条件时,可通过授权操作授权华为技术支持对故障节点进行运维。

您可在控制台“资源管理 > 事件中心”页面,找到对应节点,在操作列单击“授权”,在弹出的提示框中单击“确认”即可完成授权。

如果计划事件不满足条件,操作授权按钮为置灰状态。

授权重部署操作

当故障节点满足重部署操作执行条件时,可通过重部署操作授权华为技术支持对故障节点进行重部署。

  1. 在控制台“资源管理 > 事件中心”页面,找到对应节点,在操作列单击“重部署”

    如果计划事件不满足重部署操作执行条件,操作重部署按钮为置灰状态。

  2. 确认是否勾选“强制重部署”,并在输入框中输入“YES”,单击“确认”即可完成授权。

    由于重部署能力依赖节点的状态,当节点不可用时,无法完成重部署流程,如果勾选强制重部署,当节点不可用时,可通过强制重部署来将节点重部署。

重部署节点恢复更快,但本地盘数据将丢失,请谨慎操作。重部署前请先迁移业务和备份数据。

强制重部署会在节点重部署完成后进行节点重置,会导致服务器的本地盘数据和云盘数据全部丢失,请谨慎操作。

相关文档

Standard专属资源相关内容请参见:修复Standard专属资源池故障节点

Lite Cluster相关内容请参见:管理Lite Cluster节点

Lite Server相关内容请参见:授权修复Lite Server节点

相关文档