事件中心页面授权运维
场景描述
华为云会对节点的软硬件设备进行故障检测和日常运维,当节点由于不可恢复故障需要进行硬件维护时,会推送计划事件到控制台的事件中心。您可以在事件中心,查看具体的事件信息、事件类型、事件状态、事件描述等信息,可以授权华为技术支持对故障节点进行运维或重部署节点。
| 事件类型 | 事件状态 | 可执行操作 | 适用的资源类型 | 说明 |
|---|---|---|---|---|
| 系统维护 | 待授权 | 维护机器、重部署 | Snt9b, Snt9b21 | 维护机器操作需要对主机进行下电,在此期间节点将停止无法工作。在维护机器前,请确保节点中部署的业务离线或节点停止对业务无影响。 重部署操作对于包含本地盘的实例,实例重部署操作会丢失所有本地盘上的数据,如果无需保留本地盘上的数据,可通过重部署快速修复节点。 |
| 本地盘恢复 | 待授权 | 更换本地盘、重部署 | Snt9b, Snt9b21 | 更换本地盘操作会导致故障本地盘的数据可能部分或全部受损且不可恢复,建议您在收到事件通知时,立刻对重要数据进行备份。 在本地盘修复期间,您可以随时选择重部署方式来快速恢复故障本地盘,但该方式将导致所有本地盘数据丢失并重启节点,操作前需要对所有本地盘数据进行备份。 警告: 更换本地盘操作将会导致本地盘数据丢失,授权前请先迁移业务和备份数据。 |
| 运维授权 | 待授权 | 节点运维 | Snt9b, Snt9b21 | 节点运维操作表示授权华为技术支持对Lite资源类型的节点进行运维操作 |
| 节点重启 | 待授权 | 节点重启 | Snt9b, Snt9b21, Snt9b23 | 节点重启操作会停止实例,可能导致业务中断,未保存的数据丢失,请提前确认业务影响。 |
| 超节点维护 | 待授权 | 维护机器 | Snt9b23 | 维护机器操作需要对主机进行下电,在此期间节点将停止无法工作。在维护机器前,请确保节点中部署的业务离线或节点停止对业务无影响。 |
| 超节点重部署 | 待授权 | 重部署 | Snt9b23 | 重部署操作大约耗时10~30分钟,并且会重启节点,请选择合适的时间授权并提前进行业务切流。
|
| 超节点本地盘恢复 | 待授权 | 更换本地盘 | Snt9b23 | 当系统检测到超节点的本地盘因硬件故障、数据异常等原因导致无法正常读写时,会对受影响的节点自动生成“超节点本地盘恢复”计划事件。 更换本地盘操作会导致故障本地盘的数据可能部分或全部受损且不可恢复,建议您在收到事件通知时,立刻对重要数据进行备份。 警告: 更换本地盘操作将会导致本地盘数据丢失,授权前请先迁移业务和备份数据。 |
概念解释
- 系统维护: 系统维护操作要对主机下电维修,需要运维人员在机房实际重新插拔设备或更换备机,有时需要等待备件,因此时效性相对较差。
- 重部署:重部署操作是授权华为技术支持对发生故障的节点进行整机替换,并能够确保节点的配置信息和之前保持一致。故障恢复快,但是重部署后本地盘数据将会丢失数据。请谨慎操作。重部署前请先迁移业务和备份数据。
- 本地盘:本地盘指的是server上安装的物理硬盘,重部署后,机器上安装的硬盘会同步被更换,因此数据会丢失。
- 云硬盘:云硬盘是为弹性云服务器(ECS)和裸金属服务器(BMS)提供的高可靠、高性能、规格丰富且可弹性扩展的虚拟块存储服务,不和具体server绑定。
- 系统盘:系统盘指的是节点上安装的Linux的内核、启动引导程序、系统配置文件等重要信息的硬盘,大多是云硬盘。
约束限制
- 当前中国站所有站点均支持此功能,国际站部分站点(香港、约翰内斯堡和新加坡)站点支持此功能。
- 仅Snt9b、超节点Snt9b21和超节点Snt9b23支持通过计划事件发起硬件维护。
- 超节点重部署需要在物理超节点内操作。当超节点达到满配48台时,不支持重部署操作,该情况下会直接推送超节点系统维护计划事件。
- 如果计划事件不满足表1所示的事件状态,授权处理按钮为置灰状态。
- 轻量算力节点授权“超节点重部署”事件前,您需要先在“轻量算力节点页面”停止轻量算力节点实例,否则会授权失败。事件执行完成后,再重新启动Server实例。
- 节点本地盘恢复和超节点本地盘恢复操作将会导致本地盘数据丢失,授权前请先迁移业务和备份数据。本地盘恢复后需要登录到轻量算力节点内完成本地盘分区。
操作步骤
- 计划事件授权操作
当故障节点满足如表1所示的条件时,可通过授权操作授权华为技术支持对故障节点进行运维。
- 登录ModelArts管理控制台,在左侧菜单栏中选择“资源管理 > 辅助工具 > 事件中心”(旧版控制台:“资源管理 > 事件中心”)。
- 找到需要授权的节点,事件状态为待授权,在操作列单击“授权处理”。
- 在弹出的提示框中选择对应的处理方式,单击“确认”即可完成授权。
授权成功后,“授权处理”按钮置灰,事件状态变为待执行/执行中,如果选择了重部署处理方式,操作列会显示查看进度按钮,单击可以查看实时的重部署进度信息。
在完成运维操作后,华为云技术支持会主动关闭已获得授权,无需您额外操作。
图1 授权处理
- 计划事件状态流转说明
完成计划事件授权处理后,计划事件的状态会从待授权依次流转至待执行、执行中、已完成/失败,如下图所示。
图2 计划事件状态流转说明
表2 计划事件状态说明 计划事件状态
状态说明
可执行的操作
待授权(inquring)
系统计划事件已生成但还未得到授权,需要用户授权执行
授权计划事件,选择对应的处理方式
待执行(scheduled)
计划事件已得到授权,系统会根据执行窗口自动执行
无需操作
执行中(executing)
用户选择的计划事件处理方式正在执行中
无需操作
已完成(completed)
计划事件已执行成功,对应的故障已完成修复
无需操作
取消 (canceled)
计划事件被系统取消,比如导致该计划事件的根因故障已修复,系统会自动取消计划事件
无需操作
失败 (failed)
计划事件执行失败
联系华为技术支持进行运维处理
选择重部署处理的修复场景,计划事件的状态会直接从待授权切换到执行中,因为用户授权重部署后的执行窗口是立即执行。
系统维护场景操作示例
Snt9b23 超节点系统维护
维护机器是授权华为运维人员对硬件设备进行维修,这个过程需要机房人员实际更换备件,具有一定的时间周期。同时系统维护过程中,节点可能重启或下电,无法正常使用。授权前请确保您的业务已经完成迁移,本地数据已完成备份。
在确定对业务无影响的情况下,您可以选择在授权确认弹框中输入 "YES",或者直接单击"一键输入"后,再单击确定即可完成授权过程。
Snt9b和超节点Snt9b21系统维护
Snt9b和Snt9b21节点系统维护计划事件可以选择维护机器和重部署两种处理方式。以系统维护为例,如下图。

处理方式同Snt9b23,如果确定对业务无影响,您可以选择在授权确认弹框中输入 "YES",或者直接单击"一键输入"后,再单击“确定”即可完成授权过程。
重部署场景处理方式
重部署场景此处分别以Stn9b23超节点重部署,讲一下在专属资源池和轻量算力节点场景下的处理方式。同时介绍Stn9b和超节点Snt9b21重部署示例。
- Stn9b23超节点重部署
- 专属资源池和轻量算力集群场景
以超节点重部署计划事件为例,单击授权处理按钮后,处理方式为重部署,该处理方式会对发生故障的节点进行冷备整机替换,并确保新节点IP、配置信息等和源节点一致,通常恢复时间在10~30分钟。操作期间节点会重启。需要注意的是如果节点有本地盘,那么本地盘上的数据会被清空,请提前做好备份。
确认是否勾选“静默修复”及“强制重部署”,并在输入框中输入“YES”,单击“确认”即可完成授权。
静默修复:指的是若重部署操作失败(比如无冷备机器等),系统将自动流转至“系统维护”,并生成新的计划事件。该过程将自动完成授权,无需二次授权,推荐勾选。如果不勾选,重部署失败后计划事件状态变为失败,需要用户授权华为技术支持对发生失败计划事件进行运维处理。
强制重部署:指的是对不可用的节点进行强制冷备整机替换或者用户明确需要在重部署后进行节点重置操作。由于重部署能力依赖节点的状态,当节点不可用时,无法完成重部署流程,如果勾选强制重部署,当节点不可用时,可通过强制重部署来将节点重部署。强制重部署事件相对较长,一般需要20~30分钟。需要注意的是强制重部署会将本地盘及系统盘数据被清空,请提前做好备份。

事件状态已完成状态表示节点故障已修复,您可以调度节点进行业务作业。事件状态失败,请联系华为技术支持进行运维处理。如在同一节点上出现超节点重部署计划事件状态取消,生成超节点维护计划事件则表示勾选的静默修复选项生效,超节点重部署计划事件失败后自动流转到新的计划事件,新生成的计划事件无需您二次授权,请关注静默修复过程最新生成的计划事件状态。

- 轻量算力节点场景
轻量算力节点不支持勾选静默修复和强制重部署,用户只需要授权重部署操作即可。并且在轻量算力节点授权“超节点重部署”事件前,用户需要先在“轻量算力节点页面”停止轻量算力节点实例,否则会授权失败。
成功授权后,超节点重部署计划事件的状态变为待执行,且不支持查询重部署进度信息。轻量算力节点重部署成功后事件状态会变成已完成。此时,用户需要再重新启动Server实例。

强制重部署会在节点重部署完成后进行节点重置,会导致服务器的本地盘数据和系统盘数据全部丢失,请谨慎操作。
- 专属资源池和轻量算力集群场景
- Stn9b和超节点Snt9b21重部署
Snt9b和超节点Snt9b21执行重部署操作依赖系统维护或者本地盘恢复计划事件。以系统维护计划事件为例,授权处理后的处理方式包含维护机器和执行重部署两种操作。

处理方式选择重部署时,确认是否勾选静默修复(建议默认勾选)和强制重部署,然后在授权确认窗口中输入 "YES",或者直接单击"一键输入"后,再单击确认即可完成授权过程。

- 查看重部署进度
选择重部署处理方式时,可以在控制台查看重部署实时进度信息。单击操作列查看进度按钮,可以看到当前重部署的进度信息。如果重部署失败,也可以看到失败原因,如果用户在重部署时勾选静默修复,可以无需关注,系统会自动切换为原地维修计划事件或者重新重部署节点。


1. 如果选择重部署处理方式,且未勾选静默修复选项,当重部署任务失败后(如当前局点无同规格冷备机器),需要用户自行联系华为技术支持进行运维处理。
2. 轻量算力节点授权“超节点重部署”事件后,不支持查询重部署进度信息。
常见问题
专属资源池节点故障定位
对于专属资源池,ModelArts平台在识别到节点故障后,通过给K8S节点增加污点的方式(taint)将节点隔离避免新作业调度到该节点而受到影响,并且使本次作业不受污点影响。当前可识别的故障类型如下,可通过隔离码及对应检测方法定位故障。详情请见资源池节点故障定位。