授权修复Lite Server节点
场景描述
当Lite Server节点由于不可恢复故障需要进行硬件维护时,会推送计划事件到控制台的事件中心。您可以在事件中心,查看具体的事件信息、事件类型、事件状态、事件描述等信息,可以授权华为技术支持对故障节点进行运维或重部署节点。
事件类型 |
事件状态 |
可执行的操作 |
适用的资源类型 |
说明 |
---|---|---|---|---|
系统维护 |
待授权 |
授权、重部署 |
Snt9b |
系统维护是授权华为技术支持对故障节点进行系统性维护。 |
本地盘恢复 |
待授权 |
授权、重部署 |
Snt9b |
本地盘恢复是授权华为技术支持对故障的本地盘进行维护。
警告:
授权后超节点本地盘恢复操作将会导致本地盘数据丢失,授权前请先迁移业务和备份数据。 |
超节点维护 |
待授权 |
授权 |
Snt9b23 |
超节点维护是授权华为技术支持对故障节点通过人工修理、更换器件等方式恢复故障节点。 |
超节点重部署 |
待授权 |
授权 |
Snt9b23 |
超节点重部署是授权华为运维系统通过自动更换节点的方式恢复故障节点,恢复后的节点除物理设备信息发生变化外,节点名称、节点ID、IP地址等信息与原节点保持一致。 |
超节点本地盘恢复 |
待授权 |
授权 |
Snt9b23 |
超节点本地盘恢复是授权华为技术支持对超节点的本地盘进行恢复。
警告:
授权后超节点本地盘恢复操作将会导致本地盘数据丢失,授权前请先迁移业务和备份数据。 |
- 授权:授权操作是授权华为技术支持针对故障的节点进行点对点修复硬件,修复周期长。
- 重部署:重部署操作是授权华为技术支持对发生故障的节点进行整机替换,恢复快,但是重部署后本地盘数据将会丢失数据。请谨慎操作。重部署前请先迁移业务和备份数据。
约束限制
- 仅昇腾Snt9b和昇腾Snt9b23支持通过计划事件发起硬件维护。
- 超节点重部署需要在物理超节点内操作。当超节点达到满配48台时,不支持重部署操作,操作授权按钮为置灰状态。
- 如果计划事件不满足表1所示的事件状态,操作授权按钮为置灰状态。
- 授权“超节点重部署”事件前,您需要先在“轻量算力节点 (Lite Server)页面”停止Server实例,否则会授权失败。事件执行完成后,再重新启动Server实例。
- 授权节点将影响相关业务的运行,请谨慎操作。当事件类型为超节点重部署,且节点处于关机状态时,才可执行授权操作。
- 节点本地盘恢复和超节点本地盘恢复操作将会导致本地盘数据丢失,授权前请先迁移业务和备份数据。本地盘恢复后需要登录到Lite Server节点内完成本地盘分区。
查看计划事件
登录ModelArts管理控制台。在左侧导航栏单击“事件中心”,在事件中心页面可以查看事件的详细信息。默认显示处于待授权、已授权、执行中的事件。去除筛选条件可以查看所有状态的事件。
属性 |
说明 |
示例 |
---|---|---|
事件ID |
事件的唯一标识。 |
5ad1df12-e3d2-4f36-b367-xxxxxxxxxxxx |
节点名称/ID |
发起事件的Server节点名称和服务器ID。 |
devserver-dd50 1e0d95ad-5a9f-46e3-9ba6-c5f8fcxxxx |
事件类型 |
事件类型具体参见表1。 |
超节点重部署 |
事件状态 |
|
待授权 |
事件描述 |
描述产生该事件的具体原因。 |
底层硬件故障,当前通过CAR自动接入:alarmName=XXXX,bmcip=2409:27ff:1003:0103:0011:0000:0000:xxxx,componentName=XXXX |
创建时间 |
事件创建的时间。 |
2025/02/19 16:05:32 GMT+08:00 |
执行时间 |
事件进入调度执行阶段的时间。 |
2025/03/03 16:23:16 GMT+08:00 |
操作 |
授权:授权节点将影响相关业务的运行,请谨慎操作。当事件类型为超节点重部署,且节点处于关机状态时,才可执行授权操作。
说明:
超节点重部署需要在物理超节点内操作。当超节点达到满配48台时,不支持重部署操作,操作授权按钮为置灰状态。 |
-- |
授权操作
当故障节点满足如表1所示的条件时,可通过授权操作授权华为技术支持对故障节点进行运维。
您可在ModelArts控制台“资源管理 > 事件中心”页面,找到对应节点,在操作列单击“授权”,在弹出的提示框中单击“确认”即可完成授权。以下步骤以超节点维护为例,介绍授权操作。
- 登录ModelArts管理控制台,在左侧导航栏单击“事件中心”,进入“事件中心”页面,查看“事件类型”为“超节点维护”的事件,执行“授权”操作。
- 超节点维护事件进入“已授权”状态。
- 待完成超节点维修后,事件状态显示为“已完成”。此时,节点已处于可用状态。
在完成运维操作后,华为技术支持会主动关闭已获得授权,无需您额外操作。
如果是“本地盘恢复”或“超节点本地盘恢复”,恢复后需要登录到Lite Server节点内完成本地盘分区。