Lite Cluster高危操作一览表
当您在CCE、ECS或BMS服务控制台直接操作ModelArts Lite Lite Cluster资源时,可能会导致资源池部分功能异常。下表可帮助您定位异常出现的原因,风险操作包括但不限于以下内容。
高危操作风险等级说明:
- 高:对于可能直接导致业务失败、数据丢失、系统不能维护、系统资源耗尽的高危操作。
 - 中:对于可能导致安全风险及可靠性降低的高危操作。
 - 低:高、中风险等级外的其他高危操作。
 
| 
       操作对象  | 
     
       操作名称  | 
     
       风险描述  | 
     
       风险等级  | 
     
       应对措施  | 
    
|---|---|---|---|---|
| 
       集群  | 
     
       升级、修改、休眠集群、删除集群等。  | 
     
       可能影响ModelArts侧基本功能,包括但不限于资源池管理、节点管理、扩缩容、驱动升级等。  | 
     
       高  | 
     
       不可恢复。  | 
    
| 
       节点  | 
     
       退订、移除、关机、污点管理、切换/重装操作系统等。  | 
     
       可能影响ModelArts侧基本功能,包括但不限于节点管理、扩缩容、驱动升级、带本地盘机型的本地盘数据丢失等。  | 
     
       高  | 
     
       不可恢复。  | 
    
| 
       修改网络安全组  | 
     
       可能影响ModelArts侧基本功能,包括但不限于节点管理、扩缩容、驱动升级等。  | 
     
       中  | 
     
       改回原有内容。  | 
    |
| 
       网络  | 
     
       修改/删除集群关联网段。  | 
     
       影响ModelArts侧基本功能,包括但不限于节点管理、扩缩容、驱动升级等。  | 
     
       高  | 
     
       不可恢复。  | 
    
| 
       插件  | 
     
       升级、卸载GPU-beta插件。  | 
     
       可能导致GPU驱动使用异常。  | 
     
       中  | 
     
       回退版本、重装插件。  | 
    
| 
       升级、卸载huawei-npu插件。  | 
     
       可能导致NPU驱动使用异常。  | 
     
       中  | 
     
       回退版本、重装插件。  | 
    |
| 
       升级、卸载volcano插件。  | 
     
       可能导致作业调度异常。  | 
     
       中  | 
     
       回退版本、重装插件。  | 
    |
| 
       卸载ICAgent插件。  | 
     
       可能导致日志、监控功能异常。  | 
     
       中  | 
     
       回退版本、重装插件。  | 
    |
| 
       Helm  | 
     
       升级、回退、卸载os-node-agent。  | 
     
       导致驱动升级、故障检测、指标采集、节点运维功能异常。  | 
     
       高  | 
     
       联系华为云技术支持重装os-node-agent。  | 
    
| 
       升级、回退、卸载rdma-sriov-dev-plugin。  | 
     
       可能影响容器内使用RDMA网卡。  | 
     
       高  | 
     
       联系华为云技术支持重装rdma-sriov-dev-plugin。  |