Lite Cluster高危操作一览表
当您在CCE、ECS或BMS服务控制台直接操作ModelArts Lite Lite Cluster资源时,可能会导致资源池部分功能异常。下表可帮助您定位异常出现的原因,风险操作包括但不限于以下内容。
高危操作风险等级说明:
- 高:对于可能直接导致业务失败、数据丢失、系统不能维护、系统资源耗尽的高危操作。
- 中:对于可能导致安全风险及可靠性降低的高危操作。
- 低:高、中风险等级外的其他高危操作。
操作对象 |
操作名称 |
风险描述 |
风险等级 |
应对措施 |
---|---|---|---|---|
集群 |
升级、修改、休眠集群、删除集群等。 |
可能影响ModelArts侧基本功能,包括但不限于资源池管理、节点管理、扩缩容、驱动升级等。 |
高 |
不可恢复。 |
节点 |
退订、移除、关机、污点管理、切换/重装操作系统等。 |
可能影响ModelArts侧基本功能,包括但不限于节点管理、扩缩容、驱动升级、带本地盘机型的本地盘数据丢失等。 |
高 |
不可恢复。 |
修改网络安全组 |
可能影响ModelArts侧基本功能,包括但不限于节点管理、扩缩容、驱动升级等。 |
中 |
改回原有内容。 |
|
网络 |
修改/删除集群关联网段。 |
影响ModelArts侧基本功能,包括但不限于节点管理、扩缩容、驱动升级等。 |
高 |
不可恢复。 |
插件 |
升级、卸载gpu-beta插件。 |
可能导致GPU驱动使用异常。 |
中 |
回退版本、重装插件。 |
升级、卸载huawei-npu插件。 |
可能导致NPU驱动使用异常。 |
中 |
回退版本、重装插件。 |
|
升级、卸载volcano插件。 |
可能导致作业调度异常。 |
中 |
回退版本、重装插件。 |
|
卸载ICAgent插件。 |
可能导致日志、监控功能异常。 |
中 |
回退版本、重装插件。 |
|
helm |
升级、回退、卸载os-node-agent。 |
导致驱动升级、故障检测、指标采集、节点运维功能异常。 |
高 |
联系华为云技术支持重装os-node-agent。 |
升级、回退、卸载rdma-sriov-dev-plugin。 |
可能影响容器内使用RDMA网卡。 |
高 |
联系华为云技术支持重装rdma-sriov-dev-plugin。 |