轻量算力节点高危操作一览表
ModelArts 轻量算力节点在日常操作与维护过程中涉及的高危操作,需要严格按照操作指导进行,否则可能会影响业务的正常运行。
高危操作风险等级说明:
- 高:对于可能直接导致业务失败、数据丢失、系统不能维护、系统资源耗尽的高危操作。
- 中:对于可能导致安全风险及可靠性降低的高危操作。
- 低:高、中风险等级外的其他高危操作。
操作对象 | 操作名称 | 风险描述 | 风险等级 | 应对措施 |
|---|---|---|---|---|
操作系统 | 升级/修改操作系统内核 | 如果升级/修改操作系统内核,很可能导致驱动和内核版本不兼容,从而导致OS无法启动,或者基本功能不可用。相关高危命令如:apt-get upgrade(升级系统中全部软件,包括内核)。 查看当前内核命令:uname -a | 高 | 如果需要升级/修改,请联系华为云技术支持。 |
切换或者重置操作系统 | 服务器在进行过“切换或者重置操作系统”操作后,EVS系统盘ID发生变化,和下单时订单中的EVS ID已经不一致, 因此EVS系统盘将不支持扩容,并显示信息:“当前订单已到期,无法进行扩容操作,请续订”。 | 低 | 切换或者重置操作系统后,建议通过挂载数据盘EVS或挂载SFS盘等方式进行存储扩容。 | |
云服务器业务正常运行时,用户在其系统中删除网卡路由或者对网卡执行ifconfig down和ifconfig up等相关破坏网络的操作 | 该操作会将网络服务重启重新触发DHCP获取IP地址和路由,可能导致网卡路由丢失而影响节点不可用。 | 高 | 建议置操作系统恢复,重置操作系统之前请确保您的数据已备份。 | |
修改如net.ipv4.ip_forward等内核参数 | 可能影响云服务器路由转发功能,导致网络不通。 | 中 | 修改内核参数为net.ipv4.ip_forward=1 | |
开启系统防火墙 | 可能影响hccl、nccl等性能测试;可能影响多机多卡训练任务的性能。 | 低 | 关闭防火墙 | |
修改时区 | 会引起节点时间发生跳变,影响业务。 | 中 | 恢复时区 | |
驱动或固件 | 升级NPU驱动或者固件相关 | 可能导致驱动固件不匹配,导致服务器不可用,影响业务。 | 中 | 建议重置操作系统恢复,重置操作系统之前请确保您的数据已备份。 |
更改GPU驱动 | 可能导致驱动固件不匹配,导致服务器不可用,影响业务。 | 中 | 建议重置操作系统恢复,重置操作系统之前请确保您的数据已备份。 | |
更改SDI卡驱动 | 可能导致网卡不可用,导致服务器不可用,影响业务。 | 中 | 建议重置操作系统恢复,重置操作系统之前请确保您的数据已备份。 | |
网络 | 修改网卡MAC地址或 IP地址 | 如果操作不当,会导致虚拟机通信异常、业务中断并且还会影响其他服务。 | 高 | 回退相关修改,如果回退失败。建议重置操作系统恢复,重置操作系统之前请确保您的数据已备份。 |
添加/删除/编辑iptables规则或 重启iptables服务 | 导致业务访问请求被拒绝。 | 高 | 回退相关修改,如果回退失败。建议重置操作系统恢复,重置操作系统之前请确保您的数据已备份。 | |
操作系统内置软件 | 升级、降级、卸载系统内置软件如python3版本等 | 可能导致系统内Network等网络配置软件异常,导致服务器网卡配置失败,导致节点不可用 | 高 | 回退相关修改,如果回退失败。建议重置操作系统恢复,重置操作系统之前请确保您的数据已备份。 |
目录/文件 | 修改操作系统内的root、opt等关键系统目录或文件如/etc/hccn.conf和/etc/netplan/roce.yaml | 可能影响系统正常功能,导致云服务器不可用 | 高 | 回退相关修改,如果回退失败。建议重置操作系统恢复,重置操作系统之前请确保您的数据已备份。 |
修改目录/文件权限 | 修改可能引起服务异常 | 高 | 回退相关修改。 | |
服务器操作 | 禁止在服务器实例发放、初始化、添加磁盘、删除磁盘、删除实例过程中,对服务器执行非查询类操作,如关机、开机等操作。 | 可能会导致相应的云服务器业务操作失败。 | 中 | 建议重置操作系统恢复,重置操作系统之前请确保您的数据已备份。 |
切换或者重置操作系统 | 服务器在进行过“切换或者重置操作系统”操作后,EVS系统盘ID发生变化,和下单时订单中的EVS ID已经不一致, 因此EVS系统盘将不支持扩容,并显示信息:“当前订单已到期,无法进行扩容操作,请续订”。 | 低 | 切换或者重置操作系统后,建议通过挂载数据盘EVS或挂载SFS盘等方式进行存储扩容,具体操作请参考配置轻量算力节点存储章节。 | |
进程 | 执行service network restart命令 停止系统关键进程,如sshd ces-agent等进程 | 可能导致业务发放失败。 导致远程访问云服务器失败。 导致数据采集失败,影响监控指标上报。 | 高 | 重新启动已关闭的服务。 |
数据盘 | 修改数据盘挂载方式,挂载点等 | 可能导致正在使用的业务出现异常。 | 低 | 请确保该数据盘无业务使用。 |
安全组 | 修改端口通信协议 放行22等高危端口 未设置IP白名单 | 可能存在网络被攻击的风险,影响服务器正常业务。 | 中 | 恢复到原有内容。 |

