更新时间:2025-08-18 GMT+08:00
分享

Lite Server高危操作一览表

ModelArts Lite Server在日常操作与维护过程中涉及的高危操作,需要严格按照操作指导进行,否则可能会影响业务的正常运行。

高危操作风险等级说明:

  • 高:对于可能直接导致业务失败、数据丢失、系统不能维护、系统资源耗尽的高危操作。
  • 中:对于可能导致安全风险及可靠性降低的高危操作。
  • 低:高、中风险等级外的其他高危操作。
表1 高危操作一览表

操作对象

操作名称

风险描述

风险等级

应对措施

操作系统

升级/修改操作系统内核

如果升级/修改操作系统内核,很可能导致驱动和内核版本不兼容,从而导致OS无法启动,或者基本功能不可用。相关高危命令如:apt-get upgrade(升级系统中全部软件,包括内核)。

查看当前内核命令:uname -a

如果需要升级/修改,请联系华为云技术支持

切换或者重置操作系统

服务器在进行过“切换或者重置操作系统”操作后,EVS系统盘ID发生变化,和下单时订单中的EVS ID已经不一致, 因此EVS系统盘将不支持扩容,并显示信息:“当前订单已到期,无法进行扩容操作,请续订”。

切换或者重置操作系统后,建议通过挂载数据盘EVS或挂载SFS盘等方式进行存储扩容。

云服务器业务正常运行时,用户在其系统中删除网卡路由或者对网卡执行ifconfigdown和ifconfigup等相关破坏网络的操作

该操作会将网络服务重启重新触发DHCP获取IP地址和路由,可能导致网卡路由丢失而影响节点不可用。

建议置操作系统恢复,重置操作系统之前请确保您的数据已备份。

修改如net.ipv4.ip_forward等内核参数

可能影响云服务器路由转发功能,导致网络不通

修改内核参数为net.ipv4.ip_forward=1

开启系统防火墙

可能影响hccl、nccl等性能测试;可能多机多卡训练任务的性能

关闭防火墙

修改时区

会引起节点时间发生跳变,影响业务。

恢复时区

驱动或固件

升级NPU驱动或者固件相关

可能导致驱动固件不匹配,导致服务器不可用,影响业务。

建议重置操作系统恢复,重置操作系统之前请确保您的数据已备份。

更改GPU驱动

可能导致驱动固件不匹配,导致服务器不可用,影响业务。

建议重置操作系统恢复,重置操作系统之前请确保您的数据已备份。

更改SDI卡驱动

可能导致网卡不可用,导致服务器不可用,影响业务。

建议重置操作系统恢复,重置操作系统之前请确保您的数据已备份。

网络

修改网卡MAC地址或

IP地址

如果操作不当,会导致虚拟机通信异常、业务中断并且还会影响其他服务。

回退相关修改,如果回退失败。建议重置操作系统恢复,重置操作系统之前请确保您的数据已备份。

添加/删除/编辑iptables规则或

重启iptables服务

导致业务访问请求被拒绝。

回退相关修改,如果回退失败。建议重置操作系统恢复,重置操作系统之前请确保您的数据已备份。

操作系统内置软件

升级、降级、卸载系统内置软件如python3版本等

可能导致系统内Network等网络配置软件异常,导致服务器网卡配置失败,导致节点不可用

回退相关修改,如果回退失败。建议重置操作系统恢复,重置操作系统之前请确保您的数据已备份。

目录/文件

修改操作系统内的root、opt等关键系统目录或文件如/etc/hccn.conf和/etc/netplan/roce.yaml

可能影响系统正常功能,导致云服务器不可用

回退相关修改,如果回退失败。建议重置操作系统恢复,重置操作系统之前请确保您的数据已备份。

修改目录/文件权限

修改可能引起服务异常

回退相关修改。

服务器操作

禁止在服务器实例发放、初始化、添加磁盘、删除磁盘、删除实例过程中,对服务器执行非查询类操作,如关机、开机等操作。

可能会导致相应的云服务器业务操作失败。

建议重置操作系统恢复,重置操作系统之前请确保您的数据已备份。

切换或者重置操作系统

服务器在进行过“切换或者重置操作系统”操作后,EVS系统盘ID发生变化,和下单时订单中的EVS ID已经不一致, 因此EVS系统盘将不支持扩容,并显示信息:“当前订单已到期,无法进行扩容操作,请续订”。

切换或者重置操作系统后,建议通过挂载数据盘EVS或挂载SFS盘等方式进行存储扩容。

进程

执行service network restart命令

停止系统关键进程,如sshd

ces-agent等进程

可能导致业务发放失败。

导致远程访问云服务器失败。

导致数据采集失败,影响监控指标上报。

重新启动已关闭的服务。

数据盘

修改数据盘挂载方式,挂载点等

可能导致正在使用的业务出现异常。

请确保该数据盘无业务使用。

安全组

修改端口通信协议

放行22等高危端口

未设置IP白名单

可能存在网络被攻击的风险,影响服务器正常业务。

恢复到原有内容。

相关文档