Lite Server高危操作一览表
ModelArts Lite Server在日常操作与维护过程中涉及的高危操作,需要严格按照操作指导进行,否则可能会影响业务的正常运行。
高危操作风险等级说明:
- 高:对于可能直接导致业务失败、数据丢失、系统不能维护、系统资源耗尽的高危操作。
- 中:对于可能导致安全风险及可靠性降低的高危操作。
- 低:高、中风险等级外的其他高危操作。
操作对象 |
操作名称 |
风险描述 |
风险等级 |
应对措施 |
---|---|---|---|---|
操作系统 |
升级/修改操作系统内核 |
如果升级/修改操作系统内核,很可能导致驱动和内核版本不兼容,从而导致OS无法启动,或者基本功能不可用。相关高危命令如:apt-get upgrade(升级系统中全部软件,包括内核)。 查看当前内核命令:uname -a |
高 |
如果需要升级/修改,请联系华为云技术支持。 |
切换或者重置操作系统 |
服务器在进行过“切换或者重置操作系统”操作后,EVS系统盘ID发生变化,和下单时订单中的EVS ID已经不一致, 因此EVS系统盘将不支持扩容,并显示信息:“当前订单已到期,无法进行扩容操作,请续订”。 |
低 |
切换或者重置操作系统后,建议通过挂载数据盘EVS或挂载SFS盘等方式进行存储扩容。 |
|
云服务器业务正常运行时,用户在其系统中删除网卡路由或者对网卡执行ifconfigdown和ifconfigup等相关破坏网络的操作 |
该操作会将网络服务重启重新触发DHCP获取IP地址和路由,可能导致网卡路由丢失而影响节点不可用。 |
高 |
建议置操作系统恢复,重置操作系统之前请确保您的数据已备份。 |
|
修改如net.ipv4.ip_forward等内核参数 |
可能影响云服务器路由转发功能,导致网络不通 |
中 |
修改内核参数为net.ipv4.ip_forward=1 |
|
开启系统防火墙 |
可能影响hccl、nccl等性能测试;可能多机多卡训练任务的性能 |
低 |
关闭防火墙 |
|
修改时区 |
会引起节点时间发生跳变,影响业务。 |
中 |
恢复时区 |
|
驱动或固件 |
升级NPU驱动或者固件相关 |
可能导致驱动固件不匹配,导致服务器不可用,影响业务。 |
中 |
建议重置操作系统恢复,重置操作系统之前请确保您的数据已备份。 |
更改GPU驱动 |
可能导致驱动固件不匹配,导致服务器不可用,影响业务。 |
中 |
建议重置操作系统恢复,重置操作系统之前请确保您的数据已备份。 |
|
更改SDI卡驱动 |
可能导致网卡不可用,导致服务器不可用,影响业务。 |
中 |
建议重置操作系统恢复,重置操作系统之前请确保您的数据已备份。 |
|
网络 |
修改网卡MAC地址或 IP地址 |
如果操作不当,会导致虚拟机通信异常、业务中断并且还会影响其他服务。 |
高 |
回退相关修改,如果回退失败。建议重置操作系统恢复,重置操作系统之前请确保您的数据已备份。 |
添加/删除/编辑iptables规则或 重启iptables服务 |
导致业务访问请求被拒绝。 |
高 |
回退相关修改,如果回退失败。建议重置操作系统恢复,重置操作系统之前请确保您的数据已备份。 |
|
操作系统内置软件 |
升级、降级、卸载系统内置软件如python3版本等 |
可能导致系统内Network等网络配置软件异常,导致服务器网卡配置失败,导致节点不可用 |
高 |
回退相关修改,如果回退失败。建议重置操作系统恢复,重置操作系统之前请确保您的数据已备份。 |
目录/文件 |
修改操作系统内的root、opt等关键系统目录或文件如/etc/hccn.conf和/etc/netplan/roce.yaml |
可能影响系统正常功能,导致云服务器不可用 |
高 |
回退相关修改,如果回退失败。建议重置操作系统恢复,重置操作系统之前请确保您的数据已备份。 |
修改目录/文件权限 |
修改可能引起服务异常 |
高 |
回退相关修改。 |
|
服务器操作 |
禁止在服务器实例发放、初始化、添加磁盘、删除磁盘、删除实例过程中,对服务器执行非查询类操作,如关机、开机等操作。 |
可能会导致相应的云服务器业务操作失败。 |
中 |
建议重置操作系统恢复,重置操作系统之前请确保您的数据已备份。 |
切换或者重置操作系统 |
服务器在进行过“切换或者重置操作系统”操作后,EVS系统盘ID发生变化,和下单时订单中的EVS ID已经不一致, 因此EVS系统盘将不支持扩容,并显示信息:“当前订单已到期,无法进行扩容操作,请续订”。 |
低 |
切换或者重置操作系统后,建议通过挂载数据盘EVS或挂载SFS盘等方式进行存储扩容。 |
|
进程 |
执行service network restart命令 停止系统关键进程,如sshd ces-agent等进程 |
可能导致业务发放失败。 导致远程访问云服务器失败。 导致数据采集失败,影响监控指标上报。 |
高 |
重新启动已关闭的服务。 |
数据盘 |
修改数据盘挂载方式,挂载点等 |
可能导致正在使用的业务出现异常。 |
低 |
请确保该数据盘无业务使用。 |
安全组 |
修改端口通信协议 放行22等高危端口 未设置IP白名单 |
可能存在网络被攻击的风险,影响服务器正常业务。 |
中 |
恢复到原有内容。 |