准备Lite Server环境
购买Lite Server资源
- 开通Lite Server资源开通,并确保机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。
- 多机运行分布式训练场景下,已购买可挂载的存储硬盘资源,以实现多机共同访问同一存储硬盘资源。支持在Lite Server中挂载的有弹性文件服务SFS和云硬盘EVS,SFS存储方案如下,EVS方案参考文档配置Lite Server存储;
- 安装过程需要连接互联网git clone,确保容器可以访问公网,需要给资源挂载EIP,挂载方式参考文档配置Lite Server网络。

当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。
对接SFS存储服务(可选)
如果使用SFS服务作为存储方案,推荐使用SFS Turbo文件系统。SFS Turbo提供按需扩展的高性能文件存储,还具备高可靠和高可用的特点,支持根据业务需要弹性扩容,且性能随容量增加而提升,可广泛应用于多种业务场景。
- 在SFS服务控制台上创建文件系统,具体步骤请参考创建SFS Turbo文件系统。同一区域不同可用区之间文件系统与云服务器互通,因此保证SFS Turbo与Server服务器在同一区域即可。
- 当创建文件系统后,需要该文件系统挂载至Server服务器上,具体步骤请参考挂载NFS协议类型文件系统到云服务器(Linux)。
- 为避免已挂载文件系统的云服务器重启后,挂载信息丢失,可以在云服务器设置重启时进行自动挂载,具体步骤请参考服务器重启后自动挂载指南。

由于Snt9b23节点不带本地硬盘,因此客户在购买Snt9b23节点时,需要在ModelArts界面购买云硬盘。推荐使用SFS Turbo文件系统存储模型权重文件。
选择SFS Turbo文件系统“500MB/s/TiB”的规格或更高,容量为1.2TB起步且必须为1.2的倍数。
SFS的带宽估算公式如下:
带宽(MB/s)≈ (保存优化器状态的权重大小*1024)*倍增系数/保存时间
其中倍增系数通常取值为6~8,推荐选取8作为系数,以确保资源充足,避免性能瓶颈。
计算示例如下:
如果保存优化器状态的权重大小为200GB,推荐保存时间是20min,则所需带宽:
200GB*1024*8/1200s=1365MB/s