准备环境
本文档中的模型运行环境是ModelArts Lite的Cluster。请参考本文档要求准备资源环境。
资源规格要求
计算规格:不同模型训练推荐的NPU卡数请参见表2。
硬盘空间:至少200GB。
Ascend资源规格:
- Ascend: 1*ascend-snt9b表示Ascend单卡。
- Ascend: 8*ascend-snt9b表示Ascend 8卡。
购买并开通资源
如果使用Cluster资源,请先阅读k8s Cluster资源购买,熟悉集群资源开通流程,再开始操作购买Cluster资源。
当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。
购买专属资源池注意事项
- 使用场景需要选择ModelArts Lite。
- CCE集群已完成创建。
- 节点数量可自定义选择使用多少节点。
- 开启高级选项:输入容器引擎空间大小(推荐输入最大空间),容器引擎选择Containerd。
k8s Cluster资源配置
若已完成集群资源购买和开通,则需要对网络、存储、容器镜像等内容进行配置。请参考k8s Cluster环境配置详细流程。
其中k8s Cluster的容器中挂载存储支持OBS、SFS Turbo等方案进行挂载。例如OBS支持静态挂载和动态挂载,而SFS Turbo仅支持静态挂载,详细的挂载操作流程可阅读通过静态存储卷使用已有极速文件存储和通过动态存储卷使用对象存储。
kubectl访问集群配置
本步骤需要在节点机器,对kubectl进行集群访问配置。
创建SFS Turbo
SFS Turbo HPC型文件系统为用户提供一个完全托管的共享文件存储。SFS Turbo文件系统支持无缝访问存储在OBS对象存储桶中的对象,用户可以指定SFS Turbo内的目录与OBS对象存储桶进行关联,然后通过创建导入导出任务实现数据同步。通过OBS与SFS Turbo存储联动,可以将最新的训练数据导入到SFS Turbo,然后在训练作业中挂载SFS Turbo到容器对应ckpt目录,实现分布式读取训练数据文件。
创建SFS Turbo文件系统前提条件:
- 创建SFS Turbo文件系统前,确认已有可用的VPC。
图4 创建SFS Turbo
- 需要由IAM用户设置SFS Turbo FullAccess权限,用于授权ModelArts云服务使用SFS Turbo。
详细操作指导请参考创建SFS Turbo文件系统。
其中,文件系统类型推荐选用500MB/s/TiB或1000MB/s/TiB,应用于AI大模型场景中。存储容量推荐使用 6.0~10.8TB ,以存储更多模型文件。
图5 SFS类型和容量选择
CCE集群关联SFS Turbo
进入已购买创建的CCE集群,选择存储,随后单击“创建存储卷声明PVC”。
- 选择“极速文件存储”,随后输入PVC名称。
- 选择“新建存储卷PV”,并单击“选择极速文件存储”。
- 进入选择页面,选择已经创建好的SFS Turbo,最后输入PV名称。
接下来需要通过访问集群节点,挂载SFS Turbo。
- 可通过ssh登录CCE集群中的某个节点(ssh使用的是eip地址)。
- 创建/mnt/sfs_turbo目录作为挂载目录 ,命令为:mkdir /mnt/sfs_turbo
- SFS Turbo存储手动挂载到安装节点中,挂载命令如下截图:
- 挂载完成后,可通过以下步骤获取到代码和数据,并上传至/mnt/sfs_turbo路径下。