更新时间:2025-10-22 GMT+08:00
分享

准备Cluster环境

本文档中的模型运行环境是ModelArts Lite的Cluster,请参考本文档要求准备资源环境。

购买并开通资源

如果使用Cluster资源,请先阅读k8s Cluster资源购买,熟悉集群资源开通流程,再开始操作购买Cluster资源。

图1 Cluster资源开通流程

k8s Cluster资源配置

若已完成集群资源购买和开通,则需要对网络、存储、容器镜像等内容进行配置,请参考k8s Cluster环境配置详细流程

k8s Cluster的容器中挂载存储支持OBS、SFS Turbo等方案,OBS支持静态挂载和动态挂载,而SFS Turbo仅支持静态挂载,详细的挂载操作流程可阅读通过静态存储卷使用已有极速文件存储通过动态存储卷使用对象存储

图2 Lite Cluster资源配置流程图

kubectl访问集群配置

本步骤需要在节点机器,对kubectl进行集群访问配置。

  1. 首先进入已创建的 CCE 集群控制版面中,根据图3的步骤进行操作,单击kubectl配置时,会弹出图4步骤页面。
    图3 配置中心
  2. 根据图4,按步骤进行:判断是否安装 kubectl、下载kubectl配置文件、在机器中安装和配置kubectl。
    图4 kubectl 访问集群配置
  3. 在节点机器中,输入命令,查看Kubernetes集群信息,若显示如图图5的内容,则配置成功。
    kubectl cluster-info
    图5 查看 Kubernetes 集群信息正确弹出内容

创建SFS Turbo

SFS Turbo HPC型文件系统为用户提供一个完全托管的共享文件存储。SFS Turbo文件系统支持无缝访问存储在OBS对象存储桶中的对象,用户可以指定SFS Turbo内的目录与OBS对象存储桶进行关联,然后通过创建导入导出任务实现数据同步。通过OBS与SFS Turbo存储联动,可以将最新的训练数据导入到SFS Turbo,然后在训练作业时挂载SFS Turbo到容器对应ckpt目录,实现分布式读取训练数据文件。

创建SFS Turbo文件系统前提条件:

  1. 创建SFS Turbo文件系统前,确认已有可用的VPC。
    图6 创建SFS Turbo
  2. 需要由IAM用户设置SFS Turbo FullAccess权限,用于授权ModelArts云服务使用SFS Turbo。

    详细操作指导请参考创建SFS Turbo文件系统

    其中,文件系统类型推荐选用500MB/s/TiB或1000MB/s/TiB,应用于AI大模型场景中。存储容量推荐使用 6.0~10.8TB ,以存储更多模型文件。

    图7 SFS类型和容量选择

CCE集群关联SFS Turbo

  1. 进入已购买创建的CCE集群,选择存储,随后单击“创建存储卷声明PVC”。

  1. 选择“极速文件存储”,随后输入PVC名称。
  2. 选择“新建存储卷PV”,并单击“选择极速文件存储”。
  3. 进入选择页面,选择已经创建好的SFS Turbo,最后输入PV名称。

  4. 接下来需要通过访问集群节点,挂载SFS Turbo。
    1. 可通过SSH登录CCE集群中的某个节点,SSH使用的是EIP地址-。
    2. 创建/mnt/sfs_turbo目录作为挂载目录 ,命令如下。
      mkdir /mnt/sfs_turbo
    3. SFS Turbo存储手动挂载到安装节点。登录弹性文件服务SFS控制台,进入文件系统列表后,进入指定SFS Turbo中获取挂载命令。

    4. 挂载完成后,可通过准备软件包、权重、训练数据集获取到代码和数据,并上传至/mnt/sfs_turbo路径下。

相关文档