更新时间:2025-09-26 GMT+08:00
分享

创建三方大模型训练任务

  1. 登录ModelArts Studio平台,进入所需空间。
  2. 在左侧导航栏中选择“模型开发 >模型训练”,单击界面右上角“创建训练任务”。

    图1 创建训练任务

  3. “模型来源”选择“模型广场”,依据训练。并选择所需的三方模型。

    图2 训练配置

  4. 填写训练参数,包含数据集信息、资源池信息和三方模型所需的环境变量(环境变量为可选项)。

    图3 填写训练参数,初始为默认值,训练环境变量为模型导入时设置

    表1 训练可用环境变量

    参数

    说明

    DATA_TYPE

    【必改】示例值需要根据数据集的不同,选择其一。

    • GeneralPretrainHandler:使用预训练的alpaca数据集。
    • AlpacaStyleInstructionHandler:使用LLama-Factory模板Alpaca数据集
    • SharegptStyleInstructionHandler:使用LLama-Factory模板Sharegpt数据集

    SEQ_LEN

    要处理的最大序列长度。默认为4096

    MAX_PE

    设置模型能够处理的最大序列长度。默认为8192

    LR

    学习率设置。

    MIN_LR

    最小学习率设置。

    MBS

    表示流水线并行中一个micro batch所处理的样本量。在流水线并行中,为了减少气泡时间,会将一个step的数据切分成多个micro batch。

    该值与TP和PP以及模型大小相关,可根据实际情况进行调整。默认值为2。

    GBS

    表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。默认值为512。

    EPOCH

    表示训练轮次,根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。

    SAVE_INTERVAL

    用于保存断点模型权重。

    • 当参数值>=TRAIN_ITERS时,生成模型仅保存经过TRAIN_ITERS次训练后的最后一个版本。
    • 当参数值<TRAIN_ITERS时,生成模型会每经过SAVE_INTERVAL次,保存一次模型版本。

    模型版本保存次数=TRAIN_ITERS//SAVE_INTERVAL+1

    LR_WARMUP_RATIO

    用于计算LR_WARMUP_ITERS 的占TRAIN_ITERS的比例

    LR_WARMUP_ITERS

    =TRAIN_ITERS * LR_WARMUP_RATIO

    USE_RECOMPUTE

    是否使用重计算。默认值为False,GLM4 9b默认值为True

    RECOMPUTE_NUM_LAYERS

    重计算的层数。

    默认值为5

    TP

    表示张量并行。

    PP

    表示流水线并行。一般此值与训练节点数相等,与权重转换时设置的值相等。

    SEED

    随机种子数。每次数据采样时,保持一致。默认值为1234。

    表格中参数为全部参数 含义说明,并非所有模型均支持所有参数,模型可支持修改的参数已图3 中为准

    图4 选择所需训练数据,可进行搜索
    图5 根据所需选择资源池类型,资源池,选择合适的规格和实例数

  5. 填写基本信息后单击“立即创建”。

    图6 填写基本信息,创建

查看训练任务并发布模型

  1. 在“模型开发 >模型训练”页面,单击训练任务名称,可进入详情页查看训练结果、任务详情、日志等信息。

    图7 训练结果
    图8 任务详情
    图9 训练日志

  2. 在“训练结果”页签可查询到训练产出模型,单击“发布”按钮可进行模型发布操作。

    图10 发布模型

  3. 在“发布到资产”弹窗中设置模型的资产名称、资产描述、资产可见性,发布模型至资产。

    图11 发布到资产

  4. 在“空间资产 >模型”页面,查看已发布的模型。

相关文档