创建三方大模型训练任务
- 登录ModelArts Studio平台,进入所需空间。
- 在左侧导航栏中选择“模型开发 >模型训练”,单击界面右上角“创建训练任务”。
图1 创建训练任务
- “模型来源”选择“模型广场”,依据训练。并选择所需的三方模型。
图2 训练配置
- 填写训练参数,包含数据集信息、资源池信息和三方模型所需的环境变量(环境变量为可选项)。
表1 训练可用环境变量 参数
说明
DATA_TYPE
【必改】示例值需要根据数据集的不同,选择其一。
- GeneralPretrainHandler:使用预训练的alpaca数据集。
- AlpacaStyleInstructionHandler:使用LLama-Factory模板Alpaca数据集
- SharegptStyleInstructionHandler:使用LLama-Factory模板Sharegpt数据集
SEQ_LEN
要处理的最大序列长度。默认为4096
MAX_PE
设置模型能够处理的最大序列长度。默认为8192
LR
学习率设置。
MIN_LR
最小学习率设置。
MBS
表示流水线并行中一个micro batch所处理的样本量。在流水线并行中,为了减少气泡时间,会将一个step的数据切分成多个micro batch。
该值与TP和PP以及模型大小相关,可根据实际情况进行调整。默认值为2。
GBS
表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。默认值为512。
EPOCH
表示训练轮次,根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。
SAVE_INTERVAL
用于保存断点模型权重。
- 当参数值>=TRAIN_ITERS时,生成模型仅保存经过TRAIN_ITERS次训练后的最后一个版本。
- 当参数值<TRAIN_ITERS时,生成模型会每经过SAVE_INTERVAL次,保存一次模型版本。
模型版本保存次数=TRAIN_ITERS//SAVE_INTERVAL+1
LR_WARMUP_RATIO
用于计算LR_WARMUP_ITERS 的占TRAIN_ITERS的比例
LR_WARMUP_ITERS
=TRAIN_ITERS * LR_WARMUP_RATIO
USE_RECOMPUTE
是否使用重计算。默认值为False,GLM4 9b默认值为True
RECOMPUTE_NUM_LAYERS
重计算的层数。
默认值为5
TP
表示张量并行。
PP
表示流水线并行。一般此值与训练节点数相等,与权重转换时设置的值相等。
SEED
随机种子数。每次数据采样时,保持一致。默认值为1234。
表格中参数为全部参数 含义说明,并非所有模型均支持所有参数,模型可支持修改的参数已图3 中为准
图4 选择所需训练数据,可进行搜索图5 根据所需选择资源池类型,资源池,选择合适的规格和实例数 - 填写基本信息后单击“立即创建”。
图6 填写基本信息,创建
查看训练任务并发布模型
- 在“模型开发 >模型训练”页面,单击训练任务名称,可进入详情页查看训练结果、任务详情、日志等信息。
图7 训练结果图8 任务详情图9 训练日志
- 在“训练结果”页签可查询到训练产出模型,单击“发布”按钮可进行模型发布操作。
图10 发布模型
- 在“发布到资产”弹窗中设置模型的资产名称、资产描述、资产可见性,发布模型至资产。
图11 发布到资产
- 在“空间资产 >模型”页面,查看已发布的模型。