更新时间:2025-08-30 GMT+08:00
分享

创建NLP大模型训练任务

创建NLP大模型预训练任务

创建NLP大模型预训练任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
    图1 我的空间
  2. 在左侧导航栏中选择“模型开发 > 模型训练”,单击界面右上角“创建训练任务”。
  3. 在“选择模型”页面,选择“模型广场 > 大语言模型 > 模型”,单击“确定”进入“创建训练任务”页面。
  4. 在“创建训练任务”页面,参考表1完成训练参数设置,参数默认值在创建训练任务的时候会带出。
    表1 NLP大模型预训练参数说明

    参数分类

    训练参数

    参数说明

    训练配置

    选择模型

    可以修改如下信息:

    • 来源:选择“模型广场”。
    • 类型:选择“大语言模型”,并选择训练所用的基础模型和版本。

    训练类型

    选择“预训练”。

    高级设置

    checkpoints:在模型训练过程中,用于保存模型权重和状态的机制,详细配置参见断点续训配置

    • 关闭:关闭后不保存checkpoints,无法基于checkpoints执行续训操作。
    • 自动:自动保存训练过程中的所有checkpoints。
    • 自定义:根据设置保存指定数量的checkpoints。

      开启断点续训后对于未训练完成的模型,可以通过单击训练任务名称,进入“训练结果”页签,通过“编辑训练”入口选中需要进行断点续训的checkpoints进行续训。

    训练参数

    热身比例

    热身比例是指在模型训练初期逐渐增加学习率的过程。

    由于训练初期模型的权重通常是随机初始化的,预测能力较弱,若直接使用较大的学习率,可能导致更新过快,进而影响收敛。为解决这一问题,通常在训练初期使用较小的学习率,并逐步增加,直到达到预设的最大学习率。通过这种方式,热身比例能够避免初期更新过快,从而帮助模型更好地收敛。

    数据批量大小

    数据集进行分批读取训练,设定每个批次数据的大小。

    通常情况下,较大的数据批量可以使梯度更加稳定,从而有利于模型的收敛。然而,较大的数据批量也会占用更多的显存资源,这可能导致显存不足,并且会延长每次训练的时长。

    学习率衰减比率

    用于控制训练过程中学习率下降的幅度。

    计算公式为:最低学习率 = 初始学习率 × 学习率衰减比率。

    权重衰减系数

    通过在损失函数中加入与模型权重大小相关的惩罚项,鼓励模型保持较小的权重,防止过拟合或模型过于复杂。

    优化器

    优化器参数用于更新模型的权重,常见包括adamw。

    • adamw是一种改进的Adam优化器,增加了权重衰减机制,有效防止过拟合。

    学习率

    学习率决定每次训练中模型参数更新的幅度。

    选择合适的学习率至关重要:

    • 如果学习率过大,模型可能无法收敛。
    • 如果学习率过小,模型的收敛速度将变得非常慢。

    训练轮数

    表示完成全部训练数据集训练的次数。每个轮次都会遍历整个数据集一次。

    模型保存策略

    save_checkpoint_steps/save_checkpoint_epoch,训练过程中是按迭代步数,还是训练轮数保存Checkpoint文件。

    Checkpoint保存间隔

    save_checkpoint_steps,训练过程中每隔多少个训练步长保存一次模型Checkpoint文件。

    Checkpoint保存轮数

    save_checkpoint_epoch,训练过程中每个多少训练轮数保存一次模型Checkpoint文件。

    数据预处理并发个数

    定义了在预处理数据时,能够同时处理文件的并行进程数量。设定这个参数的主要目的是通过并发处理来加速数据预处理,从而提升训练效率。

    序列长度

    sequence_length,训练单条数据的最大长度,超过该长度的数据在训练时将被截断。

    训练数据配置

    训练集

    选择训练模型所需的数据集。

    资源配置

    计费模式

    选择训练当前任务的计费模式。

    训练单元

    选择训练模型所需的训练单元。

    当前展示的完成本次训练所需要的最低训练单元要求。

    单实例训练单元数

    选择单实例训练单元数。

    实例数

    选择实例数。

    订阅提醒

    订阅提醒

    该功能开启后,系统将在任务状态更新时,通过短信或邮件将提醒发送给用户。

    发布模型

    开启自动发布

    开启自动发布后,模型训练完成的最终产物会自动发布为空间资产,以便对模型进行压缩、部署、评测等操作或共享给其他空间。

    故障自动重启

    自动重启

    该功能开启后,当训练作业发生故障终止本次作业时,自动从本次中断的作业继续训练。参见故障自动重启开关配置

    基本信息

    名称

    训练任务名称。

    描述

    训练任务描述。

    不同NLP模型对应“训练参数”可能不同,请根据实际模型对应的“训练参数”配置预训练相关参数。

  5. 参数填写完成后,单击“立即创建”。
  6. 创建好训练任务后,页面将返回“模型训练”页面,可随时查看当前任务的状态。

创建NLP大模型增量预训练任务

在模型完成创建NLP大模型预训练任务预训练后,可以对训练后的模型继续训练,该过程称为“增量预训练”。

创建NLP大模型增量预训练任务前,请确保有已完成预训练的NLP大模型。

创建NLP大模型增量预训练任务的步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
    图2 我的空间
  2. 在左侧导航栏中选择“模型开发 > 模型训练”,单击界面右上角“创建训练任务”。
  3. 在“选择模型”页面,选择“我的资产 > 大语言模型 > 模型”,单击“确定”进入“创建训练任务”页面。
  4. 其余参数配置等步骤同创建NLP大模型预训练任务

创建NLP大模型全量微调任务

创建NLP大模型全量微调任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
    图3 我的空间
  2. 在左侧导航栏中选择“模型开发 > 模型训练”,单击界面右上角“创建训练任务”。
  3. 在“选择模型”页面,选择“模型广场 > 大语言模型 > 模型”,单击“确定”进入“创建训练任务”页面。
  4. 在“创建训练任务”页面,参考表2完成训练参数设置,参数默认值在创建训练任务的时候会带出。
    表2 NLP大模型全量微调参数说明

    参数分类

    训练参数

    参数说明

    训练配置

    选择模型

    可以修改如下信息:

    • 来源:选择“模型广场”。
    • 类型:选择“大语言模型”,并选择训练所用的基础模型和版本。

    训练类型

    选择“微调”。

    训练目标

    选择“全量微调”。

    • 全量微调:在模型进行有监督微调时,对大模型的所有参数进行更新。这种方法通常能够实现最佳的模型性能,但需要消耗大量计算资源和时间,计算开销较大。

    高级设置

    checkpoints:在模型训练过程中,用于保存模型权重和状态的机制,详细配置参见断点续训配置

    • 关闭:关闭后不保存checkpoints,无法基于checkpoints执行续训操作。
    • 自动:自动保存训练过程中的所有checkpoints。
    • 自定义:根据设置保存指定数量的checkpoints。

    训练参数

    训练轮数

    表示完成全部训练数据集训练的次数。每个轮次都会遍历整个数据集一次。

    学习率

    学习率决定每次训练中模型参数更新的幅度。

    选择合适的学习率至关重要:

    • 如果学习率过大,模型可能无法收敛。
    • 如果学习率过小,模型的收敛速度将变得非常慢。

    数据批量大小

    数据批量是指训练过程中将数据集分成小批次进行读取,并设定每个批次的数据大小。

    通常,较大的批量能够使梯度更加稳定,有助于模型的收敛。然而,较大的批量也会占用更多显存,可能导致显存不足,并延长每次训练时间。

    序列长度

    sequence_length,训练单条数据的最大长度,超过该长度的数据在训练时将被截断。

    热身比例

    热身比例是指在模型训练初期逐渐增加学习率的过程。

    由于训练初期模型的权重通常是随机初始化的,预测能力较弱,若直接使用较大的学习率,可能导致更新过快,进而影响收敛。为解决这一问题,通常在训练初期使用较小的学习率,并逐步增加,直到达到预设的最大学习率。通过这种方式,热身比例能够避免初期更新过快,从而帮助模型更好地收敛。

    学习率衰减比率

    用于控制训练过程中学习率下降的幅度。

    计算公式为:最低学习率 = 初始学习率 × 学习率衰减比率。

    权重衰减系数

    通过在损失函数中加入与模型权重大小相关的惩罚项,鼓励模型保持较小的权重,防止过拟合或模型过于复杂。

    模型保存策略

    save_checkpoint_steps/save_checkpoint_epoch,训练过程中是按迭代步数,还是训练轮数保存Checkpoint文件。

    Checkpoint保存间隔

    save_checkpoint_steps,训练过程中每隔多少个训练步长保存一次模型Checkpoint文件。

    Checkpoint保存轮数

    save_checkpoint_epoch,训练过程中每个多少训练轮数保存一次模型Checkpoint文件。

    Agent微调

    在训练Agent所需的NLP大模型时,可以开启此参数。通过调整训练数据中的Prompt,引导模型在特定领域或任务上生成更符合预期的回答。

    在使用此参数前,请先联系盘古客服,调整Prompt和训练数据。

    训练数据配置

    训练集

    选择训练模型所需的数据集。

    验证集

    • 若选择“分割训练集”,则需进一步配置数据拆分比例。
    • 若选择“选择数据集”,则需选择导入的数据集。

    资源配置

    计费模式

    选择训练当前任务的计费模式。

    训练单元

    选择训练单元数。

    单实例训练单元数

    选择单实例训练单元数。

    实例数

    选择实例数。

    订阅提醒

    订阅提醒

    该功能开启后,系统将在任务状态更新时,通过短信或邮件将提醒发送给用户。

    发布模型

    开启自动发布

    开启自动发布后,模型训练完成的最终产物会自动发布为空间资产,以便对模型进行压缩、部署、评测等操作或共享给其他空间。

    故障自动重启

    自动重启

    该功能开启后,当训练作业发生故障终止本次作业时,自动从本次中断的作业继续训练。参见故障自动重启开关配置

    基本信息

    名称

    训练任务名称。

    描述

    训练任务描述。

    1. 不同NLP模型对应“训练参数”可能不同,请根据实际模型对应的“训练参数”配置全量微调相关参数。

  5. 创建好训练任务后,页面将返回“模型训练”页面,可随时查看当前任务的状态。

创建NLP大模型LoRA微调任务

创建NLP大模型LoRA微调任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
    图4 我的空间
  2. 在左侧导航栏中选择“模型开发 > 模型训练”,单击界面右上角“创建训练任务”。
  3. 在“选择模型”页面,选择“模型广场 > 大语言模型 > 模型”,单击“确定”进入“创建训练任务”页面。
  4. 在“创建训练任务”页面,参考表3完成训练参数设置,参数默认值在创建训练任务的时候会带出。
    表3 NLP大模型LoRA微调参数说明

    参数分类

    训练参数

    参数说明

    训练配置

    选择模型

    可以修改如下信息:

    • 来源:选择“模型广场”。
    • 类型:选择“大语言模型”,并选择训练所用的基础模型和版本。

    训练类型

    选择“微调”。

    训练目标

    选择“LoRA微调”。

    • LoRA微调:在模型微调过程中,只对特定的层或模块的参数进行更新,而其余参数保持冻结状态。这种方法可以显著减少计算资源和时间消耗,同时在很多情况下,依然能够保持较好的模型性能。

    训练参数

    数据批量大小

    数据批量是指训练过程中将数据集分成小批次进行读取,并设定每个批次的数据大小。

    通常,较大的批量能够使梯度更加稳定,有助于模型的收敛。然而,较大的批量也会占用更多显存,可能导致显存不足,并延长每次训练时间。

    学习率衰减比率

    用于控制训练过程中学习率下降的幅度。

    计算公式为:最低学习率 = 初始学习率 × 学习率衰减比率。

    学习率

    学习率决定每次训练中模型参数更新的幅度。

    选择合适的学习率至关重要:

    • 如果学习率过大,模型可能无法收敛。
    • 如果学习率过小,模型的收敛速度将变得非常慢。

    序列长度

    sequence_length,训练单条数据的最大长度,超过该长度的数据在训练时将被截断。

    热身比例

    热身比例是指在模型训练初期逐渐增加学习率的过程。

    由于训练初期模型的权重通常是随机初始化的,预测能力较弱,若直接使用较大的学习率,可能导致更新过快,进而影响收敛。为解决这一问题,通常在训练初期使用较小的学习率,并逐步增加,直到达到预设的最大学习率。通过这种方式,热身比例能够避免初期更新过快,从而帮助模型更好地收敛。

    训练轮数

    表示完成全部训练数据集训练的次数。每个轮次都会遍历整个数据集一次。

    LoRA矩阵中的秩

    lora_rank,在Lora矩阵中,Rank的值用于衡量矩阵的复杂度和信息量。数值较大,增强模型的表示能力,但会增加训练时长;数值越小可以减少参数数量,降低过拟合风险。

    Agent微调

    在训练Agent所需的NLP大模型时,可以开启此参数。通过调整训练数据中的Prompt,引导模型在特定领域或任务上生成更符合预期的回答。

    在使用此参数前,请先联系盘古客服,调整Prompt和训练数据。

    权重衰减系数

    通过在损失函数中加入与模型权重大小相关的惩罚项,鼓励模型保持较小的权重,防止过拟合或模型过于复杂。

    训练数据配置

    训练集

    选择训练模型所需的数据集。

    验证集

    • 若选择“分割训练集”,则需进一步配置数据拆分比例。
    • 若选择“选择数据集”,则需选择导入的数据集。

    资源配置

    计费模式

    选择训练当前任务的计费模式。

    训练单元

    选择训练单元数。

    单实例训练单元数

    选择单实例训练单元数。

    实例数

    选择实例数。

    订阅提醒

    订阅提醒

    该功能开启后,系统将在任务状态更新时,通过短信或邮件将提醒发送给用户。

    发布模型

    开启自动发布

    开启自动发布后,模型训练完成的最终产物会自动发布为空间资产,以便对模型进行压缩、部署、评测等操作或共享给其他空间。

    基本信息

    名称

    训练任务名称。

    描述

    训练任务描述。

    不同NLP模型对应“训练参数”可能不同,请根据实际模型对应的“训练参数”配置LORA微调相关参数。

  5. 参数填写完成后,单击“立即创建”。
  6. 创建好训练任务后,页面将返回“模型训练”页面,可随时查看当前任务的状态。

创建NLP大模型DPO强化学习任务

DPO强化学习基于偏好标注数据,针对微调后的模型继续进行强化训练,使模型输出更符合人类偏好。

创建NLP大模型DPO强化学习任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
    图5 我的空间
  2. 在左侧导航栏中选择“模型开发 > 模型训练”,单击界面右上角“创建训练任务”。
  3. 在“选择模型”页面,选择“我的资产 > 大语言模型 > 模型”,单击“确定”进入“创建训练任务”页面。
  4. 在“创建训练任务”页面,参考表4完成训练参数设置,参数默认值在创建训练任务的时候会带出。
    表4 NLP大模型DPO强化学习参数说明

    参数分类

    训练参数

    参数说明

    训练配置

    选择模型

    可以修改如下信息:

    • 来源:选择“我的资产”。
    • 类型:选择“大语言模型”,并选择训练所用的模型。

    训练类型

    选择“强化学习”。

    训练目标

    选择“DPO”。

    高级设置checkpoints

    checkpoints:在模型训练过程中,用于保存模型权重和状态的机制。详细配置参见断点续训配置

    • 关闭:关闭后不保存checkpoints,无法基于checkpoints执行续训操作。
    • 自动:自动保存训练过程中的所有checkpoints。
    • 自定义:根据设置保存指定数量的checkpoints。

    训练参数

    训练轮数

    表示完成全部训练数据集训练的次数。每个轮次都会遍历整个数据集一次。

    数据批量大小

    数据集进行分批读取训练,设定每个批次数据的大小。

    通常情况下,较大的数据批量可以使梯度更加稳定,从而有利于模型的收敛。然而,较大的数据批量也会占用更多的显存资源,这可能导致显存不足,并且会延长每次训练的时长。

    学习率

    学习率决定每次训练中模型参数更新的幅度。

    选择合适的学习率至关重要:

    • 如果学习率过大,模型可能无法收敛。
    • 如果学习率过小,模型的收敛速度将变得非常慢。

    序列长度

    sequence_length,训练单条数据的最大长度,超过该长度的数据在训练时将被截断。

    热身比例

    热身比例是指在模型训练初期逐渐增加学习率的过程。

    由于训练初期模型的权重通常是随机初始化的,预测能力较弱,若直接使用较大的学习率,可能导致更新过快,进而影响收敛。为解决这一问题,通常在训练初期使用较小的学习率,并逐步增加,直到达到预设的最大学习率。通过这种方式,热身比例能够避免初期更新过快,从而帮助模型更好地收敛。

    权重衰减系数

    weight_decay,是一种对模型参数值大小进行衰减的正则化方法,防止模型过拟合,提高模型泛化能力。

    模型保存策略

    save_checkpoint_steps,训练过程中是按迭代步数,还是训练轮数保存Checkpoint文件。

    Checkpoint保存间隔

    save_checkpoint_steps,训练过程中每隔多少个训练步长保存一次模型Checkpoint文件。

    Checkpoint保存轮数

    save_checkpoint_epoch,训练过程中每隔多少训练轮数保存一次模型Checkpoint文件,当值为0以save_checkpoint_steps为准,当值大于0以save_checkpoint_epoch为准。

    验证步数

    eval_steps,模型每隔多少步跑一次验证集。

    旋转位置编码

    rotary_base,位置编码的基底值,增强模型对序列中位置信息的捕捉能力,数值越大,模型能够处理的序列长度更长,泛化能力更好,建议使用默认值。

    DPO loss温度超参

    Beta,用于控制模型输出分布的集中程度。较高的beta值会使输出更具确定性,而较低的beta值则使输出更具多样性。

    学习率衰减比率

    用于控制训练过程中学习率下降的幅度。

    计算公式为:最低学习率 = 初始学习率 × 学习率衰减比率。

    模型保存步数

    每训练一定数量的步骤(或批次),模型的状态将会被保存。可以通过以下公式预估已训练的数据量:

    token_num = step * batch_size * sequence

    • token_num:已训练的数据量(以Token为单位)。
    • step:已完成的训练步数。
    • batch_size:每个训练步骤中使用的样本数量。
    • sequence:每个数据样本中的Token数量。

    训练数据配置

    训练集

    选择训练模型所需的数据集。

    验证集

    • 若选择“选择数据集”,则需进一步配置数据拆分比例。
    • 若选择“分割训练集”,则需选择导入的数据集。

    资源配置

    计费模式

    选择训练RFT强化任务的计费模式。

    训练单元

    选择训练模型所需的训练单元。

    当前展示的完成本次训练所需要的最低训练单元要求。

    单实例训练单元数

    选择单实例训练单元数。

    实例数

    选择实例数。

    订阅提醒

    订阅提醒

    该功能开启后,系统将在任务状态更新时,通过短信或邮件将提醒发送给用户。

    发布模型

    开启自动发布

    开启自动发布后,模型训练完成的最终产物会自动发布为空间资产,以便对模型进行压缩、部署、评测等操作或共享给其他空间。

    基本信息

    名称

    训练任务名称。

    描述

    训练任务描述。

    不同NLP模型对应“训练参数”可能不同,请根据实际模型对应的“训练参数”配置DPO强化学习关参数。

  5. 参数填写完成后,单击“立即创建”。
  6. 创建好训练任务后,页面将返回“模型训练”页面,可随时查看当前任务的状态。

创建NLP大模型RFT强化学习任务

RFT强化学习通过强化学习的方式优化模型,使其能够在数据量较少的情况下,完成专业领域内复杂任务。

创建NLP大模型RFT强化学习任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
    图6 我的空间
  2. 在左侧导航栏中选择“模型开发 > 模型训练”,单击界面右上角“创建训练任务”。
  3. 在“选择模型”页面,选择“模型广场 > 大语言模型 > 模型”,单击“确定”进入“创建训练任务”页面。
  4. 在“创建训练任务”页面,参考表5完成训练参数设置。
    表5 NLP大模型RFT强化学习参数说明

    参数分类

    训练参数

    参数说明

    训练配置

    选择模型

    可以修改如下信息:

    • 来源:选择“模型广场”。
    • 类型:选择“大语言模型”,并选择训练所用的基础模型和版本。

    训练类型

    选择“强化学习”。

    训练目标

    选择“RFT”。

    训练参数

    热身比例

    热身比例是指在模型训练初期逐渐增加学习率的过程。

    由于训练初期模型的权重通常是随机初始化的,预测能力较弱,若直接使用较大的学习率,可能导致更新过快,进而影响收敛。为解决这一问题,通常在训练初期使用较小的学习率,并逐步增加,直到达到预设的最大学习率。通过这种方式,热身比例能够避免初期更新过快,从而帮助模型更好地收敛。

    数据批量大小

    指定每个数据并行下处理的数据批量大小。在数据并行和流水线并行开启情况下,全局batch_size等于per_batch_size乘micro_size乘data_parallelism。

    学习率

    学习率决定每次训练中模型参数更新的幅度。

    选择合适的学习率至关重要:

    • 如果学习率过大,模型可能无法收敛。
    • 如果学习率过小,模型的收敛速度将变得非常慢。

    训练轮数

    完成全部训练数据集训练的次数。

    优化器

    训练中对模型参数进行更新的算法,默认为adamw。

    权重衰减系数

    权重衰减系数,通过在损失函数中增加一个与模型权重大小相关的惩罚项,来鼓励模型保持权重较小,从而防止模型过于复杂或过拟合训练数据。

    DPO loss温度超参

    用于控制模型输出分布的集中程度。较高的beta值会使输出更具确定性,而较低的beta值则使输出更具多样性。

    打分器类型

    rft训练中的样本打分器。

    训练数据配置

    训练集

    选择训练模型所需的数据集。

    资源配置

    计费模式

    选择训练RFT强化任务的计费模式。

    训练单元

    选择训练模型所需的训练单元。

    当前展示的完成本次训练所需要的最低训练单元要求。

    单实例训练单元数

    选择单实例训练单元数。

    实例数

    选择实例数。

    订阅提醒

    订阅提醒

    该功能开启后,系统将在任务状态更新时,通过短信或邮件将提醒发送给用户。

    发布模型

    开启自动发布

    开启自动发布后,模型训练完成的最终产物会自动发布为空间资产,以便对模型进行压缩、部署、评测等操作或共享给其他空间。

    基本信息

    名称

    训练任务名称。

    描述

    训练任务描述。

    不同NLP模型对应“训练参数”可能不同,请根据实际模型对应的“训练参数”配置RFT强化学习关参数。

  5. 参数填写完成后,单击“立即创建”。
  6. 创建好训练任务后,页面将返回“模型训练”页面,可随时查看当前任务的状态。

创建NLP大模型GRPO强化学习任务

GRPO强化学习通过强化学习的方式优化模型,使其能够在数据量较少的情况下,完成专业领域内复杂任务。

创建NLP大模型GRPO强化学习任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
    图7 我的空间
  2. 在左侧导航栏中选择“模型开发 > 模型训练”,单击界面右上角“创建训练任务”。
  3. 在“选择模型”页面,选择“模型广场 > 大语言模型 > 模型”,单击“确定”进入“创建训练任务”页面。
  4. 在“创建训练任务”页面,参考表 NLP大模型GRPO强化学习参数说明完成训练参数设置。
    表6 NLP大模型GRPO强化学习参数说明

    参数分类

    训练参数

    参数说明

    训练配置

    选择模型

    可以修改如下信息:

    • 来源:选择“模型广场”。
    • 类型:选择“大语言模型”,并选择训练所用的基础模型和版本。

    训练类型

    选择“强化学习”。

    训练目标

    选择“GRPO”。

    训练参数

    热身比例

    热身比例是指在模型训练初期逐渐增加学习率的过程。

    由于训练初期模型的权重通常是随机初始化的,预测能力较弱,若直接使用较大的学习率,可能导致更新过快,进而影响收敛。为解决这一问题,通常在训练初期使用较小的学习率,并逐步增加,直到达到预设的最大学习率。通过这种方式,热身比例能够避免初期更新过快,从而帮助模型更好地收敛。

    数据批量大小

    指定每个数据并行下处理的数据批量大小。在数据并行和流水线并行开启情况下,全局batch_size等于per_batch_size乘micro_size乘data_parallelism。

    学习率

    学习率决定每次训练中模型参数更新的幅度。

    选择合适的学习率至关重要:

    • 如果学习率过大,模型可能无法收敛。
    • 如果学习率过小,模型的收敛速度将变得非常慢。

    训练轮数

    完成全部训练数据集训练的次数。

    序列长度

    sequence_length,训练单条数据的最大长度,超过该长度的数据在训练时将被截断

    权重衰减系数

    权重衰减系数,通过在损失函数中增加一个与模型权重大小相关的惩罚项,来鼓励模型保持权重较小,从而防止模型过于复杂或过拟合训练数据。

    单个问题的推理回答数量

    在GRPO算法中,模型会对同一个问题进行多次推理,该参数控制单个问题的推理回答数量。

    单次推理的问题数量

    模型在推理阶段,单次推理的prompt总数,需能被推理的data_parallel数整除。最大可设置为batch_size值。

    温度

    控制模型推理N条数据的随机性,当temperature趋近于0时,选择最大概率的词;temperature越大,分布越平缓,选择更随机。

    核采样

    控制模型推理的多样性,取值越大,生成文本的多样性越强。

    排序K采样

    控制保留概率最高的前k个候选词,并在这k个词中按概率分布进行采样。

    最大输入长度

    单条问题输入(prompt)的最大长度,单位为token。最大为sequence_length-1k。

    初始KL惩罚系数

    在强化学习中显著策略更新的幅度,防止过度优化局部最优。若策略更新幅度过大(如回报突增但KL散度显著上升),可逐步增大该值以约束更新。

    训练数据配置

    训练集

    选择训练模型所需的数据集。

    资源配置

    计费模式

    选择训练GRPO强化任务的计费模式。

    训练单元

    选择训练模型所需的训练单元。

    当前展示的完成本次训练所需要的最低训练单元要求。

    单实例训练单元数

    选择单实例训练单元数。

    实例数

    选择实例数。

    订阅提醒

    订阅提醒

    该功能开启后,系统将在任务状态更新时,通过短信或邮件将提醒发送给用户。

    发布模型

    开启自动发布

    开启自动发布后,模型训练完成的最终产物会自动发布为空间资产,以便对模型进行压缩、部署、评测等操作或共享给其他空间。

    基本信息

    名称

    训练任务名称。

    描述

    训练任务描述。

    不同NLP模型对应“训练参数”可能不同,请根据实际模型对应的“训练参数”配置GRPO强化学习关参数。

  5. 参数填写完成后,单击“立即创建”。
  6. 创建好训练任务后,页面将返回“模型训练”页面,可随时查看当前任务的状态

断点续训配置

断点续训练是指因为某些原因(例如容错重启、资源抢占、作业卡死等)导致训练作业还未完成就被中断,下一次训练可以在上一次的训练基础上继续进行。这种方式对于需要长时间训练的模型而言比较友好。

断点续训练是通过checkpoint机制实现。

checkpoint的机制:在模型训练的过程中,不断地保存训练结果(包括但不限于EPOCH、模型权重、优化器状态、调度器状态)。即便模型训练中断,也可以基于checkpoint接续训练。

当需要从训练中断的位置接续训练,只需要加载checkpoint,并用checkpoint信息初始化训练状态即可。

图8 checkpoint续训配置

模型训练过程中点开训练详情页面,会展示所有保存的checkpoint信息,选择需要恢复的checkpoint,可以看到三种续训方式:

  1. 从所选checkpoint创建新训练;
  2. 从所选checkpoint继续训练;
  3. 从所选checkpoints跳过step继续训练

三者的区别如下:

表7 checkpoint续训方式清单

序号

续训方式

说明

1

从所选checkpoint创建新训练

创建新的训练任务,可以重新选择数据集,只会使用checkpoint中权重的信息,其余的如优化器状态、调度器状态不会读取。

2

从所选checkpoint继续训练

继续原有的任务,会读取模型权重、优化器状态、调度器状态并用于初始化,主要解决由于硬件、网络相关的故障导致训练的中断。

3

从所选checkpoint跳过step继续训练

继续原有的任务,会读取模型权重、优化器状态、调度器状态并用于初始化,但会跳过该checkpoint之后的部分数据(用户可配置),用于解决由于数据质量差导致的loss不收敛问题。

训练详情页的checkpoint输出发布成资产之后,与正常训练结束的模型产物一致,可以支持增量微调,LoRA微调,部署等功能。

故障自动重启开关配置

当训练任务失败且无法及时重启训练时,会导致训练环境闲置,降低训练环境使用效率和训练成功率。为解决此类问题,增加了故障自动重启开关配置。

故障自动重启是指当训练作业失败时,不管什么原因系统都会自动重启训练作业,提高训练成功率和提升作业的稳定性。

开启故障自动重启见图9,为避免程序反复无效重启浪费算力资源,建议重启次数设置为3次。

图9 开启故障自动重启

开启故障自动重启开关后,只要系统检测到训练异常,就会无条件重启训练作业。为避免反复无效重启导致的算力浪费,请根据实际使用场景确认是否开启。

相关文档