更新时间:2025-07-28 GMT+08:00

创建Deepseek大模型训练任务

预训练

创建Deepseek大模型预训练任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
    图1 我的空间
  2. 在左侧导航栏中选择“模型开发 > 模型训练”,单击右上角“创建训练任务”。
  3. 在“创建训练任务”页面,参考表1完成训练参数设置。
    表1 Deepseek大模型预训练参数说明

    参数分类

    训练参数

    参数说明

    训练配置

    选择模型

    可以修改如下信息:

    • 来源:选择“模型广场”。
    • 类型:选择“大语言模型”,并选择训练所用的基础模型和版本(选择 DeepSeek-V3-32K或者DeepSeek-R1-32K具体版本)。

    训练类型

    选择“预训练”。

    高级设置checkpoints

    checkpoints:在模型训练过程中,用于保存模型权重和状态的机制。

    • 关闭:关闭后不保存checkpoints,无法基于checkpoints执行续训操作。
    • 自动:自动保存训练过程中的所有checkpoints。
    • 自定义:根据设置保存指定数量的checkpoints。

    训练参数

    训练轮数

    epochs,训练中遍历数据集的次数。

    学习率

    learning_rate,控制模型参数训练步长的更新幅度,学习率过大可能会导致模型难以收敛,过小可能会导致收敛速度过慢。

    数据批量大小

    batch_size,控制每个训练步长的样本量,数值越大,梯度会越稳定,但是同时也会使用更大的显存,受硬件限制可能会OOM,并延长单次训练时长。

    序列长度

    sequence_length,训练单条数据的最大长度,超过该长度的数据在训练时将被截断。

    热身比例

    warmup,控制热身阶段占整体训练的比例,可以使训练的热身阶段内学习率较小,模型慢慢趋于稳定,之后按预设学习率进行训练,模型收敛速度更快,效果更佳。

    学习率衰减比率

    lr_decay_ratio,控制学习率的参数,可以使模型更稳定地收敛,最小不会低于学习率x学习率衰减比率的值,若学习率不衰减则配置为1。

    权重衰减系数

    weight_decay,是一种对模型参数值大小进行衰减的正则化方法,防止模型过拟合,提高模型泛化能力。

    模型保存策略

    save_checkpoint_steps/save_checkpoint_epoch,训练过程中是按迭代步数,还是训练轮数保存Checkpoint文件。

    模型保存间隔

    save_checkpoint_steps,训练过程中每隔多少个训练步长保存一次模型Checkpoint文件。

    save_checkpoint_epoch,训练过程中每个多少训练轮数保存一次模型Checkpoint文件。

    模型保存个数

    checkpoints:在模型训练过程中,用于保存模型权重和状态的机制。

    • 关闭:关闭后不保存checkpoints,无法基于checkpoints执行续训操作。
    • 全部:自动保存训练过程中的所有checkpoints。
    • 自定义:根据设置保存指定数量的checkpoints。

    训练数据配置

    训练集

    选择训练模型所需的数据集。

    资源配置

    计费模式

    选择训练当前任务的计费模式。

    训练单元

    选择训练模型所需的训练单元。

    当前展示的完成本次训练所需要的最低训练单元要求。

    单实例训练单元数

    选择单实例训练单元数。

    实例数

    选择实例数。

    订阅提醒

    订阅提醒

    该功能开启后,系统将在任务状态更新时,通过短信或邮件将提醒发送给用户。

    发布模型

    开启自动发布

    开启自动发布后,模型训练完成的最终产物会自动发布为空间资产,以便对模型进行压缩、部署、评测等操作或共享给其他空间。

    基本信息

    名称

    训练任务名称。

    描述

    训练任务描述。

  4. 参数填写完成后,单击“立即创建”。
  5. 创建好训练任务后,页面将返回“模型训练”页面,可随时查看当前任务的状态。

全量微调

创建Deepseek大模型全量微调任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
    图2 我的空间
  2. 在左侧导航栏中选择“模型开发 > 模型训练”,单击界面右上角“创建训练任务”。
  3. 在“创建训练任务”页面,参考表2完成训练参数设置。
    表2 Deepseek大模型全量微调参数说明

    参数分类

    训练参数

    参数说明

    训练配置

    选择模型

    可以修改如下信息:

    • 来源:选择“模型广场”。
    • 类型:选择“大语言模型”,并选择训练所用的基础模型和版本(选择 DeepSeek-V3-32K或者DeepSeek-R1-32K具体版本)。

    训练类型

    选择“微调”。

    训练目标

    选择“全量微调”。

    • 全量微调:在模型进行有监督微调时,对大模型的所有参数进行更新。

    高级设置

    checkpoints:在模型训练过程中,用于保存模型权重和状态的机制。

    • 关闭:关闭后不保存checkpoints,无法基于checkpoints执行续训操作。
    • 自动:自动保存训练过程中的所有checkpoints。
    • 自定义:根据设置保存指定数量的checkpoints。

    训练参数

    训练轮数

    epochs,训练中遍历数据集的次数。

    学习率

    learning_rate,控制模型参数训练步长的更新幅度,学习率过大可能会导致模型难以收敛,过小可能会导致收敛速度过慢。

    数据批量大小

    batch_size,控制每个训练步长的样本量,数值越大,梯度会越稳定,但是同时也会使用更大的显存,受硬件限制可能会OOM,并延长单次训练时长。

    序列长度

    sequence_length,训练单条数据的最大长度,超过该长度的数据在训练时将被截断。

    热身比例

    warmup,控制热身阶段占整体训练的比例,可以使训练的热身阶段内学习率较小,模型慢慢趋于稳定,之后按预设学习率进行训练,模型收敛速度更快,效果更佳。

    学习率衰减比率

    lr_decay_ratio,控制学习率的参数,可以使模型更稳定地收敛,最小不会低于学习率x学习率衰减比率的值,若学习率不衰减则配置为1。

    权重衰减系数

    weight_decay,是一种对模型参数值大小进行衰减的正则化方法,防止模型过拟合,提高模型泛化能力。

    模型保存策略

    save_checkpoint_steps/save_checkpoint_epoch,训练过程中是按迭代步数,还是训练轮数保存Checkpoint文件。

    模型保存间隔

    save_checkpoint_steps,训练过程中每隔多少个训练步长保存一次模型Checkpoint文件。

    save_checkpoint_epoch,训练过程中每个多少训练轮数保存一次模型Checkpoint文件。

    模型保存个数

    checkpoints:在模型训练过程中,用于保存模型权重和状态的机制。

    • 关闭:关闭后不保存checkpoints,无法基于checkpoints执行续训操作。
    • 全部:自动保存训练过程中的所有checkpoints。
    • 自定义:根据设置保存指定数量的checkpoints。

    数据配置

    训练集

    选择训练模型所需的数据集。

    资源配置

    计费模式

    选择训练当前任务的计费模式。

    训练单元

    选择训练模型所需的训练单元。

    当前展示的完成本次训练所需要的最低训练单元要求。

    单实例训练单元数

    选择单实例训练单元数。

    实例数

    选择实例数。

    订阅提醒

    订阅提醒

    该功能开启后,系统将在任务状态更新时,通过短信或邮件将提醒发送给用户。

    发布模型

    是否开启自动发布

    关闭,训练完成后手动发布到模型资产

    开启,配置可见性、模型名称和描述

    基本信息

    名称

    训练任务名称。

    描述

    训练任务描述。

    不同模型训练参数默认值存在一定差异,请以前端页面展示的默认值为准。

  4. 参数填写完成后,单击“立即创建”。
  5. 创建好训练任务后,页面将返回“模型训练”页面,可随时查看当前任务的状态。

LoRA微调

创建Deepseek大模型LoRA微调任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
    图3 我的空间
  2. 在左侧导航栏中选择“模型开发 > 模型训练”,单击界面右上角“创建训练任务”。
  3. 在“创建训练任务”页面,参考表3完成训练参数设置。
    表3 Deepseek大模型LoRA微调参数说明

    参数分类

    训练参数

    参数说明

    训练配置

    选择模型

    可以修改如下信息:

    • 来源:选择“模型广场”。
    • 类型:选择“大语言模型”,并选择训练所用的基础模型和版本(选择 DeepSeek-V3-32K或者DeepSeek-R1-32K具体版本)。

    训练类型

    选择“微调”。

    训练目标

    选择“LoRA微调”。

    • LoRA微调:在模型有监督微调过程中,冻结预训练好的模型权重参数,在保留自注意力模块中原始权重的基础上,对权重矩阵进行低秩分解,训练过程中只更新低秩部分的参数。

    训练参数

    训练轮数

    epochs,训练中遍历数据集的次数

    学习率

    learning_rate,控制模型参数训练步长的更新幅度,学习率过大可能会导致模型难以收敛,过小可能会导致收敛速度过慢。

    数据批量大小

    batch_size,控制每个训练步长的样本量,数值越大,梯度会越稳定,但是同时也会使用更大的显存,受硬件限制可能会OOM,并延长单次训练时长。

    序列长度

    sequence_length,训练单条数据的最大长度,超过该长度的数据在训练时将被截断。

    热身比例

    warmup,控制热身阶段占整体训练的比例,可以使训练的热身阶段内学习率较小,模型慢慢趋于稳定,之后按预设学习率进行训练,模型收敛速度更快,效果更佳。

    学习率衰减比率

    lr_decay_ratio,控制学习率的参数,可以使模型更稳定地收敛,最小不会低于学习率x学习率衰减比率的值,若学习率不衰减则配置为1。

    权重衰减系数

    通过在损失函数中加入与模型权重大小相关的惩罚项,鼓励模型保持较小的权重,防止过拟合或模型过于复杂。

    Lora矩阵的秩

    LoRA_rank,在Lora矩阵中,Rank的值用于衡量矩阵的复杂度和信息量。数值较大,增强模型的表示能力,但会增加训练时长;数值越小可以减少参数数量,降低过拟合风险。

    数据配置

    训练集

    选择训练模型所需的数据集。

    资源配置

    计费模式

    选择训练当前任务的计费模式。

    训练单元

    选择训练模型所需的训练单元。

    当前展示的完成本次训练所需要的最低训练单元要求。

    单实例训练单元数

    选择单实例训练单元数。

    实例数

    选择实例数。

    订阅提醒

    订阅提醒

    该功能开启后,系统将在任务状态更新时,通过短信或邮件将提醒发送给用户。

    发布模型

    是否开启自动发布

    关闭,训练完成后手动发布到模型资产

    开启,配置可见性、模型名称和描述

    基本信息

    名称

    训练任务名称。

    描述

    训练任务描述。

    不同模型训练参数默认值存在一定差异,请以前端页面展示的默认值为准。

  4. 参数填写完成后,单击“立即创建”。
  5. 创建好训练任务后,页面将返回“模型训练”页面,可随时查看当前任务的状态。

QLoRA微调

创建Deepseek大模型全量微调任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
    图4 我的空间
  2. 在左侧导航栏中选择“模型开发 > 模型训练”,单击界面右上角“创建训练任务”。
  3. 在“创建训练任务”页面,参考表4完成训练参数设置。
    表4 Deepseek大模型QLoRA微调参数说明

    参数分类

    训练参数

    参数说明

    训练配置

    选择模型

    可以修改如下信息:

    • 来源:选择“模型广场”。
    • 类型:选择“大语言模型”,并选择训练所用的基础模型和版本(选择 DeepSeek-V3-32K或者DeepSeek-R1-32K具体版本)。

    训练类型

    选择“微调”。

    训练目标

    选择“QLoRA微调”。

    • QLoRA微调:QloRA是一种高效微调大语言模型的技术,结合了量化和低秩适配器(Low-Rank Adaptation),旨在显著降低显存占用,同时保持模型性能,适用于资源受限的场景。

    训练参数

    训练轮数

    epochs,训练中遍历数据集的次数。

    学习率

    learning_rate,控制模型参数训练步长的更新幅度,学习率过大可能会导致模型难以收敛,过小可能会导致收敛速度过慢。

    数据批量大小

    batch_size,控制每个训练步长的样本量,数值越大,梯度会越稳定,但是同时也会使用更大的显存,受硬件限制可能会OOM,并延长单次训练时长。

    序列长度

    sequence_length,训练单条数据的最大长度,超过该长度的数据在训练时将被截断

    热身比例

    warmup,控制热身阶段占整体训练的比例,可以使训练的热身阶段内学习率较小,模型慢慢趋于稳定,之后按预设学习率进行训练,模型收敛速度更快,效果更佳。

    学习率衰减比率

    lr_decay_ratio,控制学习率的参数,可以使模型更稳定地收敛,最小不会低于学习率x学习率衰减比率的值,若学习率不衰减则配置为1。

    权重衰减系数

    weight_decay,是一种对模型参数值大小进行衰减的正则化方法,防止模型过拟合,提高模型泛化能力。

    Lora矩阵的轶

    LoRA_rank,在Lora矩阵中,Rank的值用于衡量矩阵的复杂度和信息量。数值较大,增强模型的表示能力,但会增加训练时长;数值越小可以减少参数数量,降低过拟合风险。

    数据配置

    训练集

    选择训练模型所需的数据集。

    资源配置

    计费模式

    选择训练当前任务的计费模式。

    训练单元

    选择训练模型所需的训练单元。

    当前展示的完成本次训练所需要的最低训练单元要求。

    单实例训练单元数

    选择单实例训练单元数。

    实例数

    选择实例数。

    订阅提醒

    订阅提醒

    该功能开启后,系统将在任务状态更新时,通过短信或邮件将提醒发送给用户。

    发布模型

    是否开启自动发布

    关闭,训练完成后手动发布到模型资产

    开启,配置可见性、模型名称和描述

    基本信息

    名称

    训练任务名称。

    描述

    训练任务描述。

    不同模型训练参数默认值存在一定差异,请以前端页面展示的默认值为准。

  4. 参数填写完成后,单击“立即创建”。
  5. 创建好训练任务后,页面将返回“模型训练”页面,可随时查看当前任务的状态。