更新时间:2025-11-26 GMT+08:00
分享

创建Deepseek大模型训练任务

预训练

创建Deepseek大模型预训练任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
    图1 我的空间
  2. 在左侧导航栏中选择“模型开发 > 模型训练”,单击右上角“创建训练任务”。
  3. 在“创建训练任务”页面,参考表1完成训练参数设置。
    表1 Deepseek大模型预训练参数说明

    参数分类

    训练参数

    参数说明

    训练配置

    选择模型

    可以修改如下信息:

    • 来源:选择“模型广场”。
    • 类型:选择“大语言模型”,并选择训练所用的基础模型和版本(选择 DeepSeek-V3-32K或者DeepSeek-R1-32K具体版本)。

    训练类型

    选择“预训练”。

    资源配置

    计费模式

    选择训练当前任务的计费模式。

    训练单元

    选择训练模型所需的训练单元。

    当前展示的完成本次训练所需要的最低训练单元要求。

    单实例训练单元数

    选择单实例训练单元数。

    实例数

    选择实例数。

    优先级

    优先级相同的任务,先创建先执行。

    训练参数

    训练轮数

    epochs,训练中遍历数据集的次数。

    学习率

    learning_rate,控制模型参数训练步长的更新幅度,学习率过大可能会导致模型难以收敛,过小可能会导致收敛速度过慢。

    数据批量大小

    batch_size,控制每个训练步长的样本量,数值越大,梯度会越稳定,但是同时也会使用更大的显存,受硬件限制可能会OOM,并延长单次训练时长。

    序列长度

    sequence_length,训练单条数据的最大长度,超过该长度的数据在训练时将被截断。

    热身比例

    warmup,控制热身阶段占整体训练的比例,可以使训练的热身阶段内学习率较小,模型慢慢趋于稳定,之后按预设学习率进行训练,模型收敛速度更快,效果更佳。

    学习率衰减比率

    lr_decay_ratio,控制学习率的参数,可以使模型更稳定地收敛,最小不会低于学习率x学习率衰减比率的值,若学习率不衰减则配置为1。

    权重衰减系数

    weight_decay,是一种对模型参数值大小进行衰减的正则化方法,防止模型过拟合,提高模型泛化能力。

    模型保存策略

    save_checkpoint_steps/save_checkpoint_epoch,训练过程中是按迭代步数,还是训练轮数保存Checkpoint文件。

    模型保存间隔

    save_checkpoint_steps,训练过程中每隔多少个训练步长保存一次模型Checkpoint文件。

    save_checkpoint_epoch,训练过程中每个多少训练轮数保存一次模型Checkpoint文件。

    模型保存个数

    checkpoints:在模型训练过程中,用于保存模型权重和状态的机制。

    • 关闭:关闭后不保存checkpoints,无法基于checkpoints执行续训操作。
    • 全部:自动保存训练过程中的所有checkpoints。
    • 自定义:根据设置保存指定数量的checkpoints。

    高级设置

    checkpoints

    checkpoints:在模型训练过程中,用于保存模型权重和状态的机制。

    • 关闭:关闭后不保存checkpoints,无法基于checkpoints执行续训操作。
    • 自动:自动保存训练过程中的所有checkpoints。
    • 自定义:根据设置保存指定数量的checkpoints。

    训练数据配置

    训练集

    选择训练模型所需的数据集。

    订阅提醒

    订阅提醒

    该功能开启后,平台支持两种订阅类型,预置通知和SMN通知。

    预置通知:系统将在任务状态完成或失败时,通过短信或邮件将提醒发送给用户。

    SMN通知:用户可在SMN云服务创建主题并维护订阅信息,在创建训练时选择对应主题以及需要通知的状态。训练状态范围:停止,失败,完成。用户手工触发的停止操作不通知用户,如果是资源到期的停止需通知用户。

    发布模型

    开启自动发布

    开启自动发布后,模型训练完成的最终产物会自动发布为空间资产,以便对模型进行压缩、部署、评测等操作或共享给其他空间。

    模型可见性

    选择发布模型的可见范围。

    本空间可见:发布的模型仅当前工作空间可见。

    全空间可见:发布的模型在所有空间均可见。

    模型名称

    要发布的模型资产的名称。

    描述(可选)

    要发布的模型资产的相关描述,选填。

    基本信息

    名称

    训练任务名称。

    描述(可选)

    训练任务描述。

  4. 参数填写完成后,单击“立即创建”。
  5. 创建好训练任务后,页面将返回“模型训练”页面,可随时查看当前任务的状态。

全量微调

创建Deepseek大模型全量微调任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
    图2 我的空间
  2. 在左侧导航栏中选择“模型开发 > 模型训练”,单击界面右上角“创建训练任务”。
  3. 在“创建训练任务”页面,参考表2完成训练参数设置。
    表2 Deepseek大模型全量微调参数说明

    参数分类

    训练参数

    参数说明

    训练配置

    选择模型

    可以修改如下信息:

    • 来源:选择“模型广场”。
    • 类型:选择“大语言模型”,并选择训练所用的基础模型和版本(选择 DeepSeek-V3-32K或者DeepSeek-R1-32K具体版本)。

    训练类型

    选择“微调”。

    训练目标

    选择“全量微调”。

    • 全量微调:在模型进行有监督微调时,对大模型的所有参数进行更新。

    资源配置

    计费模式

    选择训练当前任务的计费模式。

    训练单元

    选择训练模型所需的训练单元。

    当前展示的完成本次训练所需要的最低训练单元要求。

    单实例训练单元数

    选择单实例训练单元数。

    实例数

    选择实例数。

    优先级

    优先级相同的任务,先创建先执行。

    训练参数

    训练轮数

    epochs,训练中遍历数据集的次数。

    学习率

    learning_rate,控制模型参数训练步长的更新幅度,学习率过大可能会导致模型难以收敛,过小可能会导致收敛速度过慢。

    数据批量大小

    batch_size,控制每个训练步长的样本量,数值越大,梯度会越稳定,但是同时也会使用更大的显存,受硬件限制可能会OOM,并延长单次训练时长。

    序列长度

    sequence_length,训练单条数据的最大长度,超过该长度的数据在训练时将被截断。

    热身比例

    warmup,控制热身阶段占整体训练的比例,可以使训练的热身阶段内学习率较小,模型慢慢趋于稳定,之后按预设学习率进行训练,模型收敛速度更快,效果更佳。

    学习率衰减比率

    lr_decay_ratio,控制学习率的参数,可以使模型更稳定地收敛,最小不会低于学习率x学习率衰减比率的值,若学习率不衰减则配置为1。

    权重衰减系数

    weight_decay,是一种对模型参数值大小进行衰减的正则化方法,防止模型过拟合,提高模型泛化能力。

    模型保存策略

    save_checkpoint_steps/save_checkpoint_epoch,训练过程中是按迭代步数,还是训练轮数保存Checkpoint文件。

    模型保存间隔

    save_checkpoint_steps,训练过程中每隔多少个训练步长保存一次模型Checkpoint文件。

    save_checkpoint_epoch,训练过程中每个多少训练轮数保存一次模型Checkpoint文件。

    模型保存个数

    checkpoints:在模型训练过程中,用于保存模型权重和状态的机制。

    • 关闭:关闭后不保存checkpoints,无法基于checkpoints执行续训操作。
    • 全部:自动保存训练过程中的所有checkpoints。
    • 自定义:根据设置保存指定数量的checkpoints。

    高级设置

    checkpoints

    checkpoints:在模型训练过程中,用于保存模型权重和状态的机制。

    • 关闭:关闭后不保存checkpoints,无法基于checkpoints执行续训操作。
    • 自动:自动保存训练过程中的所有checkpoints。
    • 自定义:根据设置保存指定数量的checkpoints。

    数据配置

    训练集

    选择训练模型所需的数据集。

    订阅提醒

    订阅提醒

    该功能开启后,平台支持两种订阅类型,预置通知和SMN通知。

    预置通知:系统将在任务状态完成或失败时,通过短信或邮件将提醒发送给用户。

    SMN通知:用户可在SMN云服务创建主题并维护订阅信息,在创建训练时选择对应主题以及需要通知的状态。训练状态范围:停止,失败,完成。用户手工触发的停止操作不通知用户,如果是资源到期的停止需通知用户。

    发布模型

    开启自动发布

    开启自动发布后,模型训练完成的最终产物会自动发布为空间资产,以便对模型进行压缩、部署、评测等操作或共享给其他空间。

    模型可见性

    选择发布模型的可见范围。

    本空间可见:发布的模型仅当前工作空间可见。

    全空间可见:发布的模型在所有空间均可见。

    模型名称

    要发布的模型资产的名称。

    描述(可选)

    要发布的模型资产的相关描述,选填。

    基本信息

    名称

    训练任务名称。

    描述(可选)

    训练任务描述。

    不同模型训练参数默认值存在一定差异,请以前端页面展示的默认值为准。

  4. 参数填写完成后,单击“立即创建”。
  5. 创建好训练任务后,页面将返回“模型训练”页面,可随时查看当前任务的状态。

LoRA微调

创建Deepseek大模型全量微调任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
    图3 我的空间
  2. 在左侧导航栏中选择“模型开发 > 模型训练”,单击界面右上角“创建训练任务”。
  3. 在“创建训练任务”页面,参考表3完成训练参数设置。
    表3 Deepseek大模型LoRA微调参数说明

    参数分类

    训练参数

    参数说明

    训练配置

    选择模型

    可以修改如下信息:

    • 来源:选择“模型广场”。
    • 类型:选择“大语言模型”,并选择训练所用的基础模型和版本(选择 DeepSeek-V3-32K或者DeepSeek-R1-32K具体版本)。

    训练类型

    选择“微调”。

    训练目标

    选择“LoRA微调”。

    • LoRA微调:在模型有监督微调过程中,冻结预训练好的模型权重参数,在保留自注意力模块中原始权重的基础上,对权重矩阵进行低秩分解,训练过程中只更新低质部分的参数

    资源配置

    计费模式

    选择训练当前任务的计费模式。

    训练单元

    选择训练模型所需的训练单元。

    当前展示的完成本次训练所需要的最低训练单元要求。

    单实例训练单元数

    选择单实例训练单元数。

    实例数

    选择实例数。

    优先级

    优先级相同的任务,先创建先执行。

    训练参数

    训练轮数

    epochs,训练中遍历数据集的次数

    学习率

    learning_rate,控制模型参数训练步长的更新幅度,学习率过大可能会导致模型难以收敛,过小可能会导致收敛速度过慢。

    数据批量大小

    batch_size,控制每个训练步长的样本量,数值越大,梯度会越稳定,但是同时也会使用更大的显存,受硬件限制可能会OOM,并延长单次训练时长。

    序列长度

    sequence_length,训练单条数据的最大长度,超过该长度的数据在训练时将被截断。

    热身比例

    warmup,控制热身阶段占整体训练的比例,可以使训练的热身阶段内学习率较小,模型慢慢趋于稳定,之后按预设学习率进行训练,模型收敛速度更快,效果更佳。

    学习率衰减比率

    lr_decay_ratio,控制学习率的参数,可以使模型更稳定地收敛,最小不会低于学习率x学习率衰减比率的值,若学习率不衰减则配置为1。

    权重衰减系数

    通过在损失函数中加入与模型权重大小相关的惩罚项,鼓励模型保持较小的权重,防止过拟合或模型过于复杂。

    Lora矩阵的秩

    LoRA_rank,在Lora矩阵中,Rank的值用于衡量矩阵的复杂度和信息量。数值较大,增强模型的表示能力,但会增加训练时长;数值越小可以减少参数数量,降低过拟合风险。

    数据配置

    训练集

    选择训练模型所需的数据集。

    订阅提醒

    订阅提醒

    该功能开启后,平台支持两种订阅类型,预置通知和SMN通知。

    预置通知:系统将在任务状态完成或失败时,通过短信或邮件将提醒发送给用户。

    SMN通知:用户可在SMN云服务创建主题并维护订阅信息,在创建训练时选择对应主题以及需要通知的状态。训练状态范围:停止,失败,完成。用户手工触发的停止操作不通知用户,如果是资源到期的停止需通知用户。

    发布模型

    开启自动发布

    开启自动发布后,模型训练完成的最终产物会自动发布为空间资产,以便对模型进行压缩、部署、评测等操作或共享给其他空间。

    模型可见性

    选择发布模型的可见范围。

    本空间可见:发布的模型仅当前工作空间可见。

    全空间可见:发布的模型在所有空间均可见。

    模型名称

    要发布的模型资产的名称。

    描述(可选)

    要发布的模型资产的相关描述,选填。

    基本信息

    名称

    训练任务名称。

    描述(可选)

    训练任务描述。

    不同模型训练参数默认值存在一定差异,请以前端页面展示的默认值为准。

  4. 参数填写完成后,单击“立即创建”。
  5. 创建好训练任务后,页面将返回“模型训练”页面,可随时查看当前任务的状态。

QLoRA微调

创建Deepseek大模型全量微调任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
    图4 我的空间
  2. 在左侧导航栏中选择“模型开发 > 模型训练”,单击界面右上角“创建训练任务”。
  3. 在“创建训练任务”页面,参考表4完成训练参数设置。
    表4 Deepseek大模型QLoRA微调参数说明

    参数分类

    训练参数

    参数说明

    训练配置

    选择模型

    可以修改如下信息:

    • 来源:选择“模型广场”。
    • 类型:选择“大语言模型”,并选择训练所用的基础模型和版本(选择 DeepSeek-V3-32K或者DeepSeek-R1-32K具体版本)。

    训练类型

    选择“微调”。

    训练目标

    选择“QLoRA微调”。

    • QLoRA微调:QloRA是一种高效微调大语言模型的技术,结合了量化和低秩适配器(Low-Rank Adaptation),旨在显著降低显存占用,同时保持模型性能,适用于资源受限的场景。

    资源配置

    计费模式

    选择训练当前任务的计费模式。

    训练单元

    选择训练模型所需的训练单元。

    当前展示的完成本次训练所需要的最低训练单元要求。

    单实例训练单元数

    选择单实例训练单元数。

    实例数

    选择实例数。

    优先级

    优先级相同的任务,先创建先执行。

    训练参数

    训练轮数

    epochs,训练中遍历数据集的次数

    学习率

    learning_rate,控制模型参数训练步长的更新幅度,学习率过大可能会导致模型难以收敛,过小可能会导致收敛速度过慢。

    数据批量大小

    batch_size,控制每个训练步长的样本量,数值越大,梯度会越稳定,但是同时也会使用更大的显存,受硬件限制可能会OOM,并延长单次训练时长。

    序列长度

    sequence_length,训练单条数据的最大长度,超过该长度的数据在训练时将被截断。

    热身比例

    warmup,控制热身阶段占整体训练的比例,可以使训练的热身阶段内学习率较小,模型慢慢趋于稳定,之后按预设学习率进行训练,模型收敛速度更快,效果更佳。

    学习率衰减比率

    lr_decay_ratio,控制学习率的参数,可以使模型更稳定地收敛,最小不会低于学习率x学习率衰减比率的值,若学习率不衰减则配置为1。

    权重衰减系数

    通过在损失函数中加入与模型权重大小相关的惩罚项,鼓励模型保持较小的权重,防止过拟合或模型过于复杂。

    Lora矩阵的秩

    LoRA_rank,在Lora矩阵中,Rank的值用于衡量矩阵的复杂度和信息量。数值较大,增强模型的表示能力,但会增加训练时长;数值越小可以减少参数数量,降低过拟合风险。

    数据配置

    训练集

    选择训练模型所需的数据集。

    订阅提醒

    订阅提醒

    该功能开启后,平台支持两种订阅类型,预置通知和SMN通知。

    预置通知:系统将在任务状态完成或失败时,通过短信或邮件将提醒发送给用户。

    SMN通知:用户可在SMN云服务创建主题并维护订阅信息,在创建训练时选择对应主题以及需要通知的状态。训练状态范围:停止,失败,完成。用户手工触发的停止操作不通知用户,如果是资源到期的停止需通知用户。

    发布模型

    开启自动发布

    开启自动发布后,模型训练完成的最终产物会自动发布为空间资产,以便对模型进行压缩、部署、评测等操作或共享给其他空间。

    模型可见性

    选择发布模型的可见范围。

    本空间可见:发布的模型仅当前工作空间可见。

    全空间可见:发布的模型在所有空间均可见。

    模型名称

    要发布的模型资产的名称。

    描述(可选)

    要发布的模型资产的相关描述,选填。

    基本信息

    名称

    训练任务名称。

    描述(可选)

    训练任务描述。

    不同模型训练参数默认值存在一定差异,请以前端页面展示的默认值为准。

  4. 参数填写完成后,单击“立即创建”。
  5. 创建好训练任务后,页面将返回“模型训练”页面,可随时查看当前任务的状态。

三方模型CKPT产物发布成资产

如果三方模型支持断点续训和Checkpoint模型发布,三方模型进行微调后,单击三方模型训练任务名称,并进入“训练结果”页面,在“训练损失值”中单击“编辑训练”,在Checkpoint输出中即可看到CKPT产物信息。

单击CKPT产物信息下方的“发布”即可进行资产发布,发布成功时,状态为“已发布”,单击资产详情可查看具体资产信息;发布失败时,状态为“发布失败”,支持“重新发布”和“删除模型”操作。

图5 训练损失值
图6 CKPT信息
图7 CKPT发布到资产

通过训练详情页的CheckPoint输出发布的资产支持如下功能:

  1. SFT微调后发布的资产可支持LoRA微调。
  2. 支持模型部署。
  3. 如果原模型支持量化,则发布后的资产支持模型压缩。

相关文档