文档首页/ 魔坊(ModelArts)模型训推平台/ 模型训练/ 创建训练作业/ 创建模型精调作业(新版控制台页面)
更新时间:2026-07-02 GMT+08:00

创建模型精调作业(新版控制台页面)

什么是模型精调

在大模型训练中,精调(或“微调”)(Fine-tuning) 是指通过特定领域的数据集对已经做过全量预训练模型(Pre-trained Model, PT)进行二次训练的方法。通过精调能够更新模型权重,使模型能够更有效地应对具体的任务需求。这一阶段使模型能够精确执行如文案生成、代码生成和专业问答等特定场景中的任务。

模型精调使用场景

在模型开发过程中,精调的主要的使用场景如表1所示。

表1 精调场景

精调场景

场景说明

精调目标

领域适配

基模缺乏垂直领域知识(如医学诊断标准、专用编程语言、企业内部术语)

注入领域Knowledge Graph或术语模式,降低模型幻觉,提升专业度。

指令/格式依从

需要模型严格输出JSON、SQL、XML,或遵循特定的CoT (Chain of Thought)逻辑,而提示词工程稳定性不够。

通过特定精调数据集固化输出结构,降低解析错误率。

风格对齐

需要模型按照特定风格回答问题。如角色扮演、拟人化客服、特定文风的公文写作。

调整logits分布,使其符合特定语料的分布特征。

约束限制

  • 本章节内容适用于新版样式的控制台界面。
  • 存储限制:ModelArts不支持已启用桶加密功能的OBS桶,请在创建OBS桶时勿开启此选项。

前提条件

  • 由于精调作业运行需消耗资源,为了避免精调失败请确保账户无欠费。
  • 访问OBS前,还需要配置ModelArts FullAccess权限,确保有OBS访问权限,请参见配置ModelArts基础操作权限
  • 已经将用于训练作业的数据上传至OBS目录。关于如何创建OBS桶和上传文件,请参见通过控制台快速使用OBS
  • 已经在OBS目录下创建了至少1个空的文件夹,用于存储训练输出的内容。
  • 确保使用的OBS目录与ModelArts在同一区域。
  • 检查是否配置了访问授权。如果未配置,请参见快速配置ModelArts委托授权完成操作

计费影响

在ModelArts进行模型精调时,会产生计算资源和存储资源的累计值计费。计算资源为精调作业运行的费用。存储资源包括数据存储到OBS或SFS的费用。详见模型训练计费项

模型精调流程

创建精调作业的操作步骤如下所示。

步骤一:进入创建训练作业页面:登录控制台,进入训练作业列表。

步骤二:配置精调参数:配置模型精调的各项配置参数。

步骤三:提交精调作业并查看作业状态

步骤一:进入创建训练作业页面

  1. 登录ModelArts管理控制台
  2. 在左侧导航栏中,选择模型开发与训练 > 模型训练进入训练作业列表。
  3. 单击“创建训练作业”,进入创建训练作业页面,默认进入新版页面,以下内容主要介绍新版创建训练页面操作。

步骤二:配置精调参数

表2 创建调优作业参数说明

参数

说明

训练模式

精调作业

适用于基于已有预训练模型(如Qwen系列)进行微调的场景。 低门槛模型训练,使用平台预置的优质模型资产,用户无需关注镜像构建、环境依赖或代码调试,只需上传业务训练数据,调整关键参数。

此处选择“精调作业”

自定义作业

适用于希望完全自定义训练流程,使用自研代码或特定框架镜像的场景。

基本信息

任务名称

自定义调优作业名称。支持1~64位,只包含字母、数字、中划线、下划线的名称。

描述(可选)

自定义调优作业简介。该字段为可选,支持最大输入256字符。

训练配置

选择模型

单击“请选择模型”,在“选择模型”对话框中选择“预制模型”“我的模型”下面的模型。支持按照来源、类型、品牌过滤模型,也支持在搜索框搜索关键字查找模型。

说明:

“选择模型”对话框中,可以选择的模型代表该模型支持调优,未显示的模型不支持调优,请以实际环境为准。

训练类型

当前支持对模型做“微调”。

训练目标

ModelArts支持全量微调、LoRA微调两种调优类型。不同模型支持的调优类型不同。

  • 全量微调:直接在模型上训练,影响模型全量参数的微调训练,效果较好,收敛速度较慢,训练时间较长。
  • LoRA微调:冻结原模型,通过往模型中加入额外的网络层,并只训练这些新增的网络层参数,效果接近或略差于全参训练,收敛速度快,训练时间短。

模型输出路径

支持精调后的模型存储至OBS和SFS Turbo。当前仅支持精调后模型存储至OBS,后续将支持存储至SFS Turbo。用户自己的OBS桶可以在界面选择,也可以手动输入路径,路径格式以“obs://”开头并以“/”结尾,例如“obs://bucketname/path/”。其他人的共享桶路径仅支持手动输入地址。

说明:

注意:精调后的模型存储至OBS,需要保证提前订阅OBS服务,并且保证OBS有充足空间。

资源配置

资源池类型

资源池分为公共资源池与专属资源池,目前仅支持使用公共资源池。

  • 公共资源池由所有租户共享使用。
  • 专属资源池需单独创建,不与其他租户共享。

规格

选择规格,规格中描述了服务器类型、型号等信息,仅显示模型支持的资源。

实例数

必填,根据需要选择实例数的个数。默认值为“1”

  • “实例数 = 1”时,创建的是单机训练作业,ModelArts只会在一个节点上启动一个训练容器,该训练容器独享所选规格的计算资源。
  • “实例数 > 1”时,创建的是分布式训练作业,更多分布式训练配置请参见分布式训练功能介绍

当资源池配置了热备节点后,部分节点将作为高可用备用节点预留,仅在节点异常时用于故障恢复,无法用于训练作业调度,因此可创建的训练作业实例数会相应减少。关于如何关闭热备节点,请参见修复专属资源池故障节点

在创建分布式训练作业前,建议提前安装所有的pip依赖(请参见在镜像中安装pip依赖),因为当节点数大于10时,系统会自动删除pip源配置,当训练过程中涉及pip install操作时可能会训练失败。

数据配置

训练集

在弹出对话框可以选择“预置数据”和“我的数据”。预置数据是平台内置的常用的数据集。我的数据是自己的原始或者处理过的数据集。请根据需要选择不同数据集。

训练参数

学习率/learning_rate

设置每个迭代步数(iteration)模型参数/权重更新的速率。学习率设置的过高会导致模型难以收敛,过低则会导致模型收敛速度过慢。

学习率衰减比率/min_learning_rate

用于控制训练过程中学习率下降的幅度。

计算公式为:最低学习率 = 初始学习率 × 学习率衰减比率。

迭代步数/Iterations

计算得出的模型参数/权重更新的次数。

当数据集是数百量级,则建议迭代4~8个epoch(epoch表示整个数据集被完整地用于一次训练的次数);当数据集是数千量级,则建议迭代2~4个epoch;当数据集是更大数量,则建议迭代1~2个epoch。

总Iterations = 整个数据集完整训练需要的Iterations * epoch。例如,当一个数据集有3200条数据,完整训练一个数据集的Iterations为100,迭代2个epoch,总Iterations就是200。

训练轮数/Epoch

表示完成全部训练数据集训练的次数。每个轮次都会遍历整个数据集一次。

数据批量大小/batch_size

数据批量是指训练过程中将数据集分成小批次进行读取,并设定每个批次的数据大小。

通常,较大的批量能够使梯度更加稳定,有助于模型的收敛。然而,较大的批量也会占用更多显存,可能导致显存不足,并延长每次训练时间。

序列长度/sequence_length

训练单条数据的最大长度,超过该长度的数据在训练时将被截断。

热身比例/warmup_ratio

热身比例是指在模型训练初期逐渐增加学习率的过程。

由于训练初期模型的权重通常是随机初始化的,预测能力较弱,若直接使用较大的学习率,可能导致更新过快,进而影响收敛。为解决这一问题,通常在训练初期使用较小的学习率,并逐步增加,直到达到预设的最大学习率。通过这种方式,热身比例能够避免初期更新过快,从而帮助模型更好地收敛。

数据条数

输入数据集中的总数据条数。

数据类型/data_type

对于部分精炼模型,需要使用开源格式数据集。如Alpaca\ShareGPT格式。

可选参数:AlpacaStyleInstructionHandler, SharegptStyleInstructionHandler,GeneralInstructionHandler

发布模型

自动发布到资产

勾选开关后,训练后的模型将自动发布至控制台“列表。

选择发布方式

精调后的模型可以发布为新模型已有模型新版本,请根据需要选择不同的发布方式。

新模型:发布的精调模型为一个全新的模型,在控制台选择“列表中是一个新的模型。

已有模型新版本:发布的精调模型是“中的同一个命名的模型,仅模型版本号有变化,在模型详情中可以查看该模型的新版本号。

模型名称

设置调优后产生的新模型的名称。

支持2-128位,只包含中文、字母、数字、中划线、下划线,且以中文、字母开头,以中文、字母、数字结尾

模型资产描述(可选)

训练后模型的描述信息。当选择发布方式为“新模型”时需要填写该字段。

模型版本号

发布为新模型时,版本号为V1。

发布为已有模型新版本时,版本号在该模型上一个版本号自动加1。

注意:模型版本号不支持修改,为系统自动生成。

版本描述(可选)

训练后模型的描述信息。该字段可选,最大长度256字符。

高可用配置

容错与恢复

设置训练作业是否设置自动重启。

  • 不勾选(默认):表示不启用自动重启,训练异常则直接停止作业。
  • 勾选:当训练作业因环境问题、作业卡死等原因异常时,系统将自动检测故障并根据相应策略进行处理,提高训练成功率。系统支持进程级、容器级、作业级自动重启恢复策略,无需额外配置,可自动匹配与升级恢复策略。

    为了避免丢失训练进度、浪费算力,开启此功能前请确认代码已适配断点续训,操作指导请参见设置断点续训练

    当训练过程中触发了自动重启,则系统会记录重启信息,在训练作业详情页可以查看故障恢复详情,具体请参见训练作业容错检查

最大重启次数

当勾选“容错与恢复”时可配置。

当训练作业的自动重启次数达到最大重启次数,且训练作业依旧异常,则直接停止作业。

  • 缺省值:3
  • 取值范围:1~128

提交创建训练作业后不支持修改重启次数,请合理设置次数。

无条件自动重启

当勾选“容错与恢复”时可配置。勾选无条件自动重启后,只要系统检测到训练异常,就无条件重启训练作业。为了避免无效重启浪费算力资源,系统最多只支持连续无条件重启3次。

作业卡死重启

当勾选“容错与恢复”时可配置。系统支持自动监控作业进程的状态和资源利用率来判定作业是否卡死,开启此开关后,支持将标记为卡死的作业进行进程级自动重启,以提高资源使用率。

CPU规格不支持作业卡死重启。

因系统无法核实代码逻辑且检测存在周期性,卡死检测存在一定的误报概率,开启开关即表示接受误报率。为了避免无效重启浪费算力资源,系统最多只支持连续作业卡死重启3次。

更多配置

checkpoints配置

checkpoints:在模型训练过程中,用于保存模型权重和状态的机制。

  • 关闭:关闭后不保存checkpoints,无法基于checkpoints执行续训操作。
  • 自定义:根据设置保存指定数量的checkpoints。

事件通知

选择是否打开“事件通知”开关。

  • 开关关闭(默认关闭):表示不启用消息通知服务。
  • 开关打开:表示订阅消息通知服务,当作业发生特定事件(如作业状态变化或疑似卡死)时会发送通知。此时必须配置“主题名”“事件”
    • “主题名”:事件通知的主题名称。单击“创建主题”,前往消息通知服务中创建主题。
    • “事件”:选择要订阅的事件类型。例如“创建中”“已完成”“运行失败”等。
说明:
  • 需要为消息通知服务中创建的主题添加订阅,当订阅状态为“已确认”后,方可收到事件通知。订阅主题的详细操作请参见添加订阅
  • 使用消息通知服务会产生相关服务费用,详细信息请参见计费说明

标签

当需要使用同一标签标识多种云资源时,即所有服务均可在标签输入框下拉选择同一标签,则建议在TMS中创建预定义标签。标签详细用法请参见使用TMS标签实现资源分组管理

最多支持添加20条标签。

步骤三:提交精调作业并查看作业状态

当参数配置完成后,单击“提交”,创建精调作业任务。

精调作业一般需要运行一段时间,前往精调作业列表,可以查看精调作业的基本情况。

  • 在精调作业列表中,刚创建的精调作业状态为“等待中”
  • 当精调作业的状态变为“已完成”时,表示精调作业运行结束,其生成模型将存放至模型资产供后续使用。
  • 当精调作业的状态变为“运行失败”“异常”时,可以单击训练作业的名称进入详情页面,通过查看日志等手段处理问题。

精调常见问题

  1. 如何让训练产出的模型具备思考模式?

    如果想要训练带思考模式的模型,需要在Alpaca的output字段的头尾增加<think>和</think>标签,或者在output字段的头增加引导思考的prompt,比如“Let's think step by step”。当前预置数据是Alpaca格式数据,不带<think>标签,训练后的模型大概率只能回答不能思考。

    示例一:

    {
        "instruction": "不要问我从哪里来,我的故乡在青龙山 ",
        "input": "",
        "output": "<think>用户分享了一句歌词:“不要问我从哪里来,我的故乡在青龙山”。首先,我要确认这首歌的出处,xxx,最后xxx\n</think>\n\n“不要问我从哪里来,我的故乡在青龙山”这句话似乎是对经典歌曲《橄榄树》的歌词改编(原词为“不要问我从哪里来,我的故乡在远方”)。"
    }

    示例二:

    {
        "instruction": "Karin 's science class weighed plastic rings for an experiment . They found that the orange ring weighed 0.08333333333333333 ounce , the purple ring weighed 0.3333333333333333 ounce , and the white ring weighed 0.4166666666666667 ounce . What was the total weight of the plastic rings ?",
        "input": "",
        "output": "Let's think step by step. \n\nThe orange ring weighed 0.08333333333333333 ounce. \nThe purple ring weighed 0.3333333333333333 ounce. \nThe white ring weighed 0.4166666666666667 ounce. \n\nTo find the total weight of the plastic rings, we need to add the weights of the orange ring, the purple ring, and the white ring. \n\n0.08333333333333333 + 0.3333333333333333 + 0.4166666666666667 = 0.8333333333333334 \nTherefore, the answer (arabic numerals) is 0.8333333333333334."
    }