更新时间:2025-09-16 GMT+08:00
分享

创建CV大模型训练任务

创建CV大模型微调任务

创建CV大模型微调任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台首页,在“我的空间”模块,单击进入所需空间。
    图1 我的空间
  2. 在左侧导航栏中选择“模型开发 > 模型训练”,单击右上角“创建训练任务”。
  3. 在“选择模型”页面,选择“模型广场 > CV大模型 > 模型”,单击“确定”进入“创建训练任务”页面。
  4. 在“创建训练任务”页面,参考表1完成训练参数设置。
    表1 CV大模型微调参数说明

    参数分类

    训练参数

    说明

    训练配置

    选择模型

    可以修改如下信息:

    • 来源:选择“模型广场”。
    • 类型:选择“CV大模型”,并选择训练所用的基础模型和版本。

    训练类型

    选择“微调”。

    训练目标

    选择“全量微调”。

    • 全量微调:在模型进行有监督微调时,对大模型的所有参数进行更新。这种方法通常能够实现最佳的模型性能,但需要消耗大量计算资源和时间,计算开销较大。

    训练参数

    训练参数

    模型训练参数,参考表2

    资源配置

    计费模式

    选择训练当前任务的计费模式。

    训练单元

    选择训练模型所需的训练单元。

    当前展示的完成本次训练所需要的最低训练单元要求。

    单实例训练单元数

    选择单实例训练单元数。

    实例数

    选择实例数。

    订阅提醒

    订阅提醒

    该功能开启后,系统将在任务状态更新时,通过短信或邮件将提醒发送给用户。

    发布模型

    开启自动发布

    开启自动发布后,模型训练完成的最终产物会自动发布为空间资产,以便对模型进行压缩、部署、评测等操作或共享给其他空间。

    基本信息

    名称

    训练任务名称。

    描述

    训练任务描述。

    表2 CV大模型微调参数说明

    模型类型

    训练参数

    说明

    Pangu-CV-物体检测-S-3.1.0

    数据集

    训练数据集。

    训练轮次

    表示完成全部训练数据集训练的次数。每个轮次都会遍历整个数据集一次。

    单卡训练批处理大小

    单卡批量处理大小,建议取值大于等于1。

    单卡验证批处理大小

    单卡验证批量处理大小,建议取值大于等于1。

    图像分辨率

    训练和推理的统一图像分辨率尺寸, 要求为32的倍数,不符合要求会自动转换为最近的32倍数尺寸。

    学习率

    学习率决定了每次训练时模型参数更新的幅度。取值为大于0,小于等于1, 取列表中的第一个值。

    模型规格

    不同模型规格,X参数量最大,L参数量适中,S参数量最小。

    混合精度训练

    是否使用混合精度训练开关,开启时可降低训练显存占用但存在溢出风险,关闭时可提高训练稳定性但显存和训练速度有所增加。

    标签映射

    是否增加标签映射功能,增加预训练模型的迁移效果。

    Pangu-CV-物体检测-S-2.1.0

    数据集

    训练数据集。

    训练轮次

    表示完成全部训练数据集训练的次数。每个轮次都会遍历整个数据集一次。

    批次大小

    表示每个训练步骤中使用的样本数量。较大的批量可以提供更稳定的梯度,但可能会增加计算资源的使用和训练时间。

    验证集图片保存最大数量

    用于限制验证过程中模型预测错误(与标注不符)的图片保存数量,便于后续分析错误类型,同时避免存储空间浪费。

    学习率

    学习率决定了每次训练时模型参数更新的幅度。

    权重衰减

    通过在每次参数更新时对模型权重进行小幅度缩减,避免模型过度依赖特定数据。

    模型保存轮数

    模型训练时保存断点的间隔轮数。

    Pangu-CV-物体检测-N-2.1.0

    数据集

    训练数据集。

    训练轮数

    表示完成全部训练数据集训练的次数。每个轮次都会遍历整个数据集一次。

    热身轮次

    表示在模型训练初期,逐步增加学习率到预设值的训练轮次,用于帮助模型在训练初期稳定收敛,避免大幅度的参数更新导致不稳定的学习过程。

    热身阶段学习率

    热身轮次中使用的初始学习率。

    权重衰减

    用于防止模型过拟合。在更新模型权重时,它会对模型参数施加惩罚,使得权重值趋于较小,从而提高模型的泛化性能。

    优化器

    选择用于训练模型的优化算法。这里选择的“sgd”是随机梯度下降法,它是深度学习中常用的优化算法之一,适合大规模数据集训练。

    锚框的长边和短边的比例

    定义检测物体锚框的长宽比。通过设置不同的长短比例,模型可以更好地适应多种尺寸和形状的物体。

    锚框大小

    指锚框的初始尺寸。锚框是物体检测中的一个关键概念,通过合理设置,可以帮助模型检测出多种尺寸的目标。

    框重叠比例阈值

    用于计算损失时区分正负样本的IoU阈值。当候选框与某个真实框的IoU大于等于该阈值时,该候选框被视为正样本;否则视为负样本。

    滑动平滑训练

    一种训练策略,通过在模型预测的标签上添加少量噪声来避免过拟合,常用于提升模型在测试数据集上的泛化能力。

    极大值抑制阈值

    在预测多个边界框时,用于去除高度重叠的边界框。此阈值控制相似的边界框保留的条件。

    类别无关极大值抑制开关

    决定是否在不同类别中应用极大值抑制阈值。

    模型大小调整因子

    用于模型抽取过程中,选择不用的模型因子来调节模型参数的多少。

    输入模型图像宽度

    用于控制模型输入图像分辨率的宽度,以此调节适应不用场景的模型识别能力。

    输入模型图像高度

    用于控制模型输入图像分辨率的高度,以此调节适应不用场景的模型识别能力。

    模型保存轮数

    模型训练时保存断点的间隔轮数。

    Pangu-CV-图像分类-2.1.0

    数据集

    训练数据集。

    训练轮数

    表示完成全部训练数据集训练的次数。每个轮次都会遍历整个数据集一次。

    每卡批次大小

    表示每个训练步骤中使用的样本数量。较大的批量可以提供更稳定的梯度,但可能会增加计算资源的使用和训练时间。

    分类模式

    图像分类模式,支持单标签分类和多标签分类。

    超参搜索

    是否启用超参搜索获取最优的超参用于训练。

    初始学习率

    学习率决定了每次训练时模型参数更新的幅度。初始学习率是模型训练最开始阶段所设定的学习率,它是学习率的初始值。

    超参搜索训练轮数

    在超参搜索阶段,设置模型会经过几轮训练以找到最优的超参数组合。

    Pangu-CV-实例分割-1.1.0

    数据集

    训练数据集。

    每卡批大小

    单张卡上每次前向传播使用的样本数量,每卡批大小*节点数*每节点卡数需要小于训练数据量。

    基础学习率

    用于控制参数更新的步长,学习率过大可能会导致训练过程震荡不稳,无法收敛到最优解,学习率过小,可能会导致训练过程非常缓慢。

    是否使用自定义L1预训练模型

    是否使用自定义预训练模型进行训练。

    自定义L1预训练模型目录

    自定义预训练模型所在的OBS路径。

    训练轮次

    表示完成全部训练数据集训练的次数。每个轮次都会遍历整个数据集一次。

    Pangu-CV-语义分割-2.1.0

    数据集

    训练数据集。

    是否使用自定义L1预训练模型

    是否使用自定义预训练模型进行训练,模型为用户与服务共建可联系CV算法技术支持获取。

    自定义L1预训练模型的文件

    自定义预训练模型所在的OBS路径。

    训练轮次

    表示完成全部训练数据集训练的次数。每个轮次都会遍历整个数据集一次。

    批量处理大小

    表示每个训练步骤中使用的样本数量。较大的批量可以提供更稳定的梯度,但可能会增加计算资源的使用和训练时间。

    是否忽略类别0

    该参数功能是为了忽略数据集类别0,具体做法是将类别0改为255,其余类别相应编号减1,同时decode head里将255设为ignore index,即不参与loss计算。

    学习率

    用于控制参数更新的步长,学习率过大可能会导致训练过程震荡不稳无法收敛到最优解,学习率过小可能会导致训练过程非常缓慢。

  5. 参数填写完成后,单击“立即创建”。
  6. 创建好训练任务后,页面将返回“模型训练”页面,可随时查看当前任务的状态。

创建CV大模型预训练任务

创建CV大模型预训练任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台首页,在“我的空间”模块,单击进入所需空间。
    图2 我的空间
  2. 在左侧导航栏中选择“模型开发 > 模型训练”,单击右上角“创建训练任务”。
  3. 在“选择模型”页面,选择“模型广场 > CV大模型 > 模型”,单击“确定”进入“创建训练任务”页面。
  4. 在“创建训练任务”页面,参考表3完成训练参数设置。
    表3 CV大模型预训练参数说明

    参数分类

    训练参数

    说明

    训练配置

    选择模型

    可以修改如下信息:

    • 来源:选择“模型广场”。
    • 类型:选择“CV大模型”,并选择训练所用的基础模型和版本。

    训练类型

    选择“预训练”。

    训练参数

    训练参数

    模型训练参数,参考表4

    资源配置

    计费模式

    选择训练当前任务的计费模式。

    训练单元

    选择训练模型所需的训练单元。

    当前展示的完成本次训练所需要的最低训练单元要求。

    单实例训练单元数

    选择单实例训练单元数。

    实例数

    选择实例数。

    订阅提醒

    订阅提醒

    该功能开启后,系统将在任务状态更新时,通过短信或邮件将提醒发送给用户。

    发布模型

    开启自动发布

    开启自动发布后,模型训练完成的最终产物会自动发布为空间资产,以便对模型进行压缩、部署、评测等操作或共享给其他空间。

    基本信息

    名称

    训练任务名称。

    描述

    训练任务描述。

    表4 CV大模型预训练参数说明

    模型类型

    训练参数

    说明

    Pangu-CV-物体检测-S-3.1.0

    数据集

    训练数据集。

    训练轮次

    表示完成全部训练数据集训练的次数。每个轮次都会遍历整个数据集一次。

    单卡训练批处理大小

    单卡批量处理大小,建议取值大于等于1。

    单卡验证批处理大小

    单卡验证批量处理大小,建议取值大于等于1。

    图像分辨率

    训练和推理的统一图像分辨率尺寸要求为32的倍数,不符合要求会自动转换为最近的32倍数尺寸。

    学习率

    学习率决定了每次训练时模型参数更新的幅度。取值为大于0,小于等于1 取列表中的第一个值。

    模型规格

    不同模型规格,X参数量最大,L参数量适中,S参数量最小。

    混合精度训练

    是否使用混合精度训练开关,开启时可降低训练显存占用但存在溢出风险,关闭时可提高训练稳定性但显存和训练速度有所增加

    标签映射

    是否增加标签映射功能,增加预训练模型的迁移效果。

    Pangu-CV-物体检测-S-2.1.0

    数据集

    训练数据集。

    训练轮次

    表示完成全部训练数据集训练的次数。每个轮次都会遍历整个数据集一次。

    批次大小

    表示每个训练步骤中使用的样本数量。较大的批量可以提供更稳定的梯度,但可能会增加计算资源的使用和训练时间。

    验证集图片保存最大数量

    用于限制验证过程中模型预测错误(与标注不符)的图片保存数量,便于后续分析错误类型,同时避免存储空间浪费。

    学习率

    学习率决定了每次训练时模型参数更新的幅度。

    权重衰减

    通过在每次参数更新时对模型权重进行小幅度缩减,避免模型过度依赖特定数据。

    Pangu-CV-物体检测-N-2.1.0

    数据集

    训练数据集。

    训练轮数

    表示完成全部训练数据集训练的次数。每个轮次都会遍历整个数据集一次。

    热身轮次

    表示在模型训练初期,逐步增加学习率到预设值的训练轮次,用于帮助模型在训练初期稳定收敛,避免大幅度的参数更新导致不稳定的学习过程。

    热身阶段学习率

    热身轮次中使用的初始学习率。

    权重衰减

    用于防止模型过拟合。在更新模型权重时,它会对模型参数施加惩罚,使得权重值趋于较小,从而提高模型的泛化性能。

    优化器

    选择用于训练模型的优化算法。这里选择的“sgd”是随机梯度下降法,它是深度学习中常用的优化算法之一,适合大规模数据集训练。

    锚框的长边和短边的比例

    定义检测物体锚框的长宽比。通过设置不同的长短比例,模型可以更好地适应多种尺寸和形状的物体。

    锚框大小

    指锚框的初始尺寸。锚框是物体检测中的一个关键概念,通过合理设置,可以帮助模型检测出多种尺寸的目标。

    框重叠比例阈值

    用于计算损失时区分正负样本的IoU阈值。当候选框与某个真实框的IoU大于等于该阈值时,该候选框被视为正样本;否则视为负样本。

    滑动平滑训练

    一种训练策略,通过在模型预测的标签上添加少量噪声来避免过拟合,常用于提升模型在测试数据集上的泛化能力。

    极大值抑制阈值

    在预测多个边界框时,用于去除高度重叠的边界框。此阈值控制相似的边界框保留的条件。

    类别无关极大值抑制开关

    决定是否在不同类别中应用极大值抑制阈值。

    模型大小调整因子

    用于模型抽取过程中,选择不用的模型因子来调节模型参数的多少。

    输入模型图像宽度

    用于控制模型输入图像分辨率的宽度,以此调节适应不用场景的模型识别能力。

    输入模型图像高度

    用于控制模型输入图像分辨率的高度,以此调节适应不用场景的模型识别能力。

    模型保存轮数

    模型训练时保存断点的间隔轮数。

    Pangu-CV-图像分类-2.1.0

    数据集

    训练数据集。

    训练轮数

    表示完成全部训练数据集训练的次数。每个轮次都会遍历整个数据集一次。

    每卡批次大小

    表示每个训练步骤中使用的样本数量。较大的批量可以提供更稳定的梯度,但可能会增加计算资源的使用和训练时间。

    分类模式

    图像分类模式,支持单标签分类和多标签分类。

    超参搜索

    是否启用超参搜索获取最优的超参用于训练。

    初始学习率

    学习率决定了每次训练时模型参数更新的幅度。初始学习率是模型训练最开始阶段所设定的学习率,它是学习率的初始值。

    超参搜索训练轮数

    在超参搜索阶段,设置模型会经过几轮训练以找到最优的超参数组合。

  5. 参数填写完成后,单击“立即创建”。
  6. 创建好训练任务后,页面将返回“模型训练”页面,可随时查看当前任务的状态。

设置plog日志

  1. 登录承载租户账户后,在左侧菜单页选择平台配置模块,并切换至运维配置页签。
  2. 单击添加按钮,在添加弹窗中将模块设置为训练,名称(config_key)设置为plog_level。
  3. 设置项目ID,其默认状态下是defalut,此默认状态表示为所有的项目设置plog日志级别,该字段支持填写项目id为其单独设置plog日志级别。
  4. 设置资源池,该项选择全局,表示为所有资源池设置plog日志级别;选择单个后,需要输入资源池ID,用于对资源池单独设置plog日志级别。
  5. 上述设置完成后,设置plog日志级别,详细说明参考获取训练日志
  6. 完成设置后,查看plog日志并基于日志内容排查训练问题参考。
    表5 设置plog日志

    参数类别

    参数名称

    说明

    高级设置

    plog日志

    开启后plog日志功能,会记录模型训练过程中的执行过程、状态、错误等信息,盘古技术支持人员可通过plog日志定位模型训练问题。训练任务开始后可以在承载租户的OBS桶中查看。plog日志分级如下:

    • DEBUG:记录模型训练过程中代码的执行流、变量状态、参数的变化等。
    • INFO:记录模型训练过程中的运行信息,通常包括一些重要的状态变化、执行的关键步骤、模型训练进度等。
    • WARNING:记录模型训练过程中的告警信息,可用于识别潜在的问题或异常情况。
    • ERROR:记录模型训练过程中的执行错误信息。

相关文档