创建图像问答大模型训练任务

创建多模态大模型预训练任务

创建多模态大模型预训练任务步骤如下：

登录ModelArts Studio平台，在“我的空间”模块，单击进入所需空间。
图1 我的空间
在左侧导航栏中选择“模型开发 > 模型训练”，单击右上角“创建训练任务”。

在“创建训练任务”页面，参考表1完成训练参数设置。

表1 多模态大模型预训练参数说明
参数分类	训练参数	参数说明
训练配置	选择模型	可以修改如下信息：来源：选择“模型广场”或“我的资产”。类型：选择“多模态大模型”，并选择训练所用的基础模型和版本。
训练配置	训练类型	选择“预训练”。
资源配置	计费模式	选择训练当前任务的计费模式。
	训练单元	选择训练模型所需的训练单元。当前展示的完成本次训练所需要的最低训练单元要求。
	单实例训练单元数	选择单实例训练单元数。
	实例数	选择实例数。
	优先级	优先级相同的任务，先创建先执行。
训练参数	热身比例	热身阶段占整体训练的比例。刚开始训练时若选择一个较大的学习率，可能带来模型的不稳定，选择使用warmup热身的方式，可以使得开始训练的热身阶段内学习率较小，在热身阶段的小学习率下，模型可以慢慢趋于稳定，等模型相对稳定后再逐渐提升至预设的最大学习率进行训练。使用热身可以使得模型收敛速度更快，效果更佳。
	学习率	学习率决定了每次训练时模型参数更新的幅度。选择合适的学习率非常重要：如果学习率太大，模型可能会无法收敛；如果学习率太小，模型的收敛速度会变得非常慢。
	模型保存步数	指每训练一定数量的步骤（或批次）后，模型的状态就会被保存下来。
	数据批量大小	全局batch_size，指定每次迭代时处理的数据批量大小。在数据并行和流水线并行开启情况下，全局batch_size等于local_batch_size乘micro_size乘data_parallelism。
	训练轮数	指完成全部训练数据集训练的次数。
	优化器	优化器参数指的是用于更新模型权重的优化算法的相关参数，可以选择adam优化器。
	学习率衰减比率	学习率衰减后的比率，用于控制训练过程中学习率的下降幅度。经过衰减后，学习率的最低值由初始学习率和衰减比率决定。其计算公式为：最低学习率 = 初始学习率 * 学习率衰减比率。也就是说，学习率在每次衰减后不会低于这个计算出来的最低值。
	Checkpoint保存间隔	模型在训练的过程中每隔多少个训练步长保存一次模型Checkpoint文件。
高级设置	checkpoints	checkpoints：在模型训练过程中，用于保存模型权重和状态的机制。关闭：关闭后不保存checkpoints，无法基于checkpoints执行续训操作。自动：自动保存训练过程中的所有checkpoints。自定义：根据设置保存指定数量的checkpoints。
训练数据配置	训练集	选择训练模型所需的数据集。
订阅提醒	订阅提醒	该功能开启后，平台支持两种订阅类型，预置通知和SMN通知。预置通知：系统将在任务状态完成或失败时，通过短信或邮件将提醒发送给用户。 SMN通知：用户可在SMN云服务创建主题并维护订阅信息，在创建训练时选择对应主题以及需要通知的状态。训练状态范围：停止，失败，完成。用户手工触发的停止操作不通知用户，如果是资源到期的停止需通知用户。
发布模型	开启自动发布	开启自动发布后，模型训练完成的最终产物会自动发布为空间资产，以便对模型进行压缩、部署、评测等操作或共享给其他空间。
	模型可见性	选择发布模型的可见范围。本空间可见：发布的模型仅当前工作空间可见。全空间可见：发布的模型在所有空间均可见。
	模型名称	要发布的模型资产的名称。
	描述（可选）	要发布的模型资产的相关描述，选填。
基本信息	名称	训练任务名称。
基本信息	描述（可选）	训练任务描述。

参数填写完成后，单击“立即创建”。
创建好训练任务后，页面将返回“模型训练”页面，可随时查看当前任务的状态。

创建多模态大模型增量预训练任务

在模型完成创建多模态大模型预训练任务后，可以对训练后的模型继续训练，该过程称为“增量预训练”。

创建多模态大模型增量预训练任务前，请确保有已完成预训练并发布的多模态大模型。

创建多模态大模型增量预训练任务的步骤如下：

登录ModelArts Studio大模型开发平台，在“我的空间”模块，单击进入所需空间。
图2 我的空间
在左侧导航栏中选择“模型开发 > 模型训练”，单击界面右上角“创建训练任务”。
在“选择模型”页面，“来源”选择“我的资产”，“类型”选择“多模态大模型” ，并从模型列表中，选择已完成预训练并发布的多模态大模型。
其余参数配置等步骤同创建多模态大模型预训练任务章节描述一致。

创建多模态大模型微调任务

创建多模态大模型全量微调任务步骤如下：

登录ModelArts Studio平台，在“我的空间”模块，单击进入所需空间。
图3 我的空间
在左侧导航栏中选择“模型开发 > 模型训练”，单击界面右上角“创建训练任务”。

在“创建训练任务”页面，参考表2完成训练参数设置。

表2 多模态大模型微调参数说明
参数分类	训练参数	参数说明
训练配置	选择模型	可以修改如下信息：来源：选择“模型广场”或“我的资产”。类型：选择“多模态大模型”，并选择训练所用的基础模型和版本。
	训练类型	选择“微调”。
	训练目标	选择“全量微调”
资源配置	计费模式	选择训练当前任务的计费模式。
	训练单元	选择训练模型所需的训练单元。当前展示的完成本次训练所需要的最低训练单元要求。
	单实例训练单元数	选择单实例训练单元数。
	实例数	选择实例数。
	优先级	优先级相同的任务，先创建先执行。
训练参数	热身比例	热身阶段占整体训练的比例。刚开始训练时若选择一个较大的学习率，可能带来模型的不稳定，选择使用warmup热身的方式，可以使得开始训练的热身阶段内学习率较小，在热身阶段的小学习率下，模型可以慢慢趋于稳定，等模型相对稳定后再逐渐提升至预设的最大学习率进行训练。使用热身可以使得模型收敛速度更快，效果更佳。
	学习率	学习率决定了每次训练时模型参数更新的幅度。选择合适的学习率非常重要：如果学习率太大，模型可能会无法收敛；如果学习率太小，模型的收敛速度会变得非常慢。
	模型保存步数	指每训练一定数量的步骤（或批次）后，模型的状态就会被保存下来。
	单步迭代时处理的数据批量大小	设置在并行训练中，每个微批次包含的数据批量大小，适当的数据批量大小能够确保训练各个阶段都能充分利用计算资源，提升并行效率。
	训练轮数	指完成全部训练数据集训练的次数。
	优化器	优化器参数指的是用于更新模型权重的优化算法的相关参数，可以选择adam优化器。
	学习率衰减比率	学习率衰减后的比率，用于控制训练过程中学习率的下降幅度。经过衰减后，学习率的最低值由初始学习率和衰减比率决定。其计算公式为：最低学习率 = 初始学习率 * 学习率衰减比率。也就是说，学习率在每次衰减后不会低于这个计算出来的最低值。
高级设置	checkpoints	checkpoints：在模型训练过程中，用于保存模型权重和状态的机制。关闭：关闭后不保存checkpoints，无法基于checkpoints执行续训操作。自动：自动保存训练过程中的所有checkpoints。自定义：根据设置保存指定数量的checkpoints。
训练数据配置	训练集	选择训练模型所需的数据集。
订阅提醒	订阅提醒	该功能开启后，平台支持两种订阅类型，预置通知和SMN通知。预置通知：系统将在任务状态完成或失败时，通过短信或邮件将提醒发送给用户。 SMN通知：用户可在SMN云服务创建主题并维护订阅信息，在创建训练时选择对应主题以及需要通知的状态。训练状态范围：停止，失败，完成。用户手工触发的停止操作不通知用户，如果是资源到期的停止需通知用户。
发布模型	开启自动发布	开启自动发布后，模型训练完成的最终产物会自动发布为空间资产，以便对模型进行压缩、部署、评测等操作或共享给其他空间。
	模型可见性	选择发布模型的可见范围。本空间可见：发布的模型仅当前工作空间可见。全空间可见：发布的模型在所有空间均可见。
	模型名称	要发布的模型资产的名称。
	描述（可选）	要发布的模型资产的相关描述，选填。
基本信息	名称	训练任务名称。
基本信息	描述（可选）	训练任务描述。