创建盘古行业NLP大模型训练任务

创建盘古行业NLP大模型预训练任务

创建NLP大模型预训练任务步骤如下：

登录ModelArts Studio大模型开发平台，在“我的空间”模块，单击进入所需空间。
图1 我的空间
在左侧导航栏中选择“模型开发 > 模型训练”，单击右上角“创建训练任务”。
在“选择模型”页面，选择“模型广场 > 大语言模型 > 模型”，单击“确定”进入“创建训练任务”页面。

在“创建训练任务”页面，参考表1完成训练参数设置。

表1 盘古行业NLP大模型预训练参数说明
参数分类	训练参数	参数说明
训练配置	选择模型	可以修改如下信息：来源：选择“模型广场”。类型：选择“大语言模型”，并选择训练所用的基础模型和版本。
	训练类型	选择“预训练”。
	高级设置	checkpoints：在模型训练过程中，用于保存模型权重和状态的机制。关闭：关闭后不保存checkpoints，无法基于checkpoints执行续训操作。自动：自动保存训练过程中的所有checkpoints。自定义：根据设置保存指定数量的checkpoints。
训练参数	训练轮数	表示完成全部训练数据集训练的次数。每个轮次都会遍历整个数据集一次。
	数据批量大小	数据集进行分批读取训练，设定每个批次数据的大小。通常情况下，较大的数据批量可以使梯度更加稳定，从而有利于模型的收敛。然而，较大的数据批量也会占用更多的显存资源，这可能导致显存不足，并且会延长每次训练的时长。
	学习率	学习率决定每次训练中模型参数更新的幅度。选择合适的学习率至关重要：如果学习率过大，模型可能无法收敛。如果学习率过小，模型的收敛速度将变得非常慢。
	热身比例	热身比例是指在模型训练初期逐渐增加学习率的过程。由于训练初期模型的权重通常是随机初始化的，预测能力较弱，若直接使用较大的学习率，可能导致更新过快，进而影响收敛。为解决这一问题，通常在训练初期使用较小的学习率，并逐步增加，直到达到预设的最大学习率。通过这种方式，热身比例能够避免初期更新过快，从而帮助模型更好地收敛。
	学习率衰减比率	用于控制训练过程中学习率下降的幅度。计算公式为：最低学习率 = 初始学习率 × 学习率衰减比率。
	权重衰减系数	通过在损失函数中加入与模型权重大小相关的惩罚项，鼓励模型保持较小的权重，防止过拟合或模型过于复杂。
	优化器	优化器参数用于更新模型的权重，常见包括adamw。 adamw是一种改进的Adam优化器，增加了权重衰减机制，有效防止过拟合。
	模型保存策略	save_checkpoint_steps/save_checkpoint_epoch，训练过程中是按迭代步数，还是训练轮数保存Checkpoint文件。
	Checkpoint保存间隔	save_checkpoint_steps，训练过程中每隔多少个训练步长保存一次模型Checkpoint文件。
	Checkpoint保存轮数	save_checkpoint_epoch，训练过程中每个多少训练轮数保存一次模型Checkpoint文件。
	数据预处理并发个数	定义了在预处理数据时，能够同时处理文件的并行进程数量。设定这个参数的主要目的是通过并发处理来加速数据预处理，从而提升训练效率。
训练数据配置	训练集	选择训练模型所需的数据集。
资源配置	计费模式	选择训练当前任务的计费模式。
	训练单元	选择训练模型所需的训练单元。当前展示的完成本次训练所需要的最低训练单元要求。
	单实例训练单元数	选择单实例训练单元数。
	实例数	选择实例数。
	优先级	优先级相同的任务，先创建先执行。
订阅提醒	订阅提醒	该功能开启后，系统将在任务状态更新时，通过短信或邮件将提醒发送给用户。
发布模型	开启自动发布	开启自动发布后，模型训练完成的最终产物会自动发布为空间资产，以便对模型进行压缩、部署、评测等操作或共享给其他空间。
故障自动重启	自动重启	该功能开启后，当训练作业发生故障终止本次作业时，自动从本次中断的作业继续训练。
基本信息	名称	训练任务名称。
基本信息	描述	训练任务描述。

参数填写完成后，单击“立即创建”。
创建好训练任务后，页面将返回“模型训练”页面，可随时查看当前任务的状态。

创建盘古行业NLP大模型增量预训练任务

在模型完成创建盘古行业NLP大模型预训练任务预训练后，可以对训练后的模型继续训练，该过程称为“增量预训练”。

创建盘古行业NLP大模型增量预训练任务前，请确保有已完成预训练的盘古行业NLP大模型。

创建盘古行业NLP大模型增量预训练任务的步骤如下：

登录ModelArts Studio大模型开发平台，在“我的空间”模块，单击进入所需空间。
图2 我的空间
在左侧导航栏中选择“模型开发 > 模型训练”，单击界面右上角“创建训练任务”。
在“选择模型”页面，选择“我的资产 > 大语言模型 > 模型”，单击“确定”进入“创建训练任务”页面。
其余参数配置等步骤同创建NLP大模型预训练任务。

创建盘古行业NLP大模型全量微调任务

创建盘古行业NLP大模型全量微调任务步骤如下：

登录ModelArts Studio大模型开发平台，在“我的空间”模块，单击进入所需空间。
图3 我的空间
在左侧导航栏中选择“模型开发 > 模型训练”，单击界面右上角“创建训练任务”。
在“选择模型”页面，选择“模型广场 > 大语言模型 > 模型”，单击“确定”进入“创建训练任务”页面。

在“创建训练任务”页面，参考表2完成训练参数设置。

表2 盘古行业NLP大模型全量微调参数说明
参数分类	训练参数	参数说明
训练配置	选择模型	可以修改如下信息：来源：选择“模型广场”。类型：选择“大语言模型”，并选择训练所用的基础模型和版本。
	训练类型	选择“微调”。
	训练目标	选择“全量微调”。全量微调：在模型进行有监督微调时，对大模型的所有参数进行更新。这种方法通常能够实现最佳的模型性能，但需要消耗大量计算资源和时间，计算开销较大。
	高级设置	checkpoints：在模型训练过程中，用于保存模型权重和状态的机制。关闭：关闭后不保存checkpoints，无法基于checkpoints执行续训操作。自动：自动保存训练过程中的所有checkpoints。自定义：根据设置保存指定数量的checkpoints。
训练参数	热身比例	热身比例是指在模型训练初期逐渐增加学习率的过程。由于训练初期模型的权重通常是随机初始化的，预测能力较弱，若直接使用较大的学习率，可能导致更新过快，进而影响收敛。为解决这一问题，通常在训练初期使用较小的学习率，并逐步增加，直到达到预设的最大学习率。通过这种方式，热身比例能够避免初期更新过快，从而帮助模型更好地收敛。
	数据批量大小	数据批量是指训练过程中将数据集分成小批次进行读取，并设定每个批次的数据大小。通常，较大的批量能够使梯度更加稳定，有助于模型的收敛。然而，较大的批量也会占用更多显存，可能导致显存不足，并延长每次训练时间。
	单步迭代时处理的数据批量大小	指定每次迭代时处理的数据批量大小。
	学习率	学习率决定每次训练中模型参数更新的幅度。选择合适的学习率至关重要：如果学习率过大，模型可能无法收敛。如果学习率过小，模型的收敛速度将变得非常慢。
	训练轮数	表示完成全部训练数据集训练的次数。每个轮次都会遍历整个数据集一次。
	学习率衰减比率	用于控制训练过程中学习率下降的幅度。计算公式为：最低学习率 = 初始学习率 × 学习率衰减比率。
	Agent微调	在训练Agent所需的NLP大模型时，可以开启此参数。通过调整训练数据中的Prompt，引导模型在特定领域或任务上生成更符合预期的回答。在使用此参数前，请先联系盘古客服，调整Prompt和训练数据。
	模型保存策略	save_checkpoint_steps/save_checkpoint_epoch，训练过程中是按迭代步数，还是训练轮数保存Checkpoint文件。
	Checkpoint保存间隔	save_checkpoint_steps，训练过程中每隔多少个训练步长保存一次模型Checkpoint文件。
	Checkpoint保存轮数	save_checkpoint_epoch，训练过程中每个多少训练轮数保存一次模型Checkpoint文件。
	权重衰减系数	通过在损失函数中加入与模型权重大小相关的惩罚项，鼓励模型保持较小的权重，防止过拟合或模型过于复杂。
	优化器	优化器参数用于更新模型的权重，常见包括adamw。 adamw是一种改进的Adam优化器，增加了权重衰减机制，有效防止过拟合。
训练数据配置	训练集	选择训练模型所需的数据集。
训练数据配置	验证集	若选择“分割训练集”，则需进一步配置数据拆分比例。若选择“选择数据集”，则需选择导入的数据集。
资源配置	计费模式	选择训练当前任务的计费模式。
	训练单元	选择训练模型所需的训练单元。当前展示的完成本次训练所需要的最低训练单元要求。
	单实例训练单元数	选择单实例训练单元数。
	实例数	选择实例数。
	优先级	优先级相同的任务，先创建先执行。
订阅提醒	订阅提醒	该功能开启后，系统将在任务状态更新时，通过短信或邮件将提醒发送给用户。
发布模型	开启自动发布	开启自动发布后，模型训练完成的最终产物会自动发布为空间资产，以便对模型进行压缩、部署、评测等操作或共享给其他空间。
故障自动重启	自动重启	该功能开启后，当训练作业发生故障终止本次作业时，自动从本次中断的作业继续训练。
基本信息	名称	训练任务名称。
基本信息	描述	训练任务描述。

不同模型训练参数默认值存在一定差异，请以前端页面展示的默认值为准。

参数填写完成后，单击“立即创建”。
创建好训练任务后，页面将返回“模型训练”页面，可随时查看当前任务的状态。

创建行业NLP大模型LoRA微调任务

创建NLP大模型LoRA微调任务步骤如下：

登录ModelArts Studio大模型开发平台，在“我的空间”模块，单击进入所需空间。
图4 我的空间
在左侧导航栏中选择“模型开发 > 模型训练”，单击界面右上角“创建训练任务”。
在“选择模型”页面，选择“模型广场 > 大语言模型 > 模型”，单击“确定”进入“创建训练任务”页面。

在“创建训练任务”页面，参考表3完成训练参数设置。

表3 NLP大模型LoRA微调参数说明
参数分类	训练参数	参数说明
训练配置	选择模型	可以修改如下信息：来源：选择“模型广场”。类型：选择“大语言模型”，并选择训练所用的基础模型和版本。
	训练类型	选择“微调”。
	训练目标	选择“LoRA微调”。 LoRA微调：在模型微调过程中，只对特定的层或模块的参数进行更新，而其余参数保持冻结状态。这种方法可以显著减少计算资源和时间消耗，同时在很多情况下，依然能够保持较好的模型性能。
训练参数	数据批量大小	数据批量是指训练过程中将数据集分成小批次进行读取，并设定每个批次的数据大小。通常，较大的批量能够使梯度更加稳定，有助于模型的收敛。然而，较大的批量也会占用更多显存，可能导致显存不足，并延长每次训练时间。
	学习率衰减比率	用于控制训练过程中学习率下降的幅度。计算公式为：最低学习率 = 初始学习率 × 学习率衰减比率。
	学习率	学习率决定每次训练中模型参数更新的幅度。选择合适的学习率至关重要：如果学习率过大，模型可能无法收敛。如果学习率过小，模型的收敛速度将变得非常慢。
	训练轮数	表示完成全部训练数据集训练的次数。每个轮次都会遍历整个数据集一次。
	LoRA矩阵中的秩	lora_rank，在LoRA矩阵中，Rank的值用于衡量矩阵的复杂度和信息量。数值较大，增强模型的表示能力，但会增加训练时长；数值越小可以减少参数数量，降低过拟合风险。
	Agent微调	在训练Agent所需的NLP大模型时，可以开启此参数。通过调整训练数据中的Prompt，引导模型在特定领域或任务上生成更符合预期的回答。在使用此参数前，请先联系盘古客服，调整Prompt和训练数据。
	权重衰减系数	通过在损失函数中加入与模型权重大小相关的惩罚项，鼓励模型保持较小的权重，防止过拟合或模型过于复杂。
	优化器	优化器参数用于更新模型的权重，常见包括adamw。 adamw是一种改进的Adam优化器，增加了权重衰减机制，有效防止过拟合。
训练数据配置	训练集	选择训练模型所需的数据集。
训练数据配置	验证集	若选择“分割训练集”，则需进一步配置数据拆分比例。若选择“选择数据集”，则需选择导入的数据集。
资源配置	计费模式	选择训练当前任务的计费模式。
	训练单元	选择训练模型所需的训练单元。当前展示的完成本次训练所需要的最低训练单元要求。
	单实例训练单元数	选择单实例训练单元数。
	实例数	选择实例数。
订阅提醒	订阅提醒	该功能开启后，系统将在任务状态更新时，通过短信或邮件将提醒发送给用户。
发布模型	开启自动发布	开启自动发布后，模型训练完成的最终产物会自动发布为空间资产，以便对模型进行压缩、部署、评测等操作或共享给其他空间。
基本信息	名称	训练任务名称。
基本信息	描述	训练任务描述。