创建预测大模型训练任务
创建预测大模型微调任务
创建预测大模型微调任务步骤如下:
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
图1 我的空间
- 在左侧导航栏中选择“模型开发 > 模型训练”,单击右上角“创建训练任务”。
- 在“选择模型”页面,选择“模型广场 > 预测大模型 > 模型”,单击“确定”进入“创建训练任务”页面。
- 在“创建训练任务”页面,参考表1完成训练参数设置。
其中,“训练参数”展示了各场景涉及到的全部参数,请根据具体前端页面展示的参数进行设置。
表1 预测大模型微调参数说明 参数分类
训练参数
说明
训练配置
选择模型
可以修改如下信息:
- 来源:选择“模型广场”。
- 类型:选择“预测大模型”,并选择训练所用的基础模型和版本。
说明:
二次微调的模型来源是“我的资产”。
训练类型
选择“微调”。
训练目标
选择“全量微调”。
- 全量微调:在模型进行有监督微调时,对大模型的所有参数进行更新。这种方法通常能够实现最佳的模型性能,但需要消耗大量计算资源和时间,计算开销较大。
训练参数
训练参数
模型训练参数,参考表2。
资源配置
计费模式
选择训练当前任务的计费模式。
训练单元
选择训练模型所需的训练单元。
当前展示的完成本次训练所需要的最低训练单元要求。
单实例训练单元数
选择单实例训练单元数。
实例数
选择实例数。
订阅提醒
订阅提醒
该功能开启后,系统将在任务状态更新时,通过短信或邮件将提醒发送给用户。
发布模型
开启自动发布
开启自动发布后,模型训练完成的最终产物会自动发布为空间资产,以便对模型进行部署、评测等操作或共享给其他空间。
基本信息
名称
训练任务名称。
描述
训练任务描述。
表2 预测大模型训练参数说明 - 微调 模型类型
训练参数
说明
盘古统一编码时序预测分类大模型(Pangu-Predict-Cla-TS-2.1.2)
数据集
选择训练所需的数据集。
非特征列
不作为输入特征的列。此处填写的特征列名将不作为模型训练的输入特征,不要将预测目标列的列名填入。填写格式为中括号,其中列举带引号的特征列名,默认设置为中括号。
预测目标列
预测目标的列名,指定预测目标变量列名,填写格式为中括号,时序分类任务为样本标签列。默认设置为中括号,表示选择最后一列作为预测目标变量。
说明:二次微调不支持分类任务的分类数发生改变,需与原资产保持一致,推理服务接口输入字段名称以二次微调为准。
标识列
用于对连续时间段样本点的区分标识。时序分类任务会将相同ID的行数据视作同一个序列样本,因此时序分类任务必须填写。默认设置为中括号。
类别特征列
使用LabelEncoder处理的特征列的列表,用于处理字符串类型的类别特征。填写格式为中括号,其中列举带引号的特征列名,默认设置为中括号,表示没有需要使用LabelEncoder处理的特征。
协变量列
用于显式指定协变量例用时序任务建模。如果不填写,则自动选择协变量列。
训练集切分比例
训练集切分比例。注意:训练集切分比例、验证集切分比例、测试集切分比例三者之和为1。
验证集切分比例
验证集切分比例。
测试集切分比例
测试集切分比例。
历史窗口大小
时序预测输入的窗口长度。数值越大建模包含的历史信息越多,但相应的显存占用会增加以及模型拟合难度也会提升。请根据实际任务特点选择合适的输入窗口,建议取值范围128至512。
训练轮数
迭代训练的epoch数量,请根据实际情况选择,不低于1,建议范围5至10。
数据批量大小
单卡的批处理大小,通常来说数据批量越大,梯度会越稳定。但是同时也会使用更大的显存,受硬件限制可能会OOM,并延长单步训练时长。
学习率
学习率用于控制每个训练step参数更新的幅度,一般来说需要选择一个合适的学习率,否则当学习率过大的时候会导致模型难以收敛,过小的时候会收敛速度过慢。
热身比率
热身阶段占整体训练的比例。刚开始训练时若选择一个较大的学习率,可能带来模型的不稳定,选择使用warmup热身的方式,可以使得开始训练的热身阶段内学习率较小,在热身阶段的小学习率下,模型可以慢慢趋于稳定,等模型相对稳定后再逐渐提升至预设的最大学习率进行训练。使用热身可以使得模型收敛速度更快,效果更佳。
权重衰减系数
权重衰减系数,权重衰减是一种根据参数值大小对参数进行衰减的正则化方法,用于减少过拟合,权重衰减系数用于控制正则化的力度,权重衰减系数越大,正则化力度越强。
模型保存步数
定义模型每隔多少步保存一次,注意训练集总步数必须大于该值。
盘古统一编码时序预测回归大模型(Pangu-Predict-Reg-TS-2.1.2)
数据集
选择训练所需的数据集。
非特征列
不作为输入特征的列。此处填写的特征列名将不作为模型训练的输入特征,不要将预测目标列的列名填入。填写格式为中括号,其中列举带引号的特征列名,默认设置为中括号。
预测目标列
预测目标的列名,指定预测目标变量列名,填写格式为中括号,时序分类任务为样本标签列。默认设置为中括号,表示选择最后一列作为预测目标变量。
说明:二次微调支持列名/变量数发生变化,但回归任务的目标变量数需要与之前保持一致,推理服务接口输入字段名称以二次微调为准。
标识列
用于对连续时间段样本点的区分标识。时序分类任务会将相同ID的行数据视作同一个序列样本,因此时序分类任务必须填写。默认设置为中括号。
类别特征列
使用LabelEncoder处理的特征列的列表,用于处理字符串类型的类别特征。填写格式为中括号,其中列举带引号的特征列名,默认设置为中括号,表示没有需要使用LabelEncoder处理的特征。
协变量列
用于显式指定协变量例用时序任务建模。如果不填写,则自动选择协变量列。
训练集切分比例
训练集切分比例。注意:训练集切分比例、验证集切分比例、测试集切分比例三者之和为1。
验证集切分比例
验证集切分比例。
测试集切分比例
测试集切分比例。
特征是否独立建模
时序变量建模模式设置。若选择独立建模,则模型只关注预测目标列的选择的数据,并不做列数据区分,统一视作出自一个序列分布。若选择非独立建模,建模会考虑列变量之间的相关性,建模的变量范围为输入的数据列除去非特征列以及标识列的剩余数据内容。
历史窗口大小
时序预测输入的窗口长度。数值越大建模包含的历史信息越多,但相应的显存占用会增加以及模型拟合难度也会提升。请根据实际任务特点选择合适的输入窗口,建议取值范围128至512。
预测目标窗口大小
时序预测输出的窗口长度。数值越大输出预测的时间范围越大,但相应的显存占用会增加以及模型预测精度可能会下降。请根据实际任务特点选择合适的输出窗口,建议取值范围48至96,且尽量选择预测目标周期的整数倍。注若基于已发布模型的进行增量微调,输出窗口需要与其保持一致。
说明:二次微调支持输入窗口可变,但输出窗口的长度需要与之前保持一致。
训练轮数
迭代训练的epoch数量,请根据实际情况选择,不低于1,建议范围5至10。
数据批量大小
单卡的批处理大小,通常来说数据批量越大,梯度会越稳定。但是同时也会使用更大的显存,受硬件限制可能会OOM,并延长单步训练时长。
学习率
学习率用于控制每个训练step参数更新的幅度,一般来说需要选择一个合适的学习率,否则当学习率过大的时候会导致模型难以收敛,过小的时候会收敛速度过慢。
热身比率
热身阶段占整体训练的比例。刚开始训练时若选择一个较大的学习率,可能带来模型的不稳定,选择使用warmup热身的方式,可以使得开始训练的热身阶段内学习率较小,在热身阶段的小学习率下,模型可以慢慢趋于稳定,等模型相对稳定后再逐渐提升至预设的最大学习率进行训练,使用热身可以使得模型收敛速度更快,效果更佳。
权重衰减系数
权重衰减系数。权重衰减是一种根据参数值大小对参数进行衰减的正则化方法,用于减少过拟合,权重衰减系数用于控制正则化的力度,权重衰减系数越大,正则化力度越强。
模型保存步数
定义模型每隔多少步保存一次,注意训练集总步数必须大于该值。
盘古统一编码表格预测分类大模型(Pangu-Predict-Cla-Table-2.2.0)
数据集
选择训练所需的数据集。
类别特征列
使用LabelEncoder处理的特征列的列表,用于处理字符串类型的类别特征。填写格式为中括号,其中列举带引号的特征列名,默认设置为中括号,表示没有需要使用LabelEncoder处理的特征。
非特征列
不作为输入特征的列。此处填写的特征列名将不作为模型训练的输入特征,不要将预测目标列的列名填入。填写格式为中括号,其中列举带引号的特征列名,默认设置为中括号。
预测目标列
预测目标的列名,指定预测目标变量列名,填写格式为中括号,时序分类任务为样本标签列。默认设置为中括号,表示选择最后一列作为预测目标变量。
说明:二次微调不支持分类任务的分类数发生改变,需与原资产保持一致,推理服务接口输入字段名称以二次微调为准。
训练集切分比例
训练集切分比例。注意:训练集切分比例、验证集切分比例、测试集切分比例三者之和为1。
验证集切分比例
验证集切分比例。
测试集切分比例
测试集切分比例。
训练轮数
迭代训练的epoch数量,请根据实际情况选择,不低于1,建议范围5至10。
数据批量大小
单卡的批处理大小,通常来说数据批量越大,梯度会越稳定。但是同时也会使用更大的显存,受硬件限制可能会OOM,并延长单步训练时长。
学习率
学习率用于控制每个训练step参数更新的幅度,一般来说需要选择一个合适的学习率,否则当学习率过大的时候会导致模型难以收敛,过小的时候会收敛速度过慢。
热身比率
热身阶段占整体训练的比例。刚开始训练时若选择一个较大的学习率,可能带来模型的不稳定,选择使用warmup热身的方式,可以使得开始训练的热身阶段内学习率较小,在热身阶段的小学习率下,模型可以慢慢趋于稳定,等模型相对稳定后再逐渐提升至预设的最大学习率进行训练,使用热身可以使得模型收敛速度更快,效果更佳。
权重衰减系数
权重衰减系数。权重衰减是一种根据参数值大小对参数进行衰减的正则化方法,用于减少过拟合,权重衰减系数用于控制正则化的力度,权重衰减系数越大,正则化力度越强。
模型保存步数
定义模型每隔多少步保存一次,注意训练集总步数必须大于该值。
盘古统一编码表格预测回归大模型(Pangu-Predict-Reg-Table-2.2.0)
与盘古统一编码表格预测分类大模型(Pangu-Predict-Cla-Table-2.2.0)相同。
盘古时序异常检测大模型(Pangu-Predict-Anom-TS-2.1.0)
数据集
选择训练所需的数据集。
非特征列
不作为输入特征的列。此处填写的特征列名将不作为模型训练的输入特征,不要将预测目标列的列名填入。填写格式为中括号,其中列举带引号的特征列名,默认设置为中括号。
预测目标列
预测目标的列名,指定预测目标变量列名,填写格式为中括号,其中列举带引号的特征列名。默认设置为中括号,表示选择除去非特征列、标识列、异常标签列以外的所有列为预测目标列。
说明:二次微调列名变量数需要与之前保持一致,推理服务接口输入字段名称以二次微调为准。
异常标签列
记录每个时间点机器运行状态,为二分类列,记录正异常两个状态。默认设置为中括号,表示选择最后一列作为异常标签列。
正常标签值
指定正常类别名称,用于最终模型评估阶段计算误报率、漏报率等指标。默认设置为0,表示正常类别名称为0。
标识列
用于对连续时间段样本点的区分标识。时序分类任务会将相同ID的行数据视作同一个序列样本,因此时序分类任务必须填写。默认设置为中括号。
训练集切分比例
训练集切分比例。注意:训练集切分比例、验证集切分比例、测试集切分比例三者之和为1。
验证集切分比例
验证集切分比例。注意:训练集切分比例、验证集切分比例、测试集切分比例三者之和为1。
测试集切分比例
测试集切分比例。注意:训练集切分比例、验证集切分比例、测试集切分比例三者之和为1。
训练轮数
迭代训练的epoch数量,请根据实际情况选择,不低于1,建议范围5至10。
数据批量大小
单卡的批处理大小,通常来说数据批量越大,梯度会越稳定。但是同时也会使用更大的显存,受硬件限制可能会OOM,并延长单步训练时长。
学习率
学习率用于控制每个训练step参数更新的幅度,一般来说需要选择一个合适的学习率,否则当学习率过大的时候会导致模型难以收敛,过小的时候会收敛速度过慢。
热身比率
热身阶段占整体训练的比例。刚开始训练时若选择一个较大的学习率,可能带来模型的不稳定,选择使用warmup热身的方式,可以使得开始训练的热身阶段内学习率较小,在热身阶段的小学习率下,模型可以慢慢趋于稳定,等模型相对稳定后再逐渐提升至预设的最大学习率进行训练,使用热身可以使得模型收敛速度更快,效果更佳。
权重衰减系数
权重衰减系数。权重衰减是一种根据参数值大小对参数进行衰减的正则化方法,用于减少过拟合,权重衰减系数用于控制正则化的力度,权重衰减系数越大,正则化力度越强。
模型保存步数
定义模型每隔多少步保存一次,注意训练集总步数必须大于该值。
盘古融合推荐回归大模型(Pangu-Predict-Reg-Table-2.0.1)
数据集选择
选择训练所需的数据集。
类别特征列
指定使用LabelEncoder处理的字符串类型类别特征的列表。格式为["列名1","列名2"],默认设置为[],表示没有需要处理的类别特征。
LabelEncoder的作用是将类别特征转换为数值型特征,使模型能够处理这些特征。
非特征列
列出不需要输入到模型中的特征列,用于排除冗余或无意义的特征。格式为["列名1","列名2"],默认设置为[],表示所有特征都用于训练。
标准化列
指定需要进行最大最小值标准化处理的数值特征的列表。格式为["列名1","列名2"],默认设置为[],表示没有特征需要标准化。标准化将特征值缩放到0到1的范围,处理分布差异较大的数值特征。
预测目标列
指定预测目标变量的列名,gatednet算法支持多目标变量预测,其余算法仅支持单目标变量预测。格式为["列名"],默认设置为[],表示选择最后一列作为预测目标变量。
训练集&验证集比例
将数据集划分为训练集和验证集,填入验证集比例即可,默认设置为0.2,即训练集占0.8,验证集占0.2,可选范围为0.1、0.2、0.3、0.4。
基模型算法池
从预定义的算法池中选择用于训练模型的算法,算法包括:["svm", "ada", "lgb", "xgb", "rf", "et", "gb", "gauss","mlp","gatednet"],其中:
- svm表示支持向量机。
- ada表示adaboost。
- lgb表示lightgbm。
- xgb表示xgboost。
- rf表示随机森林。
- et表示extraTree。
- gb表示梯度提升树。
- gauss表示高斯过程,gauss适合维度小于10且数据量小于500的样本数据。
- mlp表示多层感知机,默认设置为5lgb,多种类算法示例: 3lgb,2rf,1xgb(表示使用3个LightGBM算法、2个随机森林算法和1个XGBoost算法)。
- gatednet表示门控自适应网络,可用于多目标预测。gatednet不支持跟其他算法同时选择,如果同时指定gatednet和其他模型,将只会执行gatednet算法。gatednet仅支持单个生效,例如,5gatednet也只会使用一个gatednet训练。
推荐的模型个数
从推荐模型中选择的模型个数,指定推荐模型的个数,使得模型的多样性更丰富,有助于提高最终模型的性能。
推荐模型的数量参数的范围是0到20。设置为0表示不使用推荐模型。
假设基模型算法池中有5个LightGBM(lgb)模型,且推荐的模型数量设置为5。这意味着除了基模型池中的5个LightGBM模型外,系统还会再推荐5个不同的模型。因此,总共有10个模型用于训练,其中5个是LightGBM模型,另外5个是系统根据数据情况推荐的不同模型。
说明:当基模型算法池包含gatednet时,该参数不生效。
训练特征重要性
是否在训练完成之后,计算模型的权重特征重要性,并在界面展示各特征的重要性分值及排序。支持权重特征重要性的模型有ada,lgb,xgb,rf,et,gb。当“基模型算法池”中至少配置以上模型中的一个,或“推荐的模型个数”至少为1时,用户可以打开此选项。否则此项无法打开,界面不展示相关信息。
融合推荐回归预测大模型提供两种特征重要性,分别为模型权重特征重要性(训练特征重要性)和排列特征重要性,对两种特征重要性的详细说明参见排列特征重要性部分。
盘古融合推荐异常检测大模型
(Pangu-Predict-Anom-Table-2.0.1)
数据集选择
选择训练所需的数据集。
类别特征列
指定使用LabelEncoder处理的字符串类型类别特征的列表。格式为["列名1","列名2"],默认设置为[],表示没有需要处理的类别特征。
LabelEncoder的作用是将类别特征转换为数值型特征,使模型能够处理这些特征。
非特征列
列出不需要输入到模型中的特征列,用于排除冗余或无意义的特征。格式为["列名1","列名2"],默认设置为[],表示所有特征都用于训练。
标准化列
指定需要进行最大最小值标准化处理的数值特征的列表。格式为["列名1","列名2"],默认设置为[],表示没有特征需要标准化。标准化将特征值缩放到0到1的范围,处理分布差异较大的数值特征。
预测目标列
指定预测目标变量的列名,仅支持单目标变量预测。格式为["列名"],默认设置为[],表示选择最后一列作为预测目标变量。
训练集&验证集比例
将数据集划分为训练集和验证集,填入验证集比例即可,默认设置为0.2,即训练集占0.8,验证集占0.2,可选范围为0.1、0.2、0.3、0.4。
基模型算法池
从预定义的算法池中选择用于训练模型的算法,算法包括:["knn", "iforest", "loda", "ocsvm"],其中:
- knn表示k最近邻算法。
- iforest表示孤立森林算法。
- loda表示Loda算法。
- ocsvm表示单类支持向量机算法。
推荐的模型个数
从推荐模型中选择的模型个数,指定推荐模型的个数,使得模型的多样性更丰富,有助于提高最终模型的性能。
推荐模型的数量参数的范围是0到20。设置为0表示不使用推荐模型。
假设基模型算法池中有5个LightGBM(lgb)模型,且推荐的模型数量设置为5。这意味着除了基模型池中的5个LightGBM模型外,系统还会再推荐5个不同的模型。因此,总共有10个模型用于训练,其中5个是LightGBM模型,另外5个是系统根据数据情况推荐的不同模型。
盘古融合推荐分类大模型
(Pangu-Predict-Cla-Table-2.0.1)
数据集选择
选择训练所需的数据集。
类别特征列
使用LabelEncoder处理的特征列的列表,用于处理字符串类型的类别特征。填写格式为中括号,其中列举带引号的特征列名,默认设置为中括号,表示没有需要使用LabelEncoder处理的特征。
非特征列
不作为输入特征的列,此处填写的特征列名将不作为模型训练的输入特征,不要将预测目标列的列名填入。填写格式为中括号,其中列举带引号的特征列名,默认设置为中括号,表示选取全部特征用于训练。
标准化列
使用最大最小值标准化处理的特征列的列表,用于处理分布差异较大的数值特征,填写格式为中括号,其中列举带引号的特征列名,默认设置为中括号,表示全部特征都不需要进行标准化。
预测目标列
预测目标的列名,指定预测目标变量列名,仅支持单目标变量预测,填写格式为中括号,其中列举带引号的特征列名。默认设置为中括号,表示选择最后一列作为预测目标变量。
训练集&验证集比例
数据集划分为训练集和验证集,填入验证集比例即可,默认设置为0.2,即训练集占0.8,验证集占0.2,可选范围为0.1、0.2、0.3、0.4。
基模型算法池
从预定义的算法池中选择用于训练模型的算法,算法包括:["ada","lgb","xgb","rf","et","gb","gauss","mlp"],其中:
- ada表示adaboost。
- lgb表示lightgbm。
- xgb表示xgboost。
- rf表示随机森林。
- et表示extraTree。
- gb表示梯度提升树。
- gauss表示高斯过程,gauss适合维度小于10且数据量小于500的样本数据。
- mlp表示多层感知机,默认设置为5lgb,多种类算法示例: 3lgb,2rf,1xgb(表示使用3个LightGBM算法、2个随机森林算法和1个XGBoost算法)。
推荐的模型个数
由推荐模型推荐的模型数,参数的范围为0至20。0代表不使用推荐模型。假设基模型算法池为5lgb,推荐的模型个数为5,表示基模型有5个为lgb,另外5个是由推荐模型推荐的。
假设基模型算法池中有5个LightGBM(lgb)模型,且推荐的模型数量设置为5。这意味着除了基模型池中的5个LightGBM模型外,系统还会再推荐5个不同的模型。因此,总共有10个模型用于训练,其中5个是LightGBM模型,另外5个是系统根据数据情况推荐的不同模型。
训练特征重要性
是否在训练完成之后,计算模型的权重特征重要性,并在界面展示各特征的重要性分值及排序。支持权重特征重要性的模型有ada, lgb, xgb, rf, et, gb。当“基模型算法池”中至少配置以上模型中的一个,或“推荐的模型个数”至少为1时,用户可以打开此选项。否则此项无法打开,界面不展示相关信息。
融合推荐分类预测大模型提供两种特征重要性,分别为模型权重特征重要性(训练特征重要性)和排列特征重要性,对两种特征重要性的详细说明参见排列特征重要性部分。
盘古融合推荐回归大模型-极简模式(Pangu-Predict-Reg-Table-2.1.0)
非特征列
不作为输入特征的列,此处填写的特征列名将不作为模型训练的输入特征,不要将预测目标列的列名填入。填写格式为中括号,其中列举带引号的特征列名,默认设置为中括号,表示选取全部特征用于训练。
类别特征列
使用LabelEncoder处理的特征列的列表,用于处理字符串类型的类别特征。填写格式为中括号,其中列举带引号的特征列名,默认设置为中括号,表示没有需要使用LabelEncoder处理的特征。
标准化列
使用最大最小值标准化处理的特征列的列表,用于处理分布差异较大的数值特征,填写格式为中括号,其中列举带引号的特征列名,默认设置为中括号,表示全部特征都不需要进行标准化。
预测目标列
预测目标的列名,指定预测目标变量列名,仅支持单目标变量预测,填写格式为中括号,其中列举带引号的特征列名,默认设置为中括号,表示选择最后一列作为预测目标变量。
训练集&验证集比例
验证集比例。填入验证集比例即可。默认设置为0.2。即训练集占0.8。验证集占0.2。可选范围为0.1, 0.2, 0.3, 0.4。
训练特征重要性
是否在训练完成之后,计算模型的训练特征重要性。此处提供的特征重要性为排列特征重要性,详细说明参见排列特征重要性部分。
训练模式
代表不同的模型组合和训练策略。Efficiency First相较Default,训练用时减少,但模型效果可能降低。
数据集
选择训练所需的数据集。
盘古融合推荐分类大模型-极简模式(Pangu-Predict-Cla-Table-2.1.0)
与盘古融合推荐回归大模型-极简模式(Pangu-Predict-Reg-Table-2.1.0)相同。
- 参数填写完成后,单击“立即创建”。
- 创建好训练任务后,页面将返回“模型训练”页面,可随时查看当前任务的状态。
创建预测大模型预训练任务
目前时序异常检测大模型支持预训练工作流,创建预测大模型预训练任务步骤如下:
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
图2 我的空间
- 在左侧导航栏中选择“模型开发 > 模型训练”,单击右上角“创建训练任务”。
- 在“选择模型”页面,选择“模型广场 > 预测大模型 > 模型”,单击“确定”进入“创建训练任务”页面。
- 在“创建训练任务”页面,参考表3完成训练参数设置。
其中,“训练参数”展示了各场景涉及到的全部参数,请根据具体前端页面展示的参数进行设置。
表3 预测大模型预训练参数说明 参数分类
训练参数
说明
训练配置
选择模型
可以修改如下信息:
- 来源:选择“模型广场”。
- 类型:选择“预测大模型”,并选择训练所用的基础模型和版本。
训练类型
选择“预训练”。
训练参数
训练参数
模型训练参数,参考表4。
资源配置
计费模式
选择训练当前任务的计费模式。
训练单元
选择训练模型所需的训练单元。
当前展示的完成本次训练所需要的最低训练单元要求。
单实例训练单元数
选择单实例训练单元数。
实例数
选择实例数。
订阅提醒
订阅提醒
该功能开启后,系统将在任务状态更新时,通过短信或邮件将提醒发送给用户。
发布模型
开启自动发布
开启自动发布后,模型训练完成的最终产物会自动发布为空间资产,以便对模型进行部署、评测等操作或共享给其他空间。
基本信息
名称
训练任务名称。
描述
训练任务描述。
表4 预测大模型训练参数说明 - 预训练 模型类型
训练参数
说明
盘古时序异常检测大模型(Pangu-Predict-Anom-TS-2.1.0)
数据集
选择训练所需的数据集。
非特征列
不作为输入特征的列。此处填写的特征列名将不作为模型训练的输入特征,不要将预测目标列的列名填入。填写格式为中括号,其中列举带引号的特征列名,默认设置为中括号。
预测目标列
预测目标的列名,指定预测目标变量列名,填写格式为中括号,其中列举带引号的特征列名。默认设置为中括号,表示选择除去非特征列、标识列以外的所有列为预测目标列。
标识列
用于对连续时间段样本点的区分标识。时序分类任务会将相同ID的行数据视作同一个序列样本,因此时序分类任务必须填写。默认设置为中括号。
训练集切分比例
训练集切分比例。注意:训练集切分比例、验证集切分比例两者之和为1。
验证集切分比例
验证集切分比例。注意:训练集切分比例、验证集切分比例两者之和为1。
训练轮数
迭代训练的epoch数量,请根据实际情况选择,不低于1,建议范围5至10。
数据批量大小
单卡的批处理大小,通常来说数据批量越大,梯度会越稳定。但是同时也会使用更大的显存,受硬件限制可能会OOM,并延长单步训练时长。
学习率
学习率用于控制每个训练step参数更新的幅度,一般来说需要选择一个合适的学习率,否则当学习率过大的时候会导致模型难以收敛,过小的时候会收敛速度过慢。
热身比率
热身阶段占整体训练的比例。刚开始训练时若选择一个较大的学习率,可能带来模型的不稳定,选择使用warmup热身的方式,可以使得开始训练的热身阶段内学习率较小,在热身阶段的小学习率下,模型可以慢慢趋于稳定,等模型相对稳定后再逐渐提升至预设的最大学习率进行训练,使用热身可以使得模型收敛速度更快,效果更佳。
权重衰减系数
权重衰减系数。权重衰减是一种根据参数值大小对参数进行衰减的正则化方法,用于减少过拟合,权重衰减系数用于控制正则化的力度,权重衰减系数越大,正则化力度越强。
模型保存步数
定义模型每隔多少步保存一次,注意训练集总步数必须大于该值。
创建预测大模型增量训练任务
在模型完成创建预测大模型微调任务后,可以对训练后的模型继续训练,该过程称为“增量训练”。
创建预测大模型增量预训练任务前,请确保有已完成预训练的预测大模型。
创建预测大模型增量预训练任务的步骤如下:
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
图3 我的空间
- 在左侧导航栏中选择“模型开发 > 模型训练”,单击界面右上角“创建训练任务”。
- 在“选择模型”页面,选择“我的资产 > 预测大模型 > 模型”,单击“确定”进入“创建训练任务”页面。
- 其余参数配置等步骤同创建预测大模型微调任务。