创建预测大模型训练任务
创建预测大模型预训练任务
目前时序异常检测大模型支持预训练工作流,创建预测大模型预训练任务步骤如下:
- 登录ModelArts Studio平台,在“我的空间”模块,单击进入所需空间。
- 在左侧导航栏中选择“模型开发 > 模型训练”,单击右上角“创建训练任务”。
- 在“创建训练任务”页面,参考表1完成训练参数设置。
其中,“训练参数”展示了各场景涉及到的全部参数,请根据具体前端页面展示的参数进行设置。
表1 预测大模型预训练参数说明 参数分类
训练参数
说明
训练配置
选择模型
可以修改如下信息:
- 来源:选择“模型广场”或“我的资产”。
- 类型:选择“预测大模型”,并选择训练所用的基础模型和版本。
训练类型
选择“预训练”。
训练参数
训练参数
模型训练参数,参考表2。
资源配置
计费模式
选择训练当前任务的计费模式。
训练单元
选择训练模型所需的训练单元。
当前展示的完成本次训练所需要的最低训练单元要求。
单实例训练单元数
选择单实例训练单元数。
实例数
选择实例数。
优先级
控制训练任务优先级,优先级高的任务优先执行。优先级相同的任务,先创建的先执行。
订阅提醒
订阅提醒
该功能开启后,平台支持两种订阅类型,预置通知和SMN通知。
预置通知:系统将在任务状态完成或失败时,通过短信或邮件将提醒发送给用户。
SMN通知:用户可在SMN云服务创建主题并维护订阅信息,在创建训练时选择对应主题以及需要通知的状态。训练状态范围:停止,失败,完成。用户手工触发的停止操作不通知用户,如果是资源到期的停止需通知用户。
发布模型
开启自动发布
开启自动发布后,模型训练完成的最终产物会自动发布为空间资产,以便对模型进行部署、评测等操作或共享给其他空间。
模型可见性
选择发布模型的可见范围。
本空间可见:发布的模型仅当前工作空间可见。
全空间可见:发布的模型在所有空间均可见。
模型名称
要发布的模型资产的名称。
描述(可选)
要发布的模型资产的相关描述,选填。
基本信息
名称
训练任务名称。
描述
训练任务描述。
表2 预测大模型训练参数说明 - 预训练 模型类型
训练参数
说明
典配值
盘古时序异常检测大模型(Pangu-Predict-Anom-TS-3.0.0)
数据集
选择训练所需的数据集。
-
非特征列
不作为输入特征的列,此处填写的特征列名将不作为模型训练的输入特征,不要将预测目标列的列名填入。若需要手动填写,填写格式为中括号,其中列举带双引号的特征列名,默认设置为中括号,表示选取全部特征用于训练。
-
预测目标列
预测目标的列名,指定预测目标变量列名。若需要手动填写,填写格式为中括号,其中列举带双引号的特征列名,默认设置为中括号,表示选择除去非特征列、标识列以外的所有列为预测目标列。
-
标识列
主要用于对连续时间段的区分标识,若不填写默认单文件所有行为连续时序数据。可以定义日期列粒度的id相关的列,例如店铺的id,区域或采集批次等。若需要手动填写,填写格式为中括号,其中列举带双引号的特征列名,默认设置为中括号,表示所有的样本具有相同的标识。
-
增训模式
预训练工作流增训模式,分为全量增训模型(ENC+DEC)和仅增训模型解码器(DEC)两种模式。时序异常检测模型分为编码器以及解码器两个部分,预置模型已经过百万亿时间点的训练,其编码器已具有较强的正常数据拟合能力,开放全量增训模型和仅增训解码器两种模式,可根据实际情况进行选择。
DEC
训练集切分比例
训练集切分比例,注意:训练集切分比例、验证集切分比例两者之和为1.0。
0.8
验证集切分比例
验证集切分比例,注意:训练集切分比例、验证集切分比例两者之和为1.0。
0.2
训练轮数
迭代训练的epoch数量,请根据实际情况选择,不低于1,建议范围5至10。
5
数据批量大小
单卡的批处理大小,通常来说数据批量越大,梯度会越稳定。但是同时也会使用更大的显存,受硬件限制可能会OOM,并延长单步训练时长。
64
学习率
学习率用于控制每个训练step参数更新的幅度,一般来说需要选择一个合适的学习率,否则当学习率过大的时候会导致模型难以收敛,过小的时候会收敛速度过慢。
0.0001
热身比率
热身阶段占整体训练的比例。刚开始训练时若选择一个较大的学习率,可能带来模型的不稳定,选择使用warmup热身的方式,可以使得开始训练的热身阶段内学习率较小,在热身阶段的小学习率下,模型可以慢慢趋于稳定,等模型相对稳定后再逐渐提升至预设的最大学习率进行训练。使用热身可以使得模型收敛速度更快,效果更佳。
0
权重衰减系数
权重衰减系数。权重衰减是一种根据参数值大小对参数进行衰减的正则化方法,用于减少过拟合,权重衰减系数用于控制正则化的力度,权重衰减系数越大,正则化力度越强。
0.001
模型保存步数
定义模型每隔多少步保存一次,注意必须是10的整数倍。
100
- 参数填写完成后,单击“立即创建”。
- 创建好训练任务后,页面将返回“模型训练”页面,可随时查看当前任务的状态。
创建预测大模型微调任务
创建预测大模型微调任务步骤如下:
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
图1 我的空间
- 在左侧导航栏中选择“模型开发 > 模型训练”,单击右上角“创建训练任务”。
- 在“创建训练任务”页面,参考表3完成训练参数设置。
其中,“训练参数”展示了各场景涉及到的全部参数,请根据具体前端页面展示的参数进行设置。
表3 预测大模型微调参数说明 参数分类
训练参数
说明
训练配置
选择模型
可以修改如下信息:
- 来源:选择“模型广场”或“我的资产”。
- 类型:选择“预测大模型”,并选择训练所用的基础模型和版本。
训练类型
选择“微调”。
训练目标
选择“全量微调”。
- 全量微调:在模型进行有监督微调时,对大模型的所有参数进行更新。这种方法通常能够实现最佳的模型性能,但需要消耗大量计算资源和时间,计算开销较大。
训练参数
训练参数
模型训练参数,参考表4。
资源配置
计费模式
选择训练当前任务的计费模式。
训练单元
选择训练模型所需的训练单元。
当前展示的完成本次训练所需要的最低训练单元要求。
单实例训练单元数
选择单实例训练单元数。
优先级
优先级相同的任务,先创建先执行。
实例数
选择实例数。
订阅提醒
订阅提醒
该功能开启后,平台支持两种订阅类型,预置通知和SMN通知。
预置通知:系统将在任务状态完成或失败时,通过短信或邮件将提醒发送给用户。
SMN通知:用户可在SMN云服务创建主题并维护订阅信息,在创建训练时选择对应主题以及需要通知的状态。训练状态范围:停止,失败,完成。用户手工触发的停止操作不通知用户,如果是资源到期的停止需通知用户。
发布模型
开启自动发布
开启自动发布后,模型训练完成的最终产物会自动发布为空间资产,以便对模型进行部署、评测等操作或共享给其他空间。
模型可见性
选择发布模型的可见范围。
本空间可见:发布的模型仅当前工作空间可见。
全空间可见:发布的模型在所有空间均可见。
模型名称
要发布的模型资产的名称。
描述(可选)
要发布的模型资产的相关描述,选填。
基本信息
名称
训练任务名称。
描述
训练任务描述。
表4 预测大模型训练参数说明 - 微调 模型类型
训练参数
说明
典配值
盘古统一编码时序预测分类大模型(Pangu-Predict-Cla-TS-3.0.1)
数据集
选择训练所需的数据集。
-
非特征列
不作为输入特征的列,此处填写的特征列名将不作为模型训练的输入特征,不要将预测目标列的列名填入。若需要手动填写,填写格式为中括号,其中列举带双引号的特征列名,默认设置为中括号,表示选取全部特征用于训练。
-
预测目标列
预测目标的列名,指定预测目标变量列名。若需要手动填写,填写格式为中括号,时序分类任务为样本标签列。默认设置为中括号,表示选择最后一列作为预测目标变量。注若基于已发布模型的进行增量微调,分类样本标签数与其保持一致。
说明:二次微调不支持分类任务的分类数发生改变,需与原资产保持一致,推理服务接口输入字段名称以二次微调为准。
-
标识列
用于对连续时间段样本点的区分标识。时序分类任务会将相同ID的行数据视作同一个序列样本,因此时序分类任务必须填写。若需要手动填写,填写格式为中括号,其中列举带双引号的标识列名,默认设置为中括号。
-
类别特征列
使用LabelEncoder处理的特征列的列表,用于处理字符串类型的类别特征。若需要手动填写,填写格式为中括号,其中列举带双引号的特征列名,默认设置为中括号,表示没有需要使用LabelEncoder处理的特征。
-
协变量列
用于显式指定协变量例用时序任务建模。如果不填写,则自动选择协变量列。若需要手动填写,填写格式为中括号,其中列举带双引号的协变量列名,默认设置为中括号, 表示自动选择协变量列。
-
训练集切分比例
训练集切分比例。
说明:- 训练集切分比例、验证集切分比例、测试集切分比例三者之和为1。
- 时序分类任务会基于标识列的填写进行序列数据分组(类似SQL里面的Group_By操作),数据集切分会在组和组之间进行。而在一个组内进行滑窗采样处理生成最后数据集样本,组内样本数 = 组内时序序列数据行数 - 历史窗口大小 + 1,对应数据集样本数 = 数据集切分组数 * 组内样本数。
- 如果历史窗口配置过大或对应比例配置过小,可能导致训练/验证/测试集有实际样本数不足的情况发生,从而触发训练报错。
0.7
验证集切分比例
验证集切分比例,注意:训练集切分比例、验证集切分比例、测试集切分比例三者之和为1.0。
0.2
测试集切分比例
测试集切分比例,注意:训练集切分比例、验证集切分比例、测试集切分比例三者之和为1.0。
0.1
历史窗口大小
时序预测输入的窗口长度,数值越大建模包含的历史信息越多,但相应的显存占用会增加以及模型拟合难度也会提升。请根据实际任务特点选择合适的输入窗口,建议取值范围128至512。
128
训练轮数
迭代训练的epoch数量,请根据实际情况选择,不低于1,建议范围5至10。
5
数据批量大小
单卡的批处理大小,通常来说数据批量越大,梯度会越稳定。但是同时也会使用更大的显存,受硬件限制可能会OOM,并延长单步训练时长。
64
学习率
学习率用于控制每个训练step参数更新的幅度,一般来说需要选择一个合适的学习率,否则当学习率过大的时候会导致模型难以收敛,过小的时候会收敛速度过慢。
0.0001
热身比率
热身阶段占整体训练的比例。刚开始训练时若选择一个较大的学习率,可能带来模型的不稳定,选择使用warmup热身的方式,可以使得开始训练的热身阶段内学习率较小,在热身阶段的小学习率下,模型可以慢慢趋于稳定,等模型相对稳定后再逐渐提升至预设的最大学习率进行训练。使用热身可以使得模型收敛速度更快,效果更佳。
0.01
权重衰减系数
权重衰减系数。权重衰减是一种根据参数值大小对参数进行衰减的正则化方法,用于减少过拟合,权重衰减系数用于控制正则化的力度,权重衰减系数越大,正则化力度越强。
0.1
模型保存步数
定义模型每隔多少步保存一次,注意必须是10的整数倍。
100
是否使用指数移动平均
是否在训练过程中引入指数移动平均。指数移动平均(Exponential Moving Average)简称EMA,用于对模型参数进行平滑处理,从而提升训练过程的稳定性与最终模型的性能。
true
指数移动平均衰减系数
指数移动平均(EMA)的衰减系数,控制历史参数对当前 EMA 值的影响程度。值越大,历史参数影响越强,更新越平滑;值越小,则更关注最近的参数变化。例如,当设置为 0.999 时,EMA 会保留大量历史信息,更新缓慢但稳定;而设置为 0.99 则会让模型更快适应新参数,但波动也会更大。
0.98
模型验证阶段性能评价指标
在模型验证阶段,验证集评估指标选择。分类问题提供两种选择,模型在验证集上的准确率(ACC)、拟合度(F1),默认设置为准确率(ACC)。
ACC
盘古统一编码时序预测回归大模型(Pangu-Predict-Reg-TS-3.0.1)
数据集
选择训练所需的数据集。
-
非特征列
不作为输入特征的列,此处填写的特征列名将不作为模型训练的输入特征,不要将预测目标列的列名填入。若需要手动填写,填写格式为中括号,其中列举带双引号的特征列名,默认设置为中括号,表示选取全部特征用于训练。
-
预测目标列
预测目标的列名,指定预测目标变量列名。若需要手动填写,填写格式为中括号,其中列举带双引号的特征列名,默认设置为中括号,表示选择最后一列作为预测目标变量。注若基于已发布模型的进行增量微调,预测目标数量需与其保持一致。
说明:二次微调支持列名/变量数发生变化,但回归任务的目标变量数需要与之前保持一致,推理服务接口输入字段名称以二次微调为准。
如果数据列存在空值,此列会被系统判定为非数值列,时序回归的目标列不可以选择非数值列。
-
标识列
主要用于对连续时间段的区分标识,若不填写默认单文件所有行为连续时序数据。可以定义日期列粒度的id相关的列,例如店铺的id,区域或采集批次等。若需要手动填写,填写格式为中括号,其中列举带双引号的特征列名,默认设置为中括号,表示所有的样本具有相同的标识。
-
类别特征列
使用LabelEncoder处理的特征列的列表,用于处理字符串类型的类别特征。若需要手动填写,填写格式为中括号,其中列举带双引号的特征列名,默认设置为中括号,表示没有需要使用LabelEncoder处理的特征。
-
协变量列
用于显式指定协变量例用时序任务建模。如果不填写,则自动选择协变量列。若需要手动填写,填写格式为中括号,其中列举带双引号的协变量列名,默认设置为中括号, 表示自动选择协变量列。
-
训练集切分比例
训练集切分比例。
说明:- 训练集切分比例、验证集切分比例、测试集切分比例三者之和为1。
- 时序回归任务数据会进行滑窗采样处理,实际样本数 = 时序序列数据行数 - 历史窗口大小 - 预测目标窗口大小 + 1。
- 如果历史窗口,预测目标窗口配置过大或对应比例配置过小,可能导致训练/验证/测试集有实际样本数不足的情况发生,从而触发训练报错。
0.7
验证集切分比例
验证集切分比例,注意:训练集切分比例、验证集切分比例、测试集切分比例三者之和为1.0。
0.2
测试集切分比例
测试集切分比例,注意:训练集切分比例、验证集切分比例、测试集切分比例三者之和为1.0。
0.1
特征是否独立建模
时序变量建模模式设置。若选择独立建模,则模型只关注预测目标列的选择的数据,并不做列数据区分,统一视作出自一个序列分布。若选择非独立建模,建模会考虑列变量之间的相关性,建模的变量范围为输入的数据列除去非特征列以及标识列的剩余数据内容。
true
历史窗口大小
时序预测输入的窗口长度,数值越大建模包含的历史信息越多,但相应的显存占用会增加以及模型拟合难度也会提升。请根据实际任务特点选择合适的输入窗口,建议取值范围128至512。
128
预测目标窗口大小
时序预测输出的窗口长度。数值越大输出预测的时间范围越大,但相应的显存占用会增加以及模型预测精度可能会下降。请根据实际任务特点选择合适的输出窗口,建议取值范围48至96,且尽量选择预测目标周期的整数倍。注若基于已发布模型的进行增量微调,输出窗口需要与其保持一致。
说明:二次微调支持输入窗口可变,但输出窗口的长度需要与之前保持一致。
96
训练轮数
迭代训练的epoch数量,请根据实际情况选择,不低于1,建议范围5至10。
5
数据批量大小
单卡的批处理大小,通常来说数据批量越大,梯度会越稳定。但是同时也会使用更大的显存,受硬件限制可能会OOM,并延长单步训练时长。
64
学习率
学习率用于控制每个训练step参数更新的幅度,一般来说需要选择一个合适的学习率,否则当学习率过大的时候会导致模型难以收敛,过小的时候会收敛速度过慢。
0.0001
热身比率
热身阶段占整体训练的比例。刚开始训练时若选择一个较大的学习率,可能带来模型的不稳定,选择使用warmup热身的方式,可以使得开始训练的热身阶段内学习率较小,在热身阶段的小学习率下,模型可以慢慢趋于稳定,等模型相对稳定后再逐渐提升至预设的最大学习率进行训练。使用热身可以使得模型收敛速度更快,效果更佳。
0.01
权重衰减系数
权重衰减系数。权重衰减是一种根据参数值大小对参数进行衰减的正则化方法,用于减少过拟合,权重衰减系数用于控制正则化的力度,权重衰减系数越大,正则化力度越强。
0.1
模型保存步数
定义模型每隔多少步保存一次,注意必须是10的整数倍。
100
是否使用指数移动平均
是否在训练过程中引入指数移动平均。指数移动平均(Exponential Moving Average)简称EMA,用于对模型参数进行平滑处理,从而提升训练过程的稳定性与最终模型的性能。
true
指数移动平均衰减系数
指数移动平均(EMA)的衰减系数,控制历史参数对当前 EMA 值的影响程度。值越大,历史参数影响越强,更新越平滑;值越小,则更关注最近的参数变化。例如,当设置为 0.999 时,EMA 会保留大量历史信息,更新缓慢但稳定;而设置为 0.99 则会让模型更快适应新参数,但波动也会更大。
0.98
模型验证阶段性能评价指标
在模型验证阶段,验证集评估指标选择。回归问题提供三种选择,模型在验证集上的平均绝对误差(MAE)、均方根误差(RMSE)、拟合度(R2),默认设置为均方根误差(RMSE)。
RMSE
盘古统一编码表格预测分类大模型(Pangu-Predict-Cla-Table-3.0.0)
数据集
选择训练所需的数据集。
-
类别特征列
使用LabelEncoder处理的特征列的列表,用于处理字符串类型的类别特征。若需要手动填写,填写格式为中括号,其中列举带双引号的特征列名,默认设置为中括号,表示没有需要使用LabelEncoder处理的特征。
-
非特征列
不作为输入特征的列,此处填写的特征列名将不作为模型训练的输入特征,不要将预测目标列的列名填入。若需要手动填写,填写格式为中括号,其中列举带双引号的特征列名,默认设置为中括号,表示选取全部特征用于训练。
-
预测目标列
预测目标的列名,指定预测目标变量列名,仅支持单目标变量预测。若需要手动填写,填写格式为中括号,其中列举带双引号的特征列名,默认设置为中括号,表示选择最后一列作为预测目标变量。
说明:二次微调不支持分类任务的分类数发生改变,需与原资产保持一致,推理服务接口输入字段名称以二次微调为准。
-
训练集切分比例
训练集切分比例,注意:训练集切分比例、验证集切分比例、测试集切分比例三者之和为1.0。
0.7
验证集切分比例
验证集切分比例,注意:训练集切分比例、验证集切分比例、测试集切分比例三者之和为1.0。
0.2
测试集切分比例
测试集切分比例,注意:训练集切分比例、验证集切分比例、测试集切分比例三者之和为1.0。
0.1
训练轮数
迭代训练的epoch数量,请根据实际情况选择,不低于1,建议范围5至10。
10
数据批量大小
单卡的批处理大小,通常来说数据批量越大,梯度会越稳定。但是同时也会使用更大的显存,受硬件限制可能会OOM,并延长单步训练时长。
64
学习率
学习率用于控制每个训练step参数更新的幅度,一般来说需要选择一个合适的学习率,否则当学习率过大的时候会导致模型难以收敛,过小的时候会收敛速度过慢。
0.0001
热身比率
热身阶段占整体训练的比例。刚开始训练时若选择一个较大的学习率,可能带来模型的不稳定,选择使用warmup热身的方式,可以使得开始训练的热身阶段内学习率较小,在热身阶段的小学习率下,模型可以慢慢趋于稳定,等模型相对稳定后再逐渐提升至预设的最大学习率进行训练。使用热身可以使得模型收敛速度更快,效果更佳。
0.01
权重衰减系数
权重衰减系数。权重衰减是一种根据参数值大小对参数进行衰减的正则化方法,用于减少过拟合,权重衰减系数用于控制正则化的力度,权重衰减系数越大,正则化力度越强。
0.1
模型保存步数
定义模型每隔多少步保存一次,注意必须是10的整数倍。
100
是否使用指数移动平均
是否在训练过程中引入指数移动平均。指数移动平均(Exponential Moving Average)简称EMA,用于对模型参数进行平滑处理,从而提升训练过程的稳定性与最终模型的性能。
true
指数移动平均衰减系数
指数移动平均(EMA)的衰减系数,控制历史参数对当前 EMA 值的影响程度。值越大,历史参数影响越强,更新越平滑;值越小,则更关注最近的参数变化。例如,当设置为 0.999 时,EMA 会保留大量历史信息,更新缓慢但稳定;而设置为 0.99 则会让模型更快适应新参数,但波动也会更大。
0.98
模型验证阶段性能评价指标
在模型验证阶段,验证集评估指标选择。分类问题提供两种选择,模型在验证集上的准确率(ACC)、拟合度(F1),默认设置为准确率(ACC)。
ACC
盘古统一编码表格预测回归大模型(Pangu-Predict-Reg-Table-3.0.0)
数据集
选择训练所需的数据集。
-
类别特征列
不作为输入特征的列,此处填写的特征列名将不作为模型训练的输入特征,不要将预测目标列的列名填入。若需要手动填写,填写格式为中括号,其中列举带双引号的特征列名,默认设置为中括号,表示选取全部特征用于训练。
-
非特征列
不作为输入特征的列,此处填写的特征列名将不作为模型训练的输入特征,不要将预测目标列的列名填入。若需要手动填写,填写格式为中括号,其中列举带双引号的特征列名,默认设置为中括号,表示选取全部特征用于训练。
-
预测目标列
预测目标的列名,指定预测目标变量列名,仅支持单目标变量预测。若需要手动填写,填写格式为中括号,其中列举带双引号的特征列名,默认设置为中括号,表示选择最后一列作为预测目标变量。
说明:二次微调不支持分类任务的分类数发生改变,需与原资产保持一致,推理服务接口输入字段名称以二次微调为准。
-
训练集切分比例
训练集切分比例,注意:训练集切分比例、验证集切分比例、测试集切分比例三者之和为1.0。
0.7
验证集切分比例
验证集切分比例,注意:训练集切分比例、验证集切分比例、测试集切分比例三者之和为1.0。
0.2
测试集切分比例
测试集切分比例,注意:训练集切分比例、验证集切分比例、测试集切分比例三者之和为1.0。
0.1
训练轮数
迭代训练的epoch数量,请根据实际情况选择,不低于1,建议范围5至10。
10
数据批量大小
单卡的批处理大小,通常来说数据批量越大,梯度会越稳定。但是同时也会使用更大的显存,受硬件限制可能会OOM,并延长单步训练时长。
64
学习率
学习率用于控制每个训练step参数更新的幅度,一般来说需要选择一个合适的学习率,否则当学习率过大的时候会导致模型难以收敛,过小的时候会收敛速度过慢。
0.0001
热身比率
热身阶段占整体训练的比例。刚开始训练时若选择一个较大的学习率,可能带来模型的不稳定,选择使用warmup热身的方式,可以使得开始训练的热身阶段内学习率较小,在热身阶段的小学习率下,模型可以慢慢趋于稳定,等模型相对稳定后再逐渐提升至预设的最大学习率进行训练。使用热身可以使得模型收敛速度更快,效果更佳。
0.01
权重衰减系数
权重衰减系数。权重衰减是一种根据参数值大小对参数进行衰减的正则化方法,用于减少过拟合,权重衰减系数用于控制正则化的力度,权重衰减系数越大,正则化力度越强。
0.1
模型保存步数
定义模型每隔多少步保存一次,注意必须是10的整数倍。
100
是否使用指数移动平均
是否在训练过程中引入指数移动平均。指数移动平均(Exponential Moving Average)简称EMA,用于对模型参数进行平滑处理,从而提升训练过程的稳定性与最终模型的性能。
true
指数移动平均衰减系数
指数移动平均(EMA)的衰减系数,控制历史参数对当前 EMA 值的影响程度。值越大,历史参数影响越强,更新越平滑;值越小,则更关注最近的参数变化。例如,当设置为 0.999 时,EMA 会保留大量历史信息,更新缓慢但稳定;而设置为 0.99 则会让模型更快适应新参数,但波动也会更大。
0.98
是否使用分布头
使用分布头的种类,默认不使用分布头(None)。若使用提供三种选择,正态分布头(Normal)、Laplace分布头(Laplace)、以及Student分布头(Student)。在模型训练过程中,最后一层参数不是直接输出一个确定的值,而是输出一个概率分布的参数,以提高模型拟合能力。
None
模型验证阶段性能评价指标
在模型验证阶段,验证集评估指标选择。回归问题提供四种选择,模型在验证集上的平均绝对误差(MAE)、均方根误差(RMSE)、拟合度(R2),默认设置为均方误差(RMSE)。
RMSE
盘古时序异常检测大模型(Pangu-Predict-Anom-TS-3.0.0)
数据集
选择训练所需的数据集。
-
非特征列
不作为输入特征的列,此处填写的特征列名将不作为模型训练的输入特征,不要将预测目标列的列名填入。若需要手动填写,填写格式为中括号,其中列举带双引号的特征列名,默认设置为中括号,表示选取全部特征用于训练。
-
预测目标列
预测目标的列名,指定预测目标变量列名。若需要手动填写,填写格式为中括号,其中列举带双引号的特征列名,默认设置为中括号,表示选择除去非特征列、标识列、异常标签列以外的所有列为预测目标列。
说明:二次微调列名变量数需要与之前保持一致,推理服务接口输入字段名称以二次微调为准。
-
标识列
主要用于对连续时间段的区分标识,若不填写默认单文件所有行为连续时序数据。可以定义日期列粒度的id相关的列,例如店铺的id,区域或采集批次等。若需要手动填写,填写格式为中括号,其中列举带双引号的特征列名,默认设置为中括号,表示所有的样本具有相同的标识。
-
异常标签列
记录每个时间点机器运行状态,为二分类列,记录正异常两个状态。若需要手动填写,填写格式为中括号,其中列举带双引号的异常标签列名,默认设置为中括号,表示选择最后一列作为异常标签列。
-
正常标签值
指定正常类别名称,用于最终模型评估阶段计算误报率、漏报率等指标。默认设置为0,表示正常类别名称为0。
0
是否对数据集进行全局归一化
是否在训练过程中对训练数据集进行全局归一化,默认进行全局归一化。
true
下游适配器
为适配多种异常模式,系统提供 3-Sigma、IQR+3-Sigma、SPOT 和 MLP 四种下游适配器。
- 3-Sigma适用于全量正常数据,假设数据近似正态分布。
- IQR+3-Sigma对离群值鲁棒,适合含较多或较明显异常的数据
- SPOT基于统计的动态阈值法,适合异常较少且难以预判的场景
- MLP基于标注数据的轻量分类头,当正异常样本标注可靠且分布均衡时,可捕捉一定非线性特征辅助判别。
依据实际工业场景,默认选择SPOT算法。各下游适配器支持用户自定义参数,参数含义以及调节范围见表5。
SPOT
盘古融合推荐回归大模型(Pangu-Predict-Reg-Table-2.0.2)
数据集选择
选择训练所需的数据集。
-
类别特征列
使用LabelEncoder处理的特征列的列表,用于处理字符串类型的类别特征。若需要手动填写,填写格式为中括号,其中列举带双引号的特征列名,默认设置为中括号,表示没有需要使用LabelEncoder处理的特征。
-
非特征列
不作为输入特征的列,此处填写的特征列名将不作为模型训练的输入特征,不要将预测目标列的列名填入。若需要手动填写,填写格式为中括号,其中列举带双引号的特征列名,默认设置为中括号,表示选取全部特征用于训练。
-
标准化列
使用最大最小值标准化处理的特征列的列表,用于处理分布差异较大的数值特征。若需要手动填写,填写格式为中括号,其中列举带双引号的特征列名,默认设置为中括号,表示全部特征都不需要进行标准化。
-
预测目标列
预测目标的列名,指定预测目标变量列名,gatednet算法支持多目标变量预测,其余算法仅支持单目标变量预测。若需要手动填写,填写格式为中括号,其中列举带双引号的特征列名,默认设置为中括号,表示选择最后一列作为预测目标变量。
-
训练集&验证集比例
验证集比例,填入验证集比例即可。默认设置为0.2,即训练集占0.8,验证集占0.2。可选范围为0.1,0.2,0.3,0.4。
0.2
模型配置
支持自选基模型(如LightGBM、XGBoost等)及推荐基模型(Rec Model),基模型总数限制为1至20。当自选模型+推荐模型>=2时,融合模型(Fuse Model)生效。注意:GaussianProcess适合维度小于10且数据量小于500的样本数据。仅Gated Adaptive Network支持多目标预测,这一基模型不支持和其他基模型同时使用。
自选基模型是用户从预定义的基模型算法池中自选用于训练模型的基模型,推荐基模型是由推荐模型推荐的基模型。
支持用户自定义各基模型个数,部分基模型支持用户自定义参数,参数含义及调节范围参见界面描述。
-
训练特征重要性
是否在训练完成之后,计算模型的权重特征重要性,并在界面展示各特征的重要性分值及排序。支持权重特征重要性的模型有AdaBoost、LightGBM、XGBoost、RandomForest、ExtraTrees、GradientBoosting和Rec Model。当【模型配置】中至少配置以上模型中的一个,用户可以打开此选项。否则此项无法打开,界面不展示相关信息。
融合推荐回归预测大模型提供两种特征重要性,分别为模型权重特征重要性(训练特征重要性)和排列特征重要性,对两种特征重要性的详细说明参见排列特征重要性部分。
false
盘古融合推荐异常检测大模型(Pangu-Predict-Anom-Table-2.0.2)
数据集选择
选择训练所需的数据集。
-
类别特征列
使用LabelEncoder处理的特征列的列表,用于处理字符串类型的类别特征。若需要手动填写,填写格式为中括号,其中列举带双引号的特征列名,默认设置为中括号,表示没有需要使用LabelEncoder处理的特征。
-
非特征列
不作为输入特征的列,此处填写的特征列名将不作为模型训练的输入特征,不要将预测目标列的列名填入。若需要手动填写,填写格式为中括号,其中列举带双引号的特征列名,默认设置为中括号,表示选取全部特征用于训练。
-
标准化列
使用最大最小值标准化处理的特征列的列表,用于处理分布差异较大的数值特征。若需要手动填写,填写格式为中括号,其中列举带双引号的特征列名,默认设置为中括号,表示全部特征都不需要进行标准化。
-
预测目标列
预测目标的列名,指定预测目标变量列名,仅支持单目标变量预测。若需要手动填写,填写格式为中括号,其中列举带双引号的特征列名,默认设置为中括号,表示选择最后一列作为预测目标变量。
-
是否设置预测阈值
是否设置预测阈值,默认不设置。如果需要设置预测阈值,需要配置预测概率阈值,用于确定预测标签值。
false
预测阈值
预测概率阈值,用于确定预测标签值,如果预测目标列某一类别的预测概率值大于预测概率阈值,那么预测标签值为该类别,如果所有类别的预测概率值都小于预测概率阈值,那么预测标签值为无效样本,阈值范围从0至1。
0.5
训练集&验证集比例
将数据集划分为训练集和验证集,填入验证集比例即可,默认设置为0.2,即训练集占0.8,验证集占0.2,可选范围为0.1、0.2、0.3、0.4。
0.2
基模型算法池
由用户指定算法池中的算法,包括knn,iforest,loda,ocsvm,其中knn表示k最近邻算法,iforest表示孤立森林,loda表示Loda算法,ocsvm表示One Class SVM算法,默认为2iforest,表示2个iforest。多种类算法示例为3iforest,2loda,1ocsvm,表示3个iforest2个loda和1个ocsvm。算法数量限制为0至20。
2iforest
推荐的模型个数
由推荐模型推荐的模型数,参数的范围为0至20,0代表不使用推荐模型。假设基模型算法池为2iforest,推荐的模型个数为5,表示基模型有2个iforest,另外5个是由推荐模型推荐的。
5
盘古融合推荐分类大模型
(Pangu-Predict-Cla-Table-2.0.2)
数据集选择
选择训练所需的数据集。
-
类别特征列
使用LabelEncoder处理的特征列的列表,用于处理字符串类型的类别特征。若需要手动填写,填写格式为中括号,其中列举带双引号的特征列名,默认设置为中括号,表示没有需要使用LabelEncoder处理的特征。
-
非特征列
不作为输入特征的列,此处填写的特征列名将不作为模型训练的输入特征,不要将预测目标列的列名填入。若需要手动填写,填写格式为中括号,其中列举带双引号的特征列名,默认设置为中括号,表示选取全部特征用于训练。
-
标准化列
使用最大最小值标准化处理的特征列的列表,用于处理分布差异较大的数值特征。若需要手动填写,填写格式为中括号,其中列举带双引号的特征列名,默认设置为中括号,表示全部特征都不需要进行标准化。
-
预测目标列
预测目标的列名,指定预测目标变量列名,仅支持单目标变量预测。若需要手动填写,填写格式为中括号,其中列举带双引号的特征列名,默认设置为中括号,表示选择最后一列作为预测目标变量。
-
是否设置预测阈值
是否设置预测阈值,默认不设置。如果需要设置预测阈值,需要配置预测概率阈值,用于确定预测标签值。
false
预测阈值
预测概率阈值,用于确定预测标签值,如果预测目标列某一类别的预测概率值大于预测概率阈值,那么预测标签值为该类别,如果所有类别的预测概率值都小于预测概率阈值,那么预测标签值为无效样本,阈值范围从0至1。
0.5
训练集&验证集比例
验证集比例,填入验证集比例即可。默认设置为0.2,即训练集占0.8,验证集占0.2。可选范围为0.1,0.2,0.3,0.4。
0.2
模型配置
支持自选基模型(如LightGBM、XGBoost等)及推荐基模型(Rec Model),基模型总数限制为1至20。当自选模型+推荐模型>=2时,融合模型(Fuse Model)生效。注意:GaussianProcess适合维度小于10且数据量小于500的样本数据。
自选基模型是用户从预定义的基模型算法池中自选用于训练模型的基模型,推荐基模型是由推荐模型推荐的基模型。
支持用户自定义各基模型个数,部分基模型支持用户自定义参数,参数含义及调节范围参见界面描述。
-
训练特征重要性
是否在训练完成之后,计算模型的权重特征重要性,并在界面展示各特征的重要性分值及排序。支持权重特征重要性的模型有AdaBoost、LightGBM、XGBoost、RandomForest、ExtraTrees、GradientBoosting和Rec Model。当【模型配置】中至少配置以上模型中的一个,用户可以打开此选项。否则此项无法打开,界面不展示相关信息。
融合推荐分类预测大模型提供两种特征重要性,分别为模型权重特征重要性(训练特征重要性)和排列特征重要性,对两种特征重要性的详细说明参见排列特征重要性部分。
false
盘古融合推荐回归大模型-极简模式(Pangu-Predict-Reg-Table-2.1.1)
数据集
选择训练所需的数据集。
-
非特征列
不作为输入特征的列,此处填写的特征列名将不作为模型训练的输入特征,不要将预测目标列的列名填入。若需要手动填写,填写格式为中括号,其中列举带双引号的特征列名,默认设置为中括号,表示选取全部特征用于训练。
-
类别特征列
使用LabelEncoder处理的特征列的列表,用于处理字符串类型的类别特征。若需要手动填写,填写格式为中括号,其中列举带双引号的特征列名,默认设置为中括号,表示没有需要使用LabelEncoder处理的特征。
-
标准化列
使用最大最小值标准化处理的特征列的列表,用于处理分布差异较大的数值特征。若需要手动填写,填写格式为中括号,其中列举带双引号的特征列名,默认设置为中括号,表示全部特征都不需要进行标准化。
-
预测目标列
预测目标的列名,指定预测目标变量列名,仅支持单目标变量预测。若需要手动填写,填写格式为中括号,其中列举带双引号的特征列名,默认设置为中括号,表示选择最后一列作为预测目标变量。
-
训练集&验证集比例
验证集比例,填入验证集比例即可。默认设置为0.2,即训练集占0.8,验证集占0.2。可选范围为0.1,0.2,0.3,0.4。
0.2
训练特征重要性
是否在训练完成之后,计算模型的训练特征重要性。此处提供的特征重要性为排列特征重要性,详细说明参见排列特征重要性部分。
false
训练模式
代表不同的模型组合和训练策略。Efficiency First相较Default,训练用时减少,但模型效果可能降低。
Default
盘古融合推荐分类大模型-极简模式(Pangu-Predict-Cla-Table-2.1.1)
与盘古融合推荐回归大模型-极简模式(Pangu-Predict-Reg-Table-2.1.1)相同。
结构化数据预测(Pangu-Predict-Struct-1.1.0)
数据集选择
选择训练所需的数据集。
-
问题类型
预测问题类型。regression为回归问题。classification为分类问题。
预测问题类型定义:
- 目标的预测值仅取决于同一样本中特征列的值,且预测目标是连续变量为回归预测问题。
- 目标的预测值仅取决于同一样本中特征列的值,且预测目标是离散变量为分类预测问题。
regression
是否标准化
是否标准化数据量纲,为了消除数据量纲不同对预测结果的影响,建议对原始指标数据进行标准化处理,默认设置为True。
true
非特征列
不作为输入特征的列,此处填写的特征列名将不作为模型训练的输入特征。若需要手动填写,填写格式为中括号,其中列举带引号的特征列名,默认设置为中括号,表示选取全部特征用于训练。
-
预测目标列
预测目标的列名,指定预测目标变量列名,仅支持单目标变量预测。若需要手动填写,填写格式为中括号,其中列举带引号的特征列名,默认设置为中括号,表示选择最后一列作为预测目标变量。
-
特征编码
需要进行特征映射的列,将非数值的列,转换成数值类型的类,用于分类任务,若预测目标列为中英文,则必须进行特征编码。若需要手动填写,填写格式为中括号,其中列举带引号的特征列名,默认设置为中括号,表示选择的列为需要进行特征转换的列。
-
训练集&验证集比例
训练集比例。填入训练集比例即可,默认设置为0.8,即训练集占0.8,验证集占0.2。可选范围为0.6、0.7、0.8、0.9。
0.8
是否启用图网络融合
是否启用图网络进行基模型融合,如果启用图网络融合,则通过图网络对多个完整的基模型组成的层次网络输出进行信息聚合,得到输出结果。否则采用加权求和的方式进行信息聚合,建议启用图网络进行基模型融合,预测效果更优。默认设置为True,表示启用图网络融合。
true
基模型算法池
基模型算法池。由用户指定算法池中的算法,其中xgb表示xgboost,lgb表示lightgbm,et表示extraTree,rf表示随机森林,ada表示adaboost,gb表示梯度提升树,gp表示高斯过程且适合维度小于10,数据量小于500的样本数据。默认算法池包含xgb、lgb、rf、et、gb。
["xgb","lgb","rf","et","gb"]
表5 下游适配器参数详情 下游适配器
训练参数
参数描述
典配值
SPOT
训练集切分比例
训练集切分比例。注意:训练集切分比例、测试集切分比例两者之和为1.0。
0.8
测试集切分比例
测试集切分比例。注意:训练集切分比例、测试集切分比例两者之和为1.0。
0.2
数据批量大小
单卡的批处理大小。通常来说数据批量越大,梯度会越稳定。但是同时也会使用更大的显存,受硬件限制可能会OOM,并延长单步训练时长。
64
初始化数据切分比例
初始化数据切分比例。SPOT算法需要先学习正常数据的样子,才能判断后面的数据是不是异常(极端值)。表示用于初始化模型的历史数据占比,算法基于该部分数据学习正常行为模式,以建立初始阈值。建议取值范围:0.8~0.99。
0.98
异常概率阈值
异常概率阈值。定义被视为极端事件的数据出现概率。值越小,检测越敏感。例如,qs = 0.01 表示预期每100个数据点中出现1个极值。建议取值范围:0.00001 ~ 0.1。
0.001
3-Sigma
训练集切分比例
训练集切分比例,注意:训练集切分比例、测试集切分比例两者之和为1.0。
0.8
测试集切分比例
测试集切分比例,注意:训练集切分比例、测试集切分比例两者之和为1.0。
0.2
数据批量大小
单卡的批处理大小。通常来说数据批量越大,梯度会越稳定。但是同时也会使用更大的显存,受硬件限制可能会OOM,并延长单步训练时长。
64
IQR+3-Sigma
下游适配器IQR+3-Sigma训练参数以及参数说明同3-Sigma。
MLP
训练集切分比例
训练集切分比例。注意:训练集切分比例、验证集切分比例、测试集切分比例三者之和为1.0。
0.7
验证集切分比例
验证集切分比例。注意:训练集切分比例、验证集切分比例、测试集切分比例三者之和为1.0。
0.1
测试集切分比例
测试集切分比例。注意:训练集切分比例、验证集切分比例、测试集切分比例三者之和为1.0。
0.2
训练轮数
迭代轮次。迭代训练的epoch数量,请根据实际情况选择,不低于1,建议范围5至10。
5
数据批量大小
单卡的批处理大小。通常来说数据批量越大,梯度会越稳定。但是同时也会使用更大的显存,受硬件限制可能会OOM,并延长单步训练时长。
64
学习率
学习率。学习率用于控制每个训练step参数更新的幅度,一般来说需要选择一个合适的学习率,否则当学习率过大的时候会导致模型难以收敛,过小的时候会收敛速度过慢。
0.001
热身比率
热身比率。热身阶段占整体训练的比例。刚开始训练时若选择一个较大的学习率,可能带来模型的不稳定,选择使用warmup热身的方式,可以使得开始训练的热身阶段内学习率较小,在热身阶段的小学习率下,模型可以慢慢趋于稳定,等模型相对稳定后再逐渐提升至预设的最大学习率进行训练。使用热身可以使得模型收敛速度更快,效果更佳。
0.001
权重衰减系数
权重衰减系数。权重衰减是一种根据参数值大小对参数进行衰减的正则化方法,用于减少过拟合,权重衰减系数用于控制正则化的力度,权重衰减系数越大,正则化力度越强。
0.1
模型保存步数
模型保存步数。定义模型每隔多少步保存一次,注意必须是10的整数倍。
100
- 参数填写完成后,单击“立即创建”。
- 创建好训练任务后,页面将返回“模型训练”页面,可随时查看当前任务的状态。
创建预测大模型增量训练任务
在模型完成创建预测大模型微调任务后,可以对训练后的模型继续训练,该过程称为“增量训练”。
创建预测大模型增量预训练任务前,请确保有已完成预训练的预测大模型。
创建预测大模型增量预训练任务的步骤如下:
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
图2 我的空间
- 在左侧导航栏中选择“模型开发 > 模型训练”,单击界面右上角“创建训练任务”。
- 在“选择模型”页面,选择“我的资产 > 预测大模型 > 模型”,单击“确定”进入“创建训练任务”页面。
- 其余参数配置等步骤同创建预测大模型微调任务。