创建预测大模型训练任务

创建预测大模型预训练任务

目前时序异常检测大模型支持预训练工作流，创建预测大模型预训练任务步骤如下：

登录ModelArts Studio平台，在“我的空间”模块，单击进入所需空间。
在左侧导航栏中选择“模型开发 > 模型训练”，单击右上角“创建训练任务”。

在“创建训练任务”页面，参考表1完成训练参数设置。

其中，“训练参数”展示了各场景涉及到的全部参数，请根据具体前端页面展示的参数进行设置。

表1 预测大模型预训练参数说明
参数分类	训练参数	说明
训练配置	选择模型	可以修改如下信息：来源：选择“模型广场”或“我的资产”。类型：选择“预测大模型”，并选择训练所用的基础模型和版本。
训练配置	训练类型	选择“预训练”。
训练参数	训练参数	模型训练参数，参考表3。
环境变量	环境变量	模型训练支持设置的环境变量，目前只有盘古融合推荐分类大模型-极简模式、盘古融合推荐回归大模型-极简模式两个模型支持。预测大模型模型训练支持的环境变量列表参考表2，请按照支持列表填写环境变量，错填可能会导致训练作业运行失败。
资源配置	计费模式	选择训练当前任务的计费模式。
	训练单元	选择训练模型所需的训练单元。当前展示的完成本次训练所需要的最低训练单元要求。
	单实例训练单元数	选择单实例训练单元数。
	实例数	选择实例数。
	优先级	控制训练任务优先级，优先级高的任务优先执行。优先级相同的任务，先创建的先执行。
订阅提醒	订阅提醒	该功能开启后，平台支持两种订阅类型，预置通知和SMN通知。预置通知：系统将在任务状态完成或失败时，通过短信或邮件将提醒发送给用户。 SMN通知：用户可在SMN云服务创建主题并维护订阅信息，在创建训练时选择对应主题以及需要通知的状态。训练状态范围：停止，失败，完成。用户手工触发的停止操作不通知用户，而资源到期的停止需通知用户。
发布模型	开启自动发布	开启自动发布后，模型训练完成的最终产物会自动发布为空间资产，以便对模型进行部署、评测等操作或共享给其他空间。
	模型可见性	选择发布模型的可见范围。本空间可见：发布的模型仅当前工作空间可见。全空间可见：发布的模型在所有空间均可见。
	模型名称	要发布的模型资产名称。
	描述（可选）	要发布的模型资产的相关描述，选填。
基本信息	名称	训练任务名称。
基本信息	描述	训练任务描述。

表2 预测大模型训练支持的环境变量列表
模型类型	变量名称	变量值	变量说明
盘古融合推荐分类大模型-极简模式（Pangu-Predict-Cla-Table-V2.1.4）	ASCEND_GLOBAL_LOG_LEVEL	取值范围0,1,2,3 0，DEBUG级别 1，INFO级别 2，WARNING级别 3，ERROR级别	昇腾日志级别，不设置时默认为3。注意：日志级别越小，打印的日志越多，训练时间也越长，请合理设置。
盘古融合推荐回归大模型-极简模式（Pangu-Predict-Reg-Table-V2.1.4）	ASCEND_GLOBAL_LOG_LEVEL	取值范围0,1,2,3 0，DEBUG级别 1，INFO级别 2，WARNING级别 3，ERROR级别	昇腾日志级别，不设置时默认为3。注意：日志级别越小，打印的日志越多，训练时间也越长，请合理设置。

表3 预测大模型训练参数说明 - 预训练
模型类型	训练参数	说明	典配值
盘古时序异常检测大模型（Pangu-Predict-Anom-TS-V3.0.1）	数据集	选择训练所需的数据集。	-
	非特征列	不作为输入特征的列，此处填写的特征列名将不作为模型训练的输入特征，不要将预测目标列的列名填入。默认选取全部特征用于训练。	-
	预测目标列	预测目标的列名，指定预测目标变量列名。默认选择除去非特征列、标识列以外的所有列为预测目标列。	-
	标识列	主要用于对连续时间段的区分标识，若不填写默认单文件所有行为连续时序数据。可以定义日期列粒度的id相关的列，例如店铺的id，区域或采集批次等。默认所有的样本具有相同的标识。	-
	增训模式	预训练工作流增训模式，分为全量增训模型（ENC+DEC)和仅增训模型解码器（DEC）两种模式。时序异常检测模型分为编码器以及解码器两个部分，预置模型已经过百万亿时间点的训练，其编码器已具有较强的正常数据拟合能力，开放全量增训模型和仅增训解码器两种模式，可根据实际情况进行选择。	DEC
	训练集切分比例	训练集切分比例，注意：训练集切分比例、验证集切分比例两者之和为1.0。	0.8
	验证集切分比例	验证集切分比例，注意：训练集切分比例、验证集切分比例两者之和为1.0。	0.2
	训练轮数	迭代训练的epoch数量，请根据实际情况选择，不低于1，建议范围5至10。	5
	数据批量大小	单卡的批处理大小，通常来说数据批量越大，梯度会越稳定。但是同时也会使用更大的显存，受硬件限制可能会OOM，并延长单步训练时长。	64
	学习率	学习率用于控制每个训练step参数更新的幅度，一般来说需要选择一个合适的学习率，否则当学习率过大的时候会导致模型难以收敛，过小的时候会收敛速度过慢。	0.0001
	热身比率	热身阶段占整体训练的比例。刚开始训练时若选择一个较大的学习率，可能带来模型的不稳定，选择使用warmup热身的方式，可以使得开始训练的热身阶段内学习率较小，在热身阶段的小学习率下，模型可以慢慢趋于稳定，等模型相对稳定后再逐渐提升至预设的最大学习率进行训练。使用热身可以使得模型收敛速度更快，效果更佳。	0
	权重衰减系数	权重衰减系数。权重衰减是一种根据参数值大小对参数进行衰减的正则化方法，用于减少过拟合，权重衰减系数用于控制正则化的力度，权重衰减系数越大，正则化力度越强。	0.001
	模型保存步数	定义模型每隔多少步保存一次，注意必须是10的整数倍。	100

参数填写完成后，单击“立即创建”。
创建好训练任务后，页面将返回“模型训练”页面，可随时查看当前任务的状态。

创建预测大模型微调任务

创建预测大模型微调任务步骤如下：

登录ModelArts Studio大模型开发平台，在“我的空间”模块，单击进入所需空间。
图1 我的空间
在左侧导航栏中选择“模型开发 > 模型训练”，单击右上角“创建训练任务”。

在“创建训练任务”页面，参考表4完成训练参数设置。

其中，“训练参数”展示了各场景涉及到的全部参数，请根据具体前端页面展示的参数进行设置。

表4 预测大模型微调参数说明
参数分类	训练参数	说明
训练配置	选择模型	可以修改如下信息：来源：选择“模型广场”或“我的资产”。类型：选择“预测大模型”，并选择训练所用的基础模型和版本。
	训练类型	选择“微调”。
	训练目标	选择“全量微调”。全量微调：在模型进行有监督微调时，对大模型的所有参数进行更新。这种方法通常能够实现最佳的模型性能，但需要消耗大量计算资源和时间，计算开销较大。
训练参数	训练参数	模型训练参数，参考表5。
资源配置	计费模式	选择训练当前任务的计费模式。
	训练单元	选择训练模型所需的训练单元。当前展示的完成本次训练所需要的最低训练单元要求。
	单实例训练单元数	选择单实例训练单元数。
	优先级	优先级相同的任务，先创建先执行。
	实例数	选择实例数。
订阅提醒	订阅提醒	该功能开启后，平台支持两种订阅类型，预置通知和SMN通知。预置通知：系统将在任务状态完成或失败时，通过短信或邮件将提醒发送给用户。 SMN通知：用户可在SMN云服务创建主题并维护订阅信息，在创建训练时选择对应主题以及需要通知的状态。训练状态范围：停止，失败，完成。用户手工触发的停止操作不通知用户，而资源到期的停止需通知用户。
发布模型	开启自动发布	开启自动发布后，模型训练完成的最终产物会自动发布为空间资产，以便对模型进行部署、评测等操作或共享给其他空间。
	模型可见性	选择发布模型的可见范围。本空间可见：发布的模型仅当前工作空间可见。全空间可见：发布的模型在所有空间均可见。
	模型名称	要发布的模型资产名称。
	描述（可选）	要发布的模型资产的相关描述，选填。
基本信息	名称	训练任务名称。
基本信息	描述	训练任务描述。

表5 预测大模型训练参数说明 - 微调
模型类型	训练参数	说明	典配值
盘古统一编码时序预测分类大模型（Pangu-Predict-Cla-TS-V3.0.3）	数据集	选择训练所需的数据集。	-
	非特征列	不作为输入特征的列，此处填写的特征列名将不作为模型训练的输入特征，不要将预测目标列的列名填入。默认选取全部特征用于训练。	-
	预测目标列	预测目标的列名，指定预测目标变量列名。默认选择最后一列作为预测目标变量。注若基于已发布模型的进行增量微调，分类样本标签数与其保持一致。说明：二次微调不支持分类任务的分类数发生改变，需与原资产保持一致，推理服务接口输入字段名称以二次微调为准。	-
	标识列	用于对连续时间段样本点的区分标识。时序分类任务会将相同ID的行数据视作同一个序列样本，因此时序分类任务必须填写。默认所有的样本具有相同的标识。	-
	类别特征列	使用LabelEncoder处理的特征列的列表，用于处理字符串类型的类别特征。默认没有需要使用LabelEncoder处理的特征。	-
	协变量列	用于显式指定协变量用于时序任务建模。如果不填写，则自动选择协变量列。默认自动选择协变量列。	-
	训练集切分比例	训练集切分比例。说明：训练集切分比例、验证集切分比例、测试集切分比例三者之和为1。时序分类任务会基于标识列的填写进行序列数据分组（类似SQL里面的Group_By操作），数据集切分会在组和组之间进行。而在一个组内进行滑窗采样处理生成最后数据集样本，组内样本数 = 组内时序序列数据行数 - 历史窗口大小 + 1，对应数据集样本数 = 数据集切分组数 * 组内样本数。如果历史窗口配置过大或对应比例配置过小，可能导致训练/验证/测试集有实际样本数不足的情况发生，从而触发训练报错。	0.7
	验证集切分比例	验证集切分比例，注意：训练集切分比例、验证集切分比例、测试集切分比例三者之和为1.0。	0.2
	测试集切分比例	测试集切分比例，注意：训练集切分比例、验证集切分比例、测试集切分比例三者之和为1.0。	0.1
	历史窗口大小	时序预测输入的窗口长度，数值越大建模包含的历史信息越多，但相应的显存占用会增加以及模型拟合难度也会提升。请根据实际任务特点选择合适的输入窗口，建议取值范围128至512。	128
	训练轮数	迭代训练的epoch数量，请根据实际情况选择，不低于1，建议范围5至10。	5
	数据批量大小	单卡的批处理大小，通常来说数据批量越大，梯度会越稳定。但是同时也会使用更大的显存，受硬件限制可能会OOM，并延长单步训练时长。	64
	学习率	学习率用于控制每个训练step参数更新的幅度，一般来说需要选择一个合适的学习率，否则当学习率过大的时候会导致模型难以收敛，过小的时候会收敛速度过慢。	0.0001
	热身比率	热身阶段占整体训练的比例。刚开始训练时若选择一个较大的学习率，可能带来模型的不稳定，选择使用warmup热身的方式，可以使得开始训练的热身阶段内学习率较小，在热身阶段的小学习率下，模型可以慢慢趋于稳定，等模型相对稳定后再逐渐提升至预设的最大学习率进行训练。使用热身可以使得模型收敛速度更快，效果更佳。	0.01
	权重衰减系数	权重衰减系数。权重衰减是一种根据参数值大小对参数进行衰减的正则化方法，用于减少过拟合，权重衰减系数用于控制正则化的力度，权重衰减系数越大，正则化力度越强。	0.1
	模型保存步数	定义模型每隔多少步保存一次，注意必须是10的整数倍。	100
	是否使用指数移动平均	是否在训练过程中引入指数移动平均。指数移动平均（Exponential Moving Average）简称EMA，用于对模型参数进行平滑处理，从而提升训练过程的稳定性与最终模型的性能。	true
	指数移动平均衰减系数	指数移动平均（EMA）的衰减系数，控制历史参数对当前 EMA 值的影响程度。值越大，历史参数影响越强，更新越平滑；值越小，则更关注最近的参数变化。例如，当设置为 0.999 时，EMA 会保留大量历史信息，更新缓慢但稳定；而设置为 0.99 则会让模型更快适应新参数，但波动也会更大。	0.98
	模型验证阶段性能评价指标	在模型验证阶段，验证集评估指标选择。分类问题提供两种选择，模型在验证集上的准确率（ACC）、拟合度（F1），默认设置为准确率（ACC）。	ACC
盘古统一编码时序预测回归大模型（Pangu-Predict-Reg-TS-V3.1.1）	数据集	选择训练所需的数据集。	-
	非特征列	不作为输入特征的列，此处填写的特征列名将不作为模型训练的输入特征，不要将预测目标列的列名填入。默认选取全部特征用于训练。	-
	预测目标列	预测目标的列名，指定预测目标变量列名。默认选择最后一列作为预测目标变量。若基于已发布模型的进行增量微调，预测目标数量需与其保持一致。说明：二次微调支持列名/变量数发生变化，但回归任务的目标变量数需要与之前保持一致，推理服务接口输入字段名称以二次微调为准。如果数据列存在空值，此列会被系统判定为非数值列，时序回归的目标列不可以选择非数值列。	-
	标识列	主要用于对连续时间段的区分标识，若不填写默认单文件所有行为连续时序数据。可以定义日期列粒度的id相关的列，例如店铺的id，区域或采集批次等。默认所有的样本具有相同的标识。	-
	类别特征列	使用LabelEncoder处理的特征列的列表，用于处理字符串类型的类别特征。默认没有需要使用LabelEncoder处理的特征。	-
	协变量列	用于显式指定协变量例用时序任务建模。如果不填写，则自动选择协变量列。默认自动选择协变量列。	-
	训练集切分比例	训练集切分比例。说明：训练集切分比例、验证集切分比例、测试集切分比例三者之和为1。时序回归任务数据会进行滑窗采样处理，实际样本数 = 时序序列数据行数 - 历史窗口大小 - 预测目标窗口大小 + 1。如果历史窗口，预测目标窗口配置过大或对应比例配置过小，可能导致训练/验证/测试集有实际样本数不足的情况发生，从而触发训练报错。	0.7
	验证集切分比例	验证集切分比例，注意：训练集切分比例、验证集切分比例、测试集切分比例三者之和为1.0。	0.2
	测试集切分比例	测试集切分比例，注意：训练集切分比例、验证集切分比例、测试集切分比例三者之和为1.0。	0.1
	特征是否独立建模	时序变量建模模式设置。若选择独立建模，则模型只关注预测目标列的选择的数据，并不做列数据区分，统一视作出自一个序列分布。若选择非独立建模，建模会考虑列变量之间的相关性，建模的变量范围为输入的数据列除去非特征列以及标识列的剩余数据内容。	true
	历史窗口大小	时序预测输入的窗口长度，数值越大建模包含的历史信息越多，但相应的显存占用会增加以及模型拟合难度也会提升。请根据实际任务特点选择合适的输入窗口，建议取值范围128至512。	128
	预测目标窗口大小	时序预测输出的窗口长度。数值越大输出预测的时间范围越大，但相应的显存占用会增加以及模型预测精度可能会下降。请根据实际任务特点选择合适的输出窗口，建议取值范围48至96，且尽量选择预测目标周期的整数倍。注若基于已发布模型的进行增量微调，输出窗口需要与其保持一致。说明：二次微调支持输入窗口可变，但输出窗口的长度需要与之前保持一致。	96
	训练轮数	迭代训练的epoch数量，请根据实际情况选择，不低于1，建议范围5至10。	5
	数据批量大小	单卡的批处理大小，通常来说数据批量越大，梯度会越稳定。但是同时也会使用更大的显存，受硬件限制可能会OOM，并延长单步训练时长。	64
	学习率	学习率用于控制每个训练step参数更新的幅度，一般来说需要选择一个合适的学习率，否则当学习率过大的时候会导致模型难以收敛，过小的时候会收敛速度过慢。	0.0001
	热身比率	热身阶段占整体训练的比例。刚开始训练时若选择一个较大的学习率，可能带来模型的不稳定，选择使用warmup热身的方式，可以使得开始训练的热身阶段内学习率较小，在热身阶段的小学习率下，模型可以慢慢趋于稳定，等模型相对稳定后再逐渐提升至预设的最大学习率进行训练。使用热身可以使得模型收敛速度更快，效果更佳。	0.01
	权重衰减系数	权重衰减系数。权重衰减是一种根据参数值大小对参数进行衰减的正则化方法，用于减少过拟合，权重衰减系数用于控制正则化的力度，权重衰减系数越大，正则化力度越强。	0.1
	模型保存步数	定义模型每隔多少步保存一次，注意必须是10的整数倍。	100
	是否使用指数移动平均	是否在训练过程中引入指数移动平均。指数移动平均（Exponential Moving Average）简称EMA，用于对模型参数进行平滑处理，从而提升训练过程的稳定性与最终模型的性能。	true
	指数移动平均衰减系数	指数移动平均（EMA）的衰减系数，控制历史参数对当前 EMA 值的影响程度。值越大，历史参数影响越强，更新越平滑；值越小，则更关注最近的参数变化。例如，当设置为 0.999 时，EMA 会保留大量历史信息，更新缓慢但稳定；而设置为 0.99 则会让模型更快适应新参数，但波动也会更大。	0.98
	模型验证阶段性能评价指标	在模型验证阶段，验证集评估指标选择。回归问题提供三种选择，模型在验证集上的平均绝对误差（MAE）、均方根误差（RMSE）、拟合度（R2），默认设置为均方根误差（RMSE）。	RMSE
盘古统一编码表格预测分类大模型（Pangu-Predict-Cla-Table-V3.0.1）	数据集	选择训练所需的数据集。	-
	类别特征列	使用LabelEncoder处理的特征列的列表，用于处理字符串类型的类别特征。默认没有需要使用LabelEncoder处理的特征。	-
	非特征列	不作为输入特征的列，此处填写的特征列名将不作为模型训练的输入特征，不要将预测目标列的列名填入。默认选取全部特征用于训练。	-
	预测目标列	预测目标的列名，指定预测目标变量列名，仅支持单目标变量预测。默认选择最后一列作为预测目标变量。说明：二次微调不支持分类任务的分类数发生改变，需与原资产保持一致，推理服务接口输入字段名称以二次微调为准。	-
	训练集切分比例	训练集切分比例，注意：训练集切分比例、验证集切分比例、测试集切分比例三者之和为1.0。	0.7
	验证集切分比例	验证集切分比例，注意：训练集切分比例、验证集切分比例、测试集切分比例三者之和为1.0。	0.2
	测试集切分比例	测试集切分比例，注意：训练集切分比例、验证集切分比例、测试集切分比例三者之和为1.0。	0.1
	训练轮数	迭代训练的epoch数量，请根据实际情况选择，不低于1，建议范围5至10。	10
	数据批量大小	单卡的批处理大小，通常来说数据批量越大，梯度会越稳定。但是同时也会使用更大的显存，受硬件限制可能会OOM，并延长单步训练时长。	64
	学习率	学习率用于控制每个训练step参数更新的幅度，一般来说需要选择一个合适的学习率，否则当学习率过大的时候会导致模型难以收敛，过小的时候会收敛速度过慢。	0.0001
	热身比率	热身阶段占整体训练的比例。刚开始训练时若选择一个较大的学习率，可能带来模型的不稳定，选择使用warmup热身的方式，可以使得开始训练的热身阶段内学习率较小，在热身阶段的小学习率下，模型可以慢慢趋于稳定，等模型相对稳定后再逐渐提升至预设的最大学习率进行训练。使用热身可以使得模型收敛速度更快，效果更佳。	0.01
	权重衰减系数	权重衰减系数。权重衰减是一种根据参数值大小对参数进行衰减的正则化方法，用于减少过拟合，权重衰减系数用于控制正则化的力度，权重衰减系数越大，正则化力度越强。	0.1
	模型保存步数	定义模型每隔多少步保存一次，注意必须是10的整数倍。	100
	是否使用指数移动平均	是否在训练过程中引入指数移动平均。指数移动平均（Exponential Moving Average）简称EMA，用于对模型参数进行平滑处理，从而提升训练过程的稳定性与最终模型的性能。	true
	指数移动平均衰减系数	指数移动平均（EMA）的衰减系数，控制历史参数对当前 EMA 值的影响程度。值越大，历史参数影响越强，更新越平滑；值越小，则更关注最近的参数变化。例如，当设置为 0.999 时，EMA 会保留大量历史信息，更新缓慢但稳定；而设置为 0.99 则会让模型更快适应新参数，但波动也会更大。	0.98
	模型验证阶段性能评价指标	在模型验证阶段，验证集评估指标选择。分类问题提供两种选择，模型在验证集上的准确率（ACC）、拟合度（F1），默认设置为准确率（ACC）。	ACC
盘古统一编码表格预测回归大模型（Pangu-Predict-Reg-Table-V3.0.1）	数据集	选择训练所需的数据集。	-
	类别特征列	不作为输入特征的列，此处填写的特征列名将不作为模型训练的输入特征，不要将预测目标列的列名填入。默认选取全部特征用于训练。	-
	非特征列	不作为输入特征的列，此处填写的特征列名将不作为模型训练的输入特征，不要将预测目标列的列名填入。默认选取全部特征用于训练。	-
	预测目标列	预测目标的列名，指定预测目标变量列名。默认选择最后一列作为预测目标变量。说明：二次微调不支持分类任务的分类数发生改变，需与原资产保持一致，推理服务接口输入字段名称以二次微调为准。	-
	训练集切分比例	训练集切分比例，注意：训练集切分比例、验证集切分比例、测试集切分比例三者之和为1.0。	0.7
	验证集切分比例	验证集切分比例，注意：训练集切分比例、验证集切分比例、测试集切分比例三者之和为1.0。	0.2
	测试集切分比例	测试集切分比例，注意：训练集切分比例、验证集切分比例、测试集切分比例三者之和为1.0。	0.1
	训练轮数	迭代训练的epoch数量，请根据实际情况选择，不低于1，建议范围5至10。	10
	数据批量大小	单卡的批处理大小，通常来说数据批量越大，梯度会越稳定。但是同时也会使用更大的显存，受硬件限制可能会OOM，并延长单步训练时长。	64
	学习率	学习率用于控制每个训练step参数更新的幅度，一般来说需要选择一个合适的学习率，否则当学习率过大的时候会导致模型难以收敛，过小的时候会收敛速度过慢。	0.0001
	热身比率	热身阶段占整体训练的比例。刚开始训练时若选择一个较大的学习率，可能带来模型的不稳定，选择使用warmup热身的方式，可以使得开始训练的热身阶段内学习率较小，在热身阶段的小学习率下，模型可以慢慢趋于稳定，等模型相对稳定后再逐渐提升至预设的最大学习率进行训练。使用热身可以使得模型收敛速度更快，效果更佳。	0.01
	权重衰减系数	权重衰减系数。权重衰减是一种根据参数值大小对参数进行衰减的正则化方法，用于减少过拟合，权重衰减系数用于控制正则化的力度，权重衰减系数越大，正则化力度越强。	0.1
	模型保存步数	定义模型每隔多少步保存一次，注意必须是10的整数倍。	100
	是否使用指数移动平均	是否在训练过程中引入指数移动平均。指数移动平均（Exponential Moving Average）简称EMA，用于对模型参数进行平滑处理，从而提升训练过程的稳定性与最终模型的性能。	true
	指数移动平均衰减系数	指数移动平均（EMA）的衰减系数，控制历史参数对当前 EMA 值的影响程度。值越大，历史参数影响越强，更新越平滑；值越小，则更关注最近的参数变化。例如，当设置为 0.999 时，EMA 会保留大量历史信息，更新缓慢但稳定；而设置为 0.99 则会让模型更快适应新参数，但波动也会更大。	0.98
	是否使用分布头	使用分布头的种类，默认不使用分布头（None）。若使用提供三种选择，正态分布头（Normal）、Laplace分布头（Laplace）、以及Student分布头（Student）。在模型训练过程中，最后一层参数不是直接输出一个确定的值，而是输出一个概率分布的参数，以提高模型拟合能力。	None
	模型验证阶段性能评价指标	在模型验证阶段，验证集评估指标选择。回归问题提供四种选择，模型在验证集上的平均绝对误差（MAE）、均方根误差（RMSE）、拟合度（R2），默认设置为均方误差（RMSE）。	RMSE
盘古时序异常检测大模型（Pangu-Predict-Anom-TS-V3.0.1）	数据集	选择训练所需的数据集。	-
	非特征列	不作为输入特征的列，此处填写的特征列名将不作为模型训练的输入特征，不要将预测目标列的列名填入。默认选取全部特征用于训练。	-
	预测目标列	预测目标的列名，指定预测目标变量列名。默认选择除去非特征列、标识列、异常标签列以外的所有列为预测目标列。说明：二次微调列名变量数需要与之前保持一致，推理服务接口输入字段名称以二次微调为准。	-
	标识列	主要用于对连续时间段的区分标识，若不填写默认单文件所有行为连续时序数据。可以定义日期列粒度的id相关的列，例如店铺的id，区域或采集批次等。若默认所有的样本具有相同的标识。	-
	异常标签列	记录每个时间点机器运行状态，为二分类列，记录正异常两个状态。默认选择最后一列作为异常标签列。	-
	正常标签值	指定正常类别名称，用于最终模型评估阶段计算误报率、漏报率等指标。默认设置为0，表示正常类别名称为0。	0
	是否对数据集进行全局归一化	是否在训练过程中对训练数据集进行全局归一化，默认进行全局归一化。	true
	下游适配器	为适配多种异常模式，系统提供 3-Sigma、IQR+3-Sigma、SPOT 和 MLP 四种下游适配器。 3-Sigma适用于全量正常数据，假设数据近似正态分布。 IQR+3-Sigma对离群值鲁棒，适合含较多或较明显异常的数据 SPOT基于统计的动态阈值法，适合异常较少且难以预判的场景 MLP基于标注数据的轻量分类头，当正异常样本标注可靠且分布均衡时，可捕捉一定非线性特征辅助判别。依据实际工业场景，默认选择SPOT算法。各下游适配器支持用户自定义参数，参数含义以及调节范围见表6。	SPOT
盘古融合推荐回归大模型（Pangu-Predict-Reg-Table-V2.0.3）	数据集选择	选择训练所需的数据集。	-
	类别特征列	使用LabelEncoder处理的特征列的列表，用于处理字符串类型的类别特征。默认没有需要使用LabelEncoder处理的特征。	-
	非特征列	不作为输入特征的列，此处填写的特征列名将不作为模型训练的输入特征，不要将预测目标列的列名填入。默认选取全部特征用于训练。	-
	标准化列	使用最大最小值标准化处理的特征列的列表，用于处理分布差异较大的数值特征。默认全部特征都不需要进行标准化。	-
	预测目标列	预测目标的列名，指定预测目标变量列名，gatednet算法支持多目标变量预测，其余算法仅支持单目标变量预测。默认选择最后一列作为预测目标变量。	-
	训练集&验证集比例	验证集比例，填入验证集比例即可。默认设置为0.2，即训练集占0.8，验证集占0.2。可选范围为0.1，0.2，0.3，0.4。	0.2
	模型配置	支持自选基模型（如LightGBM、XGBoost等）及推荐基模型（Rec Model），基模型总数限制为1至20。当自选模型+推荐模型>=2时，融合模型（Fuse Model）生效。注意：GaussianProcess适合维度小于10且数据量小于500的样本数据。仅Gated Adaptive Network支持多目标预测，这一基模型不支持和其他基模型同时使用。自选基模型是用户从预定义的基模型算法池中自选用于训练模型的基模型，推荐基模型是由推荐模型推荐的基模型。支持用户自定义各基模型个数，部分基模型支持用户自定义参数，参数含义及调节范围参见界面描述。	-
	训练特征重要性	是否在训练完成之后，计算模型的权重特征重要性，并在界面展示各特征的重要性分值及排序。支持权重特征重要性的模型有AdaBoost、LightGBM、XGBoost、RandomForest、ExtraTrees、GradientBoosting和Rec Model。当【模型配置】中至少配置以上模型中的一个，用户可以打开此选项。否则此项无法打开，界面不展示相关信息。融合推荐回归预测大模型提供两种特征重要性，分别为模型权重特征重要性（训练特征重要性）和排列特征重要性，对两种特征重要性的详细说明参见排列特征重要性部分。	false
盘古融合推荐异常检测大模型（Pangu-Predict-Anom-Table-V2.0.3）	数据集选择	选择训练所需的数据集。	-
	类别特征列	使用LabelEncoder处理的特征列的列表，用于处理字符串类型的类别特征。默认没有需要使用LabelEncoder处理的特征。	-
	非特征列	不作为输入特征的列，此处填写的特征列名将不作为模型训练的输入特征，不要将预测目标列的列名填入。默认选取全部特征用于训练。	-
	标准化列	使用最大最小值标准化处理的特征列的列表，用于处理分布差异较大的数值特征。默认全部特征都不需要进行标准化。	-
	预测目标列	预测目标的列名，指定预测目标变量列名，仅支持单目标变量预测。默认选择最后一列作为预测目标变量。	-
	是否设置预测阈值	是否设置预测阈值，默认不设置。如果需要设置预测阈值，需要配置预测概率阈值，用于确定预测标签值。	false
	预测阈值	预测概率阈值，用于确定预测标签值，如果预测目标列某一类别的预测概率值大于预测概率阈值，那么预测标签值为该类别，如果所有类别的预测概率值都小于预测概率阈值，那么预测标签值为无效样本，阈值范围从0至1。	0.5
	训练集&验证集比例	将数据集划分为训练集和验证集，填入验证集比例即可，默认设置为0.2，即训练集占0.8，验证集占0.2，可选范围为0.1、0.2、0.3、0.4。	0.2
	基模型算法池	由用户指定算法池中的算法，包括knn，iforest，loda，ocsvm，其中knn表示k最近邻算法，iforest表示孤立森林，loda表示Loda算法，ocsvm表示One Class SVM算法，默认为2iforest，表示2个iforest。多种类算法示例为3iforest,2loda,1ocsvm，表示3个iforest2个loda和1个ocsvm。算法数量限制为0至20。	2iforest
	推荐的模型个数	由推荐模型推荐的模型数，参数的范围为0至20，0代表不使用推荐模型。假设基模型算法池为2iforest，推荐的模型个数为5，表示基模型有2个iforest，另外5个是由推荐模型推荐的。	5
盘古融合推荐分类大模型（Pangu-Predict-Cla-Table-V2.0.3）	数据集选择	选择训练所需的数据集。	-
	类别特征列	使用LabelEncoder处理的特征列的列表，用于处理字符串类型的类别特征。默认没有需要使用LabelEncoder处理的特征。	-
	非特征列	不作为输入特征的列，此处填写的特征列名将不作为模型训练的输入特征，不要将预测目标列的列名填入。默认选取全部特征用于训练。	-
	标准化列	使用最大最小值标准化处理的特征列的列表，用于处理分布差异较大的数值特征。默认全部特征都不需要进行标准化。	-
	预测目标列	预测目标的列名，指定预测目标变量列名，仅支持单目标变量预测。默认选择最后一列作为预测目标变量。	-
	是否设置预测阈值	是否设置预测阈值，默认不设置。如果需要设置预测阈值，需要配置预测概率阈值，用于确定预测标签值。	false
	预测阈值	预测概率阈值，用于确定预测标签值，如果预测目标列某一类别的预测概率值大于预测概率阈值，那么预测标签值为该类别，如果所有类别的预测概率值都小于预测概率阈值，那么预测标签值为无效样本，阈值范围从0至1。	0.5
	训练集&验证集比例	验证集比例，填入验证集比例即可。默认设置为0.2，即训练集占0.8，验证集占0.2。可选范围为0.1，0.2，0.3，0.4。	0.2
	模型配置	支持自选基模型（如LightGBM、XGBoost等）及推荐基模型（Rec Model），基模型总数限制为1至20。当自选模型+推荐模型>=2时，融合模型（Fuse Model）生效。注意：GaussianProcess适合维度小于10且数据量小于500的样本数据。自选基模型是用户从预定义的基模型算法池中自选用于训练模型的基模型，推荐基模型是由推荐模型推荐的基模型。支持用户自定义各基模型个数，部分基模型支持用户自定义参数，参数含义及调节范围参见界面描述。	-
	训练特征重要性	是否在训练完成之后，计算模型的权重特征重要性，并在界面展示各特征的重要性分值及排序。支持权重特征重要性的模型有AdaBoost、LightGBM、XGBoost、RandomForest、ExtraTrees、GradientBoosting和Rec Model。当【模型配置】中至少配置以上模型中的一个，用户可以打开此选项。否则此项无法打开，界面不展示相关信息。融合推荐分类预测大模型提供两种特征重要性，分别为模型权重特征重要性（训练特征重要性）和排列特征重要性，对两种特征重要性的详细说明参见排列特征重要性部分。	false
盘古融合推荐回归大模型-极简模式（Pangu-Predict-Reg-Table-V2.1.4）	数据集	选择训练所需的数据集。	-
	非特征列	不作为输入特征的列，此处填写的特征列名将不作为模型训练的输入特征，不要将预测目标列的列名填入。默认选取全部特征用于训练。	-
	类别特征列	使用LabelEncoder处理的特征列的列表，用于处理字符串类型的类别特征。默认没有需要使用LabelEncoder处理的特征。	-
	标准化列	使用最大最小值标准化处理的特征列的列表，用于处理分布差异较大的数值特征。默认全部特征都不需要进行标准化。	-
	预测目标列	预测目标的列名，指定预测目标变量列名，仅支持单目标变量预测。默认选择最后一列作为预测目标变量。	-
	训练集&验证集比例	验证集比例，填入验证集比例即可。默认设置为0.2，即训练集占0.8，验证集占0.2。可选范围为0.1，0.2，0.3，0.4。	0.2
	训练特征重要性	是否在训练完成之后，计算模型的训练特征重要性。此处提供的特征重要性为排列特征重要性，详细说明参见排列特征重要性部分。	false
	训练模式	代表不同的模型组合和训练策略。Efficiency First相较Default，训练用时减少，但模型效果可能降低。Data-Efficient模式对输入数据有严格限制（要求切分后的训练数据行数<30000，列数<200，行数*列数<600000），在此类小规模数据场景下，其效果优于其他模式。	Default
	数据增强	是否开启数据增强功能。该功能可在数据量较少（总数据量行数<3000）的场景提升模型精度，不支持含类别特征的数据。当拆分后的训练数据行数大于10000或列数大于100时，该功能不生效。开启：对训练集进行数据增强，增加训练集规模；不开启：使用原训练集进行训练，此时“数据增强倍数”参数不生效。	false
	数据增强倍数	训练数据扩增倍数。默认设置为2，即原训练数据为1倍，增强的数据为2倍，最终训练数据为原训练数据3倍。可选范围为0.1~10.0，倍数不宜过大或过小。	2
盘古融合推荐分类大模型-极简模式（Pangu-Predict-Cla-Table-V2.1.4）	与盘古融合推荐回归大模型-极简模式（Pangu-Predict-Reg-Table-2.1.4）相同。		-
结构化数据预测（Pangu-Predict-Struct-V1.1.0）	数据集选择	选择训练所需的数据集。	-
	问题类型	预测问题类型。regression为回归问题。classification为分类问题。预测问题类型定义：目标的预测值仅取决于同一样本中特征列的值，且预测目标是连续变量为回归预测问题。目标的预测值仅取决于同一样本中特征列的值，且预测目标是离散变量为分类预测问题。	regression
	是否标准化	是否标准化数据量纲，为了消除数据量纲不同对预测结果的影响，建议对原始指标数据进行标准化处理，默认设置为True。	true
	非特征列	不作为输入特征的列，此处填写的特征列名将不作为模型训练的输入特征。默认选取全部特征用于训练。	-
	预测目标列	预测目标的列名，指定预测目标变量列名，仅支持单目标变量预测。默认选择最后一列作为预测目标变量。	-
	特征编码	需要进行特征映射的列，将非数值的列，转换成数值类型的类，用于分类任务，若预测目标列为中英文，则必须进行特征编码。默认选择的列为需要进行特征转换的列。	-
	训练集&验证集比例	训练集比例。填入训练集比例即可，默认设置为0.8，即训练集占0.8，验证集占0.2。可选范围为0.6、0.7、0.8、0.9。	0.8
	是否启用图网络融合	是否启用图网络进行基模型融合，如果启用图网络融合，则通过图网络对多个完整的基模型组成的层次网络输出进行信息聚合，得到输出结果。否则采用加权求和的方式进行信息聚合，建议启用图网络进行基模型融合，预测效果更优。默认设置为True，表示启用图网络融合。	true
	基模型算法池	基模型算法池。由用户指定算法池中的算法，其中xgb表示xgboost，lgb表示lightgbm，et表示extraTree，rf表示随机森林，ada表示adaboost，gb表示梯度提升树，gp表示高斯过程且适合维度小于10，数据量小于500的样本数据。默认算法池包含xgb、lgb、rf、et、gb。	["xgb","lgb","rf","et","gb"]
高速交通流量预测模型（Pangu-Predict-Industry-Traffic-V3.0.0）	数据集	选择训练所需的数据集。交通行业预测的训练数据集包括三部分：节点数据，csv格式，包括2列：nodeid和nodename。定义节点的id和名称的对应关系，id用于内部计算，文件名固定为ts_node.csv。示例： nodeid,nodename 1001,杭州假期数据, csv格式，包括4列：name,year,statDate,endDate。定义历年及当年的法定假期，文件名固定为legal_holiday.csv。示例： name,year,startDate,endDate 劳动节,2023,2023-04-29,2023-05-03 交通流数据，csv格式，前两列固定为nodeid, statisticalhour。定义对应节点id以及特征统计时间。后续列为特征列。示例： nodeid,statisticalhour,enflow,exflow 85001,2024-05-31 15:00:00,138,137	-
	行业模型池	由用户指定行业模型，仅支持traffic，表示交通流预测场景。	traffic
	样本的采集间隔	训练的样本时间步长，单位秒，范围300-3600。流量预测建议设置3600，速度预测建议设置300。训练样本的时间粒度要与此值保持一致。此参数也定义了推理结果的时间步长。	3600
	学习率	学习率用于控制每个训练step参数更新的幅度，一般来说需要选择一个合适的学习率，否则当学习率过大的时候会导致模型难以收敛，过小的时候会收敛速度过慢。范围[0.001, 0.000001]。	0.001
	训练轮次	训练的轮次。范围[1, 200]。	100
	训练集切分比例	训练集切分比例，注意：训练集切分比例、验证集切分比例、测试集切分比例三者之和为1.0。	0.6
	验证集切分比例	验证集切分比例，注意：训练集切分比例、验证集切分比例、测试集切分比例三者之和为1.0。	0.2
	测试集切分比例	测试集切分比例，注意：训练集切分比例、验证集切分比例、测试集切分比例三者之和为1.0。	0.2
	模型层数	模型层数越多参数量越大，对于复杂样本的拟合度更好。范围：枚举值[0,1,2,3,4]。	3
	数据批量大小	数据批量大小，通常来说数据批量越大，梯度会越稳定。但是同时也会使用更大的显存，受硬件限制可能会OOM，并延长单步训练时长。范围：枚举值[2, 4, 8, 16, 32, 64, 128, 256, 512]。	8
供热行业模型（Pangu-Predict-Industry-Heating-V1.0.0）	数据集	选择训练所需的数据集文件夹。数据集中需包括温度、热量数据集。（温度数据集csv中，需要带有temperture，热量数据集csv中需要带heat，例如temperture01.csv,heat01.csv等）。	-
	行业模型池	由用户指定行业模型，仅支持heating，表示供热行业预测场景。	heating
	是否融合所有机组进行训练	供热行业模型训练模式设置。若选择融合训练，则模型合并本次训练数据集中的所有机组数据，单个模型对应的机组数据批量参数无效。	true
	单个模型对应的机组数据批量	供热训练的单个模型对应的机组数据数量，请根据实际情况选择，不低于1，不高于50，建议范围5至20。	10
	训练集切分比例	训练集切分比例，注意：训练集切分比例、验证集切分比例、测试集切分比例三者之和为1.0。	0.7
	验证集切分比例	验证集切分比例，注意：训练集切分比例、验证集切分比例、测试集切分比例三者之和为1.0。	0.2
	测试集切分比例	测试集切分比例，注意：训练集切分比例、验证集切分比例、测试集切分比例三者之和为1.0。	0.1
	训练轮数	迭代训练的epoch数量，请根据实际情况选择，不低于1，建议范围5至10。	10
	数据批量大小	单卡的批处理大小，通常来说数据批量越大，梯度会越稳定。但是同时也会使用更大的显存，受硬件限制可能会OOM，并延长单步训练时长。	64
	学习率	学习率用于控制每个训练step参数更新的幅度，一般来说需要选择一个合适的学习率，否则当学习率过大的时候会导致模型难以收敛，过小的时候会收敛速度过慢。	0.0001
	热身比率	热身阶段占整体训练的比例。刚开始训练时若选择一个较大的学习率，可能带来模型的不稳定，选择使用warmup热身的方式，可以使得开始训练的热身阶段内学习率较小，在热身阶段的小学习率下，模型可以慢慢趋于稳定，等模型相对稳定后再逐渐提升至预设的最大学习率进行训练。使用热身可以使得模型收敛速度更快，效果更佳。	0.01
	权重衰减系数	权重衰减系数。权重衰减是一种根据参数值大小对参数进行衰减的正则化方法，用于减少过拟合，权重衰减系数用于控制正则化的力度，权重衰减系数越大，正则化力度越强。	0.1
	模型保存步数	定义模型每隔多少步保存一次，注意必须是10的整数倍。	100
	是否使用指数移动平均	是否在训练过程中引入指数移动平均。指数移动平均（Exponential Moving Average）简称EMA，用于对模型参数进行平滑处理，从而提升训练过程的稳定性与最终模型的性能。	true
	指数移动平均衰减系数	指数移动平均（EMA）的衰减系数，控制历史参数对当前 EMA 值的影响程度。值越大，历史参数影响越强，更新越平滑；值越小，则更关注最近的参数变化。例如，当设置为 0.999 时，EMA 会保留大量历史信息，更新缓慢但稳定；而设置为 0.99 则会让模型更快适应新参数，但波动也会更大。	0.98
	是否使用分布头	使用分布头的种类，默认不使用分布头（None）。若使用提供三种选择，正态分布头（Normal）、Laplace分布头（Laplace）、以及Student分布头（Student）。在模型训练过程中，最后一层参数不是直接输出一个确定的值，而是输出一个概率分布的参数，以提高模型拟合能力。	None
	模型验证阶段性能评价指标	在模型验证阶段，验证集评估指标选择。回归问题提供四种选择，模型在验证集上的平均绝对误差（MAE）、均方根误差（RMSE）、拟合度（R2），默认设置为均方误差（RMSE）。	RMSE
供应链需求预测模型（Pangu-Predict-Industry-Demand-V1.0.0）	预测层级	需要预测的层级列表，粒度从粗到细，至少填写一个层级。填写示例：["二级分类","三级分类","品牌名"]。	-
	训练层级	参与训练的层级列表，预测层级的子集，至少填写一个层级。建议选择重要性高、数据可靠性高的层级作为训练层级。其他层级（即不在训练层级中的预测层级）的预测结果由训练层级的预测结果经过层间聚合或分解得到。填写示例：["二级分类","三级分类","品牌名"]。	-
	分组训练层级	分组训练的层级，须为“训练层级”中的层级，此层级之上的层级每条时序数据单独训练一个模型；此层级之下的训练层级均进行分组训练，分组依据为此层的值。当此项配置为“all”时，每个层级的所有时序共同训练一个模型。例如，当训练层级为["二级分类","三级分类","品牌名"]、此项配置为“三级分类”时，三级分类“烹饪锅具”下的各品牌共同训练一个模型；三级分类“清洁电器”下的各品牌共同训练一个模型；二级分类、三级分类层级中的所有时序销量数据各自单独训练一个模型。	all
	预测长度	需要预测的窗口长度（时间步数），取值范围1-90。当数据文件包含未来动态协变量时，预测长度不可超过未来动态协变量的时间窗口长度。	1
	训练模式	各个训练层级的训练模式，与“训练层级”中的层级一一对应，取值light或base。light模式用时更短，但可能造成精度下降。填写示例：["light","base","base"]。	-
	特征重要性	是否计算协变量的特征重要性，数据中包含协变量时生效。	False
盘古表格直推预测大模型（Pangu-Predict-FewShot-Table-V3.0.2）	数据集	选择训练所需的数据集。	-
	非特征列	不作为输入特征的列，此处填写的特征列名将不作为模型训练的输入特征，不要将预测目标列的列名填入。默认选取全部特征用于训练。	-
	类别特征列	使用LabelEncoder处理的特征列的列表，用于处理字符串类型的类别特征。默认没有需要使用LabelEncoder处理的特征。	-
	预测目标列	预测目标的列名，指定预测目标变量列名，仅支持单目标变量预测。默认表示选择最后一列作为预测目标变量。	-
	训练集&验证集比例	验证集比例，填入验证集比例即可。默认设置为0.2，即训练集占0.8，验证集占0.2。可选范围为0.1，0.2，0.3，0.4。	0.2
	训练轮数	迭代训练的epoch数量，不低于10，建议范围50至100。	60

表6 下游适配器参数详情
下游适配器	训练参数	参数描述	典配值
SPOT	训练集切分比例	训练集切分比例。注意：训练集切分比例、测试集切分比例两者之和为1.0。	0.8
	测试集切分比例	测试集切分比例。注意：训练集切分比例、测试集切分比例两者之和为1.0。	0.2
	数据批量大小	单卡的批处理大小。通常来说数据批量越大，梯度会越稳定。但是同时也会使用更大的显存，受硬件限制可能会OOM，并延长单步训练时长。	64
	初始化数据切分比例	初始化数据切分比例。SPOT算法需要先学习正常数据的样子，才能判断后面的数据是不是异常（极端值）。表示用于初始化模型的历史数据占比，算法基于该部分数据学习正常行为模式，以建立初始阈值。建议取值范围：0.8~0.99。	0.98
	异常概率阈值	异常概率阈值。定义被视为极端事件的数据出现概率。值越小，检测越敏感。例如，qs = 0.01 表示预期每100个数据点中出现1个极值。建议取值范围：0.00001 ~ 0.1。	0.001
3-Sigma	训练集切分比例	训练集切分比例，注意：训练集切分比例、测试集切分比例两者之和为1.0。	0.8
	测试集切分比例	测试集切分比例，注意：训练集切分比例、测试集切分比例两者之和为1.0。	0.2
	数据批量大小	单卡的批处理大小。通常来说数据批量越大，梯度会越稳定。但是同时也会使用更大的显存，受硬件限制可能会OOM，并延长单步训练时长。	64
IQR+3-Sigma	下游适配器IQR+3-Sigma训练参数以及参数说明同3-Sigma。		-
MLP	训练集切分比例	训练集切分比例。注意：训练集切分比例、验证集切分比例、测试集切分比例三者之和为1.0。	0.7
	验证集切分比例	验证集切分比例。注意：训练集切分比例、验证集切分比例、测试集切分比例三者之和为1.0。	0.1
	测试集切分比例	测试集切分比例。注意：训练集切分比例、验证集切分比例、测试集切分比例三者之和为1.0。	0.2
	训练轮数	迭代轮次。迭代训练的epoch数量，请根据实际情况选择，不低于1，建议范围5至10。	5
	数据批量大小	单卡的批处理大小。通常来说数据批量越大，梯度会越稳定。但是同时也会使用更大的显存，受硬件限制可能会OOM，并延长单步训练时长。	64
	学习率	学习率。学习率用于控制每个训练step参数更新的幅度，一般来说需要选择一个合适的学习率，否则当学习率过大的时候会导致模型难以收敛，过小的时候会收敛速度过慢。	0.001
	热身比率	热身比率。热身阶段占整体训练的比例。刚开始训练时若选择一个较大的学习率，可能带来模型的不稳定，选择使用warmup热身的方式，可以使得开始训练的热身阶段内学习率较小，在热身阶段的小学习率下，模型可以慢慢趋于稳定，等模型相对稳定后再逐渐提升至预设的最大学习率进行训练。使用热身可以使得模型收敛速度更快，效果更佳。	0.001
	权重衰减系数	权重衰减系数。权重衰减是一种根据参数值大小对参数进行衰减的正则化方法，用于减少过拟合，权重衰减系数用于控制正则化的力度，权重衰减系数越大，正则化力度越强。	0.1
	模型保存步数	模型保存步数。定义模型每隔多少步保存一次，注意必须是10的整数倍。	100