创建预测大模型训练任务
创建预测大模型微调任务
创建预测大模型微调任务步骤如下:
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
- 在左侧导航栏中选择“模型开发 > 模型训练”,单击右上角“创建训练任务”。
- 在“创建训练任务”页面,参考表1完成训练参数设置。
其中,“训练参数”展示了各场景涉及到的全部参数,请根据具体前端页面展示的参数进行设置。
表1 预测大模型微调参数说明 参数分类
训练参数
说明
训练配置
模型来源
选择“盘古大模型”。
模型类型
选择“预测大模型”。
训练类型
选择“微调”。
基础模型
选择所需微调的基础模型。
训练参数
数据集
训练数据集。
类别特征列
指定使用LabelEncoder处理的字符串类型类别特征的列表。格式为["列名1","列名2"],默认设置为[],表示没有需要处理的类别特征。
LabelEncoder的作用是将类别特征转换为数值型特征,使模型能够处理这些特征。
非特征列
列出不需要输入到模型中的特征列,用于排除冗余或无意义的特征。格式为["列名1","列名2"],默认设置为[],表示所有特征都用于训练。
标准化列
指定需要进行最大最小值标准化处理的数值特征的列表。格式为["列名1","列名2"],默认设置为[],表示没有特征需要标准化。标准化将特征值缩放到0到1的范围,处理分布差异较大的数值特征。
预测目标列
指定预测目标变量的列名,仅支持单目标变量预测。格式为["列名"],默认设置为[],表示选择最后一列作为预测目标变量。
训练集&验证集比例
将数据集划分为训练集和验证集。填写验证集的比例(默认为 0.2,即训练集占0.8,验证集占0.2)。可选比例包括0.1、0.2、0.3、0.4。
基模型算法池
- 对于异常检测模型:从预定义的算法池中选择用于训练模型的算法,算法包括:["knn", "iforest", "loda", "oc"],其中:
- knn表示k最近邻算法。
- iforest表示孤立森林算法。
- loda表示Loda算法。
- oc表示单类支持向量机算法。
- 对于回归模型、分类模型、时序预测模型,从预定义的算法池中选择用于训练模型的算法,算法包括:["svm", "ada", "lgb", "xgb", "rf", "et", "gb", "gauss","mlp"],其中:
- svm表示支持向量机。
- ada表示adaboost。
- lgb表示lightgbm。
- xgb表示xgboost。
- rf表示随机森林。
- et表示extraTree。
- gb表示梯度提升树。
- gauss表示高斯过程,gauss适合维度小于10且数据量小于500的样本数据。
- mlp表示多层感知机,默认设置为5lgb,多种类算法示例: 3lgb,2rf,1xgb(表示使用3个LightGBM算法、2个随机森林算法和1个XGBoost算法)。
推荐的模型个数
指定从推荐模型中选择的模型个数,以提高模型的多样性并提升最终性能。
推荐模型的数量范围为0到20,设置为0表示不使用推荐模型。
例如,基模型算法池中有5个LightGBM(LGB)模型,且推荐模型数量设置为5,这意味着系统将在基模型池中的5个LightGBM模型之外,推荐5个不同的模型。最终,系统将使用10个模型进行训练,其中5个是LightGBM模型,另外5个是推荐的不同模型。
日期列名
日期列的列名。例如,["date"]表示csv数据中date列为日期列,默认设置为[],表示没有日期列,选择全部数据做训练。
标识列
在时间序列中可以定义粒度的id相关的列。
历史窗口大小
指模型在训练时基于多少个历史数据点作为输入。取值范围为[2, 200],默认值为7,表示使用7个历史数据点作为输入进行训练。
资源配置
训练单元
创建当前训练任务所需的训练单元数量。
订阅提醒
订阅提醒
该功能开启后,系统将在任务状态更新时,通过短信或邮件将提醒发送给用户。
基本信息
名称
训练任务名称。
描述
训练任务描述。
- 对于异常检测模型:从预定义的算法池中选择用于训练模型的算法,算法包括:["knn", "iforest", "loda", "oc"],其中:
- 参数填写完成后,单击“立即创建”。
- 创建好训练任务后,页面将返回“模型训练”页面,可随时查看当前任务的状态。