更新时间:2025-01-05 GMT+08:00
分享

创建预测大模型训练任务

创建预测大模型微调任务

创建预测大模型微调任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
  2. 在左侧导航栏中选择“模型开发 > 模型训练”,单击右上角“创建训练任务”。
  3. 在“创建训练任务”页面,参考表1完成训练参数设置。
    其中,“训练参数”展示了各场景涉及到的全部参数,请根据具体前端页面展示的参数进行设置。
    表1 预测大模型微调参数说明

    参数分类

    训练参数

    说明

    训练配置

    模型来源

    选择“盘古大模型”。

    模型类型

    选择“预测大模型”。

    训练类型

    选择“微调”。

    基础模型

    选择所需微调的基础模型。

    训练参数

    数据集

    训练数据集。

    类别特征列

    指定使用LabelEncoder处理的字符串类型类别特征的列表。格式为["列名1","列名2"],默认设置为[],表示没有需要处理的类别特征。

    LabelEncoder的作用是将类别特征转换为数值型特征,使模型能够处理这些特征。

    非特征列

    列出不需要输入到模型中的特征列,用于排除冗余或无意义的特征。格式为["列名1","列名2"],默认设置为[],表示所有特征都用于训练。

    标准化列

    指定需要进行最大最小值标准化处理的数值特征的列表。格式为["列名1","列名2"],默认设置为[],表示没有特征需要标准化。标准化将特征值缩放到0到1的范围,处理分布差异较大的数值特征。

    预测目标列

    指定预测目标变量的列名,仅支持单目标变量预测。格式为["列名"],默认设置为[],表示选择最后一列作为预测目标变量。

    训练集&验证集比例

    将数据集划分为训练集和验证集。填写验证集的比例(默认为 0.2,即训练集占0.8,验证集占0.2)。可选比例包括0.1、0.2、0.3、0.4。

    基模型算法池

    • 对于异常检测模型:从预定义的算法池中选择用于训练模型的算法,算法包括:["knn", "iforest", "loda", "oc"],其中:
      • knn表示k最近邻算法。
      • iforest表示孤立森林算法。
      • loda表示Loda算法。
      • oc表示单类支持向量机算法。
    • 对于回归模型、分类模型、时序预测模型,从预定义的算法池中选择用于训练模型的算法,算法包括:["svm", "ada", "lgb", "xgb", "rf", "et", "gb", "gauss","mlp"],其中:
      • svm表示支持向量机。
      • ada表示adaboost。
      • lgb表示lightgbm。
      • xgb表示xgboost。
      • rf表示随机森林。
      • et表示extraTree。
      • gb表示梯度提升树。
      • gauss表示高斯过程,gauss适合维度小于10且数据量小于500的样本数据。
      • mlp表示多层感知机,默认设置为5lgb,多种类算法示例: 3lgb,2rf,1xgb(表示使用3个LightGBM算法、2个随机森林算法和1个XGBoost算法)。

    推荐的模型个数

    指定从推荐模型中选择的模型个数,以提高模型的多样性并提升最终性能。

    推荐模型的数量范围为0到20,设置为0表示不使用推荐模型。

    例如,基模型算法池中有5个LightGBM(LGB)模型,且推荐模型数量设置为5,这意味着系统将在基模型池中的5个LightGBM模型之外,推荐5个不同的模型。最终,系统将使用10个模型进行训练,其中5个是LightGBM模型,另外5个是推荐的不同模型。

    日期列名

    日期列的列名。例如,["date"]表示csv数据中date列为日期列,默认设置为[],表示没有日期列,选择全部数据做训练。

    标识列

    在时间序列中可以定义粒度的id相关的列。

    历史窗口大小

    指模型在训练时基于多少个历史数据点作为输入。取值范围为[2, 200],默认值为7,表示使用7个历史数据点作为输入进行训练。

    资源配置

    训练单元

    创建当前训练任务所需的训练单元数量。

    订阅提醒

    订阅提醒

    该功能开启后,系统将在任务状态更新时,通过短信或邮件将提醒发送给用户。

    基本信息

    名称

    训练任务名称。

    描述

    训练任务描述。

  4. 参数填写完成后,单击“立即创建”。
  5. 创建好训练任务后,页面将返回“模型训练”页面,可随时查看当前任务的状态。

相关文档