文档首页/ 盘古大模型 PanguLargeModels/ 用户指南/ 开发盘古预测大模型/ 使用数据工程构建预测大模型数据集
更新时间:2025-01-08 GMT+08:00
分享

使用数据工程构建预测大模型数据集

预测大模型支持接入的数据集类型

盘古预测大模型仅支持接入预测类数据集,不同模型所需数据见表1,该数据集格式要求请参见预测类数据集格式要求

表1 预测大模型与数据集类型对应关系

基模型

模型分类

数据集内容

文件格式

预测大模型

时序预测模型

时序数据

csv

回归模型

异常检测模型

分类模型

回归分类数据

csv

训练预测大模型所需数据量

训练预测大模型时,所需的数据通常为表格格式,即由行和列组成的扁平化数据。具体要求如下:

  • :每行代表一个样本。每行与其他行具有相同的列,并且顺序相同,这些行通常按照某种特定顺序排列。
  • :每列表示一种特征。每列的数据类型应保持一致,不同列可以具有不同的数据类型。
  • 顺序:表格中的行通常按照特定顺序排列。
  • 行数:数据表的行数应大于5000行。
  • 维度:数据的维度(列数)应大于10维。
  • 数据完整性:必须确保数据中没有缺失值。

构建预测大模型数据集流程

在ModelArts Studio大模型开发平台中,使用数据工程构建盘古预测大模型数据集流程见表2

表2 盘古预测大模型数据集构建流程

流程

子流程

说明

操作指导

导入数据至盘古平台

创建导入任务

将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。

导入数据至盘古平台

发布预测类数据集

流通预测类数据集

数据流通是将单个数据集发布为特定格式的“发布数据集”,用于后续模型训练等操作。

发布预测类数据集

相关文档