更新时间:2025-12-30 GMT+08:00
分享

预测类数据集格式要求

平台支持创建预测类数据集,您可以参考预测数据集构建规范,确保创建可用的预测类数据集。当前平台支持时序分类数据、时序回归数据、结构化分类数据、结构化回归数据四类预测数据集和其他(自定义)数据集。五类数据集说明如下:

  • 时序分类数据:时序分类数据是一种按时间顺序排列的数据序列,用于预测未来事件或趋势,过去的数据会影响未来的预测,目标值是离散值。
  • 时序回归数据:时序回归数据是一种按时间顺序排列的数据序列,用于预测未来事件或趋势,过去的数据会影响未来的预测,目标值是连续值。
  • 结构化分类数据:包含多种预测因子的数据集,输入列为特征列,目标列是离散值,并具有有限的可能取值。
  • 结构化回归数据:包含多种预测因子的数据集,输入列为特征列,目标列是连续值。
  • 其他(自定义)数据集:用户自定义数据集,可直接发布至模型训练,暂不支持标注、评估等操作。

注意:如使用过程中出现不支持的预测数据集类型或数据加工过程问题,可以使用数据工程平台的自定义数据集和自定义加工算子的功能。

预测类数据集具体格式要求详见表1

表1 预测类数据集格式要求

文件内容

文件格式

文件样例

时序分类、时序回归

csv

  • 数据为结构化数据,包含列和行,每一行表示一条数据,每一列表示一个特征,并且必须包含预测目标列,回归预测目标列要求为连续型数据、分类预测目标列要求为离散数据。
  • 目录下只有1个数据文件时,文件无命名要求。
  • 目录下有多个数据文件时,需要通过命名的方式指定数据是训练数据集、验证数据集还是测试数据集。训练数据名称需包含train字样,如train01.csv;验证数据名称需包含eval字样;测试数据名称需包含test字样。单个文件的命名不能同时包含train、eval和test中的两个或以上。
  • 时序预测必须要包含至少一列时序数据,用于表示特征在固定时间间隔的变化。

    示例如下(表示不同特征feature1,feature2在固定时间间隔的值),注意示例仅供参考,无法直接用于创建数据集,预测模型需要的数据集规范参考预测数据集构建规范

    feature1,feature2,target
    10.5,20.3,100
    10.6,20.5,101
    10.7,20.7,102
    10.8,20.9,103
    10.9,21.0,104
  • 从OBS导入:单个文件大小不超过50GB,文件数量不限制。

    本地上传:单个文件大小不超过10M,文件数量最多100个。

结构化分类、结构化回归

csv

  • 数据为结构化数据,包含列和行,每一行表示一条数据,每一列表示一个特征,并且必须包含预测目标列,回归预测目标列要求为连续型数据,分类预测目标列要求为离散数据。
  • 目录下只有1个数据文件时,文件无命名要求。
  • 目录下有多个数据文件时,需要通过命名的方式指定数据是训练数据集、验证数据集还是测试数据集。训练数据名称需包含train字样,如train01.csv;验证数据名称需包含eval字样;测试数据名称需包含test字样。单个文件的命名不能同时包含train、eval和test中的两个或以上
    示例如下,注意示例仅供参考,无法直接用于创建数据集,预测模型需要的数据集规范参考预测数据集构建规范
    feature1,feature2,target
    10.5,20.3,100
    10.6,20.5,101
    10.7,20.7,102
    10.8,20.9,103
    10.9,21.0,104
  • 从OBS导入:单个文件大小不超过50GB,文件数量不限制。

    本地上传:单个文件大小不超过10M,文件数量最多100个。

其他(自定义)

csv

excel

用户自定义数据集。

预测数据集构建规范

用户自定义预测数据集,需要满足如下规范。

  1. 文件命名规范
    • 字符范围:

      允许中文汉字、大小写字母(A-Z/a-z)、数字(0-9)、下划线(_)。

      禁止中英文标点符号(如,。!?)、特殊符号(如@#$%^&*)、空格。

    • 长度限制:

      文件名(含扩展名)≤128字符,中文字符按实际长度计算(非字节数)。

    • 参考样例:

      {项目缩写}_{数据用途}_{时间范围}_v{版本号}.csv,比如销售_训练集_2025Q1_v2.csv。

  2. 列名规则
    • 字符范围:

      同文件名规则(允许中文、英文、数字、下划线,禁止标点/特殊符号)。

    • 长度限制:

      ≤20字符(兼容数据库字段长度限制)。

    • 参考样例:

      首列一般为唯一标识列,命名示例:数据ID(非时序)或时间戳(时序)。

      末列为目标变量,命名需含目标,如销量目标,标签列。

      特征列名需明确语义(如转速、客户性别)。

  3. 列数据类型
    • 类型定义:
      表2 预测数据集数据类型

      类型

      中文描述

      格式要求

      INT

      整数

      纯数字,无小数点。

      FLOAT

      浮点数

      支持小数点(3.14)。

      DATETIME

      中英文字符串不包含特殊字符

      时间ISO 8601(2025-01-01 12:00:00)

      VARCHAR(n)

      文本

      字符串类型,为避免CSV文件格式冲突,避免英文逗号等特殊字符。

    • 特殊样例:

      对于常见的IOT数据,CSV文件导出时,作为字符串类型导入,数据样例为:

      " -0.3170943558216095,0.2578448951244354,0.98955637216568 "。

  4. 编码与结构
    • 编码:必须使用UTF-8无BOM(避免Linux/Mac解析异常)。
    • 分隔符:逗号(,),禁止使用其他符号(如分号、制表符)。
    • 换行符:LF(\n)或CRLF(\r\n),需全局统一。
    • 缺失值:留空(连续逗号,,)或标注NULL(需在注释行说明)。
    • 空字符串:用双引号包裹空值(""),避免解析歧义。
    • 目录结构:仅对一级目录中的CSV文件进行处理,非CSV文件及子目录不进行处理,将直接复制到目标路径中。
  5. 数据集条数约束

    模型名称

    模型类型

    数据集条数下限

    数据集条数上限

    Pangu-Predict-Cla-TS-3.x.y

    统一编码时序分类模型

    3000

    5000000

    Pangu-Predict-Cla-Table-2.0.x

    融合推荐表格分类模型

    100

    5000000

    Pangu-Predict-Cla-Table-2.1.x

    融合推荐分类模型-极简模式

    5000000

    Pangu-Predict-Cla-Table-3.x.y

    统一编码表格分类模型

    5000000

    Pangu-Predict-Reg-TS-3.x.y

    统一编码时序回归模型

    100+ts_context_len(历史窗口大小)*10+ts_prediction_len(预测目标窗口大小)*10

    5000000

    Pangu-Predict-Reg-Table-2.0.x

    融合推荐表格回归模型

    100

    5000000

    Pangu-Predict-Reg-Table-2.1.x

    融合推荐回归模型-极简模式

    5000000

    Pangu-Predict-Reg-Table-3.x.y

    统一编码表格回归模型

    5000000

    Pangu-Predict-Anom-Table-2.x.y

    融合推荐异常检测模型

    100

    5000000

    Pangu-Predict-Anom-TS-3.x.y

    统一编码异常检测模型

    1000

    5000000

相关文档