更新时间:2025-09-16 GMT+08:00
分享

预测类数据集格式要求

平台支持创建预测类数据集,您可以参考预测数据集构建规范,确保创建可用的预测类数据集当前平台支持时序分类数据、时序回归数据、结构化分类数据、结构化回归数据四类预测数据集四类数据集说明如下:

  • 时序分类数据:含有时间标记的数据序列,输入列为特征列,目标列是离散值,并具有有限的可能取值。
  • 时序回归数据:含有时间标记的数据序列,输入列为特征列,目标列是连续值。
  • 结构化分类数据:包含多种预测因子的数据集,输入列为特征列,目标列是离散值,并具有有限的可能取值。
  • 结构化回归数据:包含多种预测因子的数据集,输入列为特征列,目标列是连续值。

预测类数据集具体格式要求详见表1

表1 预测类数据集格式要求

文件内容

文件格式

文件样例

时序分类、时序回归

csv

  • 数据为结构化数据,包含列和行,每一行表示一条数据,每一列表示一个特征,并且必须包含预测目标列,回归预测目标列要求为连续型数据、分类预测目标列要求为离散数据。
  • 目录下只有1个数据文件时,文件无命名要求。
  • 目录下有多个数据文件时,需要通过命名的方式指定数据是训练数据集、验证数据集还是测试数据集。训练数据名称需包含train字样,如train01.csv;验证数据名称需包含eval字样;测试数据名称需包含test字样。单个文件的命名不能同时包含train、eval和test中的两个或三个。
  • 时序预测必须要包含至少一列时序数据,用于表示特征在固定时间间隔的变化。

    示例如下(表示不同特征feature1,feature2在固定时间间隔的值):

    feature1,feature2,target
    10.5,20.3,100
    10.6,20.5,101
    10.7,20.7,102
    10.8,20.9,103
    10.9,21.0,104
  • 从OBS导入:单个文件大小不超过2GB,文件数量不限制。

    本地上传:单个文件大小不超过10M,文件数量最多100个。

结构化分类、结构化回归

csv

  • 数据为结构化数据,包含列和行,每一行表示一条数据,每一列表示一个特征,并且必须包含预测目标列,回归预测目标列要求为连续型数据,分类预测目标列要求为离散数据。
  • 目录下只有1个数据文件时,文件无命名要求。
  • 目录下有多个数据文件时,需要通过命名的方式指定数据是训练数据集、验证数据集还是测试数据集。训练数据名称需包含train字样,如train01.csv;验证数据名称需包含eval字样;测试数据名称需包含test字样。单个文件的命名不能同时包含train、eval和test中的两个或三个。
    示例如下:
    feature1,feature2,target
    10.5,20.3,100
    10.6,20.5,101
    10.7,20.7,102
    10.8,20.9,103
    10.9,21.0,104
  • 从OBS导入:单个文件大小不超过2GB,文件数量不限制。

    本地上传:单个文件大小不超过10M,文件数量最多100个。

预测数据集构建规范

用户自定义预测数据集,需要满足如下规范。

  1. 文件命名规范
    • 字符范围:

    允许中文汉字、大小写字母(A-Z/a-z)、数字(0-9)、下划线(_)。

    禁止中英文标点符号(如,。!?)、特殊符号(如@#$%^&*)、空格。

    • 长度限制:

    文件名(含扩展名)≤128字符,中文字符按实际长度计算(非字节数)。

    • 参考样例:

    {项目缩写}_{数据用途}_{时间范围}_v{版本号}.csv,比如销售_训练集_2025Q1_v2.csv。

  2. 列名规则
    • 字符范围:

    同文件名规则(允许中文、英文、数字、下划线,禁止标点/特殊符号)。

    • 长度限制:

    ≤20字符(兼容数据库字段长度限制)。

    • 参考样例:

    首列一般为唯一标识列,命名示例:数据ID(非时序)或时间戳(时序)。

    末列为目标变量,命名需含目标,如销量目标,标签列。

    特征列名需明确语义(如转速、客户性别)。

  3. 列数据类型
    • 类型定义:
    表2 预测数据集数据类型

    类型

    中文描述

    格式要求

    INT

    整数

    纯数字,无小数点

    FLOAT

    浮点数

    支持小数点(3.14)

    DATETIME

    中英文字符串不包含特殊字符

    时间ISO 8601(2025-01-01 12:00:00)

    VARCHAR(n)

    文本

    字符串类型,为避免CSV文件格式冲突,避免英文逗号等特殊字符

    • 特殊样例:

    对于常见的IOT数据,CSV文件导出时,作为字符串类型导入,数据样例为:

    " -0.3170943558216095,0.2578448951244354,0.98955637216568 "。

  4. 编码与结构
    • 编码:必须使用UTF-8无BOM(避免Linux/Mac解析异常)。
    • 分隔符:逗号(,),禁止使用其他符号(如分号、制表符)。
    • 换行符:LF(\n)或CRLF(\r\n),需全局统一。
    • 缺失值:留空(连续逗号,,)或标注NULL(需在注释行说明)。
    • 空字符串:用双引号包裹空值(""),避免解析歧义。
    • 目录结构:仅对一级目录中的CSV文件进行处理,非CSV文件及子目录不进行处理,将直接复制到目标路径中。

相关文档