更新时间:2024-12-02 GMT+08:00
分享

预测类数据集格式要求

平台支持创建预测类数据集,创建时可导入时序数据、回归分类数据

  • 时序数据:时序预测数据是一种按时间顺序排列的数据序列,每个数据点都有一个时间戳,表示数据在时间上的位置。它用于预测未来事件或趋势,过去的数据会影响未来的预测。
  • 回归分类数据:回归分类数据包含多种预测因子(特征),用于预测连续变量的值。数据集中的多个特征变量帮助预测目标变量,而目标变量为连续数值,非离散类别。与时序数据不同,回归分类数据不要求数据具有时间顺序。

具体格式要求详见表1

表1 预测类数据集格式要求

文件内容

文件格式

文件样例

时序

csv

  • 数据为结构化数据,包含列和行,每一行表示一条数据,每一列表示一个特征,并且必须包含预测目标列,预测目标列要求为连续型数据。
  • 目录下只有1个数据文件时,文件无命名要求。
  • 目录下有多个数据文件时,需要通过命名的方式指定数据是训练数据集、验证数据集还是测试数据集。训练数据名称需包含train字眼,如train01.csv;验证数据名称需包含eval字眼;测试数据名称需包含test字眼。文件的命名不能同时包含train、eval和test中的两个或三个。
  • 时序预测必须要包含一个时间列,时间列值的格式示例为 2024-05-27 或 2024/05/27 或 2024-05-27 12:00:00 或 2024/05/27 12:00:00 。

    示例如下:

    timestamp,feature1,feature2,target
    2024-05-27 12:00:00,10.5,20.3,100
    2024-05-27 12:01:00,10.6,20.5,101
    2024-05-27 12:02:00,10.7,20.7,102
    2024-05-27 12:03:00,10.8,20.9,103
    2024-05-27 12:04:00,10.9,21.0,104
  • 数据集最大100万个文件,单文件最大10GB,整个数据集最大10TB。

回归分类

csv

  • 数据为结构化数据,包含列和行,每一行表示一条数据,每一列表示一个特征,并且必须包含预测目标列,预测目标列要求为连续型数据。
  • 目录下只有1个数据文件时,文件无命名要求。
  • 目录下有多个数据文件时,需要通过命名的方式指定数据是训练数据集、验证数据集还是测试数据集。训练数据名称需包含train字眼,如train01.csv;验证数据名称需包含eval字眼;测试数据名称需包含test字眼。文件的命名不能同时包含train、eval和test中的两个或三个。
    示例如下:
    feature1,feature2,target
    10.5,20.3,100
    10.6,20.5,101
    10.7,20.7,102
    10.8,20.9,103
    10.9,21.0,104
  • 数据集最大100万个文件,单文件最大10GB,整个数据集最大10TB。

相关文档