平台支持创建预测类数据集,创建时可导入时序数据、回归分类数据。
- 时序数据:时序预测数据是一种按时间顺序排列的数据序列,每个数据点都有一个时间戳,表示数据在时间上的位置。它用于预测未来事件或趋势,过去的数据会影响未来的预测。
- 回归分类数据:回归分类数据包含多种预测因子(特征),用于预测连续变量的值。数据集中的多个特征变量帮助预测目标变量,而目标变量为连续数值,非离散类别。与时序数据不同,回归分类数据不要求数据具有时间顺序。
具体格式要求详见表1。
表1 预测类数据集格式要求
文件内容 |
文件格式 |
文件样例 |
时序 |
csv |
- 数据为结构化数据,包含列和行,每一行表示一条数据,每一列表示一个特征,并且必须包含预测目标列,预测目标列要求为连续型数据。
- 目录下只有1个数据文件时,文件无命名要求。
- 目录下有多个数据文件时,需要通过命名的方式指定数据是训练数据集、验证数据集还是测试数据集。训练数据名称需包含train字眼,如train01.csv;验证数据名称需包含eval字眼;测试数据名称需包含test字眼。文件的命名不能同时包含train、eval和test中的两个或三个。
- 时序预测必须要包含一个时间列,时间列值的格式示例为 2024-05-27 或 2024/05/27 或 2024-05-27 12:00:00 或 2024/05/27 12:00:00 。
示例如下:
timestamp,feature1,feature2,target
2024-05-27 12:00:00,10.5,20.3,100
2024-05-27 12:01:00,10.6,20.5,101
2024-05-27 12:02:00,10.7,20.7,102
2024-05-27 12:03:00,10.8,20.9,103
2024-05-27 12:04:00,10.9,21.0,104
- 数据集最大100万个文件,单文件最大10GB,整个数据集最大10TB。
|
回归分类 |
csv |
- 数据为结构化数据,包含列和行,每一行表示一条数据,每一列表示一个特征,并且必须包含预测目标列,预测目标列要求为连续型数据。
- 目录下只有1个数据文件时,文件无命名要求。
- 目录下有多个数据文件时,需要通过命名的方式指定数据是训练数据集、验证数据集还是测试数据集。训练数据名称需包含train字眼,如train01.csv;验证数据名称需包含eval字眼;测试数据名称需包含test字眼。文件的命名不能同时包含train、eval和test中的两个或三个。
示例如下:
feature1,feature2,target
10.5,20.3,100
10.6,20.5,101
10.7,20.7,102
10.8,20.9,103
10.9,21.0,104
- 数据集最大100万个文件,单文件最大10GB,整个数据集最大10TB。
|