预测类数据集格式要求
平台支持创建预测类数据集,您可以参考预测数据集构建规范,确保创建可用的预测类数据集。当前平台支持时序分类数据、时序回归数据、结构化分类数据、结构化回归数据四类预测数据集和其他(自定义)数据集。五类数据集说明如下:
- 时序分类数据:时序分类数据是一种按时间顺序排列的数据序列,用于预测未来事件或趋势,过去的数据会影响未来的预测,目标值是离散值。
- 时序回归数据:时序回归数据是一种按时间顺序排列的数据序列,用于预测未来事件或趋势,过去的数据会影响未来的预测,目标值是连续值。
- 结构化分类数据:包含多种预测因子的数据集,输入列为特征列,目标列是离散值,并具有有限的可能取值。
- 结构化回归数据:包含多种预测因子的数据集,输入列为特征列,目标列是连续值。
- 其他(自定义)数据集:用户自定义数据集,可直接发布至模型训练,暂不支持标注、评估等操作。
注意:如使用过程中出现不支持的预测数据集类型或数据加工过程问题,可以使用数据工程平台的自定义数据集和自定义加工算子的功能。
预测类数据集具体格式要求详见表1。
|
文件内容 |
文件格式 |
文件样例 |
|---|---|---|
|
时序分类、时序回归 |
csv |
|
|
结构化分类、结构化回归 |
csv |
|
|
其他(自定义) |
csv excel |
用户自定义数据集。 |
预测数据集构建规范
用户自定义预测数据集,需要满足如下规范。
- 文件命名规范
- 列名规则
- 列数据类型
- 类型定义:
表2 预测数据集数据类型 类型
中文描述
格式要求
INT
整数
纯数字,无小数点。
FLOAT
浮点数
支持小数点(3.14)。
DATETIME
中英文字符串不包含特殊字符
时间ISO 8601(2025-01-01 12:00:00)。
VARCHAR(n)
文本
字符串类型,为避免CSV文件格式冲突,避免英文逗号等特殊字符。
- 类型定义:
- 编码与结构
- 编码:必须使用UTF-8无BOM(避免Linux/Mac解析异常)。
- 分隔符:逗号(,),禁止使用其他符号(如分号、制表符)。
- 换行符:LF(\n)或CRLF(\r\n),需全局统一。
- 缺失值:留空(连续逗号,,)或标注NULL(需在注释行说明)。
- 空字符串:用双引号包裹空值(""),避免解析歧义。
- 目录结构:仅对一级目录中的CSV文件进行处理,非CSV文件及子目录不进行处理,将直接复制到目标路径中。
- 数据集条数约束
模型名称
模型类型
数据集条数下限
数据集条数上限
Pangu-Predict-Cla-TS-3.x.y
统一编码时序分类模型
3000
5000000
Pangu-Predict-Cla-Table-2.0.x
融合推荐表格分类模型
100
5000000
Pangu-Predict-Cla-Table-2.1.x
融合推荐分类模型-极简模式
5000000
Pangu-Predict-Cla-Table-3.x.y
统一编码表格分类模型
5000000
Pangu-Predict-Reg-TS-3.x.y
统一编码时序回归模型
100+ts_context_len(历史窗口大小)*10+ts_prediction_len(预测目标窗口大小)*10
5000000
Pangu-Predict-Reg-Table-2.0.x
融合推荐表格回归模型
100
5000000
Pangu-Predict-Reg-Table-2.1.x
融合推荐回归模型-极简模式
5000000
Pangu-Predict-Reg-Table-3.x.y
统一编码表格回归模型
5000000
Pangu-Predict-Anom-Table-2.x.y
融合推荐异常检测模型
100
5000000
Pangu-Predict-Anom-TS-3.x.y
统一编码异常检测模型
1000
5000000