预测类数据集格式要求
平台支持创建预测类数据集,您可以参考预测数据集构建规范,确保创建可用的预测类数据集。当前平台支持时序分类数据、时序回归数据、结构化分类数据、结构化回归数据四类预测数据集。四类数据集说明如下:
- 时序分类数据:含有时间标记的数据序列,输入列为特征列,目标列是离散值,并具有有限的可能取值。
- 时序回归数据:含有时间标记的数据序列,输入列为特征列,目标列是连续值。
- 结构化分类数据:包含多种预测因子的数据集,输入列为特征列,目标列是离散值,并具有有限的可能取值。
- 结构化回归数据:包含多种预测因子的数据集,输入列为特征列,目标列是连续值。
预测类数据集具体格式要求详见表1。
预测数据集构建规范
用户自定义预测数据集,需要满足如下规范。
- 文件命名规范
- 列名规则
- 列数据类型
- 类型定义:
表2 预测数据集数据类型 类型
中文描述
格式要求
INT
整数
纯数字,无小数点。
FLOAT
浮点数
支持小数点(3.14)。
DATETIME
中英文字符串不包含特殊字符
时间ISO 8601(2025-01-01 12:00:00)
VARCHAR(n)
文本
字符串类型,为避免CSV文件格式冲突,避免英文逗号等特殊字符。
- 类型定义:
- 编码与结构
- 编码:必须使用UTF-8无BOM(避免Linux/Mac解析异常)。
- 分隔符:逗号(,),禁止使用其他符号(如分号、制表符)。
- 换行符:LF(\n)或CRLF(\r\n),需全局统一。
- 缺失值:留空(连续逗号,,)或标注NULL(需在注释行说明)。
- 空字符串:用双引号包裹空值(""),避免解析歧义。
- 目录结构:仅对一级目录中的CSV文件进行处理,非CSV文件及子目录不进行处理,将直接复制到目标路径中。