预测类数据集格式要求
平台支持创建预测类数据集,您可以参考预测数据集构建规范,确保创建可用的预测类数据集。当前平台支持时序分类数据、时序回归数据、结构化分类数据、结构化回归数据四类预测数据集。四类数据集说明如下:
- 时序分类数据:含有时间标记的数据序列,输入列为特征列,目标列是离散值,并具有有限的可能取值。
- 时序回归数据:含有时间标记的数据序列,输入列为特征列,目标列是连续值。
- 结构化分类数据:包含多种预测因子的数据集,输入列为特征列,目标列是离散值,并具有有限的可能取值。
- 结构化回归数据:包含多种预测因子的数据集,输入列为特征列,目标列是连续值。
预测类数据集具体格式要求详见表1。
- 文件命名规范
- 字符范围:
允许中文汉字、大小写字母(A-Z/a-z)、数字(0-9)、下划线(_)。
禁止中英文标点符号(如,。!?)、特殊符号(如@#$%^&*)、空格。
- 长度限制:
文件名(含扩展名)≤128字符,中文字符按实际长度计算(非字节数)。
- 参考样例:
{项目缩写}_{数据用途}_{时间范围}_v{版本号}.csv,比如销售_训练集_2025Q1_v2.csv。
- 列名规则
- 字符范围:
同文件名规则(允许中文、英文、数字、下划线,禁止标点/特殊符号)。
- 长度限制:
≤20字符(兼容数据库字段长度限制)。
- 参考样例:
首列一般为唯一标识列,命名示例:数据ID(非时序)或时间戳(时序)。
末列为目标变量,命名需含目标,如销量目标,标签列。
特征列名需明确语义(如转速、客户性别)。
- 列数据类型
- 类型定义:
表2 预测数据集数据类型 类型
中文描述
格式要求
INT
整数
纯数字,无小数点
FLOAT
浮点数
支持小数点(3.14)
DATETIME
中英文字符串不包含特殊字符
时间ISO 8601(2025-01-01 12:00:00)
VARCHAR(n)
文本
字符串类型,为避免CSV文件格式冲突,避免英文逗号等特殊字符
- 特殊样例:
对于常见的IOT数据,CSV文件导出时,作为字符串类型导入,数据样例为:
" -0.3170943558216095,0.2578448951244354,0.98955637216568 "。
- 编码与结构
- 编码:必须使用UTF-8无BOM(避免Linux/Mac解析异常)。
- 分隔符:逗号(,),禁止使用其他符号(如分号、制表符)。
- 换行符:LF(\n)或CRLF(\r\n),需全局统一。
- 缺失值:留空(连续逗号,,)或标注NULL(需在注释行说明)。
- 空字符串:用双引号包裹空值(""),避免解析歧义。
- 目录结构:仅对一级目录中的CSV文件进行处理,非CSV文件及子目录不进行处理,将直接复制到目标路径中。