文档首页/ 盘古大模型 PanguLargeModels/ 用户指南/ 使用数据工程构建数据集/ 数据集格式要求/ 预测类数据集格式要求

更新时间：2026-07-13 GMT+08:00

预测类数据集格式要求

平台支持创建预测类数据集，您可以参考预测数据集构建规范，确保创建可用的预测类数据集。当前平台支持时序分类数据、时序回归数据、结构化分类数据、结构化回归数据四类预测数据集和其他（自定义）数据集。五类数据集说明如下：

时序分类数据：时序分类数据是一种按时间顺序排列的数据序列，用于预测未来事件或趋势，过去的数据会影响未来的预测，目标值是离散值。
时序回归数据：时序回归数据是一种按时间顺序排列的数据序列，用于预测未来事件或趋势，过去的数据会影响未来的预测，目标值是连续值。
结构化分类数据：包含多种预测因子的数据集，输入列为特征列，目标列是离散值，并具有有限的可能取值。
结构化回归数据：包含多种预测因子的数据集，输入列为特征列，目标列是连续值。
其他（自定义）数据集：用户自定义数据集，可直接发布至模型训练，暂不支持标注、评估等操作。

注意：如使用过程中出现不支持的预测数据集类型或数据加工过程问题，可以使用数据工程平台的自定义数据集和自定义加工算子的功能。

预测类数据集具体格式要求详见表1。

表1 预测类数据集格式要求
文件内容	文件格式	文件样例
时序分类、时序回归	csv	盘古时序预测大模型数据为结构化数据，包含列和行，每一行表示一条数据，每一列表示一个特征，并且必须包含预测目标列，回归预测目标列要求为连续型数据、分类预测目标列要求为离散数据。目录下只有1个数据文件时，文件无命名要求。目录下有多个数据文件时，需要通过命名的方式指定数据是训练数据集、验证数据集还是测试数据集。训练数据名称需包含train字样，如train01.csv；验证数据名称需包含eval字样；测试数据名称需包含test字样。单个文件的命名不能同时包含train、eval和test中的两个或以上。注意：如需使用多文件，需以模型训练参数为依据。当模型训练参数可以指定训练、验证、测试集比例时，可以通过命名train、eval、test指定训练集、验证集和测试集；当模型训练参数仅有“训练集&验证集比例“时，可通过命名train、test指定训练集、测试集。时序预测必须要包含至少一列时序数据，用于表示特征在固定时间间隔的变化。示例如下（表示不同特征feature1,feature2在固定时间间隔的值），注意示例仅供参考，无法直接用于创建数据集，预测模型需要的数据集规范参考预测数据集构建规范： feature1,feature2,target 10.5,20.3,100 10.6,20.5,101 10.7,20.7,102 10.8,20.9,103 10.9,21.0,104 从OBS导入：单个文件大小不超过50GB，文件数量不限制。本地上传：单个文件大小不超过10M，文件数量最多100个。供应链需求预测模型目录下须有多个数据文件（csv文件），文件名称及列名见表2。 time_series.csv 和 hierarchy.csv 的 item_id须一致。未来动态协变量依赖于历史动态协变量存在，即出现在{level_k}_future_dynamic_features.csv中的动态协变量特征，必须出现在对应的{level_k}_dynamic_features.csv中。
结构化分类、结构化回归	csv	数据为结构化数据，包含列和行，每一行表示一条数据，每一列表示一个特征，并且必须包含预测目标列，回归预测目标列要求为连续型数据，分类预测目标列要求为离散数据。目录下只有1个数据文件时，文件无命名要求。目录下有多个数据文件时，需要通过命名的方式指定数据是训练数据集、验证数据集还是测试数据集。训练数据名称需包含train字样，如train01.csv；验证数据名称需包含eval字样；测试数据名称需包含test字样。单个文件的命名不能同时包含train、eval和test中的两个或以上。注意：如需使用多文件，需以模型训练参数为依据。当模型训练参数可以指定训练、验证、测试集比例时，可以通过命名train、eval、test指定训练集、验证集和测试集；当模型训练参数仅有“训练集&验证集比例“时，可通过命名train、test指定训练集、测试集。示例如下，注意示例仅供参考，无法直接用于创建数据集，预测模型需要的数据集规范参考预测数据集构建规范： feature1,feature2,target 10.5,20.3,100 10.6,20.5,101 10.7,20.7,102 10.8,20.9,103 10.9,21.0,104 从OBS导入：单个文件大小不超过50GB，文件数量不限制。本地上传：单个文件大小不超过10M，文件数量最多100个。
其他（自定义）	csv excel	用户自定义数据集。

表2 供应链需求预测模型数据集格式要求
文件名	必需	说明	列名	样例
time_series.csv	是	时序数据	item_id, timestamp, data	item_id,timestamp,data ITEM_0000,2021-01-01,22 ITEM_0000,2021-01-02,20 ITEM_0000,2021-01-03,22 ……
hierarchy.csv	是	层级关系，用于将time_series.csv数据聚合到各level	item_id, {level_1}, {level_2}, … {level_k}, … {level_n}	item_id,一级分类,二级分类,三级分类,品牌名,型号 ITEM_0000,大家电,空调,壁挂式空调,XX,A ITEM_0001,大家电,空调,壁挂式空调,XX,B ITEM_0002,大家电,空调,壁挂式空调,XX,C ……
{level_k}_dynamic_features.csv	否	历史动态协变量，可以有多个文件(<=n) ，对应多个level	timestamp, {level_1}, {level_2}, … {level_k}, {dynamic_feat_1}, {dynamic_feat_2}, …	（品牌名_dynamic_features.csv ） timestamp,一级分类,二级分类,三级分类,品牌名,是否广告推流 2021-01-01,大家电,空调,壁挂式空调,XX,是 2021-01-02,大家电,空调,壁挂式空调,XX,否 2021-01-03,大家电,空调,壁挂式空调,XX,是 ……
{level_k}_future_dynamic_features.csv	否	未来动态协变量，可以有多个文件(<=n) ，对应多个level	timestamp, {level_1}, {level_2}, … {level_k}, {dynamic_feat_1}, {dynamic_feat_2}, …	（品牌名_future_dynamic_features.csv） timestamp,一级分类,二级分类,三级分类,品牌名,是否广告推流 2024-01-01,大家电,空调,壁挂式空调,XX,否 2024-01-02,大家电,空调,壁挂式空调,XX,否 2024-01-03,大家电,空调,壁挂式空调,XX,否 ……
{level_k}_static_features.csv	否	静态协变量，可以有多个文件(<=n) ，对应多个level	timestamp, {level_1}, {level_2}, … {level_k}, {static_feat_1}, {static_feat_2}, …	（型号_static_features.csv）一级分类,二级分类,三级分类,品牌名,型号,能效等级大家电,空调,壁挂式空调,XX,A,高大家电,空调,壁挂式空调,XX,B,低 ……

预测数据集构建规范

用户自定义预测数据集，需要满足如下规范。

文件命名规范
- 字符范围：
  允许中文汉字、大小写字母（A-Z/a-z）、数字（0-9）、下划线（_）。
  
  禁止中英文标点符号（如，。！？）、特殊符号（如@#$%^&*）、空格。
- 长度限制：
  文件名（含扩展名）≤128字符，中文字符按实际长度计算（非字节数）。
- 参考样例：
  {项目缩写}_{数据用途}_{时间范围}_v{版本号}.csv，比如销售_训练集_2025Q1_v2.csv。
列名规则
- 字符范围：
  同文件名规则（允许中文、英文、数字、下划线，禁止标点/特殊符号）。
- 长度限制：
  ≤20字符（兼容数据库字段长度限制）。
- 参考样例：
  首列一般为唯一标识列，命名示例：数据ID（非时序）或时间戳（时序）。
  
  末列为目标变量，命名需含目标，如销量目标，标签列。
  
  特征列名需明确语义（如转速、客户性别）。

列数据类型

类型定义：

表3 预测数据集数据类型
类型	中文描述	格式要求
INT	整数	纯数字，无小数点。
FLOAT	浮点数	支持小数点（3.14）。
DATETIME	中英文字符串不包含特殊字符	时间ISO 8601（2025-01-01 12:00:00）。
VARCHAR(n)	文本	字符串类型，为避免CSV文件格式冲突，避免英文逗号等特殊字符。

特殊样例：
对于常见的IOT数据，CSV文件导出时，作为字符串类型导入，数据样例为：

" -0.3170943558216095,0.2578448951244354,0.98955637216568 "。

编码与结构
- 编码：必须使用UTF-8无BOM（避免Linux/Mac解析异常）。
- 分隔符：逗号（,），禁止使用其他符号（如分号、制表符）。
- 换行符：LF（\n）或CRLF（\r\n），需全局统一。
- 缺失值：留空（连续逗号,,）或标注NULL（需在注释行说明）。
- 空字符串：用双引号包裹空值（""），避免解析歧义。
- 目录结构：仅对一级目录中的CSV文件进行处理，非CSV文件及子目录不进行处理，将直接复制到目标路径中。

数据集条数约束

模型名称	模型类型	数据集条数下限	数据集条数上限
Pangu-Predict-Cla-TS-3.x.y	统一编码时序分类模型	3000	5000000
Pangu-Predict-Cla-Table-2.0.x	融合推荐表格分类模型	100	5000000
Pangu-Predict-Cla-Table-2.1.x	融合推荐分类模型-极简模式		5000000
Pangu-Predict-Cla-Table-3.x.y	统一编码表格分类模型		5000000
Pangu-Predict-Reg-TS-3.x.y	统一编码时序回归模型	100+ts_context_len(历史窗口大小)10+ts_prediction_len(预测目标窗口大小)10	5000000
Pangu-Predict-Reg-Table-2.0.x	融合推荐表格回归模型	100	5000000
Pangu-Predict-Reg-Table-2.1.x	融合推荐回归模型-极简模式		5000000
Pangu-Predict-Reg-Table-3.x.y	统一编码表格回归模型		5000000
Pangu-Predict-Anom-Table-2.x.y	融合推荐异常检测模型	100	5000000
Pangu-Predict-Anom-TS-3.x.y	统一编码异常检测模型	1000	5000000
Pangu-Predict-Industry-Traffic	高速交通流量预测模型	1000	5000000
Pangu-Predict-Industry-Demand	供应链需求预测模型	100	5000000
Pangu-Predict-FewShot-Table	表格直推预测模型	1000	5000000
Pangu-Predict-Industry-Heating	供热行业预测模型	1000	5000000

父主题： 数据集格式要求

上一篇：多模态类数据集格式要求

下一篇：气象类数据集格式要求

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问