使用数据工程构建预测大模型数据集

盘古预测大模型仅支持接入预测类数据集，不同模型所需数据见表1，该数据集格式要求请参见预测类数据集格式要求。

表1 预测大模型与数据集类型对应关系
基模型	模型分类	数据集类型	文件格式
预测大模型	统一编码时序预测分类大模型	时序分类	csv
	统一编码时序预测回归大模型	时序回归	csv
	统一编码表格预测分类大模型	结构化分类	csv
	统一编码表格预测回归大模型	结构化回归	csv
	时序异常检测大模型	时序回归	csv
	融合推荐分类大模型	结构化分类	csv
	融合推荐分类大模型-极简模式	结构化分类	csv
	融合推荐回归大模型	结构化回归	csv
	融合推荐回归大模型-极简模式	结构化回归	csv
	融合推荐异常检测大模型	结构化分类	csv
	结构化数据预测	结构化回归结构化分类	csv
	高速交通流量预测模型	结构化回归	csv
	供应链需求预测模型	时序回归	csv
	供热行业模型	结构化回归	csv
	表格直推预测模型	结构化回归	csv

在控制台选择“数据工程 > 数据获取 > 导入任务”，选择预测数据类型，导入对应数据，如图1

图1 创建数据集

训练预测大模型时，所需的数据通常为表格格式，即由行和列组成的扁平化数据。具体要求如下：

在ModelArts Studio大模型开发平台中，使用数据工程构建盘古预测大模型数据集流程见表2。

表2 盘古预测大模型数据集构建流程
流程	子流程	说明	操作指导
导入数据至盘古平台	创建导入任务	将存储在OBS服务中的数据导入至平台统一管理，用于后续加工或发布操作。	导入数据至盘古平台
发布预测类数据集	发布预测类数据集	数据发布是将单个数据集发布为特定格式的“发布数据集”，用于后续模型训练等操作。	发布预测类数据集