使用数据工程构建预测大模型数据集
预测大模型支持接入的数据集类型
盘古预测大模型仅支持接入预测类数据集,不同模型所需数据见表1,该数据集格式要求请参见预测类数据集格式要求。
基模型 |
模型分类 |
数据集类型 |
文件格式 |
---|---|---|---|
预测大模型 |
统一编码时序预测分类大模型 |
时序分类 |
csv |
统一编码时序预测回归大模型 |
时序回归 |
csv |
|
统一编码表格预测分类大模型 |
结构化分类 |
csv |
|
统一编码表格预测回归大模型 |
结构化回归 |
csv |
|
时序异常检测大模型 |
时序回归 |
csv |
|
融合推荐分类大模型 |
结构化分类 |
csv |
|
融合推荐分类大模型-极简模式 |
结构化分类 |
csv |
|
融合推荐回归大模型 |
结构化回归 |
csv |
|
融合推荐回归大模型-极简模式 |
结构化回归 |
csv |
|
融合推荐异常检测大模型 |
结构化分类 |
csv |

训练预测大模型所需数据量
训练预测大模型时,所需的数据通常为表格格式,即由行和列组成的扁平化数据。具体要求如下:
- 行:每行代表一个样本。每行与其他行具有相同的列,并且顺序相同,这些行通常按照某种特定顺序排列。
- 列:每列表示一种特征。每列的数据类型应保持一致,不同列可以具有不同的数据类型。
- 顺序:表格中的行通常按照特定顺序排列。
- 行数:数据表的行数应大于5000行。
- 维度:数据的维度(列数)应大于10维。
- 数据完整性:必须确保数据中没有缺失值。