文档首页/ 盘古大模型 PanguLargeModels/ 用户指南/ 开发Deepseek大模型/ 使用数据工程构建Deepseek大模型数据集
更新时间:2025-09-16 GMT+08:00
分享

使用数据工程构建Deepseek大模型数据集

构建Deepseek大模型数据集流程

在ModelArts Studio平台中,使用数据工程构建三方大模型数据集流程见表1

表1 三方大模型数据集构建流程

流程

子流程

说明

操作指导

导入数据至盘古平台

创建导入任务

将存储在OBS服务或本地的数据导入至平台统一管理,用于后续加工或发布操作。

说明:

执行导入操作时,数据集类型需要选择“单轮问答数据”

导入数据至盘古平台

加工其他类数据集

加工其他类数据集

通过自定义加工算子对数据进行预处理,确保数据符合模型训练的标准和业务需求。

加工其他类数据集

发布其他类数据集

发布其他类数据集

数据发布是将单个数据集发布为特定格式的“发布数据集”,用于后续模型训练等操作。

发布其他类数据集

相关文档