使用数据工程构建NLP大模型数据集

NLP大模型支持接入的数据集类型

盘古NLP大模型仅支持接入文本类数据集，该数据集格式要求请参见文本类数据集格式要求。

构建NLP大模型所需数据量

使用数据工程构建盘古NLP大模型数据集进行模型训练时，所需数据量见表1。

表1 构建NLP大模型所需数据量
模型规格	训练类型	推荐数据量	最小数据量（数据条数）	单场景推荐训练数据量	单条数据Token长度限制
N1	微调	-	1000条/每场景	≥ 1万条/每场景	32K
N2	微调	-	1000条/每场景	≥ 1万条/每场景	32K

构建NLP大模型数据集流程

在ModelArts Studio大模型开发平台中，使用数据工程构建盘古NLP大模型数据集流程见表2。

表2 盘古NLP大模型数据集构建流程
流程	子流程	说明	操作指导
导入数据至盘古平台	创建原始数据集	数据集是指用于模型训练或评测的一组相关数据样本，上传至平台的数据将被创建为原始数据集进行统一管理。	创建原始数据集
导入数据至盘古平台	上线原始数据集	在正式发布数据集前，需要执行上线操作。	上线原始数据集
加工数据集	创建文本类数据集加工任务	数据集中若存在异常数据，可通过数据集加工功能去除异常字符、表情符号、个人敏感内容等。说明：盘古NLP大模型仅支持接入文本类数据集。若数据类型为文档、网页，则加工数据集为必选项，否则为可选项。	创建文本类数据集加工任务
加工数据集	上线加工后的数据集	对加工后的数据集执行上线操作。	上线加工后的文本类数据集
标注数据集（可选）	创建文本类数据集标注任务	创建数据集标注任务，对数据集执行标注操作，标注后的数据可以用于模型训练或评测。	创建文本类数据集标注任务
	审核数据集标注结果	对数据集的标注结果进行审核	审核文本类数据集标注结果
	上线标注后的数据集	对标注后的数据集执行上线操作。	上线标注后的文本类数据集
评估数据集（可选）	创建文本类数据集评估标准	创建数据集评估标准。评估文本通顺性、信息充分性、内容有效性等。	创建文本类数据集评估标准
	创建文本类数据集评估任务	创建数据集质量评估任务，基于评估标注对数据逐一评估其质量。	创建文本类数据集评估任务
	获取数据集质量评估报告	查看数据集评估任务的进展和数据集质量。	获取文本类数据集评估报告
发布数据集	创建文本类数据集发布任务	创建发布数据集，并进行正式的发布操作，用于后续的训练任务。平台支持发布的数据集格式为默认格式、盘古格式。训练盘古NLP大模型需选择发布格式为盘古格式。	发布文本类数据集

父主题： 开发盘古NLP大模型

上一篇：开发盘古NLP大模型

下一篇：训练NLP大模型

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

使用数据工程构建NLP大模型数据集

NLP大模型支持接入的数据集类型

构建NLP大模型所需数据量

构建NLP大模型数据集流程

相关文档

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线