文档首页/ 盘古大模型 PanguLargeModels/ 用户指南/ 开发盘古NLP大模型/ 使用数据工程构建NLP大模型数据集
更新时间:2024-12-02 GMT+08:00
分享

使用数据工程构建NLP大模型数据集

NLP大模型支持接入的数据集类型

盘古NLP大模型仅支持接入文本类数据集,该数据集格式要求请参见文本类数据集格式要求

构建NLP大模型所需数据量

使用数据工程构建盘古NLP大模型数据集进行模型训练时,所需数据量见表1

表1 构建NLP大模型所需数据量

模型规格

训练类型

推荐数据量

最小数据量(数据条数)

单场景推荐训练数据量

单条数据Token长度限制

N1

微调

-

1000条/每场景

≥ 1万条/每场景

32K

N2

微调

-

1000条/每场景

≥ 1万条/每场景

32K

构建NLP大模型数据集流程

在ModelArts Studio大模型开发平台中,使用数据工程构建盘古NLP大模型数据集流程见表2

表2 盘古NLP大模型数据集构建流程

流程

子流程

说明

操作指导

导入数据至盘古平台

创建原始数据集

数据集是指用于模型训练或评测的一组相关数据样本,上传至平台的数据将被创建为原始数据集进行统一管理。

创建原始数据集

上线原始数据集

在正式发布数据集前,需要执行上线操作。

上线原始数据集

加工数据集

创建文本类数据集加工任务

数据集中若存在异常数据,可通过数据集加工功能去除异常字符、表情符号、个人敏感内容等。

说明:

盘古NLP大模型仅支持接入文本类数据集。

若数据类型为文档、网页,则加工数据集为必选项,否则为可选项

创建文本类数据集加工任务

上线加工后的数据集

对加工后的数据集执行上线操作。

上线加工后的文本类数据集

标注数据集(可选)

创建文本类数据集标注任务

创建数据集标注任务,对数据集执行标注操作,标注后的数据可以用于模型训练或评测。

创建文本类数据集标注任务

审核数据集标注结果

对数据集的标注结果进行审核

审核文本类数据集标注结果

上线标注后的数据集

对标注后的数据集执行上线操作。

上线标注后的文本类数据集

评估数据集(可选)

创建文本类数据集评估标准

创建数据集评估标准。评估文本通顺性、信息充分性、内容有效性等。

创建文本类数据集评估标准

创建文本类数据集评估任务

创建数据集质量评估任务,基于评估标注对数据逐一评估其质量。

创建文本类数据集评估任务

获取数据集质量评估报告

查看数据集评估任务的进展和数据集质量。

获取文本类数据集评估报告

发布数据集

创建文本类数据集发布任务

创建发布数据集,并进行正式的发布操作,用于后续的训练任务。

平台支持发布的数据集格式为默认格式、盘古格式。

训练盘古NLP大模型需选择发布格式为盘古格式。

发布文本类数据集

相关文档