使用数据工程构建NLP大模型数据集
NLP大模型支持接入的数据集类型
盘古NLP大模型仅支持接入文本类数据集,该数据集格式要求请参见文本类数据集格式要求。
构建NLP大模型所需数据量
使用数据工程构建盘古NLP大模型数据集进行模型训练时,所需数据量见表1。
构建NLP大模型数据集流程
在ModelArts Studio大模型开发平台中,使用数据工程构建盘古NLP大模型数据集流程见表2。
流程 |
子流程 |
说明 |
操作指导 |
---|---|---|---|
导入数据至盘古平台 |
创建原始数据集 |
数据集是指用于模型训练或评测的一组相关数据样本,上传至平台的数据将被创建为原始数据集进行统一管理。 |
|
上线原始数据集 |
在正式发布数据集前,需要执行上线操作。 |
||
加工数据集 |
创建文本类数据集加工任务 |
数据集中若存在异常数据,可通过数据集加工功能去除异常字符、表情符号、个人敏感内容等。
说明:
盘古NLP大模型仅支持接入文本类数据集。 若数据类型为文档、网页,则加工数据集为必选项,否则为可选项。 |
|
上线加工后的数据集 |
对加工后的数据集执行上线操作。 |
||
标注数据集(可选) |
创建文本类数据集标注任务 |
创建数据集标注任务,对数据集执行标注操作,标注后的数据可以用于模型训练或评测。 |
|
审核数据集标注结果 |
对数据集的标注结果进行审核 |
||
上线标注后的数据集 |
对标注后的数据集执行上线操作。 |
||
评估数据集(可选) |
创建文本类数据集评估标准 |
创建数据集评估标准。评估文本通顺性、信息充分性、内容有效性等。 |
|
创建文本类数据集评估任务 |
创建数据集质量评估任务,基于评估标注对数据逐一评估其质量。 |
||
获取数据集质量评估报告 |
查看数据集评估任务的进展和数据集质量。 |
||
发布数据集 |
创建文本类数据集发布任务 |
创建发布数据集,并进行正式的发布操作,用于后续的训练任务。 平台支持发布的数据集格式为默认格式、盘古格式。 训练盘古NLP大模型需选择发布格式为盘古格式。 |