数据集加工场景介绍

数据加工介绍

ModelArts Studio大模型开发平台提供数据加工功能，涵盖了数据加工、数据合成、数据标注和数据配比关键操作，旨在确保原始数据符合业务需求和模型训练的标准，是数据工程中的核心环节。

数据加工
通过专用的加工算子对数据进行预处理，确保数据符合模型训练的标准和业务需求。不同类型的数据集使用专门设计的算子，例如去除噪声、冗余信息等，提高数据质量。此外，用户还可以创建自定义算子，针对特定业务场景和模型需求，灵活地进行数据加工，从而进一步优化数据处理流程，提高模型的准确性和鲁棒性。
数据合成
利用预置或自定义的数据指令对原始数据进行处理，并根据设定的轮数生成新数据。该过程能够在一定程度上扩展数据集，增强训练模型的多样性和泛化能力。
数据标注
为无标签数据集添加准确的标签，确保模型训练所需的高质量数据。平台支持人工标注和AI预标注两种方式，用户可根据需求选择合适的标注方式。数据标注的质量直接影响模型的训练效果和精度。
数据配比
数据配比是将多个数据集按特定比例组合为一个加工数据集的过程。通过合理的配比，确保数据集的多样性、平衡性和代表性，避免因数据分布不均而引起的问题。
使用大模型进行数据加工/合成/标注
利用大模型辅助数据加工/合成/标注任务，提升数据处理的智能化水平。平台支持使用ModelArts Studio部署模型和第三方平台提供的模型辅助标注，用户可根据需求选择合适的大模型进行辅助。

通过这些数据加工操作，平台能够有效清理噪声数据、标准化数据格式，并优化数据集的整体质量。数据加工不仅仅是简单的数据处理，它还会根据数据类型和业务场景进行有针对性的优化，从而为模型训练提供高质量的输入，提升模型的表现。

数据加工意义

数据加工在大模型开发中具有至关重要的作用，具体体现在以下几个方面：

提高数据质量
原始数据往往包含噪声、缺失值或不一致性，这会直接影响模型训练效果。通过数据加工操作，可以有效去除无效信息、填补缺失数据，确保数据的准确性与一致性，从而提高数据质量，为模型训练提供可靠的输入。
扩展数据集的多样性和泛化能力
在数据量不足或样本不平衡的情况下，数据合成可以生成新数据，扩展数据集的规模和多样性。通过增加数据的多样性，能够提升模型在各种场景下的泛化能力，增强其对未知数据的适应性。
增强模型训练的有效性
高质量的数据是训练好模型的基础。数据加工不仅仅是对数据的简单处理，更是根据不同数据类型和业务需求进行有针对性的优化，使数据更符合训练标准，提高训练效率和精度。
确保业务需求对接
不同业务场景和模型应用对数据有不同的要求。数据加工能够根据特定业务需求进行定制化处理，确保数据满足应用场景的需求，从而提高数据和模型的匹配度，提升业务决策和模型预测的准确性。
提升数据处理效率
通过平台提供的自动化加工功能，用户可以高效完成大规模数据的预处理工作，减少人工干预，提升数据处理的一致性和效率，确保整个数据工程流程的顺畅运行。
确保数据质量和适配性
通过数据配比，确保数据集满足大模型训练的高标准。这不仅包括数据规模的要求，还涵盖了数据质量、平衡性和代表性的保证，避免数据不均衡或不具备足够多样性的情况，进而提高模型的准确性和鲁棒性。
提高数据的多样性和代表性
通过合理的数据配比，帮助用户按特定比例组合多个数据集，确保数据集在不同任务场景下的多样性和代表性。这样可以避免过度偏向某一类数据，保证模型能够学习到多种特征，提升对各种情况的适应能力。

总体而言，数据加工不仅提升了数据处理的效率，还可通过优化数据质量和针对性处理，支持高效的模型训练。通过数据加工，用户能够快速构建高质量的数据集，推动大模型的成功开发。

支持数据加工的数据集类型

当前支持数据加工操作的数据集类型见表1。

表1 支持数据加工操作的数据集类型
数据集模态	数据集类型	数据加工	数据合成	数据标注	数据配比
文本类	文档	√	-	-	-
	网页	√	-	-	-
	预训练文本	√	√	-	√
	单轮问答	√	√	√	√
	单轮问答+人设	√	√	√	√
	多轮问答	√	-	√	√
	多轮问答+人设	√	-	√	√
	问答排序	√	-	√	√
	偏好优化DPO	-	-	-	√
	偏好优化DPO+人设	-	-	-	√
图片类	图片	√	-	√	-
	图片+Caption	√	-	√	√
	图片+QA对	√	-	√	√
	物体检测	-	-	-	-
	图像分类	-	-	-	-
	异常检测	-	-	-	-
	语义分割	-	-	-	-
	姿态估计	-	-	-	-
	实例分割	-	-	-	-
	变化检测	-	-	-	-
	旋转检测	-	-	-	-
视频类	视频	√	-	√	-
	视频+标注	√	-	√	√
	视频理解	√	-	√	-
	事件检测	-	-	-	-
	视频分类	-	-	-	-
音频类	音频	√	-	√	-
多模态类	多模态理解（预训练）	-	-	-	√
多模态类	多模态理解（微调）	-	-	-	√
气象类	气象数据	√	-	-	-
预测类	时序（分类）	√	-	-	√
	时序（回归）	√	-	-	-
	结构化（分类）	√	-	-	√
	结构化（回归）	√	-	-	-
其他类	其他类	√（仅可使用自定义算子进行数据加工）	-	-	-