更新时间:2026-03-09 GMT+08:00
分享

管理数据精炼模板

功能简介

数据精炼模板是ModelArts平台沉淀的数据处理最佳实践集合。它将复杂的算子组合按特定业务逻辑预先编排,封装为一键可用的标准化工作流。

它的核心作用在于:

  1. 无需从零开始研究算子顺序与参数,直接复用资深算法工程师验证过的成熟方案,确保数据处理流程的专业性与合理性。
  2. 用户只需在创建任务时选择匹配业务场景的模板,系统即可自动加载完整的算子链路。您既可以直接运行,也能在此基础上根据数据特性进行微调,将原本小时级的数据准备工作缩短至分钟级。
  3. 通过模板化机制,规范团队内部的数据处理标准,避免因个人配置差异导致的数据质量波动,确保输出的训练集始终维持在高水平。

预置模板说明

ModelArts平台当前提供以下预置模板,覆盖文本、图片、视频相关数据的处理流程,具体使用流程参见表1

表1 预置模板清单

模板名称

支持数据集模态

支持数据集类型

模板使用场景

涉及算子

WORD处理流程

文本

文档

使用预置算子,对word文件进行提取和处理,生成预训练文本数据。

WORD内容提取

个人数据脱敏

中文简繁互转

符号标准化

敏感词过滤

段落结尾不完整句子移除

文本长度过滤

预训练文本分类

预训练文本处理流程

文本

预训练文本

使用预置算子,对预训练文本进行处理,生成清洗后的预训练文本数据。

中文简繁互转

符号标准化

文本长度过滤

预训练文本分类

图片处理流程

图片

图片

使用预置算子,对图片进行提取、去重、打标和过滤,以及生成摘要,生成处理后的图文数据。

图文提取

图片元数据过滤

图片去重

色情图像检测

暴恐图像检测

视频处理流程

视频

视频

使用预置算子,对视频进行镜头拆分、去重、打标和过滤,生成处理后的视频数据。

镜头拆分

视频元数据过滤

视频宽高比过滤

色情视频检测

暴恐视频检测

视频涉政检测

运动幅度评分

美学评分

单轮问答处理流程

文本

单轮问答

使用预置算子,对单轮问答数据进行处理,生成清洗后的单轮问答数据。

个人数据脱敏

中文简繁互转

符号标准化

敏感词过滤

段落结尾不完整句子移除

文本长度过滤

问答排序处理流程

文本

问答排序

使用预置算子,对问答排序数据进行处理,生成清洗后的问答排序数据。

个人数据脱敏

中文简繁互转

符号标准化

敏感词过滤

段落结尾不完整句子移除

文本长度过滤

多轮问答处理流程

文本

多轮问答

使用预置算子,对多轮问答数据进行处理,生成清洗后的多轮问答数据。

个人数据脱敏

中文简繁互转

符号标准化

敏感词过滤

段落结尾不完整句子移除

文本长度过滤

偏好优化处理流程

文本

偏好优化

使用预置算子,对偏好优化数据进行处理,生成清洗后的偏好优化数据。

个人数据脱敏

中文简繁互转

符号标准化

敏感词过滤

段落结尾不完整句子移除

文本长度过滤

相关文档