管理数据精炼模板
功能简介
数据精炼模板是ModelArts平台沉淀的数据处理最佳实践集合。它将复杂的算子组合按特定业务逻辑预先编排,封装为一键可用的标准化工作流。
它的核心作用在于:
- 无需从零开始研究算子顺序与参数,直接复用资深算法工程师验证过的成熟方案,确保数据处理流程的专业性与合理性。
- 用户只需在创建任务时选择匹配业务场景的模板,系统即可自动加载完整的算子链路。您既可以直接运行,也能在此基础上根据数据特性进行微调,将原本小时级的数据准备工作缩短至分钟级。
- 通过模板化机制,规范团队内部的数据处理标准,避免因个人配置差异导致的数据质量波动,确保输出的训练集始终维持在高水平。
预置模板说明
ModelArts平台当前提供以下预置模板,覆盖文本、图片、视频相关数据的处理流程,具体使用流程参见表1。
模板名称 | 支持数据集模态 | 支持数据集类型 | 模板使用场景 | 涉及算子 |
|---|---|---|---|---|
WORD处理流程 | 文本 | 文档 | 使用预置算子,对word文件进行提取和处理,生成预训练文本数据。 | WORD内容提取 |
个人数据脱敏 | ||||
中文简繁互转 | ||||
符号标准化 | ||||
敏感词过滤 | ||||
段落结尾不完整句子移除 | ||||
文本长度过滤 | ||||
预训练文本分类 | ||||
预训练文本处理流程 | 文本 | 预训练文本 | 使用预置算子,对预训练文本进行处理,生成清洗后的预训练文本数据。 | 中文简繁互转 |
符号标准化 | ||||
文本长度过滤 | ||||
预训练文本分类 | ||||
图片处理流程 | 图片 | 图片 | 使用预置算子,对图片进行提取、去重、打标和过滤,以及生成摘要,生成处理后的图文数据。 | 图文提取 |
图片元数据过滤 | ||||
图片去重 | ||||
色情图像检测 | ||||
暴恐图像检测 | ||||
视频处理流程 | 视频 | 视频 | 使用预置算子,对视频进行镜头拆分、去重、打标和过滤,生成处理后的视频数据。 | 镜头拆分 |
视频元数据过滤 | ||||
视频宽高比过滤 | ||||
色情视频检测 | ||||
暴恐视频检测 | ||||
视频涉政检测 | ||||
运动幅度评分 | ||||
美学评分 | ||||
单轮问答处理流程 | 文本 | 单轮问答 | 使用预置算子,对单轮问答数据进行处理,生成清洗后的单轮问答数据。 | 个人数据脱敏 |
中文简繁互转 | ||||
符号标准化 | ||||
敏感词过滤 | ||||
段落结尾不完整句子移除 | ||||
文本长度过滤 | ||||
问答排序处理流程 | 文本 | 问答排序 | 使用预置算子,对问答排序数据进行处理,生成清洗后的问答排序数据。 | 个人数据脱敏 |
中文简繁互转 | ||||
符号标准化 | ||||
敏感词过滤 | ||||
段落结尾不完整句子移除 | ||||
文本长度过滤 | ||||
多轮问答处理流程 | 文本 | 多轮问答 | 使用预置算子,对多轮问答数据进行处理,生成清洗后的多轮问答数据。 | 个人数据脱敏 |
中文简繁互转 | ||||
符号标准化 | ||||
敏感词过滤 | ||||
段落结尾不完整句子移除 | ||||
文本长度过滤 | ||||
偏好优化处理流程 | 文本 | 偏好优化 | 使用预置算子,对偏好优化数据进行处理,生成清洗后的偏好优化数据。 | 个人数据脱敏 |
中文简繁互转 | ||||
符号标准化 | ||||
敏感词过滤 | ||||
段落结尾不完整句子移除 | ||||
文本长度过滤 |

