管理数据精炼模板
功能简介
数据精炼模板是ModelArts平台沉淀的数据处理最佳实践集合。它将复杂的算子组合按特定业务逻辑预先编排,封装为一键可用的标准化工作流。
它的核心作用在于:
- 无需从零开始研究算子顺序与参数,直接复用资深算法工程师验证过的成熟方案,确保数据处理流程的专业性与合理性。
- 用户只需在创建任务时选择匹配业务场景的模板,系统即可自动加载完整的算子链路。您既可以直接运行,也能在此基础上根据数据特性进行微调,将原本小时级的数据准备工作缩短至分钟级。
- 通过模板化机制,规范团队内部的数据处理标准,避免因个人配置差异导致的数据质量波动,确保输出的训练集始终维持在高水平。
预置模板说明
ModelArts平台当前提供以下预置模板,覆盖文本、图片、视频相关数据的处理流程,具体使用流程参见表1。
| 模板名称 | 支持数据集模态 | 支持数据集类型 | 模板使用场景 | 涉及算子 |
|---|---|---|---|---|
| WORD处理流程 | 文本 | 文档 | 使用预置算子,对word文件进行提取和处理,生成预训练文本数据。 | WORD内容提取 |
| 个人数据脱敏 | ||||
| 中文简繁互转 | ||||
| 符号标准化 | ||||
| 敏感词过滤 | ||||
| 段落结尾不完整句子过滤 | ||||
| N-gram特征过滤 | ||||
| 文本长度过滤 | ||||
| 预训练文本分类 | ||||
| PDF处理流程 | 文本 | 文档 | 使用预置算子,对PDF文件进行提取和处理,生成预训练文本数据。 | PDF内容提取 |
| 个人数据脱敏 | ||||
| 中文简繁互转 | ||||
| 符号标准化 | ||||
| 敏感词过滤 | ||||
| 段落结尾不完整句子过滤 | ||||
| N-gram特征过滤 | ||||
| 文本长度过滤 | ||||
| 预训练文本分类 | ||||
| 预训练文本处理流程 | 文本 | 预训练文本 | 使用预置算子,对预训练文本进行处理,生成清洗后的预训练文本数据。 | 中文简繁互转 |
| 符号标准化 | ||||
| N-gram特征过滤 | ||||
| 文本长度过滤 | ||||
| 预训练文本分类 | ||||
| 图片处理流程 | 图片 | 图片 | 使用预置算子,对图片进行提取、去重、打标和过滤,以及生成摘要,生成处理后的图文数据。 | 图文提取 |
| 图片元数据过滤 | ||||
| 图片去重 | ||||
| 危情图像检测 | ||||
| 色情图像检测 | ||||
| 暴恐图像检测 | ||||
| 视频处理流程 | 视频 | 视频 | 使用预置算子,对视频进行镜头拆分、去重、打标和过滤,生成处理后的视频数据。 | 镜头拆分 |
| 视频元数据过滤 | ||||
| 视频宽高比过滤 | ||||
| 色情视频检测 | ||||
| 暴恐视频检测 | ||||
| 视频涉政检测 | ||||
| 运动幅度评分 | ||||
| 美学评分 | ||||
| 单轮问答处理流程 | 文本 | 单轮问答 | 使用预置算子,对单轮问答数据进行处理,生成清洗后的单轮问答数据。 | 个人数据脱敏 |
| 中文简繁互转 | ||||
| 符号标准化 | ||||
| 敏感词过滤 | ||||
| 段落结尾不完整句子过滤 | ||||
| N-gram特征过滤 | ||||
| 文本长度过滤 | ||||
| 问答排序处理流程 | 文本 | 问答排序 | 使用预置算子,对问答排序数据进行处理,生成清洗后的问答排序数据。 | 个人数据脱敏 |
| 中文简繁互转 | ||||
| 符号标准化 | ||||
| 敏感词过滤 | ||||
| 段落结尾不完整句子过滤 | ||||
| 文本长度过滤 | ||||
| 多轮问答处理流程 | 文本 | 多轮问答 | 使用预置算子,对多轮问答数据进行处理,生成清洗后的多轮问答数据。 | 个人数据脱敏 |
| 中文简繁互转 | ||||
| 符号标准化 | ||||
| 敏感词过滤 | ||||
| 段落结尾不完整句子过滤 | ||||
| 文本长度过滤 | ||||
| 偏好优化处理流程 | 文本 | 偏好优化 | 使用预置算子,对偏好优化数据进行处理,生成清洗后的偏好优化数据。 | 个人数据脱敏 |
| 中文简繁互转 | ||||
| 符号标准化 | ||||
| 敏感词过滤 | ||||
| 段落结尾不完整句子移除 | ||||
| 文本长度过滤 |