管理数据精炼模板
功能简介
数据精炼模板是ModelArts平台沉淀的数据处理最佳实践集合。它将复杂的算子组合按特定业务逻辑预先编排,封装为一键可用的标准化工作流。
它的核心作用在于:
- 无需从零开始研究算子顺序与参数,直接复用资深算法工程师验证过的成熟方案,确保数据处理流程的专业性与合理性。
- 用户只需在创建任务时选择匹配业务场景的模板,系统即可自动加载完整的算子链路。您既可以直接运行,也能在此基础上根据数据特性进行微调,将原本小时级的数据准备工作缩短至分钟级。
- 通过模板化机制,规范团队内部的数据处理标准,避免因个人配置差异导致的数据质量波动,确保输出的训练集始终维持在高水平。
预置模板说明
ModelArts平台当前提供以下预置模板,覆盖文本、图片、视频相关数据的处理流程,具体使用流程参见表1。
|
模板名称 |
支持数据集模态 |
支持数据集类型 |
模板使用场景 |
涉及算子 |
|---|---|---|---|---|
|
WORD处理流程 |
文本 |
文档 |
使用预置算子,对word文件进行提取和处理,生成预训练文本数据。 |
WORD内容提取 |
|
个人数据脱敏 |
||||
|
中文简繁互转 |
||||
|
符号标准化 |
||||
|
敏感词过滤 |
||||
|
段落结尾不完整句子移除 |
||||
|
文本长度过滤 |
||||
|
预训练文本分类 |
||||
|
预训练文本处理流程 |
文本 |
预训练文本 |
使用预置算子,对预训练文本进行处理,生成清洗后的预训练文本数据。 |
中文简繁互转 |
|
符号标准化 |
||||
|
文本长度过滤 |
||||
|
预训练文本分类 |
||||
|
图片处理流程 |
图片 |
图片 |
使用预置算子,对图片进行提取、去重、打标和过滤,以及生成摘要,生成处理后的图文数据。 |
图文提取 |
|
图片元数据过滤 |
||||
|
图片去重 |
||||
|
色情图像检测 |
||||
|
暴恐图像检测 |
||||
|
视频处理流程 |
视频 |
视频 |
使用预置算子,对视频进行镜头拆分、去重、打标和过滤,生成处理后的视频数据。 |
镜头拆分 |
|
视频元数据过滤 |
||||
|
视频宽高比过滤 |
||||
|
色情视频检测 |
||||
|
暴恐视频检测 |
||||
|
视频涉政检测 |
||||
|
运动幅度评分 |
||||
|
美学评分 |
||||
|
单轮问答处理流程 |
文本 |
单轮问答 |
使用预置算子,对单轮问答数据进行处理,生成清洗后的单轮问答数据。 |
个人数据脱敏 |
|
中文简繁互转 |
||||
|
符号标准化 |
||||
|
敏感词过滤 |
||||
|
段落结尾不完整句子移除 |
||||
|
文本长度过滤 |
||||
|
问答排序处理流程 |
文本 |
问答排序 |
使用预置算子,对问答排序数据进行处理,生成清洗后的问答排序数据。 |
个人数据脱敏 |
|
中文简繁互转 |
||||
|
符号标准化 |
||||
|
敏感词过滤 |
||||
|
段落结尾不完整句子移除 |
||||
|
文本长度过滤 |
||||
|
多轮问答处理流程 |
文本 |
多轮问答 |
使用预置算子,对多轮问答数据进行处理,生成清洗后的多轮问答数据。 |
个人数据脱敏 |
|
中文简繁互转 |
||||
|
符号标准化 |
||||
|
敏感词过滤 |
||||
|
段落结尾不完整句子移除 |
||||
|
文本长度过滤 |
||||
|
偏好优化处理流程 |
文本 |
偏好优化 |
使用预置算子,对偏好优化数据进行处理,生成清洗后的偏好优化数据。 |
个人数据脱敏 |
|
中文简繁互转 |
||||
|
符号标准化 |
||||
|
敏感词过滤 |
||||
|
段落结尾不完整句子移除 |
||||
|
文本长度过滤 |