智能精炼模板说明

功能简介

智能精炼模板是ModelArts平台沉淀的数据处理最佳实践集合。它将复杂的算子组合按特定业务逻辑预先编排，封装为一键可用的标准化工作流。

它的核心作用在于：

无需从零开始研究算子顺序与参数，直接复用资深算法工程师验证过的成熟方案，确保数据处理流程的专业性与合理性。
用户只需在创建任务时选择匹配业务场景的模板，系统即可自动加载完整的算子链路。您既可以直接运行，也能在此基础上根据数据特性进行微调，将原本小时级的数据准备工作缩短至分钟级。
通过模板化机制，规范团队内部的数据处理标准，避免因个人配置差异导致的数据质量波动，确保输出的训练集始终维持在高水平。

预置模板说明

ModelArts平台当前提供以下预置模板，覆盖文本、图片、视频相关数据的处理流程，具体使用流程参见表1。

表1 预置模板清单
模板名称	支持数据集模态	支持数据集类型	模板使用场景	涉及算子
WORD处理流程	文本	文档	使用预置算子，对word文件进行提取和处理，生成预训练文本数据。	WORD内容提取
				个人数据脱敏
				中文简繁互转
				符号标准化
				敏感词过滤
				段落结尾不完整句子过滤
				N-gram特征过滤
				文本长度过滤
				预训练文本分类
PDF处理流程	文本	文档	使用预置算子，对PDF文件进行提取和处理，生成预训练文本数据。	PDF内容提取
				个人数据脱敏
				中文简繁互转
				符号标准化
				敏感词过滤
				段落结尾不完整句子过滤
				N-gram特征过滤
				文本长度过滤
				预训练文本分类
预训练文本处理流程	文本	预训练文本	使用预置算子，对预训练文本进行处理，生成清洗后的预训练文本数据。	中文简繁互转
				符号标准化
				N-gram特征过滤
				文本长度过滤
				预训练文本分类
图片处理流程	图片	图片	使用预置算子，对图片进行提取、去重、打标和过滤，以及生成摘要，生成处理后的图文数据。	图文提取
				图片元数据过滤
				图片去重
				危情图像检测
				色情图像检测
				暴恐图像检测
视频处理流程	视频	视频	使用预置算子，对视频进行镜头拆分、去重、打标和过滤，生成处理后的视频数据。	镜头拆分
				视频元数据过滤
				视频宽高比过滤
				色情视频检测
				暴恐视频检测
				视频涉政检测
				运动幅度评分
				美学评分
单轮问答处理流程	文本	单轮问答	使用预置算子，对单轮问答数据进行处理，生成清洗后的单轮问答数据。	个人数据脱敏
				中文简繁互转
				符号标准化
				敏感词过滤
				段落结尾不完整句子过滤
				N-gram特征过滤
				文本长度过滤
问答排序处理流程	文本	问答排序	使用预置算子，对问答排序数据进行处理，生成清洗后的问答排序数据。	个人数据脱敏
				中文简繁互转
				符号标准化
				敏感词过滤
				段落结尾不完整句子过滤
				文本长度过滤
多轮问答处理流程	文本	多轮问答	使用预置算子，对多轮问答数据进行处理，生成清洗后的多轮问答数据。	个人数据脱敏
				中文简繁互转
				符号标准化
				敏感词过滤
				段落结尾不完整句子过滤
				文本长度过滤
偏好优化处理流程	文本	偏好优化	使用预置算子，对偏好优化数据进行处理，生成清洗后的偏好优化数据。	个人数据脱敏
				中文简繁互转
				符号标准化
				敏感词过滤
				段落结尾不完整句子移除
				文本长度过滤