更新时间:2024-12-03 GMT+08:00
使用盘古加工算子构建单轮问答数据集
场景描述
此示例演示了如何使用加工算子轻松构建单轮问答数据集。数据集的加工算子是一种灵活的数据预处理工具,能够帮助您将原始数据转化为所需的格式。通过使用加工算子,您可以提取、转换、过滤原始数据,生成适合大模型训练的数据集。
准备工作
请提前准备数据并上传至OBS服务,上传步骤请详见通过控制台快速使用OBS。
操作流程
- 登录ModelArts Studio大模型开发平台,进入所需空间。
- 选择左侧“数据工程 > 数据获取”,单击右上角“创建原始数据集”。
- 在“创建原始数据集”页面,选择“文本 > 单轮问答”,选择文件格式、文件来源并添加文件,填写数据集名称及描述,单击“立即创建”。
图1 创建原始数据集
- 创建成功的数据集的任务状态为“成功”,单击操作列的“上线”按钮,将该数据集上线,用于后续加工操作。
- 选择左侧“数据工程 > 数据加工”,单击右上角“创建加工数据集”。
- 在“来源数据集”分页,选择“文件内容”为“单轮问答”的数据集,填写数据集名称和描述,单击“下一步”。
图2 选择数据集
- 在加工步骤编排页面展示了预先设置好的开始、结束步骤。在左侧“添加算子”分页可选择合适的算子,如个人数据脱敏、文本长度过滤等。
导入的数据集格式为“JSONL”,因此默认添加了JSON内容提取算子。
图3 加工算子编排
- 单击各算子右上角的图标可进行拖动,调整算子的编排顺序。
图4 调整算子编排顺序
- 算子编排完成后,单击“立即执行”,返回“数据加工”页面,可查看当前数据加工任务的状态。