更新时间:2024-10-16 GMT+08:00
创建数据集清洗任务
数据集创建完成后,可以使用数据清洗功能,对异常数据进行清理,或进行数据转换、过滤和去重等操作。
- 登录盘古大模型套件平台。
- 在左侧导航栏中选择“数据工程 > 数据清洗”,单击界面右上角“创建任务”。
图1 数据清洗
- 依据需要清洗的数据类型,选择对应的数据集和数据集版本,输出路径,设置名称、描述等信息为可选项。
输出路径默认为系统生成,您也可以自定义输出路径,当前支持覆盖和追加两种方式。
- 覆盖:清洗后数据覆盖和替换原有数据集内容。
- 追加:清洗后数据增加到原有数据集路径下。
- 任务信息填写完成后,单击“下一步”,搭建数据清洗流程。
可以使用预置的清洗模板完成对数据集的清洗,也可以基于算子搭建清洗流程。图2 搭建数据清洗流程
- 将算子拖拽至“输入”、“输出”之间,即可完成清洗流程的搭建,搭建过程中可以通过“执行节点”功能查看算子对数据的清洗效果。算子功能的详细介绍请参见清洗算子功能介绍。
图3 执行节点
- 用户配置算子后推荐增加、显示备注信息,用于团队其他成员快速了解算子编排。
图4 增加并显示备注信息
- 对于搭建满意的清洗流程,可以“发布模板”,后续重复使用。发布后的模板,可以在“模板”页签查看,也可以返回数据清洗列表,在“清洗模板 > 我的模板”中查看。
图5 发布模板
- 将算子拖拽至“输入”、“输出”之间,即可完成清洗流程的搭建,搭建过程中可以通过“执行节点”功能查看算子对数据的清洗效果。算子功能的详细介绍请参见清洗算子功能介绍。
- 清洗流程搭建完成后,单击界面右上角“完成创建”。
- 单击清洗任务列表操作栏中的“启动”,启动清洗任务。
图7 查看清洗任务详情
父主题: 清洗数据集(可选)