更新时间:2024-10-16 GMT+08:00
分享

创建数据集清洗任务

数据集创建完成后,可以使用数据清洗功能,对异常数据进行清理,或进行数据转换、过滤和去重等操作。

  1. 登录盘古大模型套件平台。
  2. 在左侧导航栏中选择“数据工程 > 数据清洗”,单击界面右上角“创建任务”。
    图1 数据清洗
  3. 依据需要清洗的数据类型,选择对应的数据集和数据集版本,输出路径,设置名称、描述等信息为可选项。

    输出路径默认为系统生成,您也可以自定义输出路径,当前支持覆盖和追加两种方式。

    • 覆盖:清洗后数据覆盖和替换原有数据集内容。
    • 追加:清洗后数据增加到原有数据集路径下。
  4. 任务信息填写完成后,单击“下一步”,搭建数据清洗流程。
    可以使用预置的清洗模板完成对数据集的清洗,也可以基于算子搭建清洗流程。
    图2 搭建数据清洗流程
    • 将算子拖拽至“输入”、“输出”之间,即可完成清洗流程的搭建,搭建过程中可以通过“执行节点”功能查看算子对数据的清洗效果。算子功能的详细介绍请参见清洗算子功能介绍
      图3 执行节点
    • 用户配置算子后推荐增加、显示备注信息,用于团队其他成员快速了解算子编排。
      图4 增加并显示备注信息
    • 对于搭建满意的清洗流程,可以“发布模板”,后续重复使用。发布后的模板,可以在“模板”页签查看,也可以返回数据清洗列表,在“清洗模板 > 我的模板”中查看。
      图5 发布模板
  5. 清洗流程搭建完成后,单击界面右上角“完成创建”。
  6. 单击清洗任务列表操作栏中的“启动”,启动清洗任务。
    清洗任务完成后,可以单击“任务名称”,在任务详情页面,查看任务详情、评估指标、清洗明细及清洗流程图。
    图6 启动清洗任务
    图7 查看清洗任务详情

相关文档