更新时间:2024-11-11 GMT+08:00
分享

对微调数据集进行数据标注

数据标注是将微调数据集中的某些元素进行标记或分类,以便模型可以更好地理解和使用这些数据。例如,在自动驾驶的应用中,云数据可以被标注为包含建筑物、其他小物体、交通工具等信息,以便模型可以识别和理解这些对象。在辅助数据标注的方法中,通过训练模型,可以实现标注结果,从而提高数据的质量和准确性。

前提条件

需要具备AI原生应用引擎管理员或开发者权限,权限申请操作请参见AppStage组织成员申请权限

操作须知

  • 只有格式为“对话文本”的微调数据集才可进行标注。
  • 调度类型为“一次性调度”的微调数据集才可进行标注。

创建数据标注

  1. 在AI原生应用引擎的左侧导航栏选择“知识中心 > 微调数据集”。
  2. 在“微调数据集”页面,单击右上角“创建数据标注”。
  3. 在“创建数据标注”对话框,选择微调数据集、数据集版本,填写标注名称。
  4. 单击“确定”。新创建的标注数据集显示在列表中,继续执行标注数据集

标注数据集

  1. 在“数据标注”列表中,单击“操作”列“标注”。
  2. 在“标注信息”页面,在“数据集文件列表”下拉列表中选择文件。
  3. 单击“全部信息”页签下的“创建对话”顺次生成一条不完整信息(对话样式),用户根据实际需要填写对话的instruction(指令)、input(输入/提问)、output(输出/回答),完成一条数据标注。

    对于单条标注,还可执行以下操作:

    • 单击标注右侧“添加回答”可继续添加多条output。
    • 单击标注右侧“删除”,可删除标注。

    对于标注中的output,还可执行以下操作:

    • 单击output所在行右侧的“自动生成”,由平台内置的模型自动生成当前行的output信息。
    • 单击output所在行右侧的“重新生成”,由平台内置的模型重新生成当前行的output信息。
    • 单击output所在行右侧的“删除”,可删除当前行的output信息。

更多操作

一条数据标注完成后,可执行如下表1所示的操作。

表1 更多操作

操作

说明

删除标注

在“数据标注”页面的标注数据集列表中,单击“操作”列“删除”。

发布标注

  1. 在“数据标注”页面的标注数据集列表中,单击“操作”列“发布”。
  2. 在“发布”对话框,有两种发布方式:
    • 选择发布后“更新原始数据集”,单击“确定”,覆盖原数据集信息(数据集名称不变)。
    • 选择发布后“创建新数据集”,设置新数据集名称,然后单击“确定”。

相关文档