对微调数据集进行数据标注
数据标注是将微调数据集中的某些元素进行标记或分类,以便模型可以更好地理解和使用这些数据。例如,在自动驾驶的应用中,云数据可以被标注为包含建筑物、其他小物体、交通工具等信息,以便模型可以识别和理解这些对象。在辅助数据标注的方法中,通过训练模型,可以实现标注结果,从而提高数据的质量和准确性。
前提条件
需要具备AI原生应用引擎管理员或开发者权限,权限申请操作请参见AppStage组织成员申请权限。
操作须知
- 只有格式为“对话文本”的微调数据集才可进行标注。
- 调度类型为“一次性调度”的微调数据集才可进行标注。
创建数据标注
- 在AI原生应用引擎的左侧导航栏选择“知识中心 > 微调数据集”。
- 在“微调数据集”页面,单击右上角“创建数据标注”。
- 在“创建数据标注”对话框,选择微调数据集、数据集版本,填写标注名称。
- 单击“确定”。新创建的标注数据集显示在列表中,继续执行标注数据集。
标注数据集
- 在“数据标注”列表中,单击“操作”列“标注”。
- 在“标注信息”页面,在“数据集文件列表”下拉列表中选择文件。
- 单击“全部信息”页签下的“创建对话”顺次生成一条不完整信息(对话样式),用户根据实际需要填写对话的instruction(指令)、input(输入/提问)、output(输出/回答),完成一条数据标注。
对于单条标注,还可执行以下操作:
- 单击标注右侧“添加回答”可继续添加多条output。
- 单击标注右侧“删除”,可删除标注。
对于标注中的output,还可执行以下操作:
- 单击output所在行右侧的“自动生成”,由平台内置的模型自动生成当前行的output信息。
- 单击output所在行右侧的“重新生成”,由平台内置的模型重新生成当前行的output信息。
- 单击output所在行右侧的“删除”,可删除当前行的output信息。
更多操作
一条数据标注完成后,可执行如下表1所示的操作。