更新时间:2024-01-23 GMT+08:00
分享

选择数据

在使用多语种文本分类工作流开发应用时,您需要选择训练数据集,后续训练模型操作是基于您选择的训练数据集。

训练数据集可以选择创建一个新的数据集,也可以选择导入在自然语言处理套件其他应用中已创建的文本数据集。

前提条件

  • 已在自然语言处理套件控制台选择“多语种文本分类工作流”新建应用,详情请见新建应用
  • 已准备数据并上传至OBS,详情请见准备数据

进入应用开发页面

  • 方式一:首次进入

    基于预置工作流新建应用后,直接进入“应用开发”v1版本页面。

  • 方式二:新建应用后进入
    1. 登录“ModelArts Pro>自然语言处理套件”控制台。

      默认进入“应用开发>工作台”页面。

    2. 选择已新建的应用名称,单击“操作”列的“查看”

      进入“应用总览”页面。

      图1 查看应用
    3. 在开发版本列表中单击“操作”列的“查看”

      进入“应用开发”页面。

      图2 开发版本列表

新建数据集

“数据选择”页面,单击“新建数据集”,右侧弹出“新建数据集”页面,根据数据存储位置和数据标注情况,按表1填写数据集基本信息,然后单击“确定”

图3 新建数据集
表1 新建数据集参数说明

参数

说明

数据集名称

待新建的数据集名称。

描述

数据集简要描述。

数据集状态

上传的训练数据可以是已标注的数据,也可以是未标注的数据。

您可以根据自身业务选择“数据集状态”“已标注数据集”还是“未标注数据集”

数据集模板可在选择“数据集状态”后,单击下方的“文本分类已标注数据模板”“文本分类未标注数据模板”,下载数据集模板至本地查看。

数据集输入位置

训练数据存储至OBS的位置。

单击“数据集输入位置”右侧输入框,在弹出的“数据集输入位置”对话框中,选择“OBS桶”“文件夹”,然后单击“确定”

数据集输出位置

待新建的数据集存储至OBS的位置。

单击“数据集输出位置”右侧的“修改”,在弹出的“数据集输出位置”对话框中,选择“OBS桶”“文件夹”,然后单击“确定”

说明:

“数据集输出位置”不能与“数据集输入位置”为同一路径,且不能是“数据集输入位置”的子目录。“数据集输出位置”建议选择一个空目录。

添加标签集

添加标签名称,选择标签颜色。

  • 在文本框中输入标签名称,在右侧单击选择标签颜色。
  • 单击文本框下方的添加标签。
  • 鼠标移至文本框,单击文本框右侧的删除标签。

新建数据集后,勾选当前应用开发所需的训练数据集。

由于模型训练过程需要有标签的数据,如果您上传的是已标注数据,上传后可查看标签解析。如果您想手动修改标签,可单击数据集操作列的“标注”,进入数据集概览页单击右上角的“开始标注”,在“数据标注”页面手动修改标注数据。

如果您上传的是未标注数据,您单击数据集操作列的“标注”,进入数据集概览页单击右上角的“开始标注”,在“数据标注”页面手动标注数据。

导入数据集

  1. “数据选择”页面,单击“导入数据集”

    弹出“导入数据集”对话框。

    “导入数据集”对话框会显示您在自然语言处理套件其他应用中已创建的文本数据集信息,包括“数据集名称”“标注进度”

    单击数据集左侧的,可查看数据集的“创建时间”“标签集”

    图4 导入数据集
  2. 勾选数据集,然后单击“确定”

    数据集导入后,“数据选择”页面右上角会显示“导入成功”

  3. 导入勾选数据集后,在数据选择页面勾选当前应用开发所需的训练数据集。

    由于模型训练过程需要有标签的数据,如果您上传的是已标注数据,上传后可查看标签解析。如果您想手动修改标签,可单击数据集操作列的“标注”,进入数据集概览页单击右上角的“开始标注”,在“数据标注”页面手动修改标注数据。

    如果您上传的是未标注数据,您单击数据集操作列的“标注”,进入数据集概览页单击右上角的“开始标注”,在“数据标注”页面手动标注数据。

合并标签

针对所选择的训练数据集,如果每个标签的样本数量太少,可以选择合并标签。

打开合并标签开关,在下方填入需要合并的标签样本数量“上限值”,以及合并标签后新的“标签名”

图5 合并标签

查看标签解析

新建并选择训练数据集后,针对已标注的数据,您可以在“标签解析”中查看标签样本的统计数据,横轴为“标签”,纵轴为标签对应的有效“样本数”

图6 标签解析

后续操作

“数据选择”页面选择训练数据集,并针对未标注的数据进行数据标注,然后单击“下一步”,进入应用开发的“模型训练”步骤,详细操作指引请参见训练模型

相关文档