更新时间:2022-12-14 GMT+08:00
分享

准备数据

在使用通用实体抽取工作流开发应用之前,您需要提前准备用于模型训练的数据,上传至OBS服务中。

设计实体标签

首先需要确定好文本实体的标签,即希望抽取出文本的一种结果。例如“时间”“地点”“人物”等。

数据集要求

  • 文件格式要求为txt或者csv,且编码格式为“UTF-8”格式,文件大小不能超过8MB。
    • txt文件编码保存为“UTF-8”格式:
      1. 打开txt文件。
      2. 单击左上角的“文件”,选择“另存为”
      3. “编码”选择“UTF-8”格式。
    • csv文件编码保存为“UTF-8”格式:
      1. 右键单击csv文件,“打开方式”选择“记事本”
      2. 单击左上角的“文件”,选择“另存为”
      3. “编码”选择“UTF-8”格式。
  • 以换行符作为分隔符,每行数据代表一个样本数据,单个样本不能有分行显示,不支持换行。
  • 基于已设计好的实体标签准备文本数据。每个实体标签需要准备20个及以上数据,为了训练出效果较好的模型,建议每个实体标签准备100个以上的数据。
  • 本工作流只支持上传未标注数据,将待标注的内容放在一个文本文件内。

上传数据至OBS

使用ModelArts Pro进行应用开发时,您需要将数据上传至OBS桶中。

  1. 首先需要获取访问OBS权限,在未进行委托授权之前,无法使用此功能。您需要提前获得OBS授权,详情请见配置访问权限
  2. 已创建用于存储数据的OBS桶及文件夹,且数据存储的OBS桶与ModelArts Pro在同一区域(目前仅支持华为-北京四),详情请见创建OBS桶
  3. 上传数据至OBS,OBS上传数据的详细操作请参见《对象存储服务快速入门》
    • 您在创建OBS桶时,需保证您的OBS桶与ModelArts Pro在同一个区域。
    • 建议根据业务情况及使用习惯,选择OBS使用方法。
      • 如果您的数据量较小(小于100MB)或数据文件较少(少于100个),建议您使用控制台上传数据。控制台上传无需工具下载或多余配置,在少量数据上传时,更加便捷高效。
      • 如果您的数据量较大或数据文件较多,建议选择OBS Browser+或obsutil工具上传。OBS Browser+是一个比较常用的图形化工具,支持完善的桶管理和对象管理操作。推荐使用此工具创建桶或上传对象。obsutil是一款用于访问管理OBS的命令行工具,对于熟悉命令行程序的用户,obsutil是执行批量处理、自动化任务较好的选择。
      • 如果您的业务环境需要通过API或SDK执行数据上传操作,或者您习惯于使用API和SDK,推荐选择OBS的API或SDK方法创建桶和上传对象。

      上述说明仅罗列OBS常用的使用方式和工具,更多OBS工具说明,请参见《OBS工具指南》。

相关文档