更新时间:2023-10-18 GMT+08:00
分享

准备数据

在使用通用文本分类工作流开发应用之前,您需要提前准备用于模型训练的数据,上传至OBS服务中。

设计分类标签

首先需要确定好文本分类的标签,即希望识别出文本的一种结果。例如分类用户对商品的评论,则可以以“positive”“neutral”“negative”等作为用户对某商品评论的分类标签,可以设计为“positive”“negative”两类标签,也可以设计为“positive”“neutral”“negative”等多类标签。

数据集要求

  • 文件格式要求为txt或者csv,且编码格式为“UTF-8”格式,文件大小不能超过8MB。
    • txt文件编码保存为“UTF-8”格式:
      1. 打开txt文件。
      2. 单击左上角的“文件”,选择“另存为”
      3. “编码”选择“UTF-8”格式。
    • csv文件编码保存为“UTF-8”格式:
      1. 右键单击csv文件,“打开方式”选择“记事本”
      2. 单击左上角的“文件”,选择“另存为”
      3. “编码”选择“UTF-8”格式。
  • 以换行符作为分隔符,每行数据代表一个样本数据,单个样本不能有分行显示,不支持换行。
  • 基于已设计好的分类标签准备文本数据。每个分类标签需要准备5个及以上数据,为了训练出效果较好的模型,建议每个分类标签准备100个以上的数据。
  • 针对未标注数据,将待标注的内容放在一个文本文件内,通用文本分类工作流仅支持中文文本内容的分类,其他语种的文本分类请使用多语种文本分类工作流
  • 针对已标注数据,文本分类的标注对象和标签在一个文本文件内,标注对象与标签之间,采用Tab键分隔,多个标签之间采用英文逗号分隔。
    例如,文本文件的内容如下所示。标注对象与标注内容之间采用Tab键分隔。
    华为通过不断的技术创新,来应对来自全球的挑战    科技
    最近科技创业公司纷纷上市科创板    科技,经济

上传数据至OBS

使用ModelArts Pro进行应用开发时,您需要将数据上传至OBS桶中。

  1. 首先需要获取访问OBS权限,在未进行委托授权之前,无法使用此功能。您需要提前获得OBS授权,详情请见配置访问权限
  2. 已创建用于存储数据的OBS桶及文件夹,且数据存储的OBS桶与ModelArts Pro在同一区域(目前仅支持华为-北京四),详情请见创建OBS桶
  3. 上传数据至OBS,OBS上传数据的详细操作请参见《对象存储服务快速入门》
    • 您在创建OBS桶时,需保证您的OBS桶与ModelArts Pro在同一个区域。
    • 建议根据业务情况及使用习惯,选择OBS使用方法。
      • 如果您的数据量较小(小于100MB)或数据文件较少(少于100个),建议您使用控制台上传数据。控制台上传无需工具下载或多余配置,在少量数据上传时,更加便捷高效。
      • 如果您的数据量较大或数据文件较多,建议选择OBS Browser+或obsutil工具上传。OBS Browser+是一个比较常用的图形化工具,支持完善的桶管理和对象管理操作。推荐使用此工具创建桶或上传对象。obsutil是一款用于访问管理OBS的命令行工具,对于熟悉命令行程序的用户,obsutil是执行批量处理、自动化任务较好的选择。
      • 如果您的业务环境需要通过API或SDK执行数据上传操作,或者您习惯于使用API和SDK,推荐选择OBS的API或SDK方法创建桶和上传对象。

      上述说明仅罗列OBS常用的使用方式和工具,更多OBS工具说明,请参见《OBS工具指南》。

相关文档