更新时间:2024-10-24 GMT+08:00
分享

准备文本分类数据

使用ModelArts自动学习构建模型时,您需要将数据上传至对象存储服务(OBS)中。OBS桶需要与ModelArts在同一区域。

数据集要求

  • 文件格式要求为txt或者csv,文件大小不能超过8MB。
  • 以换行符作为分隔符,每行数据代表一个标注对象。
  • 文本分类目前只支持中文。

数据上传至OBS

在本文档中,采用通过OBS管理控制台将数据上传至OBS桶。

OBS上传文件的规范:
  • 如不需要提前上传训练数据,请创建一个空文件夹用于存放工程后期生成的文件。
  • 如需要提前上传待标注的文件,请创建一个空文件夹,然后将文本文件保存在该文件夹下,文本文件的目录结构如:“/bucketName/data/text.csv”
  • 标签名是由中文、大小写字母、数字、中划线或下划线组成,且不超过32位的字符串。
  • 如您将已标注好的文本文件上传至OBS桶,请按照如下规范上传。
    • 要求将标注对象和标注文件存储在同一目录,并且一一对应,如标注对象文件名为“COMMENTS_114745.txt”,那么标注文件名为“COMMENTS_114745_result.txt”

      数据文件存储示例:

      ├─<dataset-import-path>
            │      COMMENTS_114732.txt 
            │      COMMENTS_114732_result.txt 
            │      COMMENTS_114745.txt 
            │      COMMENTS_114745_result.txt 
            │      COMMENTS_114945.txt 
            │      COMMENTS_114945_result.txt
    • 文本分类的标注对象和标注文件均为文本文件,并且以行数进行对应。如标注文件中的第一行表示的是标注对象文件中的第一行的标注。

      例如,标注对象“COMMENTS_114745.txt”的内容如下所示。

      手感很好,反应速度很快,不知道以后怎样
      三个月前买了一个用的非常好果断把旧手机替换下来尤其在待机方面
      没充一会电源怎么也会发热呢音量健不好用回弹不好
      算是给自己的父亲节礼物吧物流很快下单不到24小时就到货了耳机更赞有些低音炮的感觉入耳很紧不会掉棒棒哒

      标注文件“COMMENTS_114745_result.txt”的内容。

      positive
      positive
      negative 
      positive

OBS上传操作步骤:

执行如下操作,将数据导入到您的数据集中,以便用于模型训练和构建。

  1. 登录OBS管理控制台,在ModelArts同一区域内创建桶。如果已存在可用的桶,需确保OBS桶与ModelArts在同一区域。
  2. 参考上传文件,将本地数据上传至OBS桶中。如果您的数据较多,推荐OBS Browser+上传数据或上传文件夹。上传的数据需满足此类型自动学习项目的数据集要求。
  • 在上传数据时,请选择非加密桶进行上传,否则会由于加密桶无法解密导致后期的训练失败。
  • 用于训练的文本,至少有2种以上的分类,每种分类样本数据数不少20行。

创建数据集

数据准备完成后,需要创建相应项目支持的类型的数据集,具体操作请参考创建ModelArts数据集

相关文档