文档首页 > > 自动学习用户指南> 图像分类> 准备数据

准备数据

分享
更新时间: 2020/06/03 GMT+08:00

使用ModelArts自动学习构建模型时,您需要将数据上传至对象存储服务(OBS)中。OBS桶需要与ModelArts在同一区域。

数据上传至OBS

在本文档中,采用管理控制台上传数据至OBS。OBS创建桶以及上传文件的更多操作方式及指导,请参见创建桶上传对象

执行如下操作,将数据导入到您的数据集中,以便用于模型训练和构建。

  1. 登录OBS管理控制台,在ModelArts同一区域内创建桶。如果已存在可用的桶,需确保OBS桶与ModelArts在同一区域。
  2. 参考上传文件,将本地数据上传至OBS桶中。如果您的数据较多,推荐OBS Browser+上传数据或上传文件夹。上传的数据需满足此类型自动学习项目的数据集要求。

数据集要求

  • 文件名规范,不能有中文,不能有+、空格、制表符。
  • 保证图片质量:不能有损坏的图片;目前支持的格式包括jpg、jpeg、bmp、png。
  • 不要把明显不同的多个任务数据放在同一个数据集内。
  • 每一类数据尽量多,尽量均衡。期望获得良好效果,图像分类项目中,建议训练数据集保证每类图片超过100张。
  • 为了保证模型的预测准确度,训练样本跟真实使用场景尽量相似。
  • 为保证模型的泛化能力,数据集尽量覆盖可能出现的各种场景。

OBS上传文件规范

  • 如不需要提前上传训练数据,请创建一个空文件夹用于存放工程后期生成的文件。如:“/bucketName/data-cat”
  • 如需要提前上传待标注的图片,请创建一个空文件夹,然后将图片文件保存在该文件夹下,图片的目录结构如:“/bucketName/data-cat/cat.jpg”
  • 如您将已标注好的图片上传至OBS桶,请按照如下规范上传。
    • 图像分类数据集要求将标注对象和标注文件存储在同一目录,并且一一对应,例如标注对象文件名为“10.jpg”,那么标注文件的文件名应为“10.txt”
      数据文件存储示例:
      ├─<dataset-import-path>
            │      10.jpg
            │      10.txt    
            │      11.jpg 
            │      11.txt
            │      12.jpg 
            │      12.txt
    • 只支持JPG、JPEG、PNG、BMP格式的图片。在ModelArts管理控制台上传时,单次上传的图片总大小不能超过8MB,数据量大时推荐使用OBS Browser+上传 。
    • 标签名是由中文、大小写字母、数字、中划线或下划线组成,且不超过32位的字符串。
    • 图像分类标签“.txt”规范如下。

      一行一个标签:

      cat
      dog
      ...
分享:

    相关文档

    相关产品

文档是否有解决您的问题?

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问