文档首页 > > 自动学习用户指南> 图像分类> 准备数据

准备数据

分享
更新时间: 2019/11/21 GMT+08:00

使用ModelArts自动学习构建模型时,您需要将数据上传至对象存储服务(OBS)中。OBS桶需要与ModelArts在同一区域。首先,您需要在OBS创建桶和文件夹,具体操作请参见“准备工作>创建OBS桶”。上传数据根据数据集的来源,按如下方式操作:

数据上传至OBS

由于OBS管理控制台支持上传单个文件最大为50MB,不支持批量上传多个文件,因此本次操作将使用OBS客户端上传数据。您需要执行如下操作,将数据导入到您的数据集中,以便用于模型训练和构建。

  1. 登录OBS管理控制台,在OBS管理控制台主界面单击OBS Browser的下载链接,将下载好的软件包解压到一个绝对路径长度不超过130字符的目录中。
  2. 打开下载的OBS Browser客户端,添加账号名称并配置AK/SK,AK/SK与准备工作获取的一致。
  3. 在OBS Browser客户端上创建桶,也可以使用已存在的桶,如“c-flowers”
  4. 在OBS Browser客户端上传文件或文件夹,您可以将图像文件数据上传到OBS桶中已创建的文件夹,也可以直接上传文件夹。数据要求请参见数据集要求
  5. 数据上传成功后,在OBS管理控制台主界面单击进入创建的桶,选择“对象”查看上传的数据。

使用共享数据集,从AI市场导入数据集

由于ModelArts在“AI市场”中提供了图像分类和物体检测的示例数据集,此处以命名为“Flowers-Data-Set”的花卉图像识别、命名为“Yunbao-Data-Custom”的云宝物体检测数据集为例,进行模型构建。您需要执行如下操作,将数据集从市场导入到您的数据集中,以便用于模型训练和构建。

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“AI市场”,进入AI市场主页。
  2. 单击“数据集”页签进入数据集管理页面,找到图像识别或物体检测数据集,“Flowers-Data-Set”“Yunbao-Data-Custom”,单击数据集所在区域进入详情页面。
  3. 在详情页面中,单击“导入至我的数据集”。为避免数据重复或覆盖,建议将一个数据集导入一个文件夹中。
  4. “导入至我的数据集”对话框中,填写数据集“名称”“存储路径”。名称可自行定义,存储路径选择“准备工作>创建OBS桶”中已创建的OBS桶及文件夹。填写完成后单击“确定”
  5. (可选)如果您的OBS未开启多版本控制功能,此处将弹出“多版本控制”对话框,提示您启用。由于ModelArts创建数据集时,必须开启OBS的多版本控制功能。单击“确定”启用多版本控制功能。
    图1 启用多版本控制
  6. 操作完成后,您可以前往“数据管理>数据集”页面,查看数据导入情况。数据集的导入需要一定时间,大概几分钟,请耐心等待。

    “数据集目录”中,当数据集版本状态为“正常”时,表示数据集已导入成功,您可以使用此数据集开始模型构建。数据集导入后,此示例数据将被拷贝至步骤4中的OBS路径下。

数据集要求

  • 文件名规范,不能有中文,不能有+、空格、制表符。
  • 保证图片质量:不能有损坏的图片;目前支持的格式包括jpg、jpeg、bmp、png;图像分辨率高于30像素;每张图片不大于5MB,且不可手动修改图片后缀名。
  • 不要把明显不同的多个任务数据放在同一个数据集内。
  • 每一类数据尽量多,尽量均衡。期望获得良好效果,图像分类项目中,建议训练数据集保证每类图片超过100张。图像检测,建议每个标签类覆盖50张以上图片,检测类别不超过20。
  • 训练样本跟真实使用场景尽量相似。比如是固定摄像头使用场景的就用固定摄像头拍的图片进行训练,避免将网络下载的图片或手机随机拍摄的图片放入训练集。
  • 为保证模型的泛化能力,尽量选择实际使用场景的多角度样本来进行训练。比如检测某个零件,就需要把零件各个面的图片都放入到训练图片中。

OBS上传文件规范

  • 如不需要提前上传训练数据,请创建一个空文件夹用于存放工程后期生成的文件。如:“/bucketName/data-cat”
  • 如需要提前上传待标注的图片,请创建一个空文件夹,然后将图片文件保存在该文件夹下,图片的目录结构如:“/bucketName/data-cat/cat.jpg”
  • 如您将已标注好的图片上传至OBS桶,请按照如下规范上传。

    标签名是由中文、大小写字母、数字、中划线或下划线组成,且不超过32位的字符串。

    “data_url”为文件夹名称,图片和标签文档需统一名称(“.txt”为图像分类标签文档)。

    除以上说明的文件及文件夹外,“data_url”文件夹下不允许存任何其他文件或文件夹。

    • 图片及标签命名规范:
      |-- data_url
           |--a.jpg
           |--a.txt
           |--b.jpg
           |--b.txt
           ...
    • 图像分类标签“.txt”规范如下。

      一行一个标签:

      cat
      dog
      ...
分享:

    相关文档

    相关产品

文档是否有解决您的问题?

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

跳转到云社区