文档首页 > > AI工程师用户指南> 训练模型> 预置算法> 对数据集的要求

对数据集的要求

分享
更新时间: 2019/10/30 GMT+08:00

ModelArts提供的预置算法包含几种用途,分别是:图像分类、检测物体类别和位置、图像语义分割、强化学习。针对不同用途的预置算法,其对数据集的要求不同。在使用预置算法创建训练作业之前,建议您根据此预置算法对数据集的要求,准备相应的数据集。

图像分类

用于训练的数据集需存储在OBS桶中,数据集对应的OBS文件夹及文件路径结构如下所示:

|-- data_url
      |--a.jpg
      |--a.txt
      |--b.jpg
      |--b.txt
      ...
  • “data_url”表示文件夹名称,您可以自定义此文件夹名称。图片和标签文件不能直接存储在OBS桶的根目录下。
  • 图片和标签文档需统一名称,“.txt”为图像分类标签文件,图片的文件格式支持JPG、JPEG、PNG、BMP。
  • 图像分类标签文件,第一行为图片对应的类别名称,可以是中文、数字或英文。文件内容示例如下所示。
    cat
  • 除以上文件及文件夹外,“data_url”文件夹下不允许存任何其他文件或文件夹。
  • 您也可以使用自动学习项目中标注过的图片数据,对图像分类或物体检测算法重训练,以获得新模型。

检测物体类别和位置

用于训练的数据集需存储在OBS桶中,数据集对应的OBS文件夹及文件路径结构如下所示:

|-- data_url
      |--a.jpg
      |--a.xml
      |--b.jpg
      |--b.xml
      ...
  • “data_url”表示文件夹名称,您可以自定义此文件夹名称。图片和标签文件不能直接存储在OBS桶的根目录下。
  • 图片和标签文档需统一名称,“.xml”为物体检测标签文档,图片的文件格式支持JPG、JPEG、PNG、BMP。
  • 除以上文件及文件夹外,“data_url”文件夹下不允许存任何其他文件或文件夹。
  • 您也可以使用自动学习项目中标注过的图片数据,对图像分类或物体检测算法重训练,以获得新模型。
  • 物体检测的标签文件如下所示,其中比较重要的参数为“size”中图片的尺寸信息、“object”中的物体信息以及标签名“name”,标签名“name”可以为中文、英文或者数字。需要注意的是“bndbox”字段中的“xmin”“ymin”“xmax”“ymax”坐标不能超过图片“size”,即“min”不能小于0,“max”不能大于“width”“height”
     1
     2
     3
     4
     5
     6
     7
     8
     9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    <?xml version="1.0" encoding="UTF-8" standalone="no"?>
    <annotation>
        <folder>Images</folder>
        <filename>IMG_20180919_120022.jpg</filename>
        <source>
            <database>Unknown</database>
        </source>
        <size>
            <width>800</width>
            <height>600</height>
            <depth>1</depth>
        </size>
        <segmented>0</segmented>
        <object>
            <name>yunbao</name>
            <pose>Unspecified</pose>
            <truncated>0</truncated>
            <difficult>0</difficult>
            <bndbox>
                <xmin>216.00</xmin>
                <ymin>108.00</ymin>
                <xmax>705.00</xmax>
                <ymax>488.00</ymax>
            </bndbox>
        </object>
    </annotation>
    

图像语义分割

用于训练的数据集需存储在OBS桶中,数据集对应的OBS文件夹及文件路径结构如下所示:

|-- data_url
       |--Image
              |--a.jpg
              |--b.jpg
              ...
       |--Label
              |--a.jpg
              |--b.jpg
              ...
       |--train.txt
       |--val.txt

说明:

  • “data_url”“Image”“Label”表示OBS文件夹名称。“Image”存放图像分割图片,“Label”存放带标签图片。
  • 图像分割图片和对应带标签图片需同名、同格式。图片格式支持JPG、JPEG、PNG、BMP。
  • “train.txt”“val.txt”是两个list文件,“train.txt”是训练集list文件,“val.txt”是预测集list文件,建议训练集和预测集数据量比例为8:2。

    list文件内部为图片和标签的相对路径,用空格符分开,换行区分不同的数据,例如:

    Image/a.jpg Label/a.jpg
    Image/b.jpg Label/b.jpg
    ...

强化学习

训练本身不需要数据,但需要提供一个空的文件夹,代表数据集位置。该空数据集文件夹需存储在OBS桶中,数据集对应的OBS文件夹及文件路径结构如下所示。

|-- data_url
...

“data_url”表示文件夹名称,您可以自定义此文件夹名称。

分享:

    相关文档

    相关产品

文档是否有解决您的问题?

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

跳转到云社区