更新时间:2023-06-15 GMT+08:00
分享

上传数据集失败如何处理?

问题原因

上传数据集失败,一般是因为数据集格式不对导致的。不同行业套件的工作流,对数据集要求也不同。

首先请检查数据集是否符合要求,各个套件的数据集要求如下:

确认数据集符合要求后,将数据集上传至OBS桶。

上传数据至OBS

文字识别套件

文字识别套件当前提供了单模板工作流和多模板工作流,开发应用时需要上传模板图片,明确以哪张图片作为模板训练文字识别模型。

上传图片的要求如表1所示。

表1 文字识别套件数据集要求

工作流

数据集要求

单模板工作流

  • 保证图片质量:不能有损坏的图片;目前支持的格式包括JPG、JPEG、PNG、BMP。
  • 图片最大边不大于4096px,最小边不小于100px,且大小不超过4M。

多模板工作流

  • 保证图片质量:不能有损坏的图片;目前支持的格式包括JPG、JPEG、PNG、BMP。
  • 图片最大边不大于4096px,最小边不小于100px,且大小不超过4M。
  • 训练分类器的数据集要求将图片放在一个目录里,并压缩成zip文件,文件大小不应大于10M。

自然语言处理套件

自然语言处理套件使用开发应用时,需要上传文本数据用于模型训练。

数据集要求如表2所示。

表2 自然语言处理套件数据集要求

工作流

数据集要求

通用文本分类工作流

  • 文件格式要求为txt或者csv,且编码格式为“UTF-8”格式,文件大小不能超过8MB。
  • 以换行符作为分隔符,每行数据代表一个样本数据,单个样本不能有分行显示,不支持换行。
  • 基于已设计好的分类标签准备文本数据。每个分类标签需要准备5个及以上数据,为了训练出效果较好的模型,建议每个分类标签准备100个以上的数据。
  • 针对未标注数据,将待标注的内容放在一个文本文件内,通用文本分类工作流仅支持中文文本内容的分类。
  • 针对已标注数据,文本分类的标注对象和标签在一个文本文件内,标注对象与标签之间,采用Tab键分隔,多个标签之间采用英文逗号分隔。
    例如,文本文件的内容如下所示。标注对象与标注内容之间采用Tab键分隔。
    华为通过不断的技术创新,来应对来自全球政治环境的挑战    科技,政治
    最近科技创业公司纷纷上市科创板    科技,经济

多语种文本分类工作流

  • 文件格式要求为txt或者csv,且编码格式为“UTF-8”格式,文件大小不能超过8MB。
  • 以换行符作为分隔符,每行数据代表一个样本数据,单个样本不能有分行显示,不支持换行。
  • 文本数据至少包含2个及以上的标签。每个分类标签需要准备5个及以上数据,为了训练出效果较好的模型,建议每个分类标签准备100个以上的数据。
  • 多语种文本分类工作流仅支持对单语种的文本分类,当前支持文本分类的语种包括英语、法语、德语、西班牙语、葡萄牙语、阿拉伯语等。暂不支持对同一文本中含多语种的文本进行分类训练。
  • 针对未标注数据,将待标注的内容放在一个文本文件内。
  • 针对已标注数据,文本分类的标注对象和标签在一个文本文件内,标注对象与标签之间,采用Tab键分隔,多个标签之间采用英文逗号分隔。
    例如,文本文件的内容如下所示。标注对象与标注内容之间采用Tab键分隔。
    It feels very good, and the reaction speed is very fast.   positive
    I bought one three months ago and used it very well and decisively replaced the old phone.   positive
    How can the power become hot even if the battery is not charged for a while?   negative
    The headphones are great. Some subwoofers feel very tight in the ears and won’t fall off.   positive

通用实体抽取工作流

  • 文件格式要求为txt或者csv,且编码格式为“UTF-8”格式,文件大小不能超过8MB。
  • 以换行符作为分隔符,每行数据代表一个样本数据,单个样本不能有分行显示,不支持换行。
  • 基于已设计好的实体标签准备文本数据。每个实体标签需要准备20个及以上数据,为了训练出效果较好的模型,建议每个实体标签准备100个以上的数据。
  • 本工作流只支持上传未标注数据,将待标注的内容放在一个文本文件内。
  • txt文件编码保存为“UTF-8”格式:
    1. 打开txt文件。
    2. 单击左上角的“文件”,选择“另存为”
    3. “编码”选择“UTF-8”格式。
  • csv文件编码保存为“UTF-8”格式:
    1. 右键单击csv文件,“打开方式”选择“记事本”
    2. 单击左上角的“文件”,选择“另存为”
    3. “编码”选择“UTF-8”格式。

视觉套件

使用视觉套件开发应用时,需要上传图片数据训练模型。

上传的数据集要求如表3所示。

表3 视觉套件数据集要求

工作流

数据集要求

零售商品识别工作流

  • 文件名规范,不能有中文,不能有+、空格、制表符。
  • 保证图片质量:不能有损坏的图片;目前支持的格式包括JPG、JPEG、PNG、BMP。
  • 为了保证模型的预测准确度,训练样本跟真实使用场景尽量相似。
  • 为保证模型的泛化能力,数据集尽量覆盖所有标签的图片。
  • 基于已设计好的商品标签准备图片数据。每个商品标签需要准备20个数据以上,为了训练出效果较好的模型,建议每个商品标签准备200个以上的数据。
  • 针对未标注数据,要求将图片放在一个目录里,示例如下所示。
    ├─dataset-import-example 
    │      IMG_20180919_114732.jpg 
    │      IMG_20180919_114745.jpg 
    │      IMG_20180919_114945.jpg 
    • 如果导入位置为OBS,用户需具备此OBS路径的读取权限。
    • 只支持JPG、JPEG、PNG、BMP格式的图片。
  • 针对已标注数据,要求用户将标注对象和标注文件存储在同一目录,并且一一对应,如标注对象文件名为“IMG_20180919_114745.jpg”,那么标注文件的文件名应为“IMG_20180919_114745.xml”

    物体检测的标注文件需要满足PASCAL VOC格式。

    零售商品工作流标注时需要勾勒出商品形状,必须使用多边形标注框。如果标注框坐标超过图片,将无法识别该图片为已标注图片。

更多详情请见准备数据

热轧钢板表面缺陷检测工作流

  • 文件名规范,不能有中文,不能有+、空格、制表符。
  • 保证图片质量:不能有损坏的图片;目前支持的格式包括JPG、JPEG、PNG、BMP,且单张图片大小不能超过5MB,且单次上传的图片总大小不能超过8MB。
  • 为了保证模型的预测准确度,训练样本跟真实使用场景尽量相似。
  • 为保证模型的泛化能力,数据集尽量覆盖所有标签的图片。
  • 基于已设计好的热轧钢板表面缺陷标签准备图片数据。每个分类标签需要准备20个数据以上,为了训练出效果较好的模型,建议每个分类标签准备200个以上的数据。
  • 针对未标注数据,要求将图片放在一个目录里,示例如下所示。
    ├─dataset-import-example 
    │      IMG_20180919_114732.jpg 
    │      IMG_20180919_114745.jpg 
    │      IMG_20180919_114945.jpg 
    • 如果导入位置为OBS,用户需具备此OBS路径的读取权限。
    • 只支持JPG、JPEG、PNG、BMP格式的图片。
  • 针对已标注数据,要求用户将标注对象和标注文件存储在同一目录,并且一一对应,如标注对象文件名为“IMG_20180919_114745.jpg”,那么标注文件的文件名应为“IMG_20180919_114745.xml”

    热轧钢板表面缺陷检测工作流标注时标注框包含缺陷即可,因此建议使用矩形标注框标注图片。如果标注框坐标超过图片,将无法识别该图片为已标注图片。

    物体检测的标注文件需要满足PASCAL VOC格式。

更多详情请见准备数据

云状识别工作流

  • 文件名规范,不能有中文,不能有+、空格、制表符。
  • 保证图片质量,不能有损坏的图片。目前支持的格式包括JPG、JPEG、PNG、BMP。
  • 不要把明显不同的多个任务数据放在同一个数据集内。
  • 为了保证模型的预测准确度,训练样本跟真实使用场景尽量相似。
  • 为保证模型的泛化能力,数据集尽量覆盖可能出现的各种场景。
  • 每一类数据尽量多,尽量均衡。每个分类标签需要准备20个数据以上,为了训练出效果较好的模型,建议每个分类标签准备200个以上的数据。
  • 针对未标注数据,要求将图片放在一个目录里,示例如下所示。
    ├─dataset-import-example 
    │      IMG_20180919_114732.jpg 
    │      IMG_20180919_114745.jpg 
    │      IMG_20180919_114945.jpg 
    • 如果导入位置为OBS,用户需具备此OBS路径的读取权限。
    • 只支持JPG、JPEG、PNG、BMP格式的图片。
  • 针对已标注数据,云状识别工作流仅支持一张图片识别单个标签,支持如下两种数据格式。
    • 相同标签的图片放在一个目录里,并且目录名字即为标签名。当存在多层目录时,则以最后一层目录为标签名。

      示例如下所示,其中“cumulus”“stratus”分别为标签名。

      dataset-import-example 
      ├─cumulus 
      │      10.jpg 
      │      11.jpg 
      │      12.jpg 
      │ 
      └─stratus 
              1.jpg 
              2.jpg 
              3.jpg
    • 当目录下存在对应的txt文件时,以txt文件内容作为图像的标签,优先级高于第一种格式。

      示例如下所示,“import-dir-1”“imort-dir-2”为导入子目录。

      dataset-import-example 
      ├─import-dir-1
      │      10.jpg
      │      10.txt    
      │      11.jpg 
      │      11.txt
      │      12.jpg 
      │      12.txt
      └─import-dir-2
              1.jpg 
              1.txt
              2.jpg 
              2.txt

      单标签的标签文件示例,如1.txt文件内容如下所示:

      stratus

      只支持JPG、JPEG、PNG、BMP格式的图片。单张图片大小不能超过5MB,且单次上传的图片总大小不能超过8MB。

刹车盘识别工作流

  • 文件名规范,不能有中文,不能有+、空格、制表符。
  • 保证图片质量:不能有损坏的图片;目前支持的格式包括JPG、JPEG、PNG、BMP。
  • 不要把明显不同的多个任务数据放在同一个数据集内。
  • 为了保证模型的预测准确度,训练样本跟真实使用场景尽量相似。
  • 为保证模型的泛化能力,数据集尽量覆盖可能出现的各种场景。
  • 每一类数据尽量多,尽量均衡。每个分类标签需要准备20个数据以上,为了训练出效果较好的模型,建议每个分类标签准备200个以上的数据。
  • 针对未标注数据,要求将图片放在一个目录里,示例如下所示。
    ├─dataset-import-example 
    │      IMG_20180919_114732.jpg 
    │      IMG_20180919_114745.jpg 
    │      IMG_20180919_114945.jpg 
    • 如果导入位置为OBS,用户需具备此OBS路径的读取权限。
    • 只支持JPG、JPEG、PNG、BMP格式的图片。
  • 针对已标注数据,刹车盘识别工作流仅支持一张图片识别单个标签,支持如下两种数据格式。
    • 相同标签的图片放在一个目录里,并且目录名字即为标签名。当存在多层目录时,则以最后一层目录为标签名。

      示例如下所示,其中“ventilation”“physical”分别为标签名。

      dataset-import-example 
      ├─ventilation 
      │      10.jpg 
      │      11.jpg 
      │      12.jpg 
      │ 
      └─physical 
              1.jpg 
              2.jpg 
              3.jpg
    • 当目录下存在对应的txt文件时,以txt文件内容作为图像的标签,优先级高于第一种格式。

      示例如下所示,“import-dir-1”“imort-dir-2”为导入子目录。

      dataset-import-example 
      ├─import-dir-1
      │      10.jpg
      │      10.txt    
      │      11.jpg 
      │      11.txt
      │      12.jpg 
      │      12.txt
      └─import-dir-2
              1.jpg 
              1.txt
              2.jpg 
              2.txt

      单标签的标签文件示例,如1.txt文件内容如下所示:

      ventilation

      只支持JPG、JPEG、PNG、BMP格式的图片。单张图片大小不能超过5MB,且单次上传的图片总大小不能超过8MB。

无监督车牌检测工作流

  • 文件名规范,不能有中文,不能有+、空格、制表符。
  • 保证图片质量:不能有损坏的图片;目前支持的格式包括JPG、JPEG、PNG、BMP,单张图片大小不能超过5MB,且单次上传的图片总大小不能超过8MB。
  • 不要把明显不同的多个任务数据放在同一个数据集内。
  • 为了保证模型的预测准确度,训练样本跟真实使用场景尽量相似。
  • 为保证模型的泛化能力,数据集尽量覆盖可能出现的各种场景。
  • 数据集样本数应大于100,用于测试的已标注数据应不少于20张,样本数达1万张以上性能更优。
  • 为了准确率,建议数据集中标注数据占总数据量的10%,用于测试模型,其余90%无需标注。
  • 针对未标注数据,要求将图片放在一个目录里,示例如下所示。
    ├─dataset-import-example 
    │      IMG_20180919_114732.jpg 
    │      IMG_20180919_114745.jpg 
    │      IMG_20180919_114945.jpg 

    如果导入位置为OBS,用户需具备此OBS路径的读取权限。

  • 针对已标注数据,要求用户将标注对象和标注文件存储在同一目录,并且一一对应,如标注对象文件名为“IMG_20180919_114745.jpg”,那么标注文件的文件名应为“IMG_20180919_114745.xml”

    物体检测的标注文件需要满足PASCAL VOC格式。无监督车牌检测工作流标注时标注框需要包含车牌,必须使用矩形标注框。如果标注框坐标超过图片,将无法识别该图片为已标注图片。

更多详情请见准备数据

HiLens套件

使用HiLens套件开发技能时,需要提前准备用于模型训练的数据。

HiLens安全帽检测技能开发时,数据集要求如下:

  • 文件名规范,不能有中文,不能有+、空格、制表符。
  • 保证图片质量:不能有损坏的图片;目前支持的格式包括jpg、jpeg、bmp、png。
  • 为了保证模型的预测准确度,训练样本跟真实使用场景尽量相似。
  • 为保证模型的泛化能力,数据集尽量覆盖所有标签的图片,且数据集中每个标签要有大于5个样本。
  • 针对未标注数据,要求将图片放在一个目录里,示例如下所示。
    ├─dataset-import-example 
    │      IMG_20180919_114732.jpg 
    │      IMG_20180919_114745.jpg 
    │      IMG_20180919_114945.jpg 
    • 如果导入位置为OBS,用户需具备此OBS路径的读取权限。
    • 只支持JPG、JPEG、PNG、BMP格式的图片。
  • 针对已标注数据,要求用户将标注对象和标注文件存储在同一目录,并且一一对应,如标注对象文件名为“IMG_20180919_114745.jpg”,那么标注文件的文件名应为“IMG_20180919_114745.xml”

    物体检测的标注文件需要满足PASCAL VOC格式,格式详细说明请参见表4

    示例:

    ├─dataset-import-example 
    │      IMG_20180919_114732.jpg 
    │      IMG_20180919_114732.xml 
    │      IMG_20180919_114745.jpg 
    │      IMG_20180919_114745.xml 
    │      IMG_20180919_114945.jpg 
    │      IMG_20180919_114945.xml

    标注文件的示例如下所示:

     1
     2
     3
     4
     5
     6
     7
     8
     9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    <?xml version="1.0" encoding="UTF-8" standalone="no"?>
    <annotation>
        <folder>NA</folder>
        <filename>bike_1_1593531469339.png</filename>
        <source>
            <database>Unknown</database>
        </source>
        <size>
            <width>554</width>
            <height>606</height>
            <depth>3</depth>
        </size>
        <segmented>0</segmented>
        <object>
            <name>Dog</name>
            <pose>Unspecified</pose>
            <truncated>0</truncated>
            <difficult>0</difficult>
            <occluded>0</occluded>
            <bndbox>
                <xmin>279</xmin>
                <ymin>52</ymin>
                <xmax>474</xmax>
                <ymax>278</ymax>
            </bndbox>
        </object>
        <object>
            <name>Cat</name>
            <pose>Unspecified</pose>
            <truncated>0</truncated>
            <difficult>0</difficult>
            <occluded>0</occluded>
            <bndbox>
                <xmin>279</xmin>
                <ymin>198</ymin>
                <xmax>456</xmax>
                <ymax>421</ymax>
            </bndbox>
        </object>
    </annotation>
    

    只支持JPG、JPEG、PNG、BMP格式的图片,单张图片大小不能超过5MB,且单次上传的图片总大小不能超过8MB。

    表4 PASCAL VOC格式说明

    字段

    是否必选

    说明

    folder

    表示数据源所在目录。

    filename

    被标注文件的文件名。

    size

    表示图像的像素信息。

    • width:必选字段,图片的宽度。
    • height:必选字段,图片的高度。
    • depth:必选字段,图片的通道数。

    segmented

    表示是否用于分割。

    object

    表示物体检测信息,多个物体标注会有多个object体。

    • name:必选字段,标注内容的类别。
    • pose:必选字段,标注内容的拍摄角度。
    • truncated:必选字段,标注内容是否被截断(0表示完整)。
    • occluded:必选字段,标注内容是否被遮挡(0表示未遮挡)
    • difficult:必选字段,标注目标是否难以识别(0表示容易识别)。
    • confidence:可选字段,标注目标的置信度,取值范围0-1之间。
    • bndbox:必选字段,标注框的类型,可选值请参见表5
    表5 标注框类型描述

    type

    形状

    标注信息

    point

    点的坐标。

    <x>100<x>

    <y>100<y>

    line

    线

    各点坐标。

    <x1>100<x1>

    <y1>100<y1>

    <x2>200<x2>

    <y2>200<y2>

    bndbox

    矩形框

    左上和右下两个点坐标。

    <xmin>100<xmin>

    <ymin>100<ymin>

    <xmax>200<xmax>

    <ymax>200<ymax>

    polygon

    多边形

    各点坐标。

    <x1>100<x1>

    <y1>100<y1>

    <x2>200<x2>

    <y2>100<y2>

    <x3>250<x3>

    <y3>150<y3>

    <x4>200<x4>

    <y4>200<y4>

    <x5>100<x5>

    <y5>200<y5>

    <x6>50<x6>

    <y6>150<y6>

    circle

    圆形

    圆心坐标和半径。

    <cx>100<cx>

    <cy>100<cy>

    <r>50<r>

上传数据至OBS

使用ModelArts Pro进行应用开发时,您需要将数据上传至OBS桶中。

  1. 首先需要获取访问OBS权限,在未进行委托授权之前,无法使用此功能。您需要提前获得OBS授权,详情请见配置访问权限
  2. 已创建用于存储数据的OBS桶及文件夹,且数据存储的OBS桶与ModelArts Pro在同一区域(目前仅支持华为-北京四),详情请见创建OBS桶
  3. 上传数据至OBS,OBS上传数据的详细操作请参见《对象存储服务快速入门》
    • 您在创建OBS桶时,需保证您的OBS桶与ModelArts Pro在同一个区域。
    • 建议根据业务情况及使用习惯,选择OBS使用方法。
      • 如果您的数据量较小(小于100MB)或数据文件较少(少于100个),建议您使用控制台上传数据。控制台上传无需工具下载或多余配置,在少量数据上传时,更加便捷高效。
      • 如果您的数据量较大或数据文件较多,建议选择OBS Browser+或obsutil工具上传。OBS Browser+是一个比较常用的图形化工具,支持完善的桶管理和对象管理操作。推荐使用此工具创建桶或上传对象。obsutil是一款用于访问管理OBS的命令行工具,对于熟悉命令行程序的用户,obsutil是执行批量处理、自动化任务较好的选择。
      • 如果您的业务环境需要通过API或SDK执行数据上传操作,或者您习惯于使用API和SDK,推荐选择OBS的API或SDK方法创建桶和上传对象。

      上述说明仅罗列OBS常用的使用方式和工具,更多OBS工具说明,请参见《OBS工具指南》。

相关文档