文档首页 > > AI工程师用户指南> 管理数据> 数据处理> 预置算子说明>

数据选择

数据选择

分享
更新时间:2021/02/26 GMT+08:00

数据选择算子概述

ModelArts提供以下数据选择算子:

  • SimDeduplication:可以依据用户设置的相似程度阈值完成图像去重处理。图像去重是图像数据处理常见的数据处理方法。图像重复指图像内容完全一样,或者有少量的尺度、位移、色彩、亮度变化,或者是添加了少量其他内容等。
    图1 SimDeduplication效果图
    表1 高级参数说明

    参数名

    是否必选

    默认值

    参数说明

    simlarity_threshold

    0.9

    相似程度阈值,两张图片间的相似度大于阈值时,其中一张会作为重复图片被过滤掉。取值范围为0~1。

    do_validation

    True

    是否做数据校验,可填True或者False。表示数据去重前需要做数据校验,否则只做数据去重。

  • RRD:可以依据用户设置的比例去除差异最大的数据。
    图2 RRD效果图
    表2 高级参数说明

    参数名

    是否必选

    默认值

    参数说明

    sample_ratio

    0.9

    数据留下的百分比。取值范围为0~1。例如0.9表示保留百分之90的原数据。

    n_clusters

    auto

    auto

    数据样本的种类数,默认为auto,即按照目录中图片个数取类别总数,可指定具体类别数,如 4

    do_validation

    True

    是否做数据校验,可填True或者False。表示数据去冗余前需要做数据校验,否则只做数据去重。

输入要求

算子输入分为两种,“数据集”“OBS目录”

  • 选择“数据集”,请从下拉框中选择ModelArts中管理的数据集及其版本。要求数据集类型与您在本任务中选择的场景类别一致。
  • 选择“OBS目录”,存放结构又分两种情况,“仅包含图片”“包含图片和标注信息”
    • “仅包含图片”:当目录下全是图片时,支持jpg、jpeg、png、bmp格式,嵌套子目录的图片也将全部读入。
    • “包含图片和标注信息”:根据不同数据类型,结构不同。

      图像分类,其目录结构如下所示。如下目录结构,仅支持单标签场景。

      input_path/
          --label1/
              ----1.jpg
          --label2/
              ----2.jpg
          --../

      物体检测,其目录结构如下所示。支持jpg、jpeg、png、bmp格式的图片,xml为标准的PACAL VOC格式标注文件。

      input_path/
          --1.jpg
          --1.xml
          --2.jpg
          --2.xml
          ...

输出说明

  • 图像分类

    输出数据的目录结构如下所示。

    output_path/
        --Data/
            ----class1/  # 若输入数据有标注信息会一并输出,class1为标注类别
                ------1.jpg
            ----class2/
                ------2.jpg
                ------3.jpg
        --output.manifest

    其中manifest文件内容示例如下所示。

    {
    	"id": "xss", 
    	"source": "obs://home/fc8e2688015d4a1784dcbda44d840307_14.jpg",
    	"usage": "train", 
    	"annotation": [
    		{
    			"name": "Cat", 
    			"type": "modelarts/image_classification"
    		}
    	]
    }
  • 物体检测
    输出数据的目录结构如下所示。
    output_path/
        --Data/
            ----1.jpg
            ----1.xml  # 若输入数据有标注信息会一并输出,xml为标注文件
            ----2.jpg
            ----3.jpg
        --output.manifest

    其中manifest文件内容示例如下所示。

    {
    	"source":"obs://fake/be462ea9c5abc09f.jpg",
    	"annotation":[
    		{
    			"annotation-loc":"obs://fake/be462ea9c5abc09f.xml",
    			"type":"modelarts/object_detection",
    			"annotation-format":"PASCAL VOC",
    			"annotated-by":"modelarts/hard_example_algo"
    			}
    	]
    }
分享:

    相关文档

    相关产品