更新时间:2025-02-20 GMT+08:00
分享

创建数据集

平台支持用户创建数据集,通过数据提取将原始数据提取合并,进行数据预览。根据数据来源不同,创建的方式不同。

数据集来源分类

数据集来源分如下类型:

  • 本地:直接从本地计算机上传数据集。

    需提前准备文件保存至本地,且需满足如下条件:

    • 仅支持上传扩展名为png、jpg、jpeg、pcd、json、yaml、txt、xml、csv、laz、las、bin、npy、wav、flac、mp3、m4a的文件。
    • 单个文件最大为100MB,文件夹最大为10GB,文件数量最多为10000。
    • 每一级文件或文件夹路径最长不能超过255字符。文件路径最长不能超过896字符。
  • 标注:通过现有的标注任务,快速创建新的数据集。
  • OBS:支持从对象存储服务(OBS)中导入数据集。

    需提前将数据集上传至OBS,并获取对应的访问密钥、私有访问密钥和OBS地址。

  • 通用存储:可以从八爪鱼通用存储服务导入数据集。
  • 数据集:基于现有数据集,创建子集。

创建数据集步骤

  1. 创建用于数据集增加数据时进行数据筛选和格式转换的镜像。可参考制作镜像(数据集)
  2. 在左侧菜单栏中选择“数据资产 > 数据集 ”。
  3. 在“数据集”页签单击“创建数据集”,填写数据集名称和描述信息。
  4. 根据不同数据来源配置相关参数,配置完成后勾选“我已阅读并同意《八爪鱼自动驾驶云服务声明》”,单击“创建”。

    • 数据来源:本地
      表1 数据来源为本地的数据集

      参数

      说明

      数据来源

      选择数据来源,此处选择“本地”。

      数据类型

      选择数据类型,可选择“图片”、“3D点云”、“音频”和“文本”。

      数据格式

      选择数据格式,可选择“OCTOPUS”、“USER_DEFINE”和自定义格式。

      标注状态

      根据需要设置标注状态,可设置“未标注”、“已标注”。

      自定义镜像

      选择已创建的镜像以及镜像版本。

      启动脚本路径

      选择脚本的启动文件路径,文件路径为在脚本中的相对路径,当前只支持.py类型的启动文件,如/root/dataset.py。

      选择文件

      选择已准备好的本地文件上传。

    • 数据来源:标注
      表2 数据来源为标注的数据集

      参数

      说明

      数据来源

      选择数据来源,此处选择“标注”。

      数据类型

      选择数据类型,可选择“图片”、“3D点云”、“音频”和“文本”。

      数据格式

      选择数据格式,仅支持“OCTOPUS”格式。

      标注状态

      设置标注状态,仅支持“已标注”状态。

      标注项目

      选择现有的标注项目。

      自定义镜像

      选择已创建的镜像以及镜像版本。

      启动脚本路径

      选择脚本的启动文件路径,文件路径为在脚本中的相对路径,当前只支持.py类型的启动文件,如/root/dataset.py。

      批次任务

      选择标注项目中的批次任务。

      标注

      选择批次任务后选择标注。

      标注帧

      可选择“全部标注帧”、“有效标注帧”、“无效标注帧”。

      标注数据集

      可选择“全部数据集”、“已标注数据集”。

      难例数据集

      可选择“全部数据集”、“仅难例数据集”、“非仅难例数据集”。

    • 数据来源:OBS
      表3 数据来源为OBS的数据集

      参数

      说明

      数据来源

      选择数据来源,此处选择“OBS”。

      数据类型

      选择数据类型,可选择“图片”、“3D点云”、“音频”和“文本”。

      数据格式

      选择数据格式,可选择“OCTOPUS”、“USER_DEFINE”和自定义格式。

      标注状态

      根据需要设置标注状态,可设置“未标注”、“已标注”。

      自定义镜像

      选择已创建的镜像以及镜像版本。

      启动脚本路径

      选择脚本的启动文件路径,文件路径为在脚本中的相对路径,当前只支持.py类型的启动文件,如/root/dataset.py。

      访问密钥

      请输入访问密钥(AK)。

      私有访问密钥

      请输入私有访问密钥(SK)。

      OBS地址

      选择OBS桶中的地址,建议选择data、meta的上一级目录。

      存放路径

      “数据格式”选择“USER_DEFINE”或自定义格式时,可以选择存放路径。不选择存放路径,数据默认存放在数据集根目录下。

      • 访问密钥(AK)和私有访问密钥(SK),在导入数据时,通过AK识别访问用户的身份,通过SK对请求数据进行签名验证,用于确保请求的机密性、完整性和请求者身份的正确性。如何获取访问密钥AK/SK?
      • 输入的访问密钥和私有访问密钥需要具有OBS服务如下权限:

        obs:object:GetObject、obs:object:PutObject、obs:bucket:ListAllMyBuckets、obs:bucket:ListBucket

        查看用户拥有的OBS服务权限,可参考如何查看用户拥有的权限?

    • 数据来源:通用存储
      表4 数据来源为通用存储的数据集

      参数

      说明

      数据来源

      选择数据来源,此处选择“通用存储”。

      数据类型

      选择数据类型,可选择“图片”、“3D点云”、“音频”、“文本”和“视频”。

      数据格式

      选择数据格式,可选择“OCTOPUS”、“USER_DEFINE”和自定义格式。

      标注状态

      根据需要设置标注状态,可设置“未标注”、“已标注”。

      自定义镜像

      选择已创建的镜像以及镜像版本。

      启动脚本路径

      选择脚本的启动文件路径,文件路径为在脚本中的相对路径,当前只支持.py类型的启动文件,如/root/dataset.py。

      存储目录

      选择存储目录。

      筛选条件

      根据需要选择筛选条件。

    • 数据来源:数据集
      表5 数据来源为数据集的数据集

      参数

      说明

      数据来源

      选择数据来源,此处选择“数据集”。

      数据集形式

      仅支持“数据集子集”。

      源数据集

      选择源数据集。源数据集仅支持已发布的版本

      自定义镜像

      选择已创建的镜像以及镜像版本。

      启动脚本路径

      选择脚本的启动文件路径,文件路径为在脚本中的相对路径,当前只支持.py类型的启动文件,如/root/dataset.py。

      标签

      根据需要选择标签。

      自定义属性

      根据需要选择自定义属性。

      标注物

      根据需要选择合适的标注物。

相关文档