创建数据集
平台支持用户创建数据集,通过数据提取将原始数据提取合并,进行数据预览。根据数据来源不同,创建的方式不同。
数据集来源分类
数据集来源分如下类型:
- 本地:直接从本地计算机上传数据集。
需提前准备文件保存至本地,且需满足如下条件:
- 仅支持上传扩展名为png、jpg、jpeg、pcd、json、yaml、txt、xml、csv、laz、las、bin、npy、wav、flac、mp3、m4a的文件。
- 单个文件最大为100MB,文件夹最大为10GB,文件数量最多为10000。
- 每一级文件或文件夹路径最长不能超过255字符。文件路径最长不能超过896字符。
- 标注:通过现有的标注任务,快速创建新的数据集。
- OBS:支持从对象存储服务(OBS)中导入数据集。
需提前将数据集上传至OBS,并获取对应的访问密钥、私有访问密钥和OBS地址。
- 通用存储:可以从八爪鱼通用存储服务导入数据集。
- 数据集:基于现有数据集,创建子集。
创建数据集步骤
- 创建用于数据集增加数据时进行数据筛选和格式转换的镜像。可参考制作镜像(数据集)。
- 在左侧菜单栏中选择“数据资产 > 数据集 ”。
- 在“数据集”页签单击“创建数据集”,填写数据集名称和描述信息。
- 根据不同数据来源配置相关参数,配置完成后勾选“我已阅读并同意《八爪鱼自动驾驶云服务声明》”,单击“创建”。
- 数据来源:本地
表1 数据来源为本地的数据集 参数
说明
数据来源
选择数据来源,此处选择“本地”。
数据类型
选择数据类型,可选择“图片”、“3D点云”、“音频”和“文本”。
数据格式
选择数据格式,可选择“OCTOPUS”、“USER_DEFINE”和自定义格式。
标注状态
根据需要设置标注状态,可设置“未标注”、“已标注”。
自定义镜像
选择已创建的镜像以及镜像版本。
启动脚本路径
选择脚本的启动文件路径,文件路径为在脚本中的相对路径,当前只支持.py类型的启动文件,如/root/dataset.py。
选择文件
选择已准备好的本地文件上传。
- 数据来源:标注
表2 数据来源为标注的数据集 参数
说明
数据来源
选择数据来源,此处选择“标注”。
数据类型
选择数据类型,可选择“图片”、“3D点云”、“音频”和“文本”。
数据格式
选择数据格式,仅支持“OCTOPUS”格式。
标注状态
设置标注状态,仅支持“已标注”状态。
标注项目
选择现有的标注项目。
自定义镜像
选择已创建的镜像以及镜像版本。
启动脚本路径
选择脚本的启动文件路径,文件路径为在脚本中的相对路径,当前只支持.py类型的启动文件,如/root/dataset.py。
批次任务
选择标注项目中的批次任务。
标注
选择批次任务后选择标注。
标注帧
可选择“全部标注帧”、“有效标注帧”、“无效标注帧”。
标注数据集
可选择“全部数据集”、“已标注数据集”。
难例数据集
可选择“全部数据集”、“仅难例数据集”、“非仅难例数据集”。
- 数据来源:OBS
表3 数据来源为OBS的数据集 参数
说明
数据来源
选择数据来源,此处选择“OBS”。
数据类型
选择数据类型,可选择“图片”、“3D点云”、“音频”和“文本”。
数据格式
选择数据格式,可选择“OCTOPUS”、“USER_DEFINE”和自定义格式。
标注状态
根据需要设置标注状态,可设置“未标注”、“已标注”。
自定义镜像
选择已创建的镜像以及镜像版本。
启动脚本路径
选择脚本的启动文件路径,文件路径为在脚本中的相对路径,当前只支持.py类型的启动文件,如/root/dataset.py。
访问密钥
请输入访问密钥(AK)。
私有访问密钥
请输入私有访问密钥(SK)。
OBS地址
选择OBS桶中的地址,建议选择data、meta的上一级目录。
存放路径
“数据格式”选择“USER_DEFINE”或自定义格式时,可以选择存放路径。不选择存放路径,数据默认存放在数据集根目录下。
- 访问密钥(AK)和私有访问密钥(SK),在导入数据时,通过AK识别访问用户的身份,通过SK对请求数据进行签名验证,用于确保请求的机密性、完整性和请求者身份的正确性。如何获取访问密钥AK/SK?
- 输入的访问密钥和私有访问密钥需要具有OBS服务如下权限:
obs:object:GetObject、obs:object:PutObject、obs:bucket:ListAllMyBuckets、obs:bucket:ListBucket
查看用户拥有的OBS服务权限,可参考如何查看用户拥有的权限?
- 数据来源:通用存储
表4 数据来源为通用存储的数据集 参数
说明
数据来源
选择数据来源,此处选择“通用存储”。
数据类型
选择数据类型,可选择“图片”、“3D点云”、“音频”、“文本”和“视频”。
数据格式
选择数据格式,可选择“OCTOPUS”、“USER_DEFINE”和自定义格式。
标注状态
根据需要设置标注状态,可设置“未标注”、“已标注”。
自定义镜像
选择已创建的镜像以及镜像版本。
启动脚本路径
选择脚本的启动文件路径,文件路径为在脚本中的相对路径,当前只支持.py类型的启动文件,如/root/dataset.py。
存储目录
选择存储目录。
筛选条件
根据需要选择筛选条件。
- 数据来源:数据集
表5 数据来源为数据集的数据集 参数
说明
数据来源
选择数据来源,此处选择“数据集”。
数据集形式
仅支持“数据集子集”。
源数据集
选择源数据集。源数据集仅支持已发布的版本
自定义镜像
选择已创建的镜像以及镜像版本。
启动脚本路径
选择脚本的启动文件路径,文件路径为在脚本中的相对路径,当前只支持.py类型的启动文件,如/root/dataset.py。
标签
根据需要选择标签。
自定义属性
根据需要选择自定义属性。
标注物
根据需要选择合适的标注物。
- 数据来源:本地