更新时间:2024-10-24 GMT+08:00

发布ModelArts数据集中的数据版本

ModelArts在数据准备过程中,针对同一数据源的数据,对不同时间处理或标注后的数据,按照版本进行区分方便后续模型构建和开发时选择对应的数据集版本进行使用。

关于数据集版本

  • 针对刚创建的数据集(未发布前),无数据集版本信息,必须执行发布操作后,才能应用于模型开发或训练。
  • 数据集版本,默认按V001、V002递增规则进行命名,您也可以在发布时自定义设置。
  • 您可以将任意一个版本设置为当前目录,即表示数据集列表中进入的数据集详情,为此版本的数据及标注信息。
  • 针对每一个数据集版本,您可以通过“存储路径”参数,获得此版本对应的Manifest文件格式的数据集。可用于导入数据或难例筛选操作。
  • 表格数据集暂不支持切换版本。

发布数据集版本

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“资产管理> 数据集”,进入“数据集”管理页面
  2. 在数据集列表中,单击操作列的“发布”。或者,您可以单击数据集名称,进入数据集“概览”页,在页面右上角单击“发布”。
  3. 在“发布新版本”弹出框中,填写发布数据集的相关参数,然后单击“确定”。
    表1 发布数据集的参数说明

    参数

    描述

    “版本名称”

    默认按V001、V002递增规则进行命名,您也可以自定义版本名称。版本名称只能包含字母、数字、中划线或下划线。

    “版本格式”

    仅“表格”类型数据集支持设置版本格式,支持“CSV”“CarbonData”两种。

    说明:

    如果导出的CSV文件中存在以“=”“+”“-”和“@”开头的命令时,为了安全考虑,ModelArts会自动加上Tab键,并对双引号进行转义处理。

    “数据切分”

    仅“图像分类”、“物体检测”、“文本分类”和“声音分类”类型数据集支持进行数据切分功能。

    默认不启用。启用后,需设置对应的训练验证比例。

    输入“训练集比例”,数值只能是0~1区间内的数。设置好“训练集比例”后,“验证集比例”自动填充。“训练集比例”“验证集比例”等于1。

    说明:

    为确保训练模型的精度,建议将训练集比例设置为0.8或者0.9。

    “训练集比例”即用于训练模型的样本数据比例;“验证集比例”即用于验证模型的样本数据比例。“训练验证比例”会影响训练模板的性能。

    “描述”

    针对当前发布的数据集版本的描述信息。

    “开启难例属性”

    仅“图像分类”和“物体检测”类型数据集支持难例属性。

    默认不开启。启用后,会将此数据集的难例属性等信息写入对应的Manifest文件中。

数据集版本文件目录结构

由于数据集是基于OBS目录管理的,发布为新版本后,对应的数据集输出位置,也将基于新版本生成目录。

以图像分类为例,数据集发布后,对应OBS路径下生成,其相关文件的目录如下所示。

|-- user-specified-output-path
    |-- DatasetName-datasetId
        |-- annotation
            |-- VersionMame1
                |-- VersionMame1.manifest
            |-- VersionMame2
                ...
            |-- ...

以物体检测为例,如果数据集导入的是Manifest文件,在数据集发布后,其相关文件的目录结构如下。

|-- user-specified-output-path 
    |-- DatasetName-datasetId 
        |-- annotation 
            |-- VersionMame1 
                |-- VersionMame1.manifest 
                |-- annotation
                   |-- file1.xml 
            |-- VersionMame2
                ...
            |-- ...

以视频标注为例,在数据集发布后,标注结果将标注结果文件(XML)存放在数据集输出目录下。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
|-- user-specified-output-path
     |-- DatasetName-datasetId
         |-- annotation
             |-- VersionMame1
                 |-- VersionMame1.manifest
                 |-- annotations
                   |-- images
                       |-- videoName1
                          |-- videoName1.timestamp.xml
                        |-- videoName2
                          |-- videoName2.timestamp.xml
            |-- VersionMame2
                ...
            |-- ...

视频标注的关键帧存在数据集的输入目录下。

|-- user-specified-input-path
     |-- images
        |-- videoName1
             |-- videoName1.timestamp.jpg
         |-- videoName2
             |-- videoName2.timestamp.jpg 

查看数据集演进过程

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“资产管理>数据集”,进入“数据集”管理页面。
  2. 在数据集列表中,单击操作列的“更多 > 版本管理”,进入数据集“版本管理”页面。

    您可以查看数据集的基本信息,并在左侧查看版本演进信息及其发布时间。

设置当前版本

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“资产管理>数据集”,进入“数据集”管理页面。
  2. 在数据集列表中,单击操作列的“更多 > 版本管理”,进入数据集“版本管理”页面。
  3. “版本管理”页面中,选择对应的数据集版本,在数据集版本基本信息区域,单击“设置为当前版本”。设置完成后,版本名称右侧将显示为“当前版本”
    图1 设置当前版本

    只有状态为“正常”的版本,才能被设置为当前版本。

删除数据集版本

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“资产管理>数据集”,进入“数据集”管理页面。
  2. 在数据集列表中,单击操作列的“更多 > 版本管理”,进入数据集“版本管理”页面。
  3. 选择需删除的版本所在行,单击操作列的“删除”。在弹出的对话框中确认信息,然后单击“确定”完成删除操作。

    删除数据集版本不会删除原始数据,数据及其标注信息仍存在于对应的OBS目录下。但是,执行删除操作后,无法在ModelArts管理控制台清晰的管理数据集版本,请谨慎操作。