更新时间:2024-10-24 GMT+08:00

从Manifest文件导入数据到数据集

前提条件

  • 已存在创建完成的数据集。
  • 准备需要导入的数据,具体可参见从Manifest文件导入规范说明
  • 需导入的数据,已存储至OBS中。Manifest文件也需要存储至OBS。
  • 确保数据存储的OBS桶与ModelArts在同一区域,并确保用户具有OBS桶的操作权限。

文件型数据从Manifest导入操作

不同类型的数据集,导入操作界面的示意图存在区别,请参考界面信息了解当前类型数据集的示意图。当前操作指导以图片数据集为例。

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“资产管理>数据集”,进入“数据集”管理页面。
  2. 在数据集所在行,单击操作列的“导入”。或者,您可以单击数据集名称,进入数据集“概览”页,在页面右上角单击“导入”
  3. “导入”对话框中,参考如下说明填写参数,然后单击“确定”
    • “数据来源”“OBS”
    • “导入方式”“manifest”
    • “Manifest文件”:存储Manifest文件的OBS路径。
    • “数据标注状态”:已标注。
    • “高级特征选项 ”:默认关闭,可通过勾选高级选项提供增强功能。

      “按标签导入”:系统将自动获取此数据集的标签,您可以单击“添加标签”添加。此字段为可选字段,您也可以在导入数据集后,在标注数据操作时,添加或删除标签。

      “只导入难例”:难例指manifest文件中的“hard”属性,勾选此参数,表示此导入操作,只导入manifest文件“hard”属性中数据信息。

    图1 导入manifest文件

    导入成功后,数据将自动同步到数据集中。您可以在“数据集”页面,单击数据集的名称,查看详细数据,并可以通过创建标注任务进行数据标注。

文件型数据标注状态

数据标注状态分为“未标注”“已标注”

  • 未标注:仅导入标注对象(指待标注的图片,文本等),不导入标注内容(指标注结果信息)。
  • 已标注:同时导入标注对象和标注内容,当前“自由格式”的数据集不支持导入标注内容。

    为了确保能够正确读取标注内容,要求用户严格按照规范存放数据:

    导入方式选择目录时,需要用户选择“标注格式”,并按照标注格式的要求存放数据。

    导入方式选择manifest时,需要满足manifest文件的规范,详细规范请参见标注格式章节。

    数据标注状态选择“已标注”,您需要保证目录或manifest文件满足相应的格式规范,否则可能存在导入失败的情况。