文档首页/
AI开发平台ModelArts/
ModelArts用户指南(Standard)/
数据准备与处理/
导入数据到ModelArts数据集/
从OBS导入数据到ModelArts数据集/
从Manifest文件导入数据到数据集
更新时间:2024-10-24 GMT+08:00
从Manifest文件导入数据到数据集
前提条件
- 已存在创建完成的数据集。
- 准备需要导入的数据,具体可参见从Manifest文件导入规范说明。
- 需导入的数据,已存储至OBS中。Manifest文件也需要存储至OBS。
- 确保数据存储的OBS桶与ModelArts在同一区域,并确保用户具有OBS桶的操作权限。
文件型数据从Manifest导入操作
不同类型的数据集,导入操作界面的示意图存在区别,请参考界面信息了解当前类型数据集的示意图。当前操作指导以图片数据集为例。
- 登录ModelArts管理控制台,在左侧菜单栏中选择“资产管理>数据集”,进入“数据集”管理页面。
- 在数据集所在行,单击操作列的“导入”。或者,您可以单击数据集名称,进入数据集“概览”页,在页面右上角单击“导入”。
- 在“导入”对话框中,参考如下说明填写参数,然后单击“确定”。
- “数据来源”:“OBS”
- “导入方式”:“manifest”。
- “Manifest文件”:存储Manifest文件的OBS路径。
- “数据标注状态”:已标注。
- “高级特征选项 ”:默认关闭,可通过勾选高级选项提供增强功能。
“按标签导入”:系统将自动获取此数据集的标签,您可以单击“添加标签”添加。此字段为可选字段,您也可以在导入数据集后,在标注数据操作时,添加或删除标签。
“只导入难例”:难例指manifest文件中的“hard”属性,勾选此参数,表示此导入操作,只导入manifest文件“hard”属性中数据信息。
图1 导入manifest文件
导入成功后,数据将自动同步到数据集中。您可以在“数据集”页面,单击数据集的名称,查看详细数据,并可以通过创建标注任务进行数据标注。
文件型数据标注状态
数据标注状态分为“未标注”和“已标注”。
- 未标注:仅导入标注对象(指待标注的图片,文本等),不导入标注内容(指标注结果信息)。
- 已标注:同时导入标注对象和标注内容,当前“自由格式”的数据集不支持导入标注内容。
为了确保能够正确读取标注内容,要求用户严格按照规范存放数据:
导入方式选择目录时,需要用户选择“标注格式”,并按照标注格式的要求存放数据。
导入方式选择manifest时,需要满足manifest文件的规范,详细规范请参见标注格式章节。
数据标注状态选择“已标注”,您需要保证目录或manifest文件满足相应的格式规范,否则可能存在导入失败的情况。