从OBS目录导入数据到数据集
前提条件
- 已存在创建完成的数据集。
- 准备需要导入的数据,具体可参见从OBS目录导入数据规范说明。
- 需导入的数据,已存储至OBS中。Manifest文件也需要存储至OBS。详细指导请参见创建OBS桶用于ModelArts存储数据。
- 确保数据存储的OBS桶与ModelArts在同一区域,并确保用户具有OBS桶的操作权限。
文件型数据从OBS目录导入操作
不同类型的数据集,导入操作界面的示意图存在区别,请参考界面信息了解当前类型数据集的示意图。当前操作指导以图像分类的数据集为例。
- 登录ModelArts管理控制台,在左侧菜单栏中选择“资产管理 >数据集”,进入“数据集”管理页面。
- 在数据集所在行,单击操作列的“导入”。或者,您可以单击数据集名称,进入数据集“概览”页,在页面右上角单击“导入”。
- 在“导入”对话框中,参考如下说明填写参数,然后单击“确定”。
- “数据来源”:“OBS”
- “导入方式”:“目录”。
- “导入路径”:数据存储的OBS路径。
- “数据标注状态”:已标注。
- “高级特征选项 ”:默认关闭,可通过勾选高级选项提供增强功能。
如“按标签导入”:系统将自动获取此数据集的标签,您可以单击“添加标签”添加相应的标签。此字段为可选字段,您也可以在导入数据集后,在标注数据操作时,添加或删除标签。
图1 导入数据集-OBS
导入成功后,数据将自动同步到数据集中。您可以在“数据集”页面,单击数据集的名称,查看详细数据,并可以通过创建标注任务进行数据标注。
文件型数据标注状态
数据标注状态分为“未标注”和“已标注”。
- 未标注:仅导入标注对象(指待标注的图片,文本等),不导入标注内容(指标注结果信息)。
- 已标注:同时导入标注对象和标注内容,当前“自由格式”的数据集不支持导入标注内容。
为了确保能够正确读取标注内容,要求用户严格按照规范存放数据:
导入方式选择目录时,需要用户选择“标注格式”,并按照标注格式的要求存放数据,详细规范请参见标注格式章节。
导入方式选择manifest时,需要满足manifest文件的规范。
- 数据标注状态选择“已标注”,您需要保证目录或manifest文件满足相应的格式规范,否则可能存在导入失败的情况。
- 导入已标注的文件,导入完成后,请检查您导入的数据是否为已标注状态。
表格数据集从OBS导入操作
ModelArts支持从OBS导入表格数据,即csv文件。
表格数据集导入说明:
- 导入成功的前提是,数据源的schema需要与创建数据集指定的schema保持一致。其中schema指表格的列名和类型,创建数据集时一旦指定,不支持修改。
- 从OBS导入csv文件,不会校验数据类型,但是列数需要跟数据集的schema保持一致。如果数据格式不合法,会将数据置为null,详见表4。
- 导入的csv文件要求如下:需要选择文件所在目录,其中csv文件的列数需要跟数据集schema一致。支持自动获取csv文件的schema。
├─dataset-import-example │ table_import_1.csv │ table_import_2.csv │ table_import_3.csv │ table_import_4.csv