导入数据至盘古平台
数据集是一组用于处理和分析的相关数据样本。
用户将存储在OBS服务中的数据导入至ModelArts Studio大模型开发平台后,将生成“原始数据集”被平台统一管理,用于后续加工或发布操作。
创建导入任务
创建导入任务前,请先按照数据集格式要求提前准备数据。
平台支持使用OBS服务导入数据,请详见通过控制台快速使用OBS。
创建导入任务步骤如下:
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击空间名称进入操作空间。
图1 我的空间
- 在左侧导航栏中选择“数据工程 > 数据获取 > 导入任务”,单击界面右上角“创建导入任务”。
- 在“创建导入任务”页面,选择“数据集类型”、“文件格式”和“导入来源”。
- 导入来源选择“OBS”,单击“
”,在“存储位置”弹窗中选择需导入的数据,单击“确定”。
图2 选择导入的数据导入来源可选择“本地上传”,单击“添加文件”,选择需要导入的文件。
图2 本地上传
- 填写“数据集名称”和“描述”,可选择填写“扩展信息”。
- 单击页面右下角“立即创建”,回退至“导入任务”页面,在该页面可以查看数据集的任务状态,若状态为“运行成功”,则数据导入成功。
- 导入后的数据集可在“数据工程 > 数据管理 > 数据集 > 原始数据集”中查看。
如果任务状态为“运行失败”,可能由以下原因导致:
- 文件后缀校验不通过,需要检查文件后缀是否一致。例如,选择创建csv格式的数据集时,文件后缀应为“.csv”。
- 文件内容校验不通过,需要检查上传的文件数据格式是否正确。可以在“创建导入任务”页面下载数据样例进行比对。
管理原始数据集
数据导入成功后,可对原始数据集进行统一管理,支持的操作如下:查看数据集的基本信息、数据血缘、操作记录以及对下载、删除数据集等操作。
- 登录ModelArts Studio大模型开发平台,单击进入操作空间。
- 在左侧导航栏中选择“数据工程 > 数据管理 > 数据集 > 原始数据集”。
- 数据集支持“数据集名称”、“数据集模态”、“数据集属性名称”等属性类型进行搜索、过滤。
- 单击需要查看的数据集名称。
- 查看数据集基本信息。在“基本信息”页签,可以查看数据详情、数据来源以及扩展信息。
- 在扩展信息内,可以根据用户需求设置数据集属性,包括数据集属性名称、行业、语言、自定义标签。单击编辑图标,即可对数据集的扩展信息进行编辑和保存,如图3
- 下载原始数据集。在“数据预览”页签,可以查看数据内容,单击右上角“下载”即可下载原始数据集。
- 查看数据血缘。在“数据血缘”页签,可以查看当前数据集所经历的完整操作,如加工、标注等。数据血缘上钻至OBS源文件下钻至模型训练。
- 查看操作记录。在“操作记录”页签,可以查看当前数据集的操作记录,如创建该数据集的时间、状态、操作人员等。
- 删除原始数据集。单击操作列的“删除”,并在弹窗中单击“确定”。
删除“原始数据集”属于高危操作,删除前,请确保该数据集不再使用。