导入数据至盘古平台
数据集是一组用于处理和分析的相关数据样本。
用户将存储在OBS服务中的数据导入至ModelArts Studio大模型开发平台后,将生成“原始数据集”被平台统一管理,用于后续加工或发布操作。
创建导入任务
创建导入任务前,请先按照数据集格式要求提前准备数据。
平台支持使用OBS服务导入数据,请详见通过控制台快速使用OBS。
创建导入任务步骤如下:
- 登录ModelArts Studio大模型开发平台,单击进入操作空间。
图1 进入操作空间
- 在左侧导航栏中选择“数据工程 > 数据获取 > 数据导入”,单击界面右上角“创建导入任务”。
- 在“创建导入任务”页面,选择“数据集类型”、“文件格式”和“导入来源”。
- 单击“选择路径”,在“存储位置”弹窗中选择需导入的数据,单击“确定”。
图3 选择导入的数据
- 填写“数据集名称”和“描述”,可选择填写“拓展信息”。
- 单击页面右下角“立即创建”,回退至“数据导入”页面,在该页面可以查看数据集的任务状态,若状态为“运行成功”,则数据导入成功。
如果任务状态为“运行失败”,可能由以下原因导致:
- 文件后缀校验不通过,需要检查文件后缀是否一致。例如,选择创建csv格式的数据集时,文件后缀应为“.csv”。
- 文件内容校验不通过,需要检查上传的文件数据格式是否正确。可以在“创建导入任务”页面下载数据样例进行比对。
使用Python脚本转换自定义格式为jsonl格式
对于文本类数据集,除文档、网页数据类型,其余类型的数据支持将自定义格式转换为jsonl格式。
用户可以上传自定义的python脚本实现数据集由自定义格式到jsonl格式的转换,页面中会提供脚本示例,可下载作为参考。
自定义格式转换的具体步骤为:
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
- 在左侧导航栏中选择“数据工程 > 数据获取 > 数据导入”,单击右上角“创建导入任务”。
- 在“创建导入任务”页面选择支持自定义格式转换的数据集类型,如“文本 > 预训练文本”。
- 文件格式选择“自定义”,单击“下载脚本样例”获取脚本样例,单击“选择路径”上传自定义格式转换脚本。
- 上传转换脚本后,后续导入本地数据至平台操作同创建导入任务。
管理原始数据集
数据导入成功后,可对原始数据集进行统一管理,支持的操作如下:查看数据集的基本信息、数据血缘、操作记录以及对下载、删除数据集等操作。
- 登录ModelArts Studio大模型开发平台,单击进入操作空间。
- 在左侧导航栏中选择“数据工程 > 数据获取 > 原始数据集”,单击需要查看的数据集名称。
- 查看数据集基本信息。在“基本信息”页签,可以查看数据详情、数据来源以及扩展信息。
- 下载原始数据集。在“数据预览”页签,可以查看数据内容,单击右上角“下载”即可下载原始数据集。
- 查看数据血缘。在“数据血缘”页签,可以查看当前数据集所经历的完整操作,如加工、标注等。
- 查看操作记录。在“操作记录”页签,可以查看当前数据集的操作记录,如创建该数据集的时间、状态、操作人员等。
- 删除原始数据集。单击操作列的“删除”,并在弹窗中单击“确定”。
删除原始数据集属于高危操作,删除前,请确保该数据集不再使用。