导入数据至盘古平台
数据集是一组用于处理和分析的相关数据样本。存储在OBS服务中的数据或本地数据导入ModelArts Studio大模型开发平台后,将以数据集的形式进行统一管理。
用户将数据导入至平台后,这些数据会生成一个“原始数据集”,用于对导入的数据进行集中管理和进一步操作。
创建原始数据集
创建原始数据集前,请先按照数据集格式要求提前准备数据。如果需要使用OBS服务导入数据,请详见通过控制台快速使用OBS。
在使用OBS服务上传数据时,如果遇到网络报错“NET::ERR_CERT_AUTHORITY_INVALID”,是由于域名未绑定有效的SSL证书,导致HTTPS请求被浏览器拦截。可以通过以下方法进行规避:
通过浏览器访问报错的URL链接,根据页面告警提示对链接进行安全认证。认证完成后,只要不清理浏览器缓存,对相同桶域名的访问都不会被拦截。
创建原始数据集步骤如下:
- 登录ModelArts Studio大模型开发平台,进入操作空间。
图1 进入操作空间
- 在左侧导航栏中选择“数据工程 > 数据获取”,单击界面右上角“创建原始数据集”。
图2 数据获取
- 在“创建原始数据集”页面,选择所需“文件内容”、“文件格式”和“文件来源”。
图3 创建原始数据集
- 单击“选择路径”,在“存储位置”弹窗中选择需导入的数据,单击“确认”。
图4 选择导入的数据
- 数据集信息设置完成后,填写“数据集名称”和“描述”,并设置“拓展信息”。
- 单击页面右下角“立即创建”完成原始数据集的创建操作。创建完成后,自动返回至“数据获取”页面,在该页面可以查看数据集的任务状态,还可执行上线、删除操作。
管理原始数据集
原始数据集上线成功后,支持查看数据集详情、下载数据集、查看数据血缘、以及对数据集进行删除等操作。
- 支持查看数据集详情。在“数据获取”页面,单击数据集名称,在“基本信息”页签可查看当前数据集的创建人、创建时间等详细信息、行业标签等扩展信息以及该数据集的创建、导入、上线等操作记录。
- 下载数据文件。在“数据获取”页面,单击数据集名称,在“数据文件”页签,单击文件操作列的“下载”,可实现下载数据文件操作。
- 查看数据血缘。在“数据获取”页面,单击数据集名称,在“数据血缘”页签,可以查看当前数据集所经历的完整操作,如加工、标注等。
- 删除原始数据集。已上线的数据集需先执行下线操作后才可以删除。在“数据获取”页面,单击数据集操作列的“下线”,单击“删除”并进行二次删除确认。
删除原始数据集属于高危操作,删除前,请确保该数据集不再使用。