导入数据
在使用ModelArts Studio大模型开发平台时,需要先完成OBS桶、资源池等准备工作,以支持后续模型调优、压缩部署任务,以及模型调优,任务日志等文件的存储。
- 准备ModelArts Studio资源。请参考准备工作。
- 准备训练数据集。
- 导入OBS下数据集到ModelArts Studio平台。OBS的介绍及使用请参考OBS控制台快速入门。
- 登录ModelArts Studio平台,进入所需空间。
- 在左侧导航栏中选择“数据工程 > 数据获取 > 导入任务”,单击界面右上角“创建导入任务”。
图1 创建导入任务
OBS桶必须和ModelArts Studio服务在同一个Region下,否则无法选择到该OBS路径。
- 在“创建导入任务”页面,选择“数据集类型”、“文件格式”和“导入来源”。
- 填写“数据集名称”和“描述”,可选择填写“扩展信息”。
- 单击页面右下角“立即创建”,回退至“导入任务”页面,在该页面可以查看数据集的任务状态,若状态为“运行成功”,则数据导入成功。
- 导入后的数据集可在“数据工程 > 数据管理 > 数据集 > 原始数据集”中查看。
如果任务状态为“运行失败”,可能由以下原因导致:
- 文件后缀校验不通过,需要检查文件后缀是否一致。例如,选择创建csv格式的数据集时,文件后缀应为“.csv”。
- 文件内容校验不通过,需要检查上传的文件数据格式是否正确。可以在“创建导入任务”页面下载数据样例进行比对。