导入数据
在使用ModelArts Studio大模型开发平台时,需要先完成OBS桶、资源池等准备工作,以支持后续模型调优、压缩部署任务,以及模型调优,任务日志等文件的存储。
- 准备ModelArts Studio资源。请参考准备工作。
- 准备训练数据集。

NLP预训练数据集导入平台前需要按照预处理数据中描述的数据格式进行预处理。
此外,ModelArts Studio平台从OBS导入数据集时,单个文件的大小不能超过50GB,文件个数不受限制,详见文本类数据集格式要求。
- 登录ModelArts Studio大模型开发平台,进入所需空间。
- 在左侧导航栏中选择“数据工程 > 数据获取 > 导入任务”,单击界面右上角“创建导入任务”。
- 在“创建导入任务”页面,选择“数据集类型”、“文件格式”和“导入来源”,其中导入来源选择“OBS”。
图1 创建导入任务
- 填写“数据集名称”和“描述”,可选择填写“扩展信息”。
- 单击页面右下角“立即创建”,回退至“导入任务”页面,在该页面可以查看数据集的任务状态,若状态为“运行成功”,则数据导入成功。
- 导入后的数据集可在“数据工程 > 数据管理 > 数据集 > 原始数据集”中查看。