更新时间:2025-08-14 GMT+08:00
分享

导入数据

在使用ModelArts Studio大模型开发平台时,需要先完成OBS桶、资源池等准备工作,以支持后续模型调优、压缩部署任务,以及模型调优,任务日志等文件的存储。

  1. 准备ModelArts Studio资源。请参考准备工作
  2. 准备训练数据集。

NLP预训练数据集导入平台前需要按照预处理数据中描述的数据格式进行预处理。

此外,ModelArts Studio平台从OBS导入数据集时,单个文件的大小不能超过50GB,文件个数不受限制,详见文本类数据集格式要求

  1. 登录ModelArts Studio大模型开发平台,进入所需空间。
  2. 在左侧导航栏中选择“数据工程 > 数据获取 > 导入任务”,单击界面右上角“创建导入任务”。
  3. 在“创建导入任务”页面,选择“数据集类型”、“文件格式”和“导入来源”,其中导入来源选择“OBS”。
    图1 创建导入任务
  1. 填写“数据集名称”和“描述”,可选择填写“扩展信息”。
    扩展信息包括“数据集属性”与“数据集版权”:
    • 数据集属性。可以给数据集添加行业、语言和自定义信息。
    • 数据集版权。训练模型的数据集除用户自行构建外,也可能会使用开源的数据集。数据集版权功能主要用于记录和管理数据集的版权信息,确保数据的使用合法合规,并清晰地了解数据集的来源和相关的版权授权。通过填写这些信息,可以追溯数据的来源,明确数据使用的限制和许可,从而保护数据版权并避免版权纠纷。
  2. 单击页面右下角“立即创建”,回退至“导入任务”页面,在该页面可以查看数据集的任务状态,若状态为“运行成功”,则数据导入成功。
  3. 导入后的数据集可在“数据工程 > 数据管理 > 数据集 > 原始数据集”中查看。

相关文档