更新时间:2025-08-07 GMT+08:00
分享

导入数据至盘古平台

数据集是一组用于处理和分析的相关数据样本。

用户将存储在OBS服务中的数据导入至ModelArts Studio大模型开发平台后,将生成“原始数据集”被平台统一管理,用于后续加工或发布操作。

创建导入任务

创建导入任务前,请先按照数据集格式要求提前准备数据。

平台支持使用OBS服务导入数据,请详见通过控制台快速使用OBS

创建导入任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击空间名称进入操作空间。
    图1 我的空间
  2. 在左侧导航栏中选择“数据工程 > 数据获取 > 导入任务”,单击界面右上角“创建导入任务”。
  3. 在“创建导入任务”页面,选择“数据集类型”、“文件格式”和“导入来源”。

  4. 导入来源选择“OBS”,单击“”,在“存储位置”弹窗中选择需导入的数据,单击“确定”。
    图2 选择导入的数据

    导入来源可选择“本地上传”,单击“添加文件”,选择需要导入的文件。

    图2 本地上传

  5. 填写“数据集名称”和“描述”,可选择填写“扩展信息”。
    扩展信息包括“数据集属性”与“数据集版权”:
    • 数据集属性。可以给数据集添加行业、语言和自定义信息。
    • 数据集版权。训练模型的数据集除用户自行构建外,也可能会使用开源的数据集。数据集版权功能主要用于记录和管理数据集的版权信息,确保数据的使用合法合规,并清晰地了解数据集的来源和相关的版权授权。通过填写这些信息,可以追溯数据的来源,明确数据使用的限制和许可,从而保护数据版权并避免版权纠纷。
  6. 单击页面右下角“立即创建”,回退至“导入任务”页面,在该页面可以查看数据集的任务状态,若状态为“运行成功”,则数据导入成功。
  7. 导入后的数据集可在“数据工程 > 数据管理 > 数据集 > 原始数据集”中查看。
    如果任务状态为“运行失败”,可能由以下原因导致:
    • 文件后缀校验不通过,需要检查文件后缀是否一致。例如,选择创建csv格式的数据集时,文件后缀应为“.csv”。
    • 文件内容校验不通过,需要检查上传的文件数据格式是否正确。可以在“创建导入任务”页面下载数据样例进行比对。

管理原始数据集

数据导入成功后,可对原始数据集进行统一管理,支持的操作如下:查看数据集的基本信息、数据血缘、操作记录以及对下载、删除数据集等操作。

  1. 登录ModelArts Studio大模型开发平台,单击进入操作空间。
  2. 在左侧导航栏中选择“数据工程 > 数据管理 > 数据集 > 原始数据集”。
  3. 数据集支持“数据集名称”、“数据集模态”、“数据集属性名称”等属性类型进行搜索、过滤。

  4. 单击需要查看的数据集名称。
    • 查看数据集基本信息。在“基本信息”页签,可以查看数据详情、数据来源以及扩展信息。
    • 在扩展信息内,可以根据用户需求设置数据集属性,包括数据集属性名称、行业、语言、自定义标签。单击编辑图标,即可对数据集的扩展信息进行编辑和保存,如图3
      图3 编辑扩展信息
    • 下载原始数据集。在“数据预览”页签,可以查看数据内容,单击右上角“下载”即可下载原始数据集。
    • 查看数据血缘。在“数据血缘”页签,可以查看当前数据集所经历的完整操作,如加工、标注等。数据血缘上钻至OBS源文件下钻至模型训练。
    • 查看操作记录。在“操作记录”页签,可以查看当前数据集的操作记录,如创建该数据集的时间、状态、操作人员等。
  5. 删除原始数据集。单击操作列的“删除”,并在弹窗中单击“确定”。

    删除“原始数据集”属于高危操作,删除前,请确保该数据集不再使用。

相关文档