更新时间:2025-01-05 GMT+08:00
分享

导入数据至盘古平台

数据集是一组用于处理和分析的相关数据样本。

用户将存储在OBS服务中的数据导入至ModelArts Studio大模型开发平台后,将生成“原始数据集”被平台统一管理,用于后续加工或发布操作。

创建导入任务

创建导入任务前,请先按照数据集格式要求提前准备数据。

平台支持使用OBS服务导入数据,请详见通过控制台快速使用OBS

创建导入任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台,单击进入操作空间。
    图1 进入操作空间
  2. 在左侧导航栏中选择“数据工程 > 数据获取 > 数据导入”,单击界面右上角“创建导入任务”。
  3. 在“创建导入任务”页面,选择“数据集类型”、“文件格式”和“导入来源”。
    对于文本类数据集,部分数据类型支持将自定义格式转换为jsonl格式,具体步骤请参见使用Python脚本转换自定义格式为jsonl格式
    图2 创建导入任务
  4. 单击“选择路径”,在“存储位置”弹窗中选择需导入的数据,单击“确定”。
    图3 选择导入的数据
  5. 填写“数据集名称”和“描述”,可选择填写“拓展信息”。
    拓展信息包括“数据集属性”与“数据集版权”:
    • 数据集属性。可以给数据集添加行业、语言和自定义信息。
    • 数据集版权。训练模型的数据集除用户自行构建外,也可能会使用开源的数据集。数据集版权功能主要用于记录和管理数据集的版权信息,确保数据的使用合法合规,并清晰地了解数据集的来源和相关的版权授权。通过填写这些信息,可以追溯数据的来源,明确数据使用的限制和许可,从而保护数据版权并避免版权纠纷。
  6. 单击页面右下角“立即创建”,回退至“数据导入”页面,在该页面可以查看数据集的任务状态,若状态为“运行成功”,则数据导入成功。
    如果任务状态为“运行失败”,可能由以下原因导致:
    • 文件后缀校验不通过,需要检查文件后缀是否一致。例如,选择创建csv格式的数据集时,文件后缀应为“.csv”。
    • 文件内容校验不通过,需要检查上传的文件数据格式是否正确。可以在“创建导入任务”页面下载数据样例进行比对。

使用Python脚本转换自定义格式为jsonl格式

对于文本类数据集,除文档、网页数据类型,其余类型的数据支持将自定义格式转换为jsonl格式。

用户可以上传自定义的python脚本实现数据集由自定义格式到jsonl格式的转换,页面中会提供脚本示例,可下载作为参考。

自定义格式转换的具体步骤为:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
  2. 在左侧导航栏中选择“数据工程 > 数据获取 > 数据导入”,单击右上角“创建导入任务”。
  3. 在“创建导入任务”页面选择支持自定义格式转换的数据集类型,如“文本 > 预训练文本”。
  4. 文件格式选择“自定义”,单击“下载脚本样例”获取脚本样例,单击“选择路径”上传自定义格式转换脚本。
  5. 上传转换脚本后,后续导入本地数据至平台操作同创建导入任务

管理原始数据集

数据导入成功后,可对原始数据集进行统一管理,支持的操作如下:查看数据集的基本信息、数据血缘、操作记录以及对下载、删除数据集等操作。

  1. 登录ModelArts Studio大模型开发平台,单击进入操作空间。
  2. 在左侧导航栏中选择“数据工程 > 数据获取 > 原始数据集”,单击需要查看的数据集名称。
    • 查看数据集基本信息。在“基本信息”页签,可以查看数据详情、数据来源以及扩展信息。
    • 下载原始数据集。在“数据预览”页签,可以查看数据内容,单击右上角“下载”即可下载原始数据集。
    • 查看数据血缘。在“数据血缘”页签,可以查看当前数据集所经历的完整操作,如加工、标注等。
    • 查看操作记录。在“操作记录”页签,可以查看当前数据集的操作记录,如创建该数据集的时间、状态、操作人员等。
  3. 删除原始数据集。单击操作列的“删除”,并在弹窗中单击“确定”。

    删除原始数据集属于高危操作,删除前,请确保该数据集不再使用。

相关文档