更新时间:2024-12-02 GMT+08:00
分享

导入数据至盘古平台

数据集是一组用于处理和分析的相关数据样本。存储在OBS服务中的数据或本地数据导入ModelArts Studio大模型开发平台后,将以数据集的形式进行统一管理。

用户将数据导入至平台后,这些数据会生成一个“原始数据集”,用于对导入的数据进行集中管理和进一步操作。

创建原始数据集

创建原始数据集前,请先按照数据集格式要求提前准备数据。如果需要使用OBS服务导入数据,请详见通过控制台快速使用OBS

在使用OBS服务上传数据时,如果遇到网络报错“NET::ERR_CERT_AUTHORITY_INVALID”,是由于域名未绑定有效的SSL证书,导致HTTPS请求被浏览器拦截。可以通过以下方法进行规避:

通过浏览器访问报错的URL链接,根据页面告警提示对链接进行安全认证。认证完成后,只要不清理浏览器缓存,对相同桶域名的访问都不会被拦截。

创建原始数据集步骤如下:

  1. 登录ModelArts Studio大模型开发平台,进入操作空间。
    图1 进入操作空间
  2. 在左侧导航栏中选择“数据工程 > 数据获取”,单击界面右上角“创建原始数据集”。
    图2 数据获取
  3. 在“创建原始数据集”页面,选择所需“文件内容”、“文件格式”和“文件来源”。
    图3 创建原始数据集
  4. 单击“选择路径”,在“存储位置”弹窗中选择需导入的数据,单击“确认”。
    图4 选择导入的数据
  5. 数据集信息设置完成后,填写“数据集名称”和“描述”,并设置“拓展信息”。
    拓展信息包括“标签设置”与“数据版权”:
    • 标签设置。通过标签设置,可以给数据集添加行业、语言、标签信息。
    • 数据版权设置。训练模型的数据集除用户自行构建外,也可能会使用开源的数据集。数据版权功能主要用于记录和管理数据集的版权信息,确保数据的使用合法合规,并清晰地了解数据集的来源和相关的版权授权。通过填写这些信息,可以追溯数据的来源,明确数据使用的限制和许可,从而保护数据版权并避免版权纠纷。
      图5 设置数据版权
  6. 单击页面右下角“立即创建”完成原始数据集的创建操作。创建完成后,自动返回至“数据获取”页面,在该页面可以查看数据集的任务状态,还可执行上线、删除操作。
    如果任务状态为“失败”,可能由以下原因导致:
    • 文件后缀校验不通过,需要检查文件后缀是否一致。例如,选择创建csv格式的数据集时,文件后缀应为“.csv”。
    • 文件内容校验不通过,需要检查上传的文件数据格式是否正确。可以在“创建原始数据集”页面下载数据样例进行比对。

上线原始数据集

原始数据集创建成功后,在“数据获取”页面的操作列单击“上线”,完成原始数据集上线。

图6 上线数据集

只有上线后的数据集才可用于后续的数据加工、标注、评估、发布操作。

管理原始数据集

原始数据集上线成功后,支持查看数据集详情、下载数据集、查看数据血缘、以及对数据集进行删除等操作。

  • 支持查看数据集详情。在“数据获取”页面,单击数据集名称,在“基本信息”页签可查看当前数据集的创建人、创建时间等详细信息、行业标签等扩展信息以及该数据集的创建、导入、上线等操作记录。
  • 下载数据文件。在“数据获取”页面,单击数据集名称,在“数据文件”页签,单击文件操作列的“下载”,可实现下载数据文件操作。
  • 查看数据血缘。在“数据获取”页面,单击数据集名称,在“数据血缘”页签,可以查看当前数据集所经历的完整操作,如加工、标注等。
  • 删除原始数据集。已上线的数据集需先执行下线操作后才可以删除。在“数据获取”页面,单击数据集操作列的“下线”,单击“删除”并进行二次删除确认。

    删除原始数据集属于高危操作,删除前,请确保该数据集不再使用。

相关文档