更新时间:2025-08-14 GMT+08:00
分享

导入数据

在使用ModelArts Studio大模型开发平台时,需要先完成OBS桶、资源池等准备工作,以支持后续模型调优、压缩部署任务,以及模型调优,任务日志等文件的存储。

  1. 准备ModelArts Studio资源。请参考准备工作
  2. 准备训练数据集。

    NLP微调数据集导入平台前数据集格式需满足文本类数据集格式要求

  3. 导入OBS下数据集到ModelArts Studio平台。OBS的介绍及使用请参考OBS控制台快速入门
  4. 登录ModelArts Studio平台,进入所需空间。
  5. 在左侧导航栏中选择“数据工程 > 数据获取 > 导入任务”,单击界面右上角“创建导入任务”。
    图1 创建导入任务

    OBS桶必须和ModelArts Studio服务在同一个Region下,否则无法选择到该OBS路径。

  6. 在“创建导入任务”页面,选择“数据集类型”、“文件格式”和“导入来源”。

    导入来源选择“OBS”,单击“”,在“存储位置”弹窗中选择需导入的数据,单击“确定”。

  7. 填写“数据集名称”和“描述”,可选择填写“扩展信息”。
    扩展信息包括“数据集属性”与“数据集版权”:
    • 数据集属性。可以给数据集添加行业、语言和自定义信息。
    • 数据集版权。训练模型的数据集除用户自行构建外,也可能会使用开源的数据集。数据集版权功能主要用于记录和管理数据集的版权信息,确保数据的使用合法合规,并清晰地了解数据集的来源和相关的版权授权。通过填写这些信息,可以追溯数据的来源,明确数据使用的限制和许可,从而保护数据版权并避免版权纠纷。
  8. 单击页面右下角“立即创建”,回退至“导入任务”页面,在该页面可以查看数据集的任务状态,若状态为“运行成功”,则数据导入成功。
  9. 导入后的数据集可在“数据工程 > 数据管理 > 数据集 > 原始数据集”中查看。
    如果任务状态为“运行失败”,可能由以下原因导致:
    • 文件后缀校验不通过,需要检查文件后缀是否一致。例如,选择创建csv格式的数据集时,文件后缀应为“.csv”。
    • 文件内容校验不通过,需要检查上传的文件数据格式是否正确。可以在“创建导入任务”页面下载数据样例进行比对。

相关文档