更新时间:2026-03-09 GMT+08:00
分享

快速实现数据连接

ModelArts平台提供了方便的数据连接功能,您可以将自有数据集导入ModelArts后直接做训练模型。也可以通过数据精炼完成对数据集加工,加工出更多样化的数据集,对模型做更深入的开发。

本文将通过以下假设场景介绍如何使用ModelArts数据连接功能。

业务场景

ModelArts平台提供了最新的Qwen3大模型,您希望通过本地准备好的训练数据集对Qwen3模型做微调。

数据集为Alpaca格式 ,可以直接使用该数据集对Qwen3做微调。

您需要将本地数据集导入到ModelArts后做模型微调。

前提条件

  1. 已注册华为账号并开通华为云,进行了实名认证,且在使用ModelArts前检查账号状态,账号不能处于欠费或冻结状态。
  2. 配置委托访问授权

    ModelArts使用过程中涉及到OBS等服务交互,首次使用ModelArts需要用户配置委托授权,允许访问这些依赖服务。

  3. 您本地要有能够训练Qwen3的训练数据集,数据集为Alpaca格式,格式说明参见Alpaca数据集格式要求

约束限制

  • 仅西南-贵阳一区域的新版控制台支持。

计费说明

数据连接计费涉及到数据存储OBS计费,具体可参考数据管理计费项

步骤一:本地数据上传至OBS

参考OBS桶上传操作上传数据。

步骤二:修改数据连接配置任务

  1. 前往ModelArts管理控制台
  2. 在控制台左侧导航栏选择“数据准备 > 数据连接”,打开“数据连接”工作区,如图图1所示。
    图1 数据连接工作区
  3. 在“数据连接”工作区右上方单击“创建数据连接”按钮,打开“创建数据连接”配置页面。输入数据连接任务名称和描述。
    图2 “创建数据连接”配置任务

    任务名称为必选,描述信息为可选,任务名称命名格式要求:以中文、字母开头,以中文、字母、数字结尾,长度2~64的字符。只允许输入中文、字母、数字、中划线、下划线等字符,具体参见创建数据连接任务中任务命名要求。

  1. 导入数据集。在“数据导入”配置项选择数据集类型为“其他 > 自定义”。如图3所示。选择连接方式对象存储服务OBS,将步骤一导入到OBS的数据作为本次数据集的来源。
图3 数据导入
  1. 将OBS导入数据作为一个数据集,需要给数据集重新命名。输入数据集名称、数据集属性(可选)、描述信息(可选),此时本地数据才算是ModelArts上的一个数据集。
图4 填写生成数据集信息
  1. 数据集填写完成后,配置“立即上线数据集”。
    • 选择立即上线数据集,生成数据集在“资产管理 > 数据 > 我的数据”为上线状态,可以被下游模型训练等作业直接使用。
    • 不选择立即上线数据集,生成数据集在“资产管理 > 数据 > 我的数据”为下线状态,不可被下游模型训练等作业直接使用,需要手动上线数据集后才能使用。
      图5 勾选“立即上线数据集”
  2. 生成数据集还有一些扩展信息可以选填,说明数据集的版权信息,本文示例不填该信息。
  3. 所有配置都已经完成,单击工作区右下角“立即创建”按钮,开始启动本次数据连接任务。待任务完成后,就可使用该数据集做Qwen3的微调工作了。
  4. 连接任务完成后导入的数据集,可在控制台左侧选择“资产管理 > 数据 >我的数据”列表中查看。

相关参考

  1. 数据集相关格式问题,请参见数据集格式要求
  2. 开源数据集说明请参见其他类数据集格式要求

相关文档