更新时间:2026-02-05 GMT+08:00
分享

快速实现数据连接

ModelArts平台提供了方便的数据连接功能,您可以将自有数据集导入ModelArts后直接做训练模型。

本文将通过以下假设场景介绍如何使用ModelArts数据连接功能。

业务场景

ModelArts平台提供了最新的Qwen3大模型,您希望通过本地准备好的训练数据集对Qwen3模型做微调。

数据集为Alpaca格式,可以直接使用该数据集对Qwen3做微调。

您需要将本地数据集导入到ModelArts后做模型微调。

前提条件

  1. 已注册华为账号并开通华为云,进行了实名认证,且在使用ModelArts前检查账号状态,账号不能处于欠费或冻结状态。
  2. 配置委托访问授权

    ModelArts使用过程中涉及到OBS等服务交互,首次使用ModelArts需要用户配置委托授权,允许访问这些依赖服务。

  3. 您本地要有能够训练Qwen3的训练数据集,数据集为Alpaca格式,格式说明参见Alpaca数据集格式要求

计费说明

数据连接计费涉及到数据存储OBS计费和数据转换计费。计费说明如下:

  1. 数据连接在上传数据时涉及到计费,具体可参考数据管理计费项
  2. 数据连接如果勾选“转换成Alpaca格式”开关,涉及计算资源使用,当前版本限时免费。

步骤一:本地数据上传至OBS

参考OBS桶上传操作上传数据。

步骤二:修改数据连接配置任务

  1. 前往ModelArts管理控制台
  2. 在控制台左侧导航栏选择“数据准备 > 数据连接”,选择后右侧展开“数据连接”工作区,如图图1所示。
    图1 数据连接工作区
  3. 在“数据连接”工作区右上方单击“创建数据连接”按钮,打开“创建数据连接”配置页面。输入数据连接任务名称和描述。
    图2 “创建数据连接”配置任务

    任务名称为必选,描述信息为可选,任务名称命名格式要求:长度为2~63字符。以中文、字母开头,以中文、字母、数字结尾,只允许输入中文、字母、数字、中划线、下划线等字符,具体参见创建数据连接任务中任务命名要求。

  1. 导入本地数据。在“数据导入”配置项选择数据集类型为“其他 > 自定义”。如图3所示。选择“导入来源”为OBS,将步骤一导入到OBS的数据作为本次数据集的来源。
图3 数据导入
  1. 将OBS导入数据作为一个数据集,需要给数据集重新命名。输入数据集名称及描述信息(可选),此时本地数据才算是ModelArts上的一个数据集。
图4 填写生成数据集信息
  1. 生成数据集还有一些扩展信息可以选填,说明数据集的属性和版权信息,本文示例不填该信息。
  2. 数据集填写完成后,勾选“生成后自动上线数据集”,勾选后数据集才能作为数据集资产,后续训练模型才能选到该数据集。
    图5 勾选“生成后自动上线数据集”
  3. 所有配置都已经完成,单击工作区右下角“立即创建”按钮,开始启动本次数据连接任务。待任务完成后,就可使用该数据集做Qwen3的微调工作了。

相关参考

  1. 数据集相关格式问题,请参见数据集格式要求
  2. 开源数据集说明请参见Alpaca数据集格式要求

相关文档