更新时间:2026-02-07 GMT+08:00
分享

创建数据连接

使用场景

在数据处理和模型训练的场景中,用户需要将多种类型的数据集高效、准确地导入到ModelArts数据平台中,以支持后续的数据精炼和模型训练任务。然而,传统的数据导入方式存在诸多限制,如不支持自定义任务名称、数据格式转换功能有限等,导致用户在导入数据时面临操作不便和数据处理效率低下的问题。如何在新的平台中实现更加灵活和高效的数据导入功能,成为用户亟待解决的问题。为此,ModelArts平台提供了增强的数据导入功能,支持多种基础数据类型的导入,允许用户在创建导入任务时编辑任务名称和描述,同时支持数据格式转换和数据集的直接发布,从而显著提升了数据处理的灵活性和效率,满足了用户在数据准备阶段的多样化需求。

前提条件

  1. 已注册华为账号并开通华为云,进行了实名认证,且在使用ModelArts前检查账号状态,账号不能处于欠费或冻结状态。
  2. 配置委托访问授权

    ModelArts使用过程中涉及到OBS等服务交互,首次使用ModelArts需要用户配置委托授权,允许访问这些依赖服务。

  1. 创建导入任务前,请先按照数据集格式要求提前准备数据。

约束限制

  • 数据连接导入数据文件或压缩包不超过20GB。

计费说明

数据连接计费涉及到数据存储OBS计费和数据转换计费。计费说明如下:

  1. 数据连接在上传数据时涉及到计费,具体可参考数据管理计费项
  2. 数据连接如果勾选“转换成Alpaca格式”开关,涉及计算资源使用,当前版本限时免费。

创建数据连接任务

数据连接操作步骤如下:

  1. 前往ModelArts管理控制台
  2. 在控制台左侧导航栏选择“数据准备 > 数据连接”,选择后右侧展开“数据连接”工作区,如图图1所示。
    图1 数据连接
  3. 在“数据连接”工作区右上方单击“创建数据连接”按钮,打开“创建数据连接”配置页面。输入数据连接任务名称和描述。任务名称为必选,描述信息为可选。
    图2 “创建数据连接”配置任务

    任务名称:命名默认为data-connect-年月日-时分秒,如:data-connect-20260116-233300,也可自定义名称,命名要求如下:

    • 命名长度:2~63字符。
    • 格式要求:以中文、字母开头,以中文、字母、数字结尾。只允许输入中文、字母、数字、中划线、下划线等字符。

    描述:无格式要求,长度不超过200字符,内容可选填。

  1. 从OBS导入数据至ModelArts平台,当前支持导入的数据类型参见ModelArts平台支持的数据类型,如图3所示。请根据不同的作用,导入不同类型的数据,“导入来源”为OBS。
    图3 数据导入
  1. OBS上的数据可以被重复使用,故OBS上的数据还不能称之为数据集,只有通过数据导入功能将数据导入到ModelArts平台,这些数据才算是一个数据集。数据集可以有很多种,比如模型训练的数据集,微调的数据集,评测的数据集。而这些数据集的源头数据也有可能是同一份数据。数据集代表了一类有相同使用属性的数据集合。

    导入的数据形成新的数据集,需要给数据集重新命名。输入数据集名称及描述信息(可选)。

数据集名称:

  • 命名长度:2~63字符。
  • 格式要求:以中文、字母开头,以中文、字母、数字结尾。只允许输入中文、字母、数字、中划线、下划线等字符。
  • 描述:无格式要求,长度不超过200字符,内容可选填。
  1. 部分文本类数据支持数据格式转换,支持将华为ModelArts内部支持的格式转换成Alpaca格式。便于使用训练过华为内部模型的数据方便的转为开源格式数据,训练开源模型。

    当前只有单轮问答、单轮问答(人设)、多轮问答、多轮问答(人设)四种数据集类型支持格式转换。

    图4 生成原始数据集
  2. 生成数据集还有一些扩展信息可以选填,扩展信息包括“数据集属性”与“数据集版权”,具体说明如下:
    • 数据集属性。可以给数据集添加行业、语言和自定义信息。
    • 数据集版权。训练模型的数据集除用户自行构建外,也可能会使用开源的数据集。数据集版权功能主要用于记录和管理数据集的版权信息,确保数据的使用合法合规,并清晰地了解数据集的来源和相关的版权授权。通过填写这些信息,可以追溯数据的来源,明确数据使用的限制和许可,从而保护数据版权并避免版权纠纷。
    图5 扩展信息
  3. 数据集填写完成后,配置“生成后自动上线数据集”。默认该配置不勾选,此时数据集成功后,不会直接作为数据资产,模型无法直接使用该数据集做训练。勾选该配置后,数据集才能作为数据集资产直接上线至“资产管理”,后续训练模型才能选到该数据集。如需了解数据资产相关内容,请参考数据资产管理章节。
    图6 勾选“生成后自动上线数据集”
  4. 单击页面右下角“立即创建”,返回至“数据连接”页面,在该页面可以查看数据集的任务状态,若状态为“运行成功”,则数据导入成功。
    图7 查看数据连接任务列表

相关文档