更新时间:2026-05-20 GMT+08:00
分享

创建数据连接

使用场景

在数据处理和模型训练的场景中,用户需要将多种类型的数据集高效、准确地导入到ModelArts数据平台中,以支持后续的智能精炼和模型训练任务。然而,传统的数据导入方式存在诸多限制,如不支持自定义任务名称、数据格式转换功能有限等,导致用户在导入数据时面临操作不便和数据处理效率低下的问题。如何在新的平台中实现更加灵活和高效的数据导入功能,成为用户亟待解决的问题。为此,ModelArts平台提供了增强的数据导入功能,支持多种基础数据类型的导入,允许用户在创建导入任务时编辑任务名称和描述,同时支持数据格式转换和数据集的直接发布,从而显著提升了数据处理的灵活性和效率,满足了用户在数据准备阶段的多样化需求。

前提条件

  • 已注册华为账号并开通华为云,进行了实名认证,且在使用ModelArts前检查账号状态,账号不能处于欠费或冻结状态。
  • 配置委托访问授权

    ModelArts使用过程中涉及到OBS等服务交互,首次使用ModelArts需要用户配置委托授权,允许访问这些依赖服务。

约束限制

  • 仅“西南-贵阳一”区域的新版控制台支持。
  • 数据连接导入数据文件或压缩包不超过20GB,总文件大小也不超过20GB。
  • 通过OBS导入数据,在指定OBS路径时只支持指定到文件夹,不支持指定到文件。

创建数据连接

  1. 登录ModelArts管理控制台
  2. 在控制台左侧导航栏选择“数据准备 > 数据连接”。
  1. “数据连接”页面右上方单击“创建数据连接”,在“创建数据连接”页面,配置相关信息。
    表1 创建数据连接参数说明

    参数

    说明

    示例值

    基本信息

    任务名称

    名称默认为data-connect-年月日时分秒,您也可以按需修改。

    名称需以中文、字母开头,以中文、字母、数字结尾,长度2~64的字符。只允许输入中文、字母、数字、短划线、下划线字符。

    data-connect-20260425083507

    描述

    自定义数据连接的描述。最大支持200个字符。只允许中文、大小写字母、数字,以及空格、短划线、下划线、逗号、句号、括号、冒号、顿号,不支持其他字符。

    -

    数据导入

    数据集类型

    支持文本、图片、视频、音频和其他类型数据集。关于数据集的格式要求,请参见数据集格式要求

    文本

    文档

    docx

    连接方式

    支持对象存储服务OBS和本地上传两种方式。

    对象存储服务OBS

    存储地址

    • “连接方式”“对象存储服务OBS”:您可以单击图标选择OBS存储路径或者手动输入路径。
    • “连接方式”“本地上传”:您可以单击图标选择OBS存储路径或者手动输入路径。最多支持20个文件上传,单文件大小不超过1GB,建议单次添加文件数量不超过10个。

    bucketName/dir/

    生成数据集

    数据集名称

    自定义数据集的名称。名称需以中文、字母开头,以中文、字母、数字结尾,长度2~63的字符。只允许输入中文、字母、数字、短划线、下划线字符。

    dataset

    数据集属性

    单击图标,可按需配置数据集的属性,例如行业、语言等。

    -

    描述

    自定义数据集的描述。可输入中文、大小写字母、数字,以及空格、短划线、下划线、逗号、句号、括号、冒号、顿号,不支持其他字符。最大长度不超过200个字符。

    -

    数据集状态

    上线后的数据集才可被下游模型训练等作业任务调用。

    • 打开“立即上线数据集”,生成数据集在“资产管理 > 数据 >我的数据”页面为上线状态,可以被下游模型训练等作业直接使用。
    • 关闭“立即上线数据集”,生成数据集在“资产管理 > 数据 >我的数据”页面为下线状态,不可被下游模型训练等作业直接使用,需要手动上线数据集后才能使用。

    打开“立即上线数据集”

    扩展信息

    您可按需配置数据集版权相关信息。数据集版权功能主要用于记录和管理数据集的版权信息,确保数据的使用合法合规,明确数据集的来源和版权授权人、数据集许可证等信息。通过这些信息,可以追溯数据的来源,明确数据使用的限制和许可,从而保护数据版权并避免版权纠纷。

    -

  1. 参数配置完成后,单击页面右下角“立即创建”,在“数据连接”页面可以查看数据集的任务状态,如果状态为“运行成功”,则数据连接任务成功。
    图1 查看数据连接任务状态

  2. 数据集生成后,可在“资产管理 > 数据 >我的数据”页面查看生成数据集。更多信息,请参见我的数据

后续操作

数据连接任务运行成功后,可用于数据精炼

相关文档