更新时间:2026-03-09 GMT+08:00
分享

创建数据连接

使用场景

在数据处理和模型训练的场景中,用户需要将多种类型的数据集高效、准确地导入到ModelArts数据平台中,以支持后续的数据精炼和模型训练任务。然而,传统的数据导入方式存在诸多限制,如不支持自定义任务名称、数据格式转换功能有限等,导致用户在导入数据时面临操作不便和数据处理效率低下的问题。如何在新的平台中实现更加灵活和高效的数据导入功能,成为用户亟待解决的问题。为此,ModelArts平台提供了增强的数据导入功能,支持多种基础数据类型的导入,允许用户在创建导入任务时编辑任务名称和描述,同时支持数据格式转换和数据集的直接发布,从而显著提升了数据处理的灵活性和效率,满足了用户在数据准备阶段的多样化需求。

前提条件

  1. 已注册华为账号并开通华为云,进行了实名认证,且在使用ModelArts前检查账号状态,账号不能处于欠费或冻结状态。
  2. 配置委托访问授权

    ModelArts使用过程中涉及到OBS等服务交互,首次使用ModelArts需要用户配置委托授权,允许访问这些依赖服务。

  1. 创建导入任务前,请先按照数据集格式要求提前准备数据。

约束限制

  • 仅西南-贵阳一区域的新版控制台支持。
  • 数据连接导入数据文件或压缩包不超过20GB,总文件大小也不超过20GB。
  • 通过OBS导入数据,在指定OBS路径时只支持指定到文件夹,不支持指定到文件。

计费说明

数据连接计费涉及到数据存储OBS计费,具体可参考数据管理计费项

创建数据连接任务

创建数据连接任务步骤如下:

  1. 前往ModelArts管理控制台
  2. 在控制台左侧导航栏选择“数据准备 > 数据连接”,打开“数据连接”工作区,如图图1所示。
    图1 数据连接
  1. 数据连接工作区右上方单击“创建数据连接”按钮,打开“创建数据连接”配置页面。输入数据连接任务名称和描述。任务名称为必选,描述信息为可选。
    图2 创建数据连接

    说明:

    任务名称:命名默认为data-connect-年月日时分秒,如:data-connect-20260116233300,也可自定义名称,命名要求如下:

    • 命名长度:2~64字符。
    • 格式要求:以中文、字母开头,以中文、字母、数字结尾。只允许输入中文、字母、数字、中划线、下划线等字符。

    描述:无格式要求,长度不超过200字符,内容可选填。

  1. 导入数据至ModelArts平台,如图3所示。请根据具体使用场景导入对应类型的数据,连接方式对象存储服务OBS本地上传

    单轮问答、单轮问答(带人设)、多轮问答、多轮问答(带人设)支持Alpaca/ShareGPT/标准格式三种文件格式。

    图3 数据导入
  2. 通过数据导入功能将数据导入到ModelArts平台,生成数据集。数据集可用于数据精炼、模型训练、微调、评测等用途。

    导入的数据形成新的数据集,需要给数据集重新命名。输入数据集名称、数据集属性(可选)、描述信息(可选)。

    说明:

    数据集名称:

    • 命名长度:2~63字符。
    • 格式要求:以中文、字母开头,以中文、字母、数字结尾。只允许输入中文、字母、数字、中划线、下划线字符。

    数据集属性:可选字段,支持配置标签。可以按照行业、语言维度配置标签,也可自定义标签。

    描述:可选字段,无格式要求,长度不超过200字。

    图4 生成原始数据集
  1. 数据集填写完成后,配置“立即上线数据集”。
    • 选择立即上线数据集,生成数据集在“资产管理 > 数据 >我的数据”为上线状态,可以被下游模型训练等作业直接使用。
    • 不选择立即上线数据集,生成数据集在“资产管理 > 数据 >我的数据”为下线状态,不可被下游模型训练等作业直接使用,需要手动上线数据集后才能使用。
      图5 勾选“立即上线数据集”
  2. 生成数据集扩展信息可以选填,扩展信息包括数据集版权相关信息,数据集版权功能主要用于记录和管理数据集的版权信息,确保数据的使用合法合规,明确数据集的来源和版权授权人、数据集许可证等信息。通过填写这些信息,可以追溯数据的来源,明确数据使用的限制和许可,从而保护数据版权并避免版权纠纷。
    图6 扩展信息
  3. 单击页面右下角“立即创建”,返回至“数据连接”页面,在该页面可以查看数据集的任务状态,若状态为“运行成功”,则数据连接任务成功。
    图7 查看数据连接任务列表
  4. 数据集生成后,可在“资产管理 > 数据 >我的数据”列表查看生成数据集。

相关文档