创建数据连接
使用场景
在数据处理和模型训练的场景中,用户需要将多种类型的数据集高效、准确地导入到ModelArts数据平台中,以支持后续的数据精炼和模型训练任务。然而,传统的数据导入方式存在诸多限制,如不支持自定义任务名称、数据格式转换功能有限等,导致用户在导入数据时面临操作不便和数据处理效率低下的问题。如何在新的平台中实现更加灵活和高效的数据导入功能,成为用户亟待解决的问题。为此,ModelArts平台提供了增强的数据导入功能,支持多种基础数据类型的导入,允许用户在创建导入任务时编辑任务名称和描述,同时支持数据格式转换和数据集的直接发布,从而显著提升了数据处理的灵活性和效率,满足了用户在数据准备阶段的多样化需求。
前提条件
- 已注册华为账号并开通华为云,进行了实名认证,且在使用ModelArts前检查账号状态,账号不能处于欠费或冻结状态。
- 配置委托访问授权
ModelArts使用过程中涉及到OBS等服务交互,首次使用ModelArts需要用户配置委托授权,允许访问这些依赖服务。
- 创建导入任务前,请先按照数据集格式要求提前准备数据。
约束限制
- 仅西南-贵阳一区域的新版控制台支持。
- 数据连接导入数据文件或压缩包不超过20GB,总文件大小也不超过20GB。
- 通过OBS导入数据,在指定OBS路径时只支持指定到文件夹,不支持指定到文件。
计费说明
数据连接计费涉及到数据存储OBS计费,具体可参考数据管理计费项。
创建数据连接任务
创建数据连接任务步骤如下:
- 前往ModelArts管理控制台。
- 在控制台左侧导航栏选择“数据准备 > 数据连接”,打开“数据连接”工作区,如图图1所示。
- 在数据连接工作区右上方单击“创建数据连接”按钮,打开“创建数据连接”配置页面。输入数据连接任务名称和描述。任务名称为必选,描述信息为可选。
图2 创建数据连接
说明:
任务名称:命名默认为data-connect-年月日时分秒,如:data-connect-20260116233300,也可自定义名称,命名要求如下:
- 命名长度:2~64字符。
- 格式要求:以中文、字母开头,以中文、字母、数字结尾。只允许输入中文、字母、数字、中划线、下划线等字符。
描述:无格式要求,长度不超过200字符,内容可选填。
- 导入数据至ModelArts平台,如图3所示。请根据具体使用场景导入对应类型的数据,连接方式为对象存储服务OBS或本地上传。
- 通过数据导入功能将数据导入到ModelArts平台,生成数据集。数据集可用于数据精炼、模型训练、微调、评测等用途。
导入的数据形成新的数据集,需要给数据集重新命名。输入数据集名称、数据集属性(可选)、描述信息(可选)。
说明:
数据集名称:
- 命名长度:2~63字符。
- 格式要求:以中文、字母开头,以中文、字母、数字结尾。只允许输入中文、字母、数字、中划线、下划线字符。
数据集属性:可选字段,支持配置标签。可以按照行业、语言维度配置标签,也可自定义标签。
描述:可选字段,无格式要求,长度不超过200字。
图4 生成原始数据集
- 数据集填写完成后,配置“立即上线数据集”。
- 选择立即上线数据集,生成数据集在“资产管理 > 数据 >我的数据”为上线状态,可以被下游模型训练等作业直接使用。
- 不选择立即上线数据集,生成数据集在“资产管理 > 数据 >我的数据”为下线状态,不可被下游模型训练等作业直接使用,需要手动上线数据集后才能使用。
图5 勾选“立即上线数据集”
- 生成数据集扩展信息可以选填,扩展信息包括数据集版权相关信息,数据集版权功能主要用于记录和管理数据集的版权信息,确保数据的使用合法合规,明确数据集的来源和版权授权人、数据集许可证等信息。通过填写这些信息,可以追溯数据的来源,明确数据使用的限制和许可,从而保护数据版权并避免版权纠纷。
图6 扩展信息
- 单击页面右下角“立即创建”,返回至“数据连接”页面,在该页面可以查看数据集的任务状态,若状态为“运行成功”,则数据连接任务成功。
图7 查看数据连接任务列表
- 数据集生成后,可在“资产管理 > 数据 >我的数据”列表查看生成数据集。

