更新时间:2026-03-02 GMT+08:00
分享

Lakeformation数据源(内测中)

华为云LakeFormation是华为云提供的一个企业级数据湖一站式构建服务,它通过在存算分离架构基础上提供统一的元数据管理、细粒度权限控制和兼容开源生态的能力,帮助企业高效构建并运营数据湖。

本数据集成服务支持华为Lakeformation数据源,提供高效便捷的数据迁移服务。

实现原理

Lakeformation数据集成采用原生OBS文件写入方式,支持Hive格式下PARQUET/ORC,分区表/非分区表等处理能力,故而具备优异的写入性能。

使用前准备及限制

  • 网络要求

    Lakeformation数据源必须与CDM网络进行通讯,以确保数据传输的顺畅性。详情请参见网络打通

  • 权限要求
    • Lakeformation元数据读写权限:数据集成服务将与Lakeformation进行读写交付,需要授予LakeFormation CommonOperationsLakeFormation FullAccess系统策略,详见Lakeformation权限
    • OBS写入权限:数据集成服务将与OBS进行读写文件交互,可授予OBS OperateAccess或OBS Administrator系统策略。
  • 表格式限制

    当前数据集成服务仅支持写入Lakeformation的Hive表格式。

支持的数据类型

以下给您介绍Lakeformation写入支持数据源类型。

数据类型

LAKEFORMATION数据类型

写入是否支持

数值类型

TINYINT

SMALLINT

INT

BIGINT

FLOAT

DOUBLE

DECIMAL

布尔类型

BOOLEAN

字符类型

CHAR

VARCHAR

STRING

日期/时间类型

DATE

TIMESTAMP

二进制类型

BYTEA

复杂类型

ARRAY

MAP

UNIONTYPE

x

STRUCT

x

支持的文件存储格式

以下给您介绍Lakeformation写入支持的文件存储格式。

数据源存储格式

写入是否支持

PARQUET

ORC

AVRO

x

JSON

x

XML

x

CSV

x

TEXT

x

RC

x

SEQUENCE

x

支持的迁移场景

数据集成离线同步支持以下三种同步方式,以满足不同数据迁移场景的需求:

  • 单表同步

    适用于数据入湖和数据上云场景下,表或文件级别的数据同步。

  • 分库分表同步

    适用于数据入湖和数据上云场景下,多库多表同步场景。

  • 整库迁移

    适用于数据入湖和数据上云场景下,离线或自建数据库整体同步场景。

需要注意的是,分库分表与整库迁移能力会根据不同region的上线支持情况有所不同,具体支持情况以页面为准。以下是针对Rest Client的支持迁移场景概览:

支持迁移场景

单表读取

单表写入

分库分表读取

分库分表写入

整库读取

整库写入

是否支持

x

x

x

x

核心能力速览

  • 连接配置

    配置项

    支持情况

    说明

    AKSK认证

    通过AKSK认证方式访问Lakeformation云服务。

    委托认证

    支持 IAM 委托认证,通过委托授权服务角色访问 。

  • 写入能力

    配置项

    支持情况

    说明

    写入模式

    LOAD

    LOAD OVERWRITE

    支持LOAD和LOAD OVERWRITE两种写入方式。

    • Insert into 是向目标表追加数据,适用于数据的增量写入。
    • LOAD OVERWRITE是覆盖目标表或分区的数据。

    脏数据处理

    x

    支持异常数据写入脏数据桶,避免因少量异常数据导致作业失败,暂不支持。

    并发写入

    并发写入可以充分利用集群资源,提高数据写入的速度。

    编辑态建表

    支持在作业配置过程中一键完成半结构化与结构化数据源到Lakeformation的目标表构建。

创建数据源

DataArts Studio管理中心新建相应的数据源,详情请参见创建DataArts Studio数据连接

创建数据集成离线作业

DataArts Studio数据开发中新建Lakeformation集成作业,详情请参见新建离线处理集成作业

相关文档