文档首页/ 湖仓构建 LakeFormation/ 用户指南/ 迁移元数据及权限至LakeFormation/ 使用元数据发现迁移元数据至LakeFormation
更新时间:2025-07-22 GMT+08:00

使用元数据发现迁移元数据至LakeFormation

操作场景

当数据存储在OBS并行文件系统中,而在LakeFormation还未与对应的元数据关联时,可以通过元数据发现,来构造这些数据对应的元数据信息,从而支撑SQL引擎或者用户的应用程序的计算与分析。

约束与限制

当前元数据发现特性属于公测阶段,公测期产品完全免费,商业化后会根据元数据发现消耗资源收取资源费用。

元数据发现当前仅支持Spark on Hudi。

前提条件

  • 已上传待检测的数据至OBS并行文件系统,即已从S3或HDFS将数据上传复制到LakeFormation实例所在Region的OBS并行文件系统的规划路径下。
  • 元数据发现的目标Catalog、目标Database已规划和创建。

操作步骤

  1. 登录LakeFormation管理控制台
  2. 在左侧下拉框中选择待操作的LakeFormation实例,在左侧导航栏选择“任务管理 > 任务授权”。

    单击“同意授权”,对当前用户授予管理LakeFormation迁移任务权限。如果已授权则跳过该步骤。

    如果需要取消用户的LakeFormation任务管理权限,请单击“取消授权”。

    同意授权后,LakeFormation将自动创建名为lakeformation_job_trust的委托,在任务运行期间,请勿删除该委托。

  3. 在左侧导航栏选择“任务管理 > 元数据发现”。
  4. 单击“创建发现任务”,配置相关参数后,单击“提交”。

    表1 创建发现任务

    参数

    参数说明

    任务名称

    填写待创建元数据发现任务名称。

    描述

    所创建元数据发现任务的描述信息。

    数据存储位置

    发现的数据表存储在OBS并行文件系统中的位置。

    单击“”,选择位置后,单击“确定”。

    发现文件类型

    选择所发现文件的类型。目前支持以下类型:

    • 自动发现(包含Parquet、ORC、Json、Csv、Avro类型)
    • Parquet
    • ORC
    • Json
    • Csv(选择该类型,还需配置“分隔符”、“逃逸字符”、“引号字符”、“是否把第一行当做列名”等参数)
    • Avro

    配置时建议如下:

    • 如果数据存储位置下的文件后缀为同一类型,建议选择对应发现类型。
    • 如果数据存储位置下的文件后缀为多种类型,建议选择“自动发现”。
    • 如果数据存储位置下的文件不带后缀,建议选择对应类型。如果选择“自动发现”,则系统默认以Parquet类型文件进行发现,其他类型文件将会发现失败。

    日志存储位置

    运行元数据发现任务时,产生的日志存储位置。单击选择路径。

    该路径必须已在OBS中存在,如果为自定义路径将会导致发现任务失败。

    目标Catalog

    待发现元数据所属Catalog名称。

    目标Database

    待发现元数据所属数据库名称。

    冲突解决策略

    元数据发现过程中,存在同名元数据时的解决策略。

    • 创建并更新元数据
    • 仅创建元数据

    默认缺省Owner

    元数据发现任务执行后元数据的默认Owner。

    如果选择的授权主体名称中带有中划线,此功能可能有失败风险。

    文件采样率

    (可选)文件采样频率。

    采样率为0时,遇到空文件会跳过当前分区表之后的所有分区。该方法减少操作时间,但是准确性会降低。

    重新发现策略

    再次执行元数据发现时的发现策略。

    • 全量发现:再次执行发现操作时,发现数据存储位置下的所有文件。
    • 增量发现:再次执行发现操作时,发现上次任务(运行成功的)开始运行后,数据存储位置下新增的文件。

    执行策略

    选择当前迁移任务的执行策略。

    • 手动执行:手动触发执行迁移任务。

      选择该方式后,需要在任务创建完成后,单击“操作”列的“运行”运行当前迁移任务。

    • 调度执行:周期性自动执行迁移任务。

      选择该方式后,可根据实际需要选择调度执行的周期(“每月”、“每周”、“每日”、“每小时”)并配置对应参数。

    主体类型

    (可选)选择了主体后将默认为主体赋予数据存储位置的读权限。

    • 可选择为“用户组”、“角色”、“IAM用户”、“委托用户”,并选择具体授权的主体。

      如果选择的授权主体名称中带有中划线,此功能可能有失败风险。

    • 如果需要对主体授予写权限,可勾选“赋予写权限”。

    事件通知策略

    (可选)配置该选项后,发生特定事件(例如任务成功、任务失败等)后会发送通知(短信、邮件等)。

    • 事件通知开关:开启后表示启用事件通知。
    • 事件通知主题:选择需要通知的主题,可以在管理控制台选择“消息通知服务 SMN”进行配置。
    • 事件:需要通知的主题状态,可选择“任务成功”、“任务失败”。

  5. 创建完成后,单击“操作”列的“运行”即可运行当前迁移任务。调度策略选择“调度执行”时无需手动执行运行操作。

    • 单击“停止”即可停止正在运行的任务。
    • 单击“操作”列“查看日志”,可以查看运行产生的日志。可单击日志最下方超链接查看完整日志。
    • 如果界面中无“查看日志”,显示为“查看任务”,可以参考如下操作查看日志:
      1. 单击“操作”列“查看任务”可以查看任务执行情况。
      2. 单击查看完整日志中的链接,可以查看运行产生的日志。
    • 单击操作列的“编辑”或“删除”,可以修改或者删除当前任务。

  6. 迁移任务运行完成后,可以进入“元数据 > 表”页面,在右上角“Catalog”和“数据库”后的下拉框中分别选择目标Catalog、目标Database的名称,查看已发现的数据表信息。