更新时间:2024-11-07 GMT+08:00

元数据发现

操作场景

当数据存储在OBS并行文件系统中,而在LakeFormation还未与对应的元数据关联时,可以通过元数据发现,来构造这些数据对应的元数据信息,从而支撑SQL引擎或者用户的应用程序的计算与分析。

当前元数据发现特性属于公测阶段,公测期产品完全免费,商业化后会根据元数据发现消耗资源收取资源费用。

前提条件

  • 已上传待检测的数据至OBS并行文件系统,即已从S3或HDFS将数据上传复制到LakeFormation实例所在Region的OBS并行文件系统的规划路径下。
  • 元数据发现的目标Catalog、目标Database已规划和创建。

操作步骤

  1. 登录管理控制台。
  2. 在左上角单击“”,选择“大数据 > 湖仓构建 LakeFormation”进入LakeFormation控制台。
  3. 在左侧下拉框中选择待操作的LakeFormation实例,在左侧导航栏选择“任务管理 > 元数据发现”。
  4. 单击“创建发现任务”,配置相关参数后,单击“提交”。

    表1 创建发现任务

    参数

    参数说明

    任务名称

    填写待创建元数据发现任务名称。

    描述

    所创建元数据发现任务的描述信息。

    数据存储位置

    发现的数据表存储在OBS并行文件系统中的位置。

    单击“”,选择位置后,单击“确定”。

    发现文件类型

    选择所发现文件的类型。目前支持以下类型:

    • 自动发现(包含Parquet、ORC、Json、Csv、Avro类型)
    • Parquet
    • ORC
    • Json
    • Csv(选择该类型,还需配置“分隔符”、“逃逸字符”、“引号字符”、“是否把第一行当做列名”等参数)
    • Avro
    说明:
    • 如果数据存储位置下的文件后缀为同一类型,建议选择对应发现类型。
    • 如果数据存储位置下的文件后缀为多种类型,建议选择“自动发现”。
    • 如果数据存储位置下的文件不带后缀,建议选择对应类型。如果选择“自动发现”,则系统默认以Parquet类型文件进行发现,其他类型文件将会发现失败。

    日志存储位置

    运行元数据发现任务时,产生的日志存储位置。单击选择路径。

    该路径必须已在OBS中存在,如果为自定义路径将会导致发现任务失败。

    目标Catalog

    待发现元数据所属Catalog名称。

    目标Database

    待发现元数据所属数据库名称。

    冲突解决策略

    元数据发现过程中,存在同名元数据时的解决策略。

    • 创建并更新元数据
    • 仅创建元数据

    默认缺省Owner

    元数据发现任务执行后元数据的默认Owner。

    如果选择的授权主体名称中带有中划线,此功能可能有失败风险。

    文件采样率

    (可选)文件采样频率。

    采样率为0时,遇到空文件会跳过当前分区表之后的所有分区。该方法减少操作时间,但是准确性会降低。

    重新发现策略

    再次执行元数据发现时的发现策略。

    • 全量发现:再次执行发现操作时,发现数据存储位置下的所有文件。
    • 增量发现:再次执行发现操作时,发现上次任务(运行成功的)开始运行后,数据存储位置下新增的文件。

    执行策略

    选择当前迁移任务的执行策略。

    • 手动执行:手动触发执行迁移任务。

      选择该方式后,需要在任务创建完成后,单击“操作”列的“运行”运行当前迁移任务。

    • 调度执行:周期性自动执行迁移任务。

      选择该方式后,可根据实际需要选择调度执行的周期(“每月”、“每周”、“每日”、“每小时”)并配置对应参数。

    主体类型

    (可选)选择了主体后将默认为主体赋予数据存储位置的读权限。

    • 可选择为“用户组”、“角色”、“IAM用户”、“委托用户”,并选择具体授权的主体。

      如果选择的授权主体名称中带有中划线,此功能可能有失败风险。

    • 如果需要对主体授予写权限,可勾选“赋予写权限”。

    事件通知策略

    (可选)配置该选项后,发生特定事件(例如任务成功、任务失败等)后会发送通知(短信、邮件等)。

    • 事件通知开关:开启后表示启用事件通知。
    • 事件通知主题:选择需要通知的主题,可以在管理控制台选择“消息通知服务 SMN”进行配置。
    • 事件:需要通知的主题状态,可选择“任务成功”、“任务失败”。

  5. 创建完成后,单击“操作”列的“运行”即可运行当前迁移任务。

    • 单击“停止”即可停止正在运行的任务。
    • 单击“查看日志”可以查看任务运行产生的日志。

      默认显示最近的50行日志。

      可单击日志最下方超链接查看完整日志,具体配置请参考下载对象章节。

    • 单击操作列的“编辑”或“删除”,可以修改或者删除当前任务。

  6. 迁移任务运行完成后,可以进入“元数据 > 表”页面,在右上角“Catalog”和“数据库”后的下拉框中分别选择目标Catalog、目标Database的名称,查看已发现的数据表信息。