元数据发现
操作场景
当数据存储在OBS并行文件系统中,而在LakeFormation还未与对应的元数据关联时,可以通过元数据发现,来构造这些数据对应的元数据信息,从而支撑SQL引擎或者用户的应用程序的计算与分析。
当前元数据发现特性属于公测阶段,公测期产品完全免费,商业化后会根据元数据发现消耗资源收取资源费用。
前提条件
- 已参考任务授权开启授权。
- 已上传待检测的数据至OBS并行文件系统,即已从S3或HDFS将数据上传复制到LakeFormation实例所在Region的OBS并行文件系统的规划路径下。
- 元数据发现的目标Catalog、目标Database已规划和创建。
操作步骤
- 登录管理控制台。
- 在左上角单击“”,选择“大数据 > 湖仓构建 LakeFormation”进入LakeFormation控制台。
- 在左侧下拉框中选择待操作的LakeFormation实例,在左侧导航栏选择“任务管理 > 元数据发现”。
- 单击“创建发现任务”,配置相关参数后,单击“提交”。
表1 创建发现任务 参数
参数说明
任务名称
填写待创建元数据发现任务名称。
描述
所创建元数据发现任务的描述信息。
数据存储位置
发现的数据表存储在OBS并行文件系统中的位置。
单击“”,选择位置后,单击“确定”。
发现文件类型
选择所发现文件的类型。目前支持以下类型:
- 自动发现(包含Parquet、ORC、Json、Csv、Avro类型)
- Parquet
- ORC
- Json
- Csv(选择该类型,还需配置“分隔符”、“逃逸字符”、“引号字符”、“是否把第一行当做列名”等参数)
- Avro
说明:- 如果数据存储位置下的文件后缀为同一类型,建议选择对应发现类型。
- 如果数据存储位置下的文件后缀为多种类型,建议选择“自动发现”。
- 如果数据存储位置下的文件不带后缀,建议选择对应类型。如果选择“自动发现”,则系统默认以Parquet类型文件进行发现,其他类型文件将会发现失败。
日志存储位置
运行元数据发现任务时,产生的日志存储位置。单击选择路径。
该路径必须已在OBS中存在,如果为自定义路径将会导致发现任务失败。
目标Catalog
待发现元数据所属Catalog名称。
目标Database
待发现元数据所属数据库名称。
冲突解决策略
元数据发现过程中,存在同名元数据时的解决策略。
- 创建并更新元数据
- 仅创建元数据
默认缺省Owner
元数据发现任务执行后元数据的默认Owner。
如果选择的授权主体名称中带有中划线,此功能可能有失败风险。
文件采样率
(可选)文件采样频率。
采样率为0时,遇到空文件会跳过当前分区表之后的所有分区。该方法减少操作时间,但是准确性会降低。
重新发现策略
再次执行元数据发现时的发现策略。
- 全量发现:再次执行发现操作时,发现数据存储位置下的所有文件。
- 增量发现:再次执行发现操作时,发现上次任务(运行成功的)开始运行后,数据存储位置下新增的文件。
执行策略
选择当前迁移任务的执行策略。
主体类型
(可选)选择了主体后将默认为主体赋予数据存储位置的读权限。
事件通知策略
(可选)配置该选项后,发生特定事件(例如任务成功、任务失败等)后会发送通知(短信、邮件等)。
- 事件通知开关:开启后表示启用事件通知。
- 事件通知主题:选择需要通知的主题,可以在管理控制台选择“消息通知服务 SMN”进行配置。
- 事件:需要通知的主题状态,可选择“任务成功”、“任务失败”。
- 创建完成后,单击“操作”列的“运行”即可运行当前迁移任务。
- 单击“停止”即可停止正在运行的任务。
- 单击“查看日志”可以查看任务运行产生的日志。
可单击日志最下方超链接查看完整日志,具体配置请参考下载对象章节。
- 单击操作列的“编辑”或“删除”,可以修改或者删除当前任务。
- 迁移任务运行完成后,可以进入“元数据 > 表”页面,在右上角“Catalog”和“数据库”后的下拉框中分别选择目标Catalog、目标Database的名称,查看已发现的数据表信息。