更新时间:2026-06-11 GMT+08:00
分享

LDMS LakeHouse表管理服务概述

LDMS介绍

LDMS(LakeHouse Data Management Service)是LakeHouse生态系统中的一个关键管理服务组件,旨在简化和增强Hudi LakeHouse表格式的管理和使用。LDMS通过提供异步表服务、监控和告警功能,帮助用户更高效地管理和维护LakeHouse数据湖组件。

LDMS功能特性介绍如下:

  • 扩展性:LDMS基于Spring Boot开发,具备良好的扩展性,能够轻松适应不同规模的业务需求。
  • 表托管:LDMS可以访问和扫描Hive Metastore,将各种LakeHouse表格式进行托管和维护。
  • 作业调度:通过定时调度和分组策略,LDMS将托管的表服务作业分批分类提交到Yarn上,利用Spark进行异步表服务运维操作。例如,对Hudi表进行定时异步Compaction作业,以优化表性能。
  • 定时监控:LDMS对已托管的LakeHouse表进行定时监控,确保表状态的健康。
  • 异常检测:当发现表状态异常,如Hudi的MOR表长期未进行Compaction、日志文件过大或元数据过多等问题时,LDMS会及时触发告警,指导用户及时处理避免表状态进一步恶化。

LDMS使用约束与限制

  1. 当前LDMS只支持对Hudi表的执行异步Compaction、clean、archive表维护命令。
  2. 当前LDMS最大只支持2个LDMSServer对外提供服务,因此最大规格支持100个分组任务,每个分组任务支持对20张普通Hudi表进行托管。
  3. 如果要对超大Hudi表进行托管维护(上亿数据量或存储超过1TB的Hudi表)则需要单独添加分组任务配置相应资源进行维护。

LDMS结构

图1 LDMS结构图
  1. 用户通过WebUI对LDMS Server进行访问。
  2. LDMS内部元数据信息会存储在DBService独立的数据库中,LDMS Server会以JDBC connector的形式连接DBService进行CRUD操作。
  3. LDMS Server会定时通过Hive metastore接口访问HMS,获取所有LakeHouse表的元数据信息(当前只会获取Hudi表元数据)。
  4. LDMS Server会定时将生成的异步表服务作业提交至Yarn上,并实时监控作业运行状态(当前只支持Spark任务提交)。

相关文档