更新时间:2026-06-11 GMT+08:00
LDMS LakeHouse表管理服务概述
LDMS介绍
LDMS(LakeHouse Data Management Service)是LakeHouse生态系统中的一个关键管理服务组件,旨在简化和增强Hudi LakeHouse表格式的管理和使用。LDMS通过提供异步表服务、监控和告警功能,帮助用户更高效地管理和维护LakeHouse数据湖组件。
LDMS功能特性介绍如下:
- 扩展性:LDMS基于Spring Boot开发,具备良好的扩展性,能够轻松适应不同规模的业务需求。
- 表托管:LDMS可以访问和扫描Hive Metastore,将各种LakeHouse表格式进行托管和维护。
- 作业调度:通过定时调度和分组策略,LDMS将托管的表服务作业分批分类提交到Yarn上,利用Spark进行异步表服务运维操作。例如,对Hudi表进行定时异步Compaction作业,以优化表性能。
- 定时监控:LDMS对已托管的LakeHouse表进行定时监控,确保表状态的健康。
- 异常检测:当发现表状态异常,如Hudi的MOR表长期未进行Compaction、日志文件过大或元数据过多等问题时,LDMS会及时触发告警,指导用户及时处理避免表状态进一步恶化。
LDMS使用约束与限制
- 当前LDMS只支持对Hudi表的执行异步Compaction、clean、archive表维护命令。
- 当前LDMS最大只支持2个LDMSServer对外提供服务,因此最大规格支持100个分组任务,每个分组任务支持对20张普通Hudi表进行托管。
- 如果要对超大Hudi表进行托管维护(上亿数据量或存储超过1TB的Hudi表)则需要单独添加分组任务配置相应资源进行维护。
LDMS结构
图1 LDMS结构图
- 用户通过WebUI对LDMS Server进行访问。
- LDMS内部元数据信息会存储在DBService独立的数据库中,LDMS Server会以JDBC connector的形式连接DBService进行CRUD操作。
- LDMS Server会定时通过Hive metastore接口访问HMS,获取所有LakeHouse表的元数据信息(当前只会获取Hudi表元数据)。
- LDMS Server会定时将生成的异步表服务作业提交至Yarn上,并实时监控作业运行状态(当前只支持Spark任务提交)。
父主题: 使用LDMS