更新时间:2026-06-11 GMT+08:00
分享

LDMS监控管理

本章节指导用户对已托管的分组任务进行监控和对注册的Hudi表进行健康监测。

前提条件

  • 集群已安装LDMS及其所依赖的服务且运行正常。
  • 创建一个具备ldmsadmin或supergroup用户组权限的用户,具体请参考LDMS用户权限管理
  • Hudi表已托管在LDMS上并且分组任务已经启动。

作业监控

  1. 使用LDMS管理员用户登录FusionInsight Manager,选择“集群 > 服务 > LDMS”,进入LDMS服务页面。
  2. 在概览页签下的“基本信息”区域单击“LDMSServer UI”后的链接,进入LDMSServer UI界面。
  3. 选择“监控 > 作业监控”,进入作业监控页面。

    在“作业监控”页面可查看当前分组作业的信息,包含分组ID、分组名称、作业类型、APP ID、运行模式、状态、开始时间、结束时间等。

  4. 在作业的操作列单击“kill”,在弹窗中单击“确定”,可以终止该作业。

配置风险阈值

用户可以手动在LDMSServer UI页面设置任务告警阈值,当Hudi表托管任务执行时间超过阈值,或当监控的Hudi表健康指标超过阈值时LDMS会及时触发告警,指导用户及时处理。

  1. 使用LDMS管理员用户登录FusionInsight Manager,选择“集群 > 服务 > LDMS”,进入LDMS服务页面。
  2. 在概览页签下的“基本信息”区域单击“LDMSServer UI”后的链接,进入LDMSServer UI界面。
  3. 选择“监控 > 风险阈值”,进入告警阈值页面,单击“批量新增”。
  4. 在“新增阈值”中单击,填写如下参数:

    • 数据库名:填写已托管的数据库名。
    • 表名:填写已托管的表名。
    • 风险类型:选择对应表的风险类型,包含:合并、清理、归档、元数据膨胀、SCHEMA膨胀、未完成的compaction数量过多、长期未生成compaction计划、数据倾斜、LOG文件过大。
    • 风险阈值:填写风险阈值。当任务执行时间超过风险阈值或表健康指标超过阈值时LDMS会及时触发告警。

  5. 单击“确定”,新增告警阈值。

    “风险阈值”新增完成后,在操作列可以对该风险阈值进行编辑、删除操作。

风险清单

配置风险阈值后,如果任务执行时间超过风险阈值,则会在风险清单中显示该风险。

  1. 使用LDMS管理员用户登录FusionInsight Manager,选择“集群 > 服务 > LDMS”,进入LDMS服务页面。
  2. 在概览页签下的“基本信息”区域单击“LDMSServer UI”后的链接,进入LDMSServer UI界面。
  3. 选择“监控 > 风险清单”,进入风险清单页面,可以查看当前的任务风险清单。

表监控

在表监控页面,可以查看当前表类型、存储、文件数等监控信息。

  1. 使用LDMS管理员用户登录FusionInsight Manager,选择“集群 > 服务 > LDMS”,进入LDMS服务页面。
  2. 在概览页签下的“基本信息”区域单击“LDMSServer UI”后的链接,进入LDMSServer UI界面。
  3. 选择“监控 > 表监控”,进入表监控页面。
  4. 在右上角的“数据库名”中搜索表所在的数据库,在“表名”中搜索表,并单击“搜索”,可以查看当前表的相关信息。

    单击表名,会显示当前表存储大小、文件数、Schema版本数等监控信息的历史信息。

表详情分析

  1. 使用LDMS管理员用户登录FusionInsight Manager,选择“集群 > 服务 > LDMS”,进入LDMS服务页面。
  2. 在概览页签下的“基本信息”区域单击“LDMSServer UI”后的链接,进入LDMSServer UI界面。
  3. 选择“监控 > 表详情分析”,进入表详情分析页面。

新增分析作业

  1. 在表详情分析页面,单击“新增任务”,填写如下参数,单击“确定”。

    • 任务名:填写任务名称。
    • 数据库:选择已托管的数据库。
    • 表名:选择已托管的表名。
    • 分析类型:包含Compaction分析、clean分析、archive分析和分区存储分析(分区存储扫描支持全表扫描、从最近的Compaction开始扫描、从指定的commit开始扫描)。

  2. 单击右上角的“查询”,可以查看新增的任务。

    • 在任务的操作列,可以对任务进行启停、删除操作。当任务完成后可以查看报告。

      分析报告包括风险清单,未完成的Compaction计划,未归档的clean信息,各个分区的目录大小、文件数、最新的filesystem view中最大和最小的parquet文件,最大的log文件

    • 单击任务的下拉菜单可以查看该任务的执行历史记录。

相关文档