LDMS监控管理
本章节指导用户对已托管的分组任务进行监控和对注册的Hudi表进行健康监测。
前提条件
- 集群已安装LDMS及其所依赖的服务且运行正常。
- 创建一个具备ldmsadmin或supergroup用户组权限的用户,具体请参考LDMS用户权限管理。
- Hudi表已托管在LDMS上并且分组任务已经启动。
作业监控
- 使用LDMS管理员用户登录FusionInsight Manager,选择“集群 > 服务 > LDMS”,进入LDMS服务页面。
- 在概览页签下的“基本信息”区域单击“LDMSServer UI”后的链接,进入LDMSServer UI界面。
- 选择“监控 > 作业监控”,进入作业监控页面。
在“作业监控”页面可查看当前分组作业的信息,包含分组ID、分组名称、作业类型、APP ID、运行模式、状态、开始时间、结束时间等。
- 在作业的操作列单击“kill”,在弹窗中单击“确定”,可以终止该作业。
配置风险阈值
用户可以手动在LDMSServer UI页面设置任务告警阈值,当Hudi表托管任务执行时间超过阈值,或当监控的Hudi表健康指标超过阈值时LDMS会及时触发告警,指导用户及时处理。
- 使用LDMS管理员用户登录FusionInsight Manager,选择“集群 > 服务 > LDMS”,进入LDMS服务页面。
- 在概览页签下的“基本信息”区域单击“LDMSServer UI”后的链接,进入LDMSServer UI界面。
- 选择“监控 > 风险阈值”,进入告警阈值页面,单击“批量新增”。
- 在“新增阈值”中单击
,填写如下参数: - 数据库名:填写已托管的数据库名。
- 表名:填写已托管的表名。
- 风险类型:选择对应表的风险类型,包含:合并、清理、归档、元数据膨胀、SCHEMA膨胀、未完成的compaction数量过多、长期未生成compaction计划、数据倾斜、LOG文件过大。
- 风险阈值:填写风险阈值。当任务执行时间超过风险阈值或表健康指标超过阈值时LDMS会及时触发告警。
- 单击“确定”,新增告警阈值。
“风险阈值”新增完成后,在操作列可以对该风险阈值进行编辑、删除操作。
风险清单
配置风险阈值后,如果任务执行时间超过风险阈值,则会在风险清单中显示该风险。
- 使用LDMS管理员用户登录FusionInsight Manager,选择“集群 > 服务 > LDMS”,进入LDMS服务页面。
- 在概览页签下的“基本信息”区域单击“LDMSServer UI”后的链接,进入LDMSServer UI界面。
- 选择“监控 > 风险清单”,进入风险清单页面,可以查看当前的任务风险清单。
表监控
在表监控页面,可以查看当前表类型、存储、文件数等监控信息。
- 使用LDMS管理员用户登录FusionInsight Manager,选择“集群 > 服务 > LDMS”,进入LDMS服务页面。
- 在概览页签下的“基本信息”区域单击“LDMSServer UI”后的链接,进入LDMSServer UI界面。
- 选择“监控 > 表监控”,进入表监控页面。
- 在右上角的“数据库名”中搜索表所在的数据库,在“表名”中搜索表,并单击“搜索”,可以查看当前表的相关信息。
单击表名,会显示当前表存储大小、文件数、Schema版本数等监控信息的历史信息。
表详情分析
- 使用LDMS管理员用户登录FusionInsight Manager,选择“集群 > 服务 > LDMS”,进入LDMS服务页面。
- 在概览页签下的“基本信息”区域单击“LDMSServer UI”后的链接,进入LDMSServer UI界面。
- 选择“监控 > 表详情分析”,进入表详情分析页面。
新增分析作业
- 在表详情分析页面,单击“新增任务”,填写如下参数,单击“确定”。
- 任务名:填写任务名称。
- 数据库:选择已托管的数据库。
- 表名:选择已托管的表名。
- 分析类型:包含Compaction分析、clean分析、archive分析和分区存储分析(分区存储扫描支持全表扫描、从最近的Compaction开始扫描、从指定的commit开始扫描)。
- 单击右上角的“查询”,可以查看新增的任务。
- 在任务的操作列,可以对任务进行启停、删除操作。当任务完成后可以查看报告。
分析报告包括风险清单,未完成的Compaction计划,未归档的clean信息,各个分区的目录大小、文件数、最新的filesystem view中最大和最小的parquet文件,最大的log文件
- 单击任务的下拉菜单可以查看该任务的执行历史记录。
- 在任务的操作列,可以对任务进行启停、删除操作。当任务完成后可以查看报告。