更新时间:2024-11-26 GMT+08:00
分享

Doris多租户监控告警介绍

Doris多租户基于内核Workload Group资源软限制方案实现,Workload Group只是限制组内任务在单个BE节点上的计算资源和内存资源的使用,所以租户没有整体资源池的概念,而是在执行查询任务时,动态的在各个BE节点上进行资源分配。

因此,Doris多租户的监控和告警是节点粒度的,在服务和租户粒度上,会进行适当的聚合处理。

Doris多租户监控

  • 租户资源监控

    在FusionInsight Manager首页,单击“租户资源”,在租户列表中单击Doris租户名称,“概述”页签的“资源配额”和“图表”对该租户下的资源的聚合监控:

    • CPU:租户CPU占用率平均值,统计该Doris租户下的所有BE节点的CPU占用率并取平均值。
    • 内存:租户内存使用大小平均值,统计该Doris租户下的所有BE节点的内存使用大小,并取平均值。
    • 并发数:租户查询并发数总和,统计该Doris租户下的所有FE节点的查询并发数,并求和。

    • “资源配额”是静态不刷新的,只有进入“概览”时,会查询当前资源使用情况;而“图表”是实时监控,每30秒刷新一次。
    • “图表”中的“租户CPU占用率平均值”的具体数值表示当前租户查询任务占用所有BE节点CPU资源的时间占比平均值。
    • 由于排队设计不感知FE的个数,所以租户设置的并发数只在FE粒度生效,因此,“图表”中的“租户查询并发数总和”代表租户整体的并发情况。
  • 服务级别监控

    在FusionInsight Manager首页,选择“集群 > 服务 > Doris > 图表”,在“图表分类”中选择“租户资源”,即可查看Doris服务相关资源所有租户的使用情况。

  • 实例级别监控

    在FusionInsight Manager首页,选择“集群 > 服务 > Doris > 实例”,单击需要查看租户资源使用情况的FE或BE实例,单击“图表”,在“图表分类”中选择“租户资源”,即可查看该节点相关资源所有租户的使用情况。

    图1 FE实例租户资源监控
    图2 BE实例租户资源监控

Doris多租户告警

Doris多租户告警主要涉及以下两个:

  • 并发数(告警ID为“50227”):如果租户在某个FE节点的并发数超过了限制的阈值(默认阈值为90%),就会产生告警。
  • 内存(告警ID为“50228”):如果租户在某个BE节点的内存占用超过了限额占比的阈值(紧急默认阈值为90%,重要默认阈值为85%),就会产生告警。
  • 内存阈值告警,只针对未开启内存软隔离的租户。
  • 在FusionInsight Manager界面,选择“运维 > 告警 > 告警”,单击具体告警左侧的,可在定位信息中确认上报告警的具体角色和节点。如果需要确认上报告警的具体租户,则需要在具体上报告警的FE或BE节点中查看相应的监控图表信息确认。

相关文档