更新时间:2024-10-12 GMT+08:00

使用CES监控OpenSearch集群

云搜索服务支持通过云监控服务CES对已创建成功的集群进行日常监控。配置集群监控后,就可以在CES管理控制台直观查看集群的监控指标数据。

配置集群监控的操作流程:

  1. 配置告警规则:根据实际业务需要对监控指标设置自定义告警规则,当监控指标超过设置的阈值时,会以邮箱、HTTP、HTTPS等方式通知您。
  2. 配置监控对象:为集群或集群中某个节点配置监控指标。
  3. 查看集群的监控信息:您可以选择不同的监控时间周期,查看监控指标数据变化情况。

推荐配置的监控指标

  • 集群的日常监控,推荐重点配置如下监控指标:磁盘使用率、集群健康状态。
  • 监控集群的cpu、jvm使用情况,推荐重点配置如下监控指标:平均JVM堆使用率、最大JVM堆使用率、平均CPU使用率、最大CPU利用率。
  • 监控集群的写入、查询延迟和吞吐量情况,推荐重点配置如下监控指标:平均索引延迟、平均索引速率、平均查询延迟、平均查询速率。
  • 监控集群的写入、查询的排队队列和拒绝情况,推荐重点配置如下监控指标:Write队列中总排队任务数、Search队列中总排队任务数、Write队列中总的已拒绝任务数、Search队列中总的已拒绝任务数。

前提条件

  • 集群处于“可用”或“处理中”状态。
  • 集群正常运行时长大于10分钟。

配置告警规则

  1. 登录云监控服务CES管理控制台。
  2. 左侧导航栏选择“告警 > 告警规则”,进入告警规则列表页面。
  3. 在告警规则列表,搜索“资源类型”“云搜索服务”,查看是否有满足要求的告警规则。

    如果没有,请参考云监控服务CES的创建告警规则和通知,新建CSS服务的告警规则。其中,关键参数请参见表1,其他参数可以根据需求自定义。

    表1 告警规则的配置说明

    参数

    说明

    告警类型

    选择“指标”

    云产品

    选择“云搜索服务”

    资源层级

    选择“子维度”,右侧根据实际需求选择子维度。

    • “CSS集群”:以集群维度指定告警规则。
    • “CSS集群 - 云服务节点”:以集群中的某个节点维度指定告警规则。

配置监控对象

  1. 参考云监控服务CES的创建我的看板,创建一个监控面板。如果已有监控面板,可以跳过该步骤。
  2. 参考云监控服务CES的添加监控视图,添加CSS监控视图。

查看集群的监控信息

在集群列表查看集群和集群节点的监控信息。

  1. 登录云搜索服务管理控制台。
  2. 在左侧导航栏选择“集群管理”,进入对应类型的集群列表。
  3. 在集群列表,选择目标集群,单击操作列“监控信息”查看集群和节点监控信息。
    图1 查看监控信息
    • 选择“资源实例”页签,查看集群的监控指标。
      • 资源实例:选择要查看监控信息的集群,默认选择当前集群。支持多选,进行数据对比。
      • 支持设置监控时间,以及查看同一集群的同比/环比数据。
      • 添加视图分组:支持在默认分组的基础上新增自定义的分组。当鼠标悬停在左侧分组名称上,右侧会显示修改名称和删除分组的图标,可以修改分组。
      • 设置指标:在“设置监控指标”弹窗中,可以根据页面提示设置“原始指标”“TopN指标”
    • 选择“云服务节点”页签,查看集群节点的监控指标。只会显示“资源实例”页签中选择的第一个资源实例的节点监控信息。
      • 云服务节点:选择要查看监控信息的集群节点,默认选择当前集群的第一个节点。支持多选,进行数据对比。
      • 支持设置监控时间,以及查看同一集群的同比/环比数据。
      • 添加视图分组:支持在默认分组的基础上新增自定义的分组。当鼠标悬停在左侧分组名称上,右侧会显示修改名称和删除分组的图标,可以修改分组。
      • 设置指标:在“设置监控指标”弹窗中,可以根据页面提示设置“原始指标”