CSS服务资源监控与告警
当企业使用CSS服务进行搜索和数据分析时,业务连续性和系统稳定性至关重要。随着数据量剧增和查询请求波动,集群可能面临CPU飙升、磁盘写满或JVM内存溢出等风险。为了直观地掌握集群健康状况,识别性能趋势,并在异常发生前收到通知,CSS服务集成了云监控服务(CES),提供了监控大盘、总览页快捷监控及告警功能。通过可视化图表和智能告警机制,帮助您全面的观测CSS服务的资源水位与业务性能。
方式一:使用监控大盘进行趋势分析
CSS服务的监控大盘基于开箱即用的监控指标看板能力,为您提供一站式资源监控解决方案。通过整合云服务资源水位使用情况和核心业务指标,快速构建服务的监控视图,适合进行健康巡检和趋势分析。
监控大盘通过以下方式实现资源监控:
- 指标采集:基于云服务的核心资源指标进行数据采集。
- 预置看板:内置云服务的默认监控看板,用户无需手动配置指标即可快速查看监控视图。
- 数据可视化:通过图表和趋势分析,直观展示资源使用情况和业务运行状态。
约束限制:
- 区域限制:部分区域可能暂不支持监控大盘,界面会提示“区域不支持”。
- 配置限制:CSS控制台内的监控大盘为预置看板,不支持自定义指标。如需自定义看板,请单击右上角的“更多”前往云监控服务控制台配置。
- 范围限制:仅支持查看当前区域(Region)下的资源,不支持跨区域监控。
操作步骤:
- 登录云搜索服务管理控制台。
- 在左侧导航栏选择“监控大盘”,即可查看默认监控看板。
监控大盘包含以下核心指标:
- 资源指标:集群健康状态、平均索引速率、平均查询速率、最大CPU利用率、最大JVM堆使用率、最大节点Load值、分片数量、最大磁盘使用率、Write队列中总排队任务数、Search队列中总排队任务数。
- 数据指标:当前值、最大值、最小值、平均值、求和值。
- 趋势分析:支持周环比数据(本周比上周)和日环比数据(今天比昨天)。
方式二:在总览页查看关键指标
CSS服务的控制台总览页提供了一个轻量级的监控视图,适合在控制台进行快速健康扫视。
- 登录云搜索服务管理控制台。
- 在左侧导航栏选择“总览”。
- 在“监控”模块查看监控信息,以了解服务状态。
默认展示了一些核心指标的缩略图。
图1 监控信息
已删除资源的监控信息保留1小时,便于在资源删除后进行追踪和分析。
- (可选)自定义视图。
- 单击“编辑指标”,在弹窗中选择您最关注的指标(例如只看“集群健康状态”),并设置聚合方式和图标类型。
- 单击“确定”,保存自定义视图。
- 单击“更多”,可以前往云监控服务控制台查看云搜索服务的监控详情。
管理资源告警
CSS服务的控制台总览页提供了一个轻量级的告警视图,适合在控制台进行快捷了解资源告警。告警功能允许您设置阈值(例如最大CPU使用率>80%),当触发条件时,系统会通过短信或邮件通知运维人员,实现无人值守监控。
配置告警规则:
- 登录云搜索服务管理控制台。
- 在左侧导航栏选择“总览”。
- 在“告警”模块右上角,单击“告警配置”。
- 在告警配置弹框中配置告警规则。
- 启用推荐告警规则。CSS服务提供了推荐告警规则,开启后作用于当前区域全部资源。
- (可选)修改推荐告警规则。如果推荐告警规则不满足业务需求,可以单击“云监控一键告警”,前往云监控服务控制台修改推荐告警规则。操作指导请参见创建告警规则和通知。
图2 配置告警规则
- (可选)设置通知策略。如果需要通过短信或邮件发送告警信息,可以开启“是否批量设置通知策略”,选择通知策略,实现无人值守监控。
- 配置完成后,单击“确定”,保存告警规则。
查看告警:
- 登录云搜索服务管理控制台。
- 在左侧导航栏选择“总览”。
- 在“告警”模块查看告警信息。 图3 告警信息
- 鼠标悬停在资源名称上,浮层会显示告警情况。
- 单击“全部”,在“告警记录”弹窗中查看详细告警信息。