文档首页/ 云搜索服务 CSS/ 故障排除/ 集群不可用/ 集群负载过高导致集群不可用

更新时间：2026-01-09 GMT+08:00

查看PDF

集群负载过高导致集群不可用

问题现象

“集群状态”为“不可用”，单击集群名称进入集群详情页面，选择“日志管理 > 日志查询”，可见日志内容存在报错“OutOfMemoryError”和警告“[gc][xxxxx] overhead spent [x.xs] collecting in the last [x.xs]”。

图1 频繁GC导致OOM
点击放大

点击放大

原因分析

集群负载过高，可能是有大量查询或写入任务堆积。当堆内存不足时，任务无法分配，将频繁触发GC，导致Elasticsearch进程异常退出。

处理步骤

如果集群长期处于高负载状态，则集群会存在写入、查询缓慢等情形，建议根据业务需要升级节点规格或者对集群节点的数量和存储容量进行扩容，使集群更好地满足业务需求。升级节点规格、扩容节点数量和节点存储容量的指导请参见扩容Elasticsearch集群。

查询集群是否存在任务堆积。
- 方式一：在Kibana的“Dev Tools”页面，分别执行以下命令查询是否存在任务堆积。
```
GET /_cat/thread_pool/write?v
```
```
GET /_cat/thread_pool/search?v
```
  如下所示“queue”的值为非0，表示存在任务堆积。
```
node_name                    name   active queue rejected
css-0323-ess-esn-2-1         write       2   200     7662
css-0323-ess-esn-1-1         write       2   188     7660
css-0323-ess-esn-5-1         write       2   200     7350
css-0323-ess-esn-3-1         write       2   196     8000
css-0323-ess-esn-4-1         write       2   189     7753
```
- 方式二：在集群管理列表，单击集群操作列的“监控指标”，在集群监控指标页面查看集群的“Search队列中总排队任务数”和“Write队列中总排队任务数”，如果排队任务数值非0表示存在任务堆积。
  图2 Write队列中总排队任务数示例
- 如果集群存在大量的任务堆积，则参考如下步骤优化集群。
  - 在集群的“日志管理 > 日志查询”页面，查看节点在OOM前是否存在大量慢查询日志记录，分析查询是否会对节点造成压力导致节点内存不足，如果存在则根据业务实际情况优化查询语句。
  - 在集群的“日志管理 > 日志查询”页面，查看节点日志是否有“Inflight circuit break”或“segment can't keep up”的报错信息，如果存在则可能是写入压力过大，对集群造成较大的压力导致熔断。需要查看监控信息，排查近期数据写入量（写入速率）是否存在激增，如果存在则根据业务实际情况合理安排写入高峰时间窗。
- 如果集群不存在任务堆积或者集群优化完依旧不可用，则执行下一步，查看集群是否压力过大。
查看集群是否压力过大。
在集群管理列表，单击集群操作列的“监控指标”，在监控指标页面查看CPU和堆内存相关指标，如“平均CPU使用率”和“平均JVM堆使用率”。如“平均CPU使用率”超过80%或“平均JVM堆使用率”高于70%，则说明集群当前压力较大。
图3 “平均CPU使用率”示例
- 如果集群压力过大，请降低客户端的请求发送速率或扩容集群。
- 如果集群压力正常或降低发送请求速率后集群依旧不可用，则执行下一步，查看集群是否存在大量缓存。
在Kibana的“Dev Tools”页面，执行以下命令查询集群是否存在大量缓存。
```
GET /_cat/nodes?v&h=name,queryCacheMemory,fielddataMemory,requestCacheMemory
```
- 如果返回结果中queryCacheMemory、fielddataMemory或requestCacheMemory的数值超过堆内存的20%，则表示缓存过大，可执行命令POST _cache/clear清除缓存。这些缓存数据是在数据查询时生成的，目的是为了加快查询速度，当缓存清除则可能使查询时延增加。
```
name                         queryCacheMemory fielddataMemory requestCacheMemory 
css-0323-ess-esn-1-1                    200mb           1.6gb              200mb          
```
  每个节点的最大堆内存可以执行如下命令查询：
```
GET _cat/nodes?v&h=name,ip,heapMax
```
  其中，name为节点名称，ip为节点的IP地址。
- 如果排查优化后，集群依旧负载过高，则联系技术支持。

父主题： 集群不可用

上一篇：数据类型不兼容导致集群不可用

下一篇：集群Client节点过载

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消