文档首页/ 云搜索服务 CSS/ 故障排除/ 功能使用类/ 集群突现load升高的故障排查

更新时间：2025-10-11 GMT+08:00

查看PDF

集群突现load升高的故障排查

问题现象

集群任务被长时间拒绝，且大量任务出现卡死的情况，在Cerebro界面可以看到集群的load数值突然飙升。

原因分析

集群出现load升高的可能原因如下：

查询请求命中的数据较多导致查询线程执行缓慢。
写入压力过大导致很多线程出现卡死现象。

排查步骤

方法1：Cerebro工具

登录云搜索服务管理控制台。
在左侧导航栏，选择“集群管理”，根据目标集群选择集群类型，进入集群列表页面。
找到load飙升的集群，单击集群操作列的“更多 > Cerebro”进入可视化页面。
查看cpu和heap指标，如果这两个指标过高则说明集群当前压力较大，客户端可以适当减少大请求发送，等待集群压力下降。
查看shards是否合理，官方建议单个shard大小为20-40GB，建议不要超过50GB；单个节点上的同一索引shard数不要超过5个。

方法2：Kibana工具

登录云搜索服务管理控制台。
在左侧导航栏，选择“集群管理”，根据目标集群选择集群类型，进入集群列表页面。
如果是Elasticsearch集群，则在集群列表单击操作列的“Kibana”，登录Kibana。如果是OpenSearch集群，则在集群列表单击操作列的“Dashboards”，登录OpenSearch Dashboards。
在左侧导航栏选择“Dev Tools”，进入操作页面。
执行如下命令，查看哪些线程任务堆积，定位是什么原因导致的集群压力倍增。
```
GET _cat/thread_pool?v
```
执行如下命令可以查看当前占用大量CPU且执行时间很长的线程，定位何处导致任务积压。
```
GET /_nodes/hot_threads
```

父主题： 功能使用类

上一篇：数据量很大，如何进行快照备份？

下一篇：使用Elasticsearch的HLRC（High Level Rest Client）时，报错I/O Reactor STOPPED

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消