文档首页/ 云搜索服务 CSS/ 故障排除/ 功能使用类/ 集群突现load升高的故障排查
更新时间:2025-09-04 GMT+08:00
分享

集群突现load升高的故障排查

问题现象

集群任务被长时间拒绝,且大量任务出现卡死的情况,在Cerebro界面可以看到集群的load数值突然飙升。

原因分析

集群出现load升高的可能原因如下:

  • 查询请求命中的数据较多导致查询线程执行缓慢。
  • 写入压力过大导致很多线程出现卡死现象。

排查步骤

方法1:Cerebro工具

  1. 登录云搜索服务管理控制台
  2. 在左侧导航栏,选择“集群管理”,根据目标集群选择集群类型,进入集群列表页面。
  3. 找到load飙升的集群,单击集群操作列的“更多 > Cerebro”进入可视化页面。
  4. 查看cpu和heap指标,如果这两个指标过高则说明集群当前压力较大,客户端可以适当减少大请求发送,等待集群压力下降。
  5. 查看shards是否合理,官方建议单个shard大小为20-40GB,建议不要超过50GB;单个节点上的同一索引shard数不要超过5个。

方法2:Kibana工具

  1. 登录云搜索服务管理控制台
  2. 在左侧导航栏,选择“集群管理”,根据目标集群选择集群类型,进入集群列表页面。
  3. 如果是Elasticsearch集群,则在集群列表单击操作列的“Kibana”,登录Kibana。如果是OpenSearch集群,则在集群列表单击操作列的“Dashboards”,登录OpenSearch Dashboards。
  4. 在左侧导航栏选择“Dev Tools”,进入操作页面。
  5. 执行如下命令,查看哪些线程任务堆积,定位是什么原因导致的集群压力倍增。
    GET _cat/thread_pool?v
  6. 执行如下命令可以查看当前占用大量CPU且执行时间很长的线程,定位何处导致任务积压。
    GET /_nodes/hot_threads

相关文档