云搜索服务 CSS
云搜索服务 CSS
- 最新动态
- 功能总览
- 服务公告
- 产品介绍
- 计费说明
- 快速入门
-
用户指南
- CSS服务权限管理
-
使用Elasticsearch搜索数据
- Elasticsearch使用流程
- Elasticsearch集群规划建议
- 创建Elasticsearch集群
- 访问Elasticsearch集群
- 导入数据至Elasticsearch集群
- 使用Elasticsearch集群搜索数据
- 增强Elasticsearch集群搜索能力
- 配置Elasticsearch集群网络
- 备份与恢复Elasticsearch集群数据
- 扩缩容Elasticsearch集群
- 升级Elasticsearch集群版本
- 管理Elasticsearch集群
- 管理Elasticsearch集群索引策略
- Elasticsearch集群监控与日志管理
- 查看Elasticsearch集群审计日志
- 使用OpenSearch搜索数据
- 使用Logstash迁移数据
- CSS服务资源监控
- 最佳实践
- API参考
- SDK参考
- 场景代码示例
-
常见问题
- 产品咨询
- 计费相关
- CSS集群访问
- CSS集群迁移
-
CSS集群搜索引擎使用
- CSS服务中为什么新创建的索引分片集中分配到单节点上?
- CSS服务中Elasticsearch 7.x集群如何在index下创建type?
- CSS服务中如何配置Elasticsearch索引副本数量?
- CSS服务中Elasticsearch集群分片过多会有哪些影响?
- 如何查看CSS集群的分片数以及副本数?
- CSS服务中Elasticsearch集群的节点node.roles为i表示什么意思?
- CSS服务中如何设置Elasticsearch集群的默认分页返回最大条数?
- CSS服务中如何更新Elasticsearch生命周期策略?
- CSS服务中如何设置Elasticsearch集群慢查询日志的阈值?
- CSS服务中如何清理Elasticsearch索引数据?
- CSS服务中如何清理Elasticsearch缓存?
- 使用delete_by_query命令删除Elasticsearch集群数据后,为什么磁盘使用率反而增加?
- CSS服务的Elasticsearch集群是否支持script dotProduct?
-
CSS集群管理
- 如何查看CSS集群所分布的可用区?
- CSS服务中Filebeat版本与集群版本的关系是什么?
- 如何获取CSS服务的安全证书?
- CSS服务中如何转换CER安全证书的格式?
- CSS服务中Elasticsearch和OpenSearch集群支持修改安全组吗?
- CSS服务中Elasticsearch集群如何设置search.max_buckets参数?
- CSS服务中如何修改Elasticsearch和OpenSearch集群的TLS算法?
- CSS服务中如何开启Elasticsearch和OpenSearch集群的安全审计日志?
- CSS服务中是否支持停止集群?
- CSS集群冻结索引后如何查询OBS上的索引占用量?
- 如何查看Elasticsearch和OpenSearch集群的系统默认插件列表
- CSS集群备份与恢复
- CSS集群监控与运维
-
故障排除
-
访问集群类
- 无法正常打开Kibana
- Elasticsearch针对filebeat配置调优
- Spring Boot使用Elasticsearch出现Connection reset by peer问题
- 为什么集群创建失败
- Elasticsearch集群出现写入拒绝“Bulk Reject”,如何解决?
- Elasticsearch集群创建index pattern卡住,如何解决?
- 云搜索控制台页面提示系统繁忙
- Elasticsearch集群报错:unassigned shards all indices
- es-head插件连接Elasticsearch集群报跨域错误
- 单节点集群打开Cerebro界面显示告警
- ECS无法连接到集群
- 集群不可用
- 数据导入导出类
-
功能使用类
- 无法备份索引
- 无法使用自定义词库功能
- 快照仓库找不到
- 集群一直处于快照中
- 数据量很大,如何进行快照备份?
- 集群突现load高的故障排查
- 使用ElasticSearch的HLRC(High Level Rest Client)时,报出I/O Reactor STOPPED
- Elasticsearch集群最大堆内存持续过高(超过90%)
- Elasticsearch集群更改规格失败
- 安全集群索引只读状态修改报错
- Elasticsearch集群某一节点分配不到shard
- 集群索引插入数据失败
- CSS创建索引报错“maximum shards open”
- 删除索引报错“403 Forbidden”是什么原因?
- Kibana中删除index pattern报错Forbidden
- 执行命令update-by-query报错“Trying to create too many scroll contexts”
- Elasticsearch集群无法创建pattern
- 端口访问类
-
访问集群类
- 视频帮助
- 文档下载
- 通用参考
链接复制成功!
集群负载过高导致集群不可用
问题现象
“集群状态”为“不可用”,单击集群名称进入集群基本信息页面,选择“日志管理”,单击“日志查询”页签,可见日志内容存在报错“OutOfMemoryError”和警告“[gc][xxxxx] overhead spent [x.xs] collecting in the last [x.xs]”。
图1 频繁GC导致OOM

原因分析
集群负载过高,可能是有大量查询或写入任务堆积。当堆内存不足时,任务无法分配,将频繁触发GC,导致Elasticsearch进程异常退出。
处理步骤
如果集群长期处于高负载状态,则集群会存在写入、查询缓慢等情形,建议根据业务需要升级节点规格或者对集群节点的数量和存储容量进行扩容,使集群更好的满足业务需求。升级节点规格、扩容节点数量和节点存储容量的指导请参见扩容Elasticsearch集群。
- 查询集群是否存在任务堆积。
- 方式一:在Kibana的“Dev Tools”页面,分别执行以下命令查询是否存在任务堆积。
GET /_cat/thread_pool/write?v
GET /_cat/thread_pool/search?v
如下所示“queue”的值为非0,表示存在任务堆积。
node_name name active queue rejected css-0323-ess-esn-2-1 write 2 200 7662 css-0323-ess-esn-1-1 write 2 188 7660 css-0323-ess-esn-5-1 write 2 200 7350 css-0323-ess-esn-3-1 write 2 196 8000 css-0323-ess-esn-4-1 write 2 189 7753
- 方式二:在集群管理列表,单击集群操作列的“监控信息”查看监控指标,在集群监控信息页面查看集群的“Search队列中总排队任务数”和“Write队列中总排队任务数”,如果排队任务数值非0表示存在任务堆积。
图2 Write队列中总排队任务数示例
- 如果集群存在大量的任务堆积,则参考如下步骤优化集群。
- 在集群的“日志管理”页面查看节点日志,查看节点在OOM前是否存在大量慢查询日志记录,分析查询是否会对节点造成压力导致节点内存不足,如果存在则根据业务实际情况优化查询语句。
- 在集群的“日志管理”页面查看节点日志,查看节点日志是否有“Inflight circuit break”或“segment can't keep up”的报错信息,如果存在则可能是写入压力过大,对集群造成较大的压力导致熔断。需要查看监控信息,排查近期数据写入量(写入速率)是否存在激增,如果存在则根据业务实际情况合理安排写入高峰时间窗。
- 如果集群不存在任务堆积或者集群优化完依旧不可用,则执行下一步,查看集群是否压力过大。
- 方式一:在Kibana的“Dev Tools”页面,分别执行以下命令查询是否存在任务堆积。
- 查看集群是否压力过大。
在集群管理列表,单击集群操作列的“监控信息”查看监控指标,在监控信息页面查看CPU和堆内存相关指标,如“平均CPU使用率”和“平均JVM堆使用率”。如“平均CPU使用率”超过80%或“平均JVM堆使用率”高于70%,则说明集群当前压力较大。图3 “平均CPU使用率”示例
- 如果集群压力过大,请降低客户端的请求发送速率或扩容集群。
- 如果集群压力正常或降低发送请求速率后集群依旧不可用,则执行下一步,查看集群是否存在大量缓存。
- 在Kibana的“Dev Tools”页面,执行以下命令查询集群是否存在大量缓存。
GET /_cat/nodes?v&h=name,queryCacheMemory,fielddataMemory,requestCacheMemory
- 如果返回结果中queryCacheMemory、fielddataMemory或requestCacheMemory的数值超过堆内存的20%,则表示缓存过大,可执行命令POST _cache/clear清除缓存。这些缓存数据是在数据查询时生成的,目的是为了加快查询速度,当缓存清除则可能使查询时延增加。
name queryCacheMemory fielddataMemory requestCacheMemory css-0323-ess-esn-1-1 200mb 1.6gb 200mb
说明:
每个节点的最大堆内存可以执行如下命令查询:
GET _cat/nodes?v&h=name,ip,heapMax
其中,name为节点名称,ip为节点的IP地址。
- 如果排查优化后,集群依旧负载过高,则联系技术支持。
- 如果返回结果中queryCacheMemory、fielddataMemory或requestCacheMemory的数值超过堆内存的20%,则表示缓存过大,可执行命令POST _cache/clear清除缓存。这些缓存数据是在数据查询时生成的,目的是为了加快查询速度,当缓存清除则可能使查询时延增加。
父主题: 集群不可用