更新时间:2024-12-02 GMT+08:00

内存流控

背景信息

Elasticsearch内部有熔断器机制,可以配置内存使用的阈值,当节点内存超过指定值时,会触发熔断,导致请求被中止或发生状态码为429的拒绝。而发生熔断拒绝的时间点是读取到整个客户端请求,该请求被节点完整读取,占用了一部分的堆内存。在请求被拒绝之前,为了防止请求完全进入节点,可以对客户端流量根据节点堆内存实时状态进行整流。

参数配置

在开启或关闭集群的内存流控时,执行命令涉及的配置参数如下:

表1 内存流控的配置参数说明

配置名

类型

说明

flowcontrol.memory.enabled

Boolean

内存流控开关,开启后持续监控内存使用情况。取值:

  • true
  • false(默认值)

flowcontrol.memory.heap_limit

String

限制节点全局堆内存的使用率。超过此值将进行流量反压。

取值范围:10%-100%

默认值:90%

flowcontrol.holding.in_flight_factor

Float

反压释放因子,原理类似于熔断器network.breaker.inflight_requests.overhead参数。内存达到限制值时,该值越大反压越强,写入流量将受限。

取值范围:≥0.5

默认值:1.0

flowcontrol.holding.max

TimeValue

每个请求最长的延迟时间,当延迟超过此值时可以设置断开该请求反压或断开请求链路。详见“flowcontrol.holding.max_strategy”配置。

取值范围:≥15s

默认值:60s

flowcontrol.holding.max_strategy

String

超过最大延迟时间后的运行策略。取值:

  • keep(默认值):若堆内存仍在高位,选择继续反压 - 何时执行请求仍由服务器根据实时内存自主决定。
  • soft:若堆内存仍在高位,也必须执行该请求。执行/拒绝权力交给inFlight熔断器。
  • hard:若堆内存仍在高位,丢弃该请求,同时断开该请求的客户端连接。

flowcontrol.memory.once_free_max

String

被暂停的请求队列一次性最大重新打开的内存,防止强压场景下短暂的低内存现象一次性冲挂集群。

取值范围:1%-50%

默认值:10%

flowcontrol.memory.nudges_gc

Boolean

写入压力过大时(1s检查一次反压连接池,所有现有连接均被阻塞无法放开新的写入请求),是否尽力触发垃圾回收,保证写入稳定性。取值:

  • true(默认值)
  • false
  • “flowcontrol.memory.enabled”“flowcontrol.memory.heap_limit”是最重要的2个参数配置。enabled是内存流控开关,heap_limit是指节点堆内存的阈值。
  • “flowcontrol.memory.heap_limit”默认值90%是一个比较保守的阈值,即堆内存大于90%使用量时会停止读取客户端超过64KB的大请求,直至堆内存下降。如堆内存下降到85%,会开始允许最多一次读取5% × 堆内存最大值的客户端数据量。如果堆内存持续超过90%,则无法放开客户端连接的请求读取,此时会尝试触发GC算法进行垃圾回收,直到堆内存低于所设定的阈值;
  • 日常使用时可以将“flowcontrol.memory.heap_limit”阈值设置为80%或以下,保证节点有一定的堆内存余量,供写入内存以外的行为使用,比如:Elasticsearch查询、Segment merge等。

操作步骤

  1. 登录云搜索服务管理控制台。
  2. “集群管理”页面选择目标集群,单击操作列“Kibana”,登录Kibana界面。
  3. 单击左侧导航栏的“Dev Tools”,执行命令开启或关闭内存流控。
    • 开启内存流控
      PUT /_cluster/settings
      {
        "persistent": {
          "flowcontrol.memory.enabled": true,
          "flowcontrol.memory.heap_limit": "80%"
        }
      }
    • 关闭集群内存流控
      PUT /_cluster/settings
      {
        "persistent": {
          "flowcontrol.memory.enabled": false
        }
      }