内存流控
背景信息
Elasticsearch内部有熔断器机制,可以配置内存使用的阈值,当节点内存超过指定值时,会触发熔断,导致请求被中止或发生状态码为429的拒绝。而发生熔断拒绝的时间点是读取到整个客户端请求,该请求被节点完整读取,占用了一部分的堆内存。在请求被拒绝之前,为了防止请求完全进入节点,可以对客户端流量根据节点堆内存实时状态进行整流。
参数配置
在开启或关闭集群的内存流控时,执行命令涉及的配置参数如下:
配置名 |
类型 |
说明 |
---|---|---|
flowcontrol.memory.enabled |
Boolean |
内存流控开关,开启后持续监控内存使用情况。取值:
|
flowcontrol.memory.heap_limit |
String |
限制节点全局堆内存的使用率。超过此值将进行流量反压。 取值范围:10%-100% 默认值:90% |
flowcontrol.holding.in_flight_factor |
Float |
反压释放因子,原理类似于熔断器network.breaker.inflight_requests.overhead参数。内存达到限制值时,该值越大反压越强,写入流量将受限。 取值范围:≥0.5 默认值:1.0 |
flowcontrol.holding.max |
TimeValue |
每个请求最长的延迟时间,当延迟超过此值时可以设置断开该请求反压或断开请求链路。详见“flowcontrol.holding.max_strategy”配置。 取值范围:≥15s 默认值:60s |
flowcontrol.holding.max_strategy |
String |
超过最大延迟时间后的运行策略。取值:
|
flowcontrol.memory.once_free_max |
String |
被暂停的请求队列一次性最大重新打开的内存,防止强压场景下短暂的低内存现象一次性冲挂集群。 取值范围:1%-50% 默认值:10% |
flowcontrol.memory.nudges_gc |
Boolean |
写入压力过大时(1s检查一次反压连接池,所有现有连接均被阻塞无法放开新的写入请求),是否尽力触发垃圾回收,保证写入稳定性。取值:
|
- “flowcontrol.memory.enabled”和“flowcontrol.memory.heap_limit”是最重要的2个参数配置。enabled是内存流控开关,heap_limit是指节点堆内存的阈值。
- “flowcontrol.memory.heap_limit”默认值90%是一个比较保守的阈值,即堆内存大于90%使用量时会停止读取客户端超过64KB的大请求,直至堆内存下降。如堆内存下降到85%,会开始允许最多一次读取5% × 堆内存最大值的客户端数据量。如果堆内存持续超过90%,则无法放开客户端连接的请求读取,此时会尝试触发GC算法进行垃圾回收,直到堆内存低于所设定的阈值;
- 日常使用时可以将“flowcontrol.memory.heap_limit”阈值设置为80%或以下,保证节点有一定的堆内存余量,供写入内存以外的行为使用,比如:Elasticsearch查询、Segment merge等。
操作步骤
- 登录云搜索服务管理控制台。
- 在“集群管理”页面选择目标集群,单击操作列“Kibana”,登录Kibana界面。
- 单击左侧导航栏的“Dev Tools”,执行命令开启或关闭内存流控。
- 开启内存流控
PUT /_cluster/settings { "persistent": { "flowcontrol.memory.enabled": true, "flowcontrol.memory.heap_limit": "80%" } }
- 关闭集群内存流控
PUT /_cluster/settings { "persistent": { "flowcontrol.memory.enabled": false } }
- 开启内存流控