更新时间:2023-04-10 GMT+08:00
分享

写入性能优化

CSS集群在使用前,建议参考本文进行集群的写入性能优化,便于提高集群的写入性能,提升使用效率。

数据写入流程

图1 数据写入流程

当从客户端往Elasticsearch中写入数据时,写入流程如下:

  1. 客户端向Node1发送写数据请求,此时Node1为协调节点。
  2. 节点Node1根据数据的_id将数据路由到分片2,此时请求会被转发到Node3,并执行写操作。
  3. 当主分片写入成功后,它将请求转发到Node2的副本分片上。当副本写入成功后,Node3将向协调节点报告写入成功,协调节点向客户端报告写入成功。

Elasticsearch中的单个索引由一个或多个分片(shard)组成,每个分片包含多个段(Segment),每一个Segment都是一个倒排索引。

图2 Elasticsearch的索引组成

将文档插入Elasticsearch时,文档首先会被写入缓冲区中,然后在刷新时定期从该缓冲区刷新到Segment中。刷新频率由refresh_interval参数控制,默认每1秒刷新一次。

图3 文档插入Elasticsearch的流程

写入性能优化

基于Elasticsearch的数据写入流程分析,有以下几种性能优化方案。

表1 写入性能优化

序号

优化方案

方案说明

1

使用SSD盘或升级集群配置

使用SSD盘可以大幅提升数据写入与merge操作的速度,对应到CSS服务,建议选择“超高IO型”存储,或者超高IO型主机。

2

采用Bulk API

客户端采用批量数据的写入方式,每次批量写入的数据建议在1~10MB之间。

3

随机生成_id

如果采用指定_id的写入方式,数据写入时会先触发一次查询操作,进而影响数据写入性能。对于不需要通过_id检索数据的场景,建议使用随机生成的_id。

4

设置合适的分片数

分片数建议设置为集群数据节点的倍数,且分片的大小控制在50GB以内。

5

关闭副本

数据写入与查询错峰执行,在数据写入时关闭数据副本,待数据写入完成后再开启副本。

Elasticsearch 7.x版本中关闭副本的命令如下:

PUT {index}/_settings
{
  "number_of_replicas": 0
}

6

调整索引的刷新频率

数据批量写入时,可以将索引的刷新频率“refresh_interval”设置为更大的值或者设置为“-1”(表示不刷新),通过减少分片刷新次数提高写入性能。

Elasticsearch 7.x版本中,将更新时间设置为15s的命令如下:

PUT {index}/_settings
{
  "refresh_interval": "15s"
}

7

优化写入线程数与写入队列大小

为应对突发流量,可以适当地提升写入线程数与写入队列的大小,防止突发流量导致出现错误状态码为429的情况。

Elasticsearch 7.x版本中,可以修改如下自定义参数实现写入优化:thread_pool.write.size,thread_pool.write.queue_size;

8

设置合适的字段类型

指定集群中各字段的类型,防止Elasticsearch默认将字段猜测为keyword和text的组合类型,增加不必要的数据量。其中keyword用于关键词搜索,text用于全文搜索。

对于不需要索引的字段,建议“index”设置为“false”

Elasticsearch 7.x版本中,将字段“field1”设置为不建构索引的命令如下:

PUT {index}
{
  "mappings": {
    "properties": {
      "field1":{
        "type": "text",
        "index": false
      }
    }
  }
}

9

优化shard均衡策略

Elasticsearch默认采用基于磁盘容量大小的Load balance策略,多节点时,尤其是在新扩容的节点上,可能出现shard在各节点上分配不均的问题。为避免这类问题,可以通过设置索引级别的参数“routing.allocation.total_shards_per_node”控制索引分片在各节点的分布情况。此参数可以在索引模板中配置,也可以修改已有索引的setting生效。

修改已有索引的setting的命令如下:

PUT {index}/_settings
{
	"index": {
		"routing.allocation.total_shards_per_node": 2
	}
}
分享:

    相关文档

    相关产品