写入性能优化

CSS集群在使用前，建议参考本文进行集群的写入性能优化，便于提高集群的写入性能，提升使用效率。

数据写入流程

图1 数据写入流程

当从客户端往Elasticsearch中写入数据时，写入流程如下：

客户端向Node1发送写数据请求，此时Node1为协调节点。
节点Node1根据数据的_id将数据路由到分片2，此时请求会被转发到Node3，并执行写操作。
当主分片写入成功后，它将请求转发到Node2的副本分片上。当副本写入成功后，Node3将向协调节点报告写入成功，协调节点向客户端报告写入成功。

Elasticsearch中的单个索引由一个或多个分片(shard)组成，每个分片包含多个段（Segment），每一个Segment都是一个倒排索引。

图2 Elasticsearch的索引组成

将文档插入Elasticsearch时，文档首先会被写入缓冲区中，然后在刷新时定期从该缓冲区刷新到Segment中。刷新频率由refresh_interval参数控制，默认每1秒刷新一次。

图3 文档插入Elasticsearch的流程

写入性能优化

基于Elasticsearch的数据写入流程分析，有以下几种性能优化方案。

表1 写入性能优化
序号	优化方案	方案说明
1	使用SSD盘或升级集群配置	使用SSD盘可以大幅提升数据写入与merge操作的速度，对应到CSS服务，建议选择“超高IO型”存储，或者超高IO型主机。
2	采用Bulk API	客户端采用批量数据的写入方式，每次批量写入的数据建议在1~10MB之间。
3	随机生成_id	如果采用指定_id的写入方式，数据写入时会先触发一次查询操作，进而影响数据写入性能。对于不需要通过_id检索数据的场景，建议使用随机生成的_id。
4	设置合适的分片数	分片数建议设置为集群数据节点的倍数，且分片的大小控制在50GB以内。
5	关闭副本	数据写入与查询错峰执行，在数据写入时关闭数据副本，待数据写入完成后再开启副本。 Elasticsearch 7.x版本中关闭副本的命令如下： PUT {index}/_settings { "number_of_replicas": 0 }
6	调整索引的刷新频率	数据批量写入时，可以将索引的刷新频率“refresh_interval”设置为更大的值或者设置为“-1”（表示不刷新），通过减少分片刷新次数提高写入性能。 Elasticsearch 7.x版本中，将更新时间设置为15s的命令如下： PUT {index}/_settings { "refresh_interval": "15s" }
7	优化写入线程数与写入队列大小	为应对突发流量，可以适当地提升写入线程数与写入队列的大小，防止突发流量导致出现错误状态码为429的情况。 Elasticsearch 7.x版本中，可以修改如下自定义参数实现写入优化：thread_pool.write.size，thread_pool.write.queue_size；
8	设置合适的字段类型	指定集群中各字段的类型，防止Elasticsearch默认将字段猜测为keyword和text的组合类型，增加不必要的数据量。其中keyword用于关键词搜索，text用于全文搜索。对于不需要索引的字段，建议“index”设置为“false”。 Elasticsearch 7.x版本中，将字段“field1”设置为不建构索引的命令如下： PUT {index} { "mappings": { "properties": { "field1":{ "type": "text", "index": false } } } }
9	优化shard均衡策略	Elasticsearch默认采用基于磁盘容量大小的Load balance策略，多节点时，尤其是在新扩容的节点上，可能出现shard在各节点上分配不均的问题。为避免这类问题，可以通过设置索引级别的参数“routing.allocation.total_shards_per_node”控制索引分片在各节点的分布情况。此参数可以在索引模板中配置，也可以修改已有索引的setting生效。修改已有索引的setting的命令如下： PUT {index}/_settings { "index": { "routing.allocation.total_shards_per_node": 2 } }

父主题： 优化集群性能

上一篇：优化集群性能

下一篇：查询性能优化

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试