通过索引生命周期管理实现OpenSearch集群自动滚动索引
方案概述
对于时间序列数据,随着时间推移数据持续写入,索引会越来越大,通过生命周期管理来定期将数据滚动到新索引,并将历史老索引删除,实现自动滚动索引。
本案例通过配置生命周期策略,当索引的大小达到1TB或索引创建超过1天时,自动滚动生成新索引;当索引创建7天后,关闭数据副本;当索引创建30天后,删除该索引。
假设某个索引,其每天约产生2.4TB的数据,索引别名“log-alias”,其数据在集群中的组织形态如下图所示。查询时,指向所有test开头的索引;写入时,指向最新的索引。
索引的滚动条件1天是以索引的创建时间来计算的,并不是完整自然日区分的。
前提条件
- CSS集群处于可用状态。
- 使用OpenSearch集群。
通过索引生命周期管理实现自动滚动索引
- 登录云搜索服务管理控制台。
- 在左侧导航栏,选择对应的集群类型,进入集群列表页面。
- 在集群列表页面中,单击集群操作列的“Kibana”登录OpenSearch Dashboard页面。
- 在OpenSearch Dashboard的左侧导航中选择“Dev Tools”,进入命令执行页面。
- 创建Rollover生命周期策略“rollover_workflow”。
策略定义:当索引的大小达到1TB或索引创建超过1天时,自动进行滚动;当索引创建7天后,关闭数据副本;当索引创建30天后,删除该索引。
PUT _plugins/_ism/policies/rollover_workflow { "policy": { "description": "rollover test", "default_state": "hot", "states": [ { "name": "hot", "actions": [ { "rollover": { "min_size": "1tb", "min_index_age": "1d" } } ], "transitions": [ { "state_name": "warm", "conditions": { "min_index_age": "7d" } } ] }, { "name": "warm", "actions": [ { "replica_count": { "number_of_replicas": 0 } } ], "transitions": [ { "state_name": "delete", "conditions": { "min_index_age": "30d" } } ] }, { "name": "delete", "actions": [ { "delete": {} } ] } ], "ism_template": { "index_patterns": [ "test*" ], "priority": 100 } } }
当生命周期策略创建完成后,执行如下命令可以查询策略详情:
GET _plugins/_ism/policies/rollover_workflow
- 新建索引模板“template_test”。
模板定义:新建的所有“test”开头的索引自动关联上Rollover生命周期策略“rollover_workflow”,并且Rollover时使用“log_alias”作为别名。
PUT _template/template_test { "index_patterns": "test*", "settings": { "number_of_replicas": 1, "number_of_shards": 1, "index.opendistro.index_state_management.rollover_alias": "log_alias" }, "mappings": { "properties": { "name": { "type": "text" } } } }
表1 参数说明 参数
说明
number_of_shards
索引分片数
number_of_replicas
索引分片副本数
opendistro.index_state_management.policy_id
生命周期的策略名
index.opendistro.index_state_management.rollover_alias
rollover的索引别名
当索引模板创建完成后,可以通过如下命令查询模板详情:
GET _template/template_test
- 新建一个索引,指定“aliases”,并配置“is_write_index”为“true”。该索引会自动应用索引模板“template_test”,并通过索引模板的配置与生命周期策略“rollover_workflow”相关联,实现当索引的大小达到1TB或索引创建超过1天时,自动进行滚动;当索引创建7天后,关闭数据副本;当索引创建30天后,删除该索引。
如下索引是<test-{now/d}-000001>的URL编码,其创建时默认会带上当天的时间,例如当天日期是“2022.6.02”,创建出来的索引名称为“test-2022.06.02-000001”。
PUT %3Ctest-%7Bnow%2Fd%7D-000001%3E { "aliases": { "log_alias": { "is_write_index": true } } }
- 使用别名“log_alias”写入数据,且写入时“log_alias”始终指向最后一个索引。
POST log_alias/_bulk {"index":{}} {"name":"name1"} {"index":{}} {"name":"name2"} {"index":{}} {"name":"name3"} {"index":{}} {"name":"name4"} {"index":{}} {"name":"name5"} {"index":{}} {"name":"name6"}
- 查询数据,确认数据是否实现滚动索引。
- 在索引创建一天后查看"test"开头的索引:
GET _cat/indices/test*?s=i
正常情况下会显示至少有两个索引,如下所示:
green open test-<日期>-000001 r8ab5NX6T3Ox_hoGUanogQ 1 1 6 0 416b 208b green open test-<日期>-000002 sfwkVgy8RSSEw7W-xYjM2Q 1 1 0 0 209b 209b
其中,“test-<日期>-000001”为7创建的索引,“test-<日期>-000002”为滚动生成的索引。
- 查询别名“log_alias”关联的索引情况:
GET _cat/aliases/log_alias?v
正常情况下会显示该别名指向多个索引:
alias index filter routing.index routing.search is_write_index log_alias test-<日期>-000001 - - - false log_alias test-<日期>-000002 - - - true
- 在索引创建一天后查看"test"开头的索引: