文档首页/ 云搜索服务 CSS/ 用户指南/ 使用Elasticsearch搜索数据/ 管理Elasticsearch集群索引策略/ 通过索引生命周期管理实现Elasticsearch集群自动滚动索引
更新时间:2024-10-21 GMT+08:00
分享

通过索引生命周期管理实现Elasticsearch集群自动滚动索引

方案概述

对于时间序列数据,随着时间推移数据持续写入,索引会越来越大,通过生命周期管理来定期将数据滚动到新索引,并将历史老索引删除,实现自动滚动索引。

本案例通过配置生命周期策略,当索引的大小达到1TB或索引创建超过1天时,自动滚动生成新索引;当索引创建7天后,关闭数据副本;当索引创建30天后,删除该索引。

假设某个索引,其每天约产生2.4TB的数据,索引别名“log-alias”,其数据在Elasticsearch中的组织形态如下图所示查询时,指向所有test开头的索引;写入时,指向最新的索引。

图1 log-alias的组织形态

索引的滚动条件1天是以索引的创建时间来计算的,并不是完整自然日区分的。

前提条件

  • CSS集群处于可用状态。
  • 使用Elasticsearch 7.6.2或更高版本的集群。

通过索引生命周期管理实现自动滚动索引

  1. 登录云搜索服务管理控制台。
  2. 在左侧导航栏,选择对应的集群类型,进入集群列表页面。
  3. 在集群列表页面中,单击集群操作列的“Kibana”登录Kibana页面。
  4. 在Kibana的左侧导航中选择“Dev Tools”,进入命令执行页面。
  5. 创建Rollover生命周期策略“rollover_workflow”。

    策略定义:当索引的大小达到1TB或索引创建超过1天时,自动进行滚动;当索引创建7天后,关闭数据副本;当索引创建30天后,删除该索引。

    PUT _opendistro/_ism/policies/rollover_workflow
    {
      "policy": {
        "description": "rollover test",
        "default_state": "hot",
        "states": [
          {
            "name": "hot",
            "actions": [
              {
                "rollover": {
                  "min_size": "1tb",
                  "min_index_age": "1d"
                }
              }
            ],
            "transitions": [
              {
                "state_name": "warm",
                "conditions": {
                  "min_index_age": "7d"
                }
              }
            ]
          },
          {
            "name": "warm",
            "actions": [
              {
                "replica_count": {
                  "number_of_replicas": 0
                }
              }
            ],
            "transitions": [
              {
                "state_name": "delete",
                "conditions": {
                  "min_index_age": "30d"
                }
              }
            ]
          },
          {
            "name": "delete",
            "actions": [
              {
                "delete": {}
              }
            ]
          }
        ]
      }
    }

    当生命周期策略创建完成后,执行如下命令可以查询策略详情:

    GET _opendistro/_ism/policies/rollover_workflow
  6. 新建索引模板“template_test”。

    模板定义:新建的所有“test”开头的索引自动关联上Rollover生命周期策略“rollover_workflow”,并且Rollover时使用“log_alias”作为别名。

    PUT _template/template_test
    {
      "index_patterns": "test*",
      "settings": {
        "number_of_replicas": 1,
        "number_of_shards": 1,
        "opendistro.index_state_management.policy_id": "rollover_workflow",
        "index.opendistro.index_state_management.rollover_alias": "log_alias"
      },
      "mappings": {
        "properties": {
          "name": {
            "type": "text"
          }
        }
      }
    }
    表1 参数说明

    参数

    说明

    number_of_shards

    索引分片数

    number_of_replicas

    索引分片副本数

    opendistro.index_state_management.policy_id

    生命周期的策略名

    index.opendistro.index_state_management.rollover_alias

    rollover的索引别名

    当索引模板创建完成后,可以通过如下命令查询模板详情:

    GET _template/template_test
  7. 新建一个索引,指定“aliases”,并配置“is_write_index”“true”。该索引会自动应用索引模板“template_test”,并通过索引模板的配置与生命周期策略“rollover_workflow”相关联,实现当索引的大小达到1TB或索引创建超过1天时,自动进行滚动;当索引创建7天后,关闭数据副本;当索引创建30天后,删除该索引。
    如下索引是<test-{now/d}-000001>的URL编码,其创建时默认会带上当天的时间,例如当天日期是“2022.6.02”,创建出来的索引名称为“test-2022.06.02-000001”。
    PUT %3Ctest-%7Bnow%2Fd%7D-000001%3E
    {
      "aliases": {
        "log_alias": {
          "is_write_index": true
        }
      }
    }
  8. 使用别名“log_alias”写入数据,且写入时“log_alias”始终指向最后一个索引。
    POST log_alias/_bulk
    {"index":{}}
    {"name":"name1"}
    {"index":{}}
    {"name":"name2"}
    {"index":{}}
    {"name":"name3"}
    {"index":{}}
    {"name":"name4"}
    {"index":{}}
    {"name":"name5"}
    {"index":{}}
    {"name":"name6"}
  9. 查询数据,确认数据是否实现滚动索引。
    • 在索引创建一天后查看"test"开头的索引:
      GET _cat/indices/test*?s=i

      正常情况下会显示至少有两个索引,如下所示:

      green open test-<日期>-000001 r8ab5NX6T3Ox_hoGUanogQ 1 1 6 0 416b 208b
      green open test-<日期>-000002 sfwkVgy8RSSEw7W-xYjM2Q 1 1 0 0 209b 209b

      其中,“test-<日期>-000001”为7创建的索引,“test-<日期>-000002”为滚动生成的索引。

    • 查询别名“log_alias”关联的索引情况:
      GET _cat/aliases/log_alias?v

      正常情况下会显示该别名指向多个索引:

      alias     index                  filter routing.index routing.search is_write_index
      log_alias test-<日期>-000001      -      -             -              false
      log_alias test-<日期>-000002      -      -             -              true

相关文档