更新时间:2024-11-20 GMT+08:00

在Elasticsearch集群创建向量索引

创建向量索引的操作流程如下所示:

  1. (可选)准备工作:根据业务需要,完成集群高级配置。
  2. (可选)预构建与注册中心点向量:当选择使用“IVF_GRAPH”“IVF_GRAPH_PQ”索引算法创建向量索引时,则需要对中心点向量进行预构建和注册。
  3. 创建向量索引:基于业务场景创建向量索引。
  4. 导入向量数据:将向量数据导入集群。
  5. 在Elasticsearch集群使用向量索引搜索数据:进行向量查询。

前提条件

已经参考向量检索的集群规格规划完成集群创建,且集群版本是Elasticsearch 7.6.2、Elasticsearch 7.10.2或OpenSearch 1.3.6。

(可选)准备工作

在创建向量索引前,请根据业务场景,完成集群高级配置。

  • 在离线导入数据场景下,为了提高批量写入性能,建议将索引的“refresh_interval”参数设置为“-1”,即关闭自动刷新索引。
  • 建议将备份数“number_of_replicas”设置为“0”,当离线数据导入完成后,再设置为需要的值。
  • 其他高级功能的参数配置说明请参见表1
    表1 集群高级配置参数说明

    参数

    说明

    native.cache.circuit_breaker.enabled

    是否开启堆外内存熔断。

    默认值:true。

    native.cache.circuit_breaker.cpu.limit

    向量索引堆外内存使用上限。

    假设使用128GB内存的机器且堆内存大小为31GB,默认堆外内存使用上限为(128 - 31) * 45% = 43.65GB,堆外内存使用量超过该值将会触发写入熔断。

    默认值:45%。

    native.cache.expire.enabled

    是否开启缓存超时设置。开启时,如果某些缓存项长时间没有被访问过将会被清除。

    取值范围:true、false。

    默认值:false。

    native.cache.expire.time

    超时时长。

    默认值:24h。

    native.vector.index_threads

    创建底层索引时所使用的线程数,每个shard均会使用多个构建线程。该值建议不要设置过大,避免产生过多的构建线程抢占查询资源。

    默认值:4。

(可选)预构建与注册中心点向量

当创建向量索引时选择使用“IVF_GRAPH”“IVF_GRAPH_PQ”的索引算法,则需要对中心点向量进行预构建和注册。

在向量索引加速算法中,“IVF_GRAPH”“IVF_GRAPH_PQ”适用于超大规模场景。这两种算法需要通过对子空间的切割缩小查询范围,子空间的划分通常采用聚类或者随机采样的方式。在预构建之前,需要通过聚类或者随机采样得到所有的中心点向量。通过预构建和注册将中心点向量预构建成GRAPH或者GRAPH_PQ索引,同时注册到CSS集群内,实现在多个节点间共享此索引文件。中心点索引在shard间复用能够有效减少训练的开销、中心点索引的查询次数,提升写入以及查询的性能。

  1. 选择启用向量检索的集群,单击操作列“Kibana”,登录Kibana界面。
  2. 单击左侧导航栏的“Dev Tools”,进入操作界面。
  3. 创建中心点索引表。
    • 创建的索引命名为my_dict,注意该索引的number_of_shards数必须设置为1,否则无法注册。
    • 当需要使用IVF_GRAPH索引时,中心点索引的algorithm设置为GRAPH。
    • 当需要使用IVF_GRAPH_PQ索引时,中心点索引的algorithm设置为GRAPH_PQ。
    PUT my_dict 
     { 
       "settings": { 
         "index": { 
           "vector": true 
         }, 
         "number_of_shards": 1, 
         "number_of_replicas": 0 
       }, 
       "mappings": { 
         "properties": { 
           "my_vector": { 
             "type": "vector", 
             "dimension": 2, 
             "indexing": true, 
             "algorithm": "GRAPH", 
             "metric": "euclidean" 
           } 
         } 
       } 
     }
  4. 写入中心点向量数据。

    参考导入向量数据将采样或者聚类得到的中心点向量写入上述创建的my_dict索引中。

  5. 调用注册接口。

    将上述创建的my_dict索引注册具有全局唯一标识名称(dict_name)的Dict对象。

    PUT _vector/register/my_dict 
     { 
       "dict_name": "my_dict" 
     }
  6. 创建IVF_GRAPH或IVF_GRAPH_PQ索引。

    在创建IVF_GRAPH或者IVF_GRAPH_PQ索引时,不再需要指定dimension以及metric信息,只需指定之前注册好的dict名称即可。

    PUT my_index 
     { 
       "settings": { 
         "index": { 
           "vector": true,
           "sort.field": "my_vector.centroid" # 将向量字段的centroid子字段设置为排序字段
         } 
       }, 
       "mappings": { 
         "properties": { 
           "my_vector": { 
             "type": "vector", 
             "indexing": true, 
             "algorithm": "IVF_GRAPH", 
             "dict_name": "my_dict", 
             "offload_ivf": true 
           } 
         } 
       } 
     }
    表2 Field mappings参数

    参数

    说明

    dict_name

    指定依赖的中心点索引名称。该索引字段的向量维度和度量方式将与dict索引保持一致,不再需要额外指定。

    offload_ivf

    将底层索引实现的IVF倒排索引卸载到ES端实现,可以减少堆外内存的使用,以及减少写入/合并的性能开销。建议设置为true。

    取值范围:true、false。

    默认值:false。

创建向量索引

  1. 登录云搜索服务管理控制台。
  2. “集群管理”页面,选择需要启用向量检索的集群,单击操作列“Kibana”,登录Kibana界面。
  3. 单击左侧导航栏的“Dev Tools”,执行如下命令创建向量索引。

    创建一个名为“my_index”的索引,该索引包含一个名为“my_vector”的向量字段和一个名为“my_label”的文本字段。其中,向量字段创建了GRAPH图索引,并使用欧式距离作为相似度度量。

    PUT my_index 
    {
      "settings": {
        "index": {
          "vector": true
        }
      },
      "mappings": {
        "properties": {
          "my_vector": {
            "type": "vector",
            "dimension": 2,
            "indexing": true,
            "algorithm": "GRAPH",
            "metric": "euclidean"
          },
          "my_label": {
            "type": "keyword"
          }
        }
      }
    }
    表3 创建索引参数说明

    类型

    参数

    说明

    Index settings参数

    vector

    当需要使用向量索引加速时,需要设置该值为true。

    vector.exact_search_threshold

    用于设置在搜索过程中,从前置过滤搜索切换到暴力搜索的中间结果集大小的阈值控制参数。

    当Segment中过滤后的中间结果集的数量小于该参数值时,则执行暴力搜索。

    默认值为“null”,即不会切换为暴力搜索。

    Field mappings参数

    type

    字段类型,“vector”表示该字段为向量字段。

    dimension

    向量数据维度。取值范围:[1, 4096]。

    indexing

    是否开启向量索引加速。

    可选值:
    • false:表示关闭向量索引加速,向量数据仅写入docvalues,只支持使用ScriptScore以及Rescore进行向量查询。
    • true:表示开启向量索引加速,系统将创建额外的向量索引,索引算法由"algorithm"字段指定,写入数据后可以使用VectorQuery进行查询。

    默认值:false。

    algorithm

    索引算法。仅当“indexing”“true”时生效。

    可选值:
    • FLAT:暴力计算,目标向量依次和所有向量进行距离计算,此方法计算量大,召回率100%。适用于对召回准确率要求极高的场景。
    • GRAPH:图索引,内嵌深度优化的HNSW算法,主要应用在对性能和精度均有较高要求且单shard中文档数量在千万个以内的场景。
    • GRAPH_PQ:将HNSW算法与PQ算法进行了结合,通过PQ降低原始向量的存储开销,能够使HNSW轻松支撑上亿规模的检索场景。
    • IVF_GRAPH:算法将IVF与HNSW结合,对全量空间进行划分,每一个聚类中心向量代表了一个子空间,极大地提升检索效率,同时会带来微小的检索精度损失。适用于数据量在上亿以上同时对检索性能要求较高的场景。
    • IVF_GRAPH_PQ:PQ算法与IVF-HNSW的结合,PQ可以通过配置选择与HNSW结合和IVF结合,进一步提升系统的容量并降低系统开销,适用于shard中文档数量在十亿级别以上同时对检索性能要求较高的场景。
    默认值:GRAPH。
    说明:

    当选择IVF_GRAPH或者IVF_GRAPH_PQ索引时,需要额外进行预构建中心点索引以及注册等步骤,具体内容请参考(可选)预构建与注册中心点向量

    其他可选参数

    当使用向量索引加速时(即“indexing”“true”时),为了获得更高的查询性能以及查询精度,CSS提供了与向量索引相关的可选参数配置,参数说明请参见表4

    metric

    计算向量之间距离的度量方式。

    可选值:

    • euclidean:欧式距离。
    • inner_product:内积距离。
    • cosine:余弦距离。
    • hamming:汉明距离,仅支持设置"dim_type"为"binary"时使用。

    默认值:euclidean。

    dim_type

    向量维度值的类型。

    可选值:binary、float(默认)。

    表4 可选参数说明

    类型

    参数

    说明

    GRAPH类索引配置参数

    neighbors

    图索引中每个向量的邻居数,默认值为64,值越大查询精度越高。索引越大,构建速度以及后续的查询速度也会变慢。

    取值范围:[10, 255]。

    shrink

    构建hnsw时的裁边系数,默认值1.0f。

    取值范围:(0.1, 10)。

    scaling

    构建hnsw时上层图节点数的缩放比例,默认值50。

    取值范围:(0, 128]。

    efc

    构建hnsw时考察邻居节点的队列大小,默认值为200,值越大精度越高,构建速度将会变慢。

    取值范围:(0, 100000]。

    max_scan_num

    扫描节点上限,默认值为10000,值越大精度越高,索引速度变慢。

    取值范围:(0, 1000000]。

    PQ类索引配置参数

    centroid_num

    每一段的聚类中心点数目,默认值为255。

    取值范围:(0, 65535]。

    fragment_num

    段数,默认值为0,插件自动根据向量长度设置合适的段数。

    取值范围:[0, 4096]。

导入向量数据

执行如下命令,导入向量数据。向“my_index”索引中写入向量数据时,需要指定向量字段名称和向量数据。

  • 向量数据输入格式为逗号分隔的浮点型数组时:
    POST my_index/_doc
    {
      "my_vector": [1.0, 2.0]
    }
  • 向量数据输入格式为小端字节序编码的Base64字符串时:
    在写入二值向量,或向量维度较高、数值有效位较多时,使用Base64编码格式传输、解析更加高效。
    POST my_index/_doc
    {
      "my_vector": "AACAPwAAAEA="
    }
  • 当写入大规模数据时,建议使用Bulk操作:
    POST my_index/_bulk
    {"index": {}}
    {"my_vector": [1.0, 2.0], "my_label": "red"}
    {"index": {}}
    {"my_vector": [2.0, 2.0], "my_label": "green"}
    {"index": {}}
    {"my_vector": [2.0, 3.0], "my_label": "red"}