创建向量索引

前提条件

已经参考向量检索的集群规划完成集群创建，集群必须是7.6.2或7.10.2版本。
根据实际需要参考集群高级配置完成集群高级设置。

创建向量索引

登录云搜索服务管理控制台。
在“集群管理”页面，选择需要启用向量检索的集群，单击操作列“Kibana”，登录Kibana界面。

单击左侧导航栏的“Dev Tools”，执行如下命令创建向量索引。

创建一个名为“my_index”的索引，该索引包含一个名为“my_vector”的向量字段和一个名为“my_label”的文本字段。其中，向量字段创建了GRAPH图索引，并使用欧式距离作为相似度度量。

PUT my_index 
{
  "settings": {
    "index": {
      "vector": true
    }
  },
  "mappings": {
    "properties": {
      "my_vector": {
        "type": "vector",
        "dimension": 2,
        "indexing": true,
        "algorithm": "GRAPH",
        "metric": "euclidean"
      },
      "my_label": {
        "type": "text"
      }
    }
  }
}

表1 创建索引参数说明
类型	参数	说明
Index settings参数	vector	当需要使用向量索引加速时，需要设置该值为true。
Field mappings参数	type	字段类型，“vector”表示该字段为向量字段。
	dimension	向量数据维度。默认值为768，暂不支持修改。取值范围：[1, 4096]。
	indexing	是否开启向量索引加速。可选值： false：表示关闭向量索引加速，向量数据仅写入docvalues，只支持使用ScriptScore以及Rescore进行向量查询。 true：表示开启向量索引加速，系统将创建额外的向量索引，索引算法由"algorithm"字段指定，写入数据后可以使用VectorQuery进行查询。默认值：false。
	algorithm	索引算法。仅当“indexing”为“true”时生效。可选值： FLAT：暴力计算，目标向量依次和所有向量进行距离计算，此方法计算量大，召回率100%。适用于对召回准确率要求极高的场景。 GRAPH：图索引，内嵌深度优化的HNSW算法，主要应用在对性能和精度均有较高要求且单shard中文档数量在千万个以内的场景。 GRAPH_PQ：将HNSW算法与PQ算法进行了结合，通过PQ降低原始向量的存储开销，能够使HNSW轻松支撑上亿规模的检索场景。 IVF_GRAPH：算法将IVF与HNSW结合，对全量空间进行划分，每一个聚类中心向量代表了一个子空间，极大地提升检索效率，同时会带来微小的检索精度损失。适用于数据量在上亿以上同时对检索性能要求较高的场景。 IVF_GRAPH_PQ：PQ算法与IVF-HNSW的结合，PQ可以通过配置选择与HNSW结合和IVF结合，进一步提升系统的容量并降低系统开销，适用于shard中文档数量在十亿级别以上同时对检索性能要求较高的场景。默认值：GRAPH。说明：当选择IVF_GRAPH或者IVF_GRAPH_PQ索引时，需要额外进行预构建中心点索引以及注册等步骤，具体内容请参考（可选）预构建与注册。
	表2	当使用向量索引加速时（即“indexing”为“true”时），为了获得更高的查询性能以及查询精度，CSS提供了与向量索引相关的可选参数配置。
	metric	计算向量之间距离的度量方式。可选值： euclidean：欧式距离。 inner_product：内积距离。 cosine：余弦距离。 hamming：汉明距离，仅支持设置"dim_type"为"binary"时使用。默认值：euclidean。
	dim_type	向量维度值的类型。可选值：binary、float（默认）。

表2 可选参数说明
类型	参数	说明
GRAPH类索引配置参数	neighbors	图索引中每个向量的邻居数，默认值为64，值越大查询精度越高。索引越大，构建速度以及后续的查询速度也会变慢。取值范围：[10, 255]。
	shrink	构建hnsw时的裁边系数，默认值1.0f。取值范围：(0.1, 10)。
	scaling	构建hnsw时上层图节点数的缩放比例，默认值50。取值范围：(0, 128]。
	efc	构建hnsw时考察邻居节点的队列大小，默认值为200，值越大精度越高，构建速度将会变慢。取值范围：(0, 100000]。
	max_scan_num	扫描节点上限，默认值为10000，值越大精度越高，索引速度变慢。取值范围：(0, 1000000]。
PQ类索引配置参数	centroid_num	每一段的聚类中心点数目，默认值为255。取值范围：(0, 65535]。
PQ类索引配置参数	fragment_num	段数，默认值为0，插件自动根据向量长度设置合适的段数。取值范围：[0, 4096]。

导入向量数据

执行如下命令，导入向量数据。向“my_index”索引中写入向量数据时，需要指定向量字段名称和向量数据。

向量数据输入格式为逗号分隔的浮点型数组时：
```
POST my_index/_doc
{
  "my_vector": [1.0, 2.0]
}
```

向量数据输入格式为小端字节序编码的Base64字符串时：
在写入二值向量，或向量维度较高、数值有效位较多时，使用Base64编码格式传输、解析更加高效。
```
POST my_index/_doc
{
  "my_vector": "AACAPwAAAEA="
}
```

当写入大规模数据时，建议使用Bulk操作：

POST my_index/_bulk
{"index": {}}
{"my_vector": [1.0, 2.0], "my_label": "red"}
{"index": {}}
{"my_vector": [2.0, 2.0], "my_label": "green"}
{"index": {}}
{"my_vector": [2.0, 3.0], "my_label": "red"}

集群高级配置

在离线导入数据场景下，为了提高批量写入性能，建议将索引的refresh_interval参数设置为-1，即关闭自动刷新索引。
建议将备份数number_of_replicas设置为0，当离线数据导入完成后，再设置为需要的值。

其他高级功能的参数配置说明：

表3 集群配置参数
参数	说明
native.cache.circuit_breaker.enabled	是否开启堆外内存熔断。默认值：true。
native.cache.circuit_breaker.cpu.limit	向量索引堆外内存使用上限。假设使用128GB内存的机器且堆内存大小为31GB，默认堆外内存使用上限为(128 - 31) * 45% = 43.65GB，堆外内存使用量超过该值将会触发写入熔断。默认值：45%。
native.cache.expire.enabled	是否开启缓存超时设置。开启时，如果某些缓存项长时间没有被访问过将会被清除。取值范围：true、false。默认值：false。
native.cache.expire.time	超时时长。默认值：24h。
native.vector.index_threads	创建底层索引时所使用的线程数，每个shard均会使用多个构建线程。该值建议不要设置过大，避免产生过多的构建线程抢占查询资源。默认值：4。

父主题： 向量检索

上一篇：向量检索的集群规划

下一篇：向量查询

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试