前提条件
- 已经参考向量检索的集群规划完成集群创建,集群必须是7.6.2或7.10.2版本。
- 根据实际需要参考本章节下方“集群高级配置”完成集群高级设置。
创建向量索引
1.登录云搜索服务管理控制台。
2.在“集群管理”页面,选择需要启用向量检索的集群,单击操作列“Kibana”,登录Kibana界面。
3.单击左侧导航栏的“Dev Tools”,执行如下命令创建向量索引。
创建一个名为“my_index”的索引,该索引包含一个名为“my_vector”的向量字段和一个名为“my_label”的文本字段。其中,向量字段创建了GRAPH图索引,并使用欧式距离作为相似度度量。
PUT my_index
{
"settings": {
"index": {
"vector": true
}
},
"mappings": {
"properties": {
"my_vector": {
"type": "vector",
"dimension": 2,
"indexing": true,
"algorithm": "GRAPH",
"metric": "euclidean"
},
"my_label": {
"type": "text"
}
}
}
}
创建索引参数说明
类型 参数 说明 Index settings参数
vector
当需要使用向量索引加速时,需要设置该值为true。
Field mappings参数
type
字段类型,“vector”表示该字段为向量字段。
dimension
向量数据维度。
取值范围:[1, 4096]
indexing
是否开启向量索引加速。
可选值:
l false:表示关闭向量索引加速,向量数据仅写入docvalues,只支持使用ScriptScore以及Rescore进行向量查询。
l true:表示开启向量索引加速,系统将创建额外的向量索引,索引算法由"algorithm"字段指定,写入数据后可以使用VectorQuery进行查询。
默认值:false。
algorithm
索引算法。仅当“indexing”为“true”时生效。
可选值:
l FLAT:暴力计算,目标向量依次和所有向量进行距离计算,此方法计算量大,召回率100%。适用于对召回准确率要求极高的场景。
l GRAPH:图索引,内嵌深度优化的HNSW算法,主要应用在对性能和精度均有较高要求且单shard中文档数量在千万个以内的场景。
l GRAPH_PQ:将HNSW算法与PQ算法进行了结合,通过PQ降低原始向量的存储开销,能够使HNSW轻松支撑上亿规模的检索场景。
l IVF_GRAPH:算法将IVF与HNSW结合,对全量空间进行划分,每一个聚类中心向量代表了一个子空间,极大地提升检索效率,同时会带来微小的检索精度损失。适用于数据量在上亿以上同时对检索性能要求较高的场景。
l IVF_GRAPH_PQ:PQ算法与IVF-HNSW的结合,PQ可以通过配置选择与HNSW结合和IVF结合,进一步提升系统的容量并降低系统开销,适用于shard中文档数量在十亿级别以上同时对检索性能要求较高的场景。
默认值:GRAPH。
说明
当选择IVF_GRAPH或者IVF_GRAPH_PQ索引时,需要额外进行预构建中心点索引以及注册等步骤,具体内容请参考 (可选)预构建与注册。
见下表“可选参数说明”
当使用向量索引加速时(即“indexing”为“true”时),为了获得更高的查询性能以及查询精度,ES提供了与向量索引相关的可选参数配置。
metric
计算向量之间距离的度量方式。
可选值:
l euclidean:欧式距离。
l inner_product:内积距离。
l cosine:余弦距离。
l hamming:汉明距离。
默认值:euclidean
可选参数说明
类型 参数 说明 GRAPH类索引配置参数
neighbors 图索引中每个向量的邻居数,默认值为64,值越大查询精度越高。索引越大,构建速度以及后续的查询速度也会变慢。
取值范围:[10, 255]
shrink
构建hnsw时的裁边系数,默认值1.0f。
取值范围:(0.1, 10)
scaling
构建hnsw时上层图节点数的缩放比例,默认值50。
取值范围:(0, 128]
efc
构建hnsw时考察邻居节点的队列大小,默认值为200,值越大精度越高,构建速度将会变慢。
取值范围:(0, 100000]
max_scan_num
扫描节点上限,默认值为10000,值越大精度越高,索引速度变慢。
取值范围:(0, 1000000]
PQ类索引配置参数
centroid_num
每一段的聚类中心点数目,默认值为255。
取值范围:(0, 65535]
fragment_num
段数,默认值为0,插件自动根据向量长度设置合适的段数。
取值范围:[0, 4096]
导入向量数据
执行如下命令,导入向量数据。向“my_index”索引中写入向量数据时,需要指定向量字段名称和向量数据。
- 向量数据输入格式为逗号分隔的浮点型数组时:
POST my_index/_doc
{
"my_vector": [1.0, 2.0]
}
- 向量数据输入格式为小端字节序编码的Base64字符串时:
在向量维度较高、数值有效位较多时,使用Base64编码格式传输、解析更加高效。
POST my_index/_doc
{
"my_vector": "AACAPwAAAEA="
}
- 当写入大规模数据时,建议使用Bulk操作:
POST my_index/_bulk
{"index": {}}
{"my_vector": [1.0, 2.0], "my_label": "red"}
{"index": {}}
{"my_vector": [2.0, 2.0], "my_label": "green"}
{"index": {}}
{"my_vector": [2.0, 3.0], "my_label": "red"}
集群高级配置
- 在离线导入数据场景下,为了提高批量写入性能,建议将索引的refresh_interval参数设置为-1,即关闭自动刷新索引。
- 建议将备份数number_of_replicas设置为0,当离线数据导入完成后,再设置为需要的值。
- 其他高级功能的参数配置说明:
参数 | 说明 |
---|---|
native.cache.circuit_breaker.enabled | 是否开启堆外内存熔断。 默认值:true |
native.cache.circuit_breaker.cpu.limit | 向量索引堆外内存使用上限。 假设使用128GB内存的机器且堆内存大小为31GB,默认堆外内存使用上限为(128 - 31) * 45% = 43.65GB,堆外内存使用量超过该值将会触发写入熔断。 默认值:45% |
native.cache.expire.enabled | 是否开启缓存超时设置。开启时,如果某些缓存项长时间没有被访问过将会被清除。 取值范围:true、false 默认值:false |
native.cache.expire.time | 超时时长。 默认值:24h |
native.vector.index_threads | 创建底层索引时所使用的线程数,每个shard均会使用多个构建线程。该值建议不要设置过大,避免产生过多的构建线程抢占查询资源。 默认值:4 |