随着大模型与生成式AI的普及,向量数据库和向量检索能力正成为数据库厂商的核心竞争点。近日,蚂蚁集团自主研发的分布式数据库OceanBase正式披露了其向量检索模块的一项关键创新——VSAG索引。该索引声称能够在不损失召回率(Recall)的前提下,高效处理跨多分区的近似最近邻(ANN)搜索,为分布式环境下的大规模高维向量检索提供了全新的技术路径。
跨分区搜索的“召回困境”
在分布式数据库架构中,数据通常按某种策略(如哈希或范围)分散到多个分区。进行ANN搜索时,传统做法有两种:一是将所有分区的候选结果汇总后重新排序(即“召回-重排”模式),但这种方式需要传输大量候选向量,网络开销极大,且往往只能保留每个分区的top-K结果,容易丢失全局最优解;二是执行精确的全量搜索,但计算和通信成本高昂,无法满足低延迟场景。
“分布式环境下,跨分区ANN搜索的召回率损失一直是行业的痛点。”OceanBase向量检索团队负责人表示,“常见做法是在每个分区内先做近似搜索,再将局部结果合并,但局部非最优向量很可能在全局排名中反而靠前,合并后出现召回缺失,尤其是当向量分布不均匀时,问题更为严重。”
VSAG索引:分区感知的全局一致性设计
VSAG(Vector Similarity Aggregation Graph)索引在设计上突破了“先局部、后全局”的传统思路。其核心思想是:在构建索引阶段,就建立跨分区的图结构感知,使得在查询时能够以极小的通信代价还原全局近似。
具体而言,VSAG索引采取了以下关键技术:
1. 分区同步邻接表
每个分区在构建本地HNSW(Hierarchical Navigable Small World)图时,会同步记录指向其他分区的“跨区边”。这些边依据向量相似性生成,使得局部图结构天然包含全局拓扑信息。当查询向量到来时,搜索路径可以自然地跨越分区边界,而不需要等到全部分区结果返回后再合并。
2. 动态锚点合并机制
在搜索过程中,VSAG会维护一个全局候选队列。各分区并行探索时,不仅返回top-K向量,还会根据图的动态剪枝策略,返回一批“潜在高风险”向量(即那些在局部排名靠后但可能因分布偏移而在全局中排名靠前的向量)。这些向量经过分区间的轻量级通信合并,最终通过精确计算完成重排。
3. 无召回损失的理论保证
OceanBase官方提供的一项基准测试显示,在16个分区、千万级向量规模下,VSAG索引的召回率(@10)稳定在99.7%以上,几乎等同于全局精确搜索,而查询延迟仅为精确搜索的1/50。该团队指出,只要每个分区返回的候选集数量不低于全局查询的“有效容量”,并通过图结构确保候选向量在空间上的覆盖度,召回损失可以被完美消除。
实际场景价值:让分布式数据库真正成为AI基础设施
VSAG索引的发布,对于将传统OLTP数据库升级为支持向量检索的混合型数据库具有重要意义。在电商推荐、多模态搜索、RAG(检索增强生成)等典型场景中,数据往往天然分布在多个节点上,而用户期望得到与单机全局搜索一致的准确率。
“过去我们不得不将向量数据单独存储在专用向量数据库里,再与关系数据做关联,带来了数据一致性和运维复杂度。”一位资深数据库架构师评论道,“OceanBase将向量索引与分布式事务引擎深度融合,VSAG索引让跨分区ANN搜索不再是性能瓶颈,这是技术的一种务实突破。”
目前,该功能已在OceanBase 4.3版本中以预览特性开放。OceanBase团队表示,未来还将进一步优化内存占用和动态扩容场景下的索引重构效率,持续降低分布式向量检索的准入门槛。
随着VSAG索引的问世,分布式数据库在AI时代的竞争力被重新定义——不只要存得下,还要快得准,更要跨分区无感。这或许正是OceanBase向“AI原生数据库”迈进的关键一步。