Asymmetric Quantization: Near-Lossless Retrieval with 97% Storage Reduction

在人工智能与大模型时代，向量检索已成为搜索引擎、推荐系统、多模态应用等领域的核心基础设施。然而，随着数据规模的爆炸式增长，高维向量的巨大存储开销正成为制约系统性能的瓶颈。近日，一项名为“Asymmetric Quantization: Near-Lossless Retrieval with 97% Storage Reduction”（非对称量化：实现近无损检索与97%存储缩减）的研究成果引发广泛关注，为大规模向量检索的存储效率与精度平衡提供了全新解决方案。

背景：向量检索的“存储之痛”

传统向量检索系统中，每个数据点通常需要以浮点数（如32位或16位）存储，当数据量达到数十亿甚至万亿级别时，存储成本急剧攀升。例如，一个包含1000亿条128维向量（32位浮点）的索引，原始存储需求高达约47.6TB。尽管量化压缩技术（如乘积量化PQ、标量量化SQ）早已被用于降低存储，但大多数方法采用对称量化策略——即对数据库向量和查询向量使用相同的量化方式，这往往导致检索精度的显著下降。如何在近乎无损的前提下实现极高压缩比，是学界和工业界长期探索的难题。

技术原理：非对称量化的关键创新

该研究提出的“非对称量化”技术，其核心思想在于打破传统量化过程中查询向量与数据库向量之间的对称性约束。具体而言，该方法对数据库向量采用高压缩比的粗量化（如2位或4位量化），大幅减少每个向量的存储字节数；而对查询向量则保留原始精度或使用低压缩比的细量化（如8位或16位）。在检索阶段，系统通过精心设计的距离计算方式，将高精度查询与压缩后的数据库向量进行匹配，从而在极大降低存储的同时，保证检索精度接近原始全精度检索。

研究团队引入了两项关键优化：一是基于残差分层的非对称量化结构，通过多级残差补偿减少量化误差；二是自适应码本学习算法，能够根据数据集分布动态调整量化区间，使压缩后的向量尽可能保留原始空间中的近邻关系。实验表明，在2位量化条件下，平均存储空间仅为原始数据的1/32（即约97%的存储缩减，计算方式：1 - 2/64 ≈ 0.97），而检索Recall@10（前10个结果召回率）仅下降不到1%，部分数据集上甚至与全精度持平。

实验验证：性能与精度的双重胜利

研究者在多个标准基准数据集（如SIFT1M、Deep1M、GIST1M）以及工业级大规模数据集（包含10亿量级向量）上进行了全面测试。结果显示：

存储效率：相比全精度32位浮点存储，非对称量化将每个向量的存储开销从128字节（128维×4字节）降至4字节（2位量化下每维0.25字节），压缩比高达32倍。
检索精度：在Recall@1和Recall@10指标上，非对称量化均达到原始全精度检索的99%以上，部分高维数据集（如Deep1M-96维）上甚至实现100%的Recall@1。
查询速度：由于量化后的数据库向量占用更少内存，系统具有更好的缓存局部性，查询延迟同比降低约30%-50%。

应用前景：从云端到边缘

该技术的实际价值在于，它使得大规模向量检索能够在有限存储资源的环境中落地。例如，在智能手机或IoT设备上进行本地化检索时，原本无法容纳的亿级向量库现在仅需数百兆字节即可存储。对于云端服务，存储成本的大幅降低意味着可直接将更多数据保留在内存中，减少磁盘I/O，提升整体响应速度。

业界专家指出，非对称量化尤其适用于多模态检索、推荐系统、语义搜索等场景。以电商推荐为例，对数十亿用户行为向量进行近无损压缩后，系统可实时匹配用户偏好与商品特征，同时节省大量服务器运维成本。

结语

“非对称量化”方法的提出，标志着向量检索领域在存储效率与精度权衡上迈出了坚实一步。97%的存储缩减配合近无损的检索精度，为构建更大规模、更高效率的检索系统打开了新的可能性。未来，随着该方法与高效索引结构（如HNSW、IVF）的进一步融合，我们有理由相信，超大规模向量检索将不再受限于存储瓶颈，真正走向普惠化应用。

背景：向量检索的“存储之痛”

技术原理：非对称量化的关键创新

实验验证：性能与精度的双重胜利

应用前景：从云端到边缘

结语

相关阅读