当前位置:首页 > 手机资讯 > 正文

es搜索引擎架构_浅谈以图搜图技术架构

es搜索引擎架构_浅谈以图搜图技术架构

以图搜图现在是大家很常见的功能了,淘宝的拍立淘、微信的拍照识物、以及各种人脸识别身份认证等等。

向量索引是指通过某种数学量化模型,对向量构建一种时间和空间都比较高效的数据索引结构,使得我们能够实时地获取跟查询向量尽可能最相近的K个向量。从定义可以看到,要设计一种高效的向量索引模型,应该满足3个基本条件,即:
1. 实时查询,支持海量(百亿、千亿级别)规模库量级的实时查询;
2. 存储高效,要求构建的向量索引模型数据压缩比高,达到大幅缩减内存使占用的目的;
3. 召回精度好,top@K有比较好的召回率,跟暴力搜索(brute-force search)的结果相比;

检索最简单的实现方案便是线性扫描数据库,也就是在全空间进行搜索,为了加快查找的速度,几乎所有的ANNS方法都是通过对全空间分割,将其分割成很多小的子空间,在搜索的时候,通过某种方式,快速锁定在某一(几)子空间,然后在该(几个)子空间里做遍历。可以看到,正是因为缩减了遍历的空间大小范围,从而使得ANNS能够处理大规模数据的索引。目前的向量索引分为四大类:基于树的方法、哈希方法、矢量量化方法、图索引量化方法,不同的索引方式也都有背后各自的产品和开源项目。比如由spotify开源的基于树的索引方式的向量搜索引擎Annoy。

https://github.com/spotify/annoy​github.com

用不同的特征会搜出来不同的,如何基于这些进行一次重新排序取决于应用的需要。我也没做过,所以就不班门弄斧了。

最新文章