数据库|向量将死,哈希是 AI 未来( 二 )
不过,这个概念并不是什么新鲜事,只是最新的技术发现了更多的优势。从历史上来看,LSH 使用了诸如随机投影、量化等技术,但它们的缺点是需要较大的哈希空间来保持精度,因此其优点在某种程度上被抵消了。
对于单个浮点数来说这是微不足道的,但是具有高维数(多个浮点数)的向量呢?
因此,神经哈希的新技巧是用神经网络创建的哈希替换现有的 LSH 技术,以此得到的哈希值可以使用非常快速的 Hammin 距离计算来估计它们的相似度。
这听起来虽然很复杂,但实际上并不太难。总体来看,神经网络就是优化了一个哈希函数,具体表现如下:
- 与原始向量相比,几乎完美地保留了所有的信息;
- 生成比原始向量尺寸小得多的哈希;
- 计算速度明显更快;
一般研究用于密集信息检索近似最近邻 (ANN)时,往往可以使用向量表示来搜索信息,这样可以帮助用户找到概念上相似的一些东西。但是,哈希中的局部敏感性却拥有更加强大的优势。
标记、同义词、词干提取、词形还原等问题占据了许多天才的整个职业生涯,但仍未完全解决。
谷歌创始人拉里佩奇(Larry Page)曾说过,在我们的有生之年,“搜索”并不能得到解决。

文章插图
想想看,这一代如此绝顶聪明的人,投资数十亿美元为何还得不到解决?
很明显,搜索技术落后于数据库主要是由于语言问题,我们在过去几年中看到了语言处理方面的革命,而且还在加速。并且从技术角度来看,我们还将看到基于神经的哈希消除搜索和数据库技术的障碍。
参考来源:https://medium.com/@hamishogilvy/vectors-are-over-hashes-are-the-future-of-ai-98c4dc33d8ee

文章插图
【 数据库|向量将死,哈希是 AI 未来】雷锋网雷锋网雷锋网
- 数据库|饿了么免单活动上热搜,是薅还是被薅羊毛?
- 北京市|36氪首发|云原生数据库公司「拓数派」完成新一轮战略融资,估值已达准独角兽级别
- 明码标价|3000元可购买整个学习通数据库?我们的信息被公开售卖,明码标价
- 数据库|撤离中国市场!美国科技巨头已全面关店,居然被一个小水杯击败
- 数据库|真国产之光?曝小米12 Ultra将搭载三款自研芯片,全方位加强!
- 数据库|云正日益主导IT格局,中国云服务市场继续保持强劲增长!
- 数据库|想要商店的顾客源源不断?试试UGC,让顾客成为品牌的最佳代言人!
- 数据库|非常实用的PC软件,每一款都是神器!!
- 数据库|618轻薄本全攻略!四款标配好屏幕的新品来袭,华硕好屏可闭眼入
- 数据库|realme突然发布新机,5000mAh+128GB,仅1099元起售价亲民
