数据库|向量将死,哈希是 AI 未来

文章插图
事实上,人工智能的许多领域都可以从向量变为基于哈希的结构,带来飞跃的提升。本文将简要介绍哈希背后的应用逻辑,以及它为什么可能会成为 AI 的未来。
文章插图
哈希在数据的准确性识别、数据存储大小、性能、检索速度等方面具有突出的优势。更重要的是,它们本质上是概率性的,因此多个输入项可以共享相同的哈希值。
在向量表示中,浮点数往往是首选的数据表示形式,尽管它们在本质上比哈希更绝对,但它们却并不精确。
对于微小的数值变化(关于向量计算),二进制表示也可以有很大的不同,这些数值变化对模型预测几乎没有影响。
例如:取 0.65 vs 0.66 在 float64(64 位浮点)二进制中可以分别用这两个二进制数表示:
- 11111111100100110011001100110011001100110011001100110011001101
- 11111111100101000111101011100001010001111010111000010100011111
对于神经元来说,这听起来像是一件愚蠢的事情,人类的大脑肯定不会这样工作,它们显然不会使用浮点二进制表示来存储数字,除非有人可以记住圆周率小数点后六万多位。
事实上,我们的大脑神经网络是非常形象的,在处理复杂的小数和分数方面非常擅长。但是,当我们算到一半或四分之一时,就会立即想象出一些东西,比如半杯水、四分之一杯水或者披萨等其他东西,可能根本没有想到尾数和指数。
一个常用的提高浮点运算速度和使用更少空间的方法是将分辨率降低到 float16(16位),甚至是float8 (8位),它们的计算速度非常快,但缺点是,它会造成分辨率的明显下降。
由于浮点数运算很慢,所以它真的没有一点优势吗?
答案是否定的。芯片硬件和它们的指令集被设计来提高效率,并使更多的计算并行处理,而 GPU 和 TPU 现在正在被广泛使用,因为它们处理基于浮点的矢量算法更快。
研究表明,有一系列哈希算法的确可以做到这一点,它被称为局部敏感哈希(LSH)。原始项越接近,其哈希中的位也越接近相同。

文章插图
- 数据库|饿了么免单活动上热搜,是薅还是被薅羊毛?
- 北京市|36氪首发|云原生数据库公司「拓数派」完成新一轮战略融资,估值已达准独角兽级别
- 明码标价|3000元可购买整个学习通数据库?我们的信息被公开售卖,明码标价
- 数据库|撤离中国市场!美国科技巨头已全面关店,居然被一个小水杯击败
- 数据库|真国产之光?曝小米12 Ultra将搭载三款自研芯片,全方位加强!
- 数据库|云正日益主导IT格局,中国云服务市场继续保持强劲增长!
- 数据库|想要商店的顾客源源不断?试试UGC,让顾客成为品牌的最佳代言人!
- 数据库|非常实用的PC软件,每一款都是神器!!
- 数据库|618轻薄本全攻略!四款标配好屏幕的新品来袭,华硕好屏可闭眼入
- 数据库|realme突然发布新机,5000mAh+128GB,仅1099元起售价亲民
