炼数成金 门户 科学探索 算法 查看内容

受果蝇启发的哈希算法!用“生物学上合理的”突触可塑性规则生成哈希码

2020-2-24 11:41| 发布者: 炼数成金_小数| 查看: 33937| 评论: 0|来自: 新智元

摘要: 听说过FlyHash吗?这个算法的灵感来自于果蝇的嗅觉回路,它可以产生哈希码——物体的数字表示——其性能优于经典算法。不幸的是,由于FlyHash使用随机投影,它无法从数据中学习。为了克服这一限制,普林斯顿大学、圣 ...
听说过FlyHash吗?这个算法的灵感来自于果蝇的嗅觉回路,它可以产生哈希码——物体的数字表示——其性能优于经典算法。不幸的是,由于FlyHash使用随机投影,它无法从数据中学习。

为了克服这一限制,普林斯顿大学、圣地亚哥大学、IBM Research和MIT-IBM Watson AI实验室的研究人员开发了BioHash,它应用“局部”和“生物学上合理的”突触可塑性规则来生成hash码。他们说,它比之前发布的各种哈希方法的基准测试都要好,而且它可以生成对相似度搜索有用的二进制表示。


正如研究人员在一份预先印刷的论文中详细解释他们的工作,这种被称为扩展表征的现象在神经生物学中几乎无处不在。在此上下文中,“扩展”是指将高维输入数据映射到甚至更高维的辅助表示。例如,在上面提到的果蝇嗅觉系统中,大约有50个神经元将它们的活动发送到大约2500个叫做Kenyon的细胞中,实现了大约50倍的扩展。

从计算的角度来看,扩展可以增加AI模型的内存存储容量。正是基于这种动机,该团队设计了散列算法BioHash,可用于相似度搜索。

在相似度搜索中,给定一个查询、一个相似度度量和一个包含任意数量项的数据库,目标是从数据库中检索与查询最相似的项的排序列表。当数据是高维的(例如图像或文档),而数据库很大(以百万或数十亿计的条目为单位),这在计算上是一个具有挑战性的问题。但是,近似解通常是可以接受的,包括一种称为位置敏感哈希(LHS)的哈希方案,其中每个数据库条目都用二进制表示进行编码,并检索密切相关的条目。

FlyHash利用LHS, BioHash也是如此。但重要的是,BioHash速度更快,可扩展性更强。

研究人员在MNIST和CIFAR-10上对Biohash进行了培训和测试。MNIST是一组包含7万张灰度图像的手写数字,其中10类数字从“0”到“9”不等,CIFAR-10是一个包含6万张来自10类数字(如“car”、“bird”)的数据集。他们说,BioHash在速度方面表现出了较好的检索性能,远远超过了其他方法,而BioHash的改进版本——BioConvHash——由于加入了专门构建的过滤器,性能甚至更好。

该团队断言,这提供了证据,说明扩展表示之所以在生物中普遍存在,是因为它们执行LHS。换句话说,他们把相似的刺激聚在一起,把不同的刺激分开。“我们的工作为以下提议提供了证据:LHS可能是稀疏膨胀电路利用的基本计算原理……Biohash以数据驱动的方式产生稀疏的高维哈希码,并以神经生物学上可行的方式学习突触。”

事实证明,神经生物学和机器学习领域是密切相关的。谷歌母公司Alphabet旗下的DeepMind本月早些时候发表了一篇论文,研究大脑是否以概率分布(一种提供不同结果发生概率的数学函数)而非单一平均值来代表未来可能的奖励。谷歌和马克斯·普朗克神经生物学研究所的科学家最近展示了一种递归神经网络——一种经常用于手写和语音识别的机器学习算法——它可以映射大脑的神经元。

参考链接:
https://venturebeat.com/2020/01/21/ibms-biologically-inspired-ai-generates-hash-codes-faster-than-classical-approaches/

声明:文章收集于网络,版权归原作者所有,为传播信息而发,如有侵权,请联系小编删除,谢谢!

欢迎加入本站公开兴趣群
高性能计算群
兴趣范围包括:并行计算,GPU计算,CUDA,MPI,OpenMP等各种流行计算框架,超级计算机,超级计算在气象,军事,航空,汽车设计,科学探索,生物,医药等各个领域里的应用
QQ群:326600878

鲜花

握手

雷人

路过

鸡蛋

最新评论

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

 

GMT+8, 2020-7-9 12:00 , Processed in 0.129998 second(s), 23 queries .