首页 > AI资讯 > 最新资讯 > 理解生物视觉和计算机视觉之间的区别及存在的主要问题

理解生物视觉和计算机视觉之间的区别及存在的主要问题

新火种    2023-11-03

自人工智能诞生之初,科学家就一直梦想着创造出能“看到”世界的计算机。视觉在我们每天做的事情中扮演着关键的角色,破解计算机视觉的密码似乎是发展人工通用智能的主要步骤之一。

但就像人工智能的许多其他目标一样,事实证明,计算机视觉说起来容易做起来难。1966年,麻省理工学院的科学家启动了“夏季视觉项目”,这是一个为期两个月的项目,旨在创建一个能够识别图像中物体和背景区域的计算机系统。但实现这些目标所花的时间远不止一个暑假。事实上,直到2010年代早期,图像分类器和目标探测器才足够灵活和可靠,可以在主流应用中使用。在过去的几十年里,机器学习和神经科学的进步帮助计算机视觉取得了巨大的进步。但是,要建立一个像我们一样观察世界的人工智能系统,我们还有很长的路要走。

哈佛大学医学院教授加Gabriel Kreiman所著的《生物与计算机视觉》一书对人类和动物如何处理视觉数据以及我们在计算机复制这些功能方面取得的进展进行了详尽的描述。它有助于理解生物视觉和计算机视觉之间的区别,并详细描述了数十亿年的进化是如何让我们拥有一个复杂的视觉处理系统,以及对它的研究如何帮助激发出更好的计算机视觉算法。

1、硬件差异

生物视觉是数百万年进化的产物,我们可以从生物学中学习如何解决视觉问题,并将这些解决方案作为灵感来构建更好的算法。

的确,对视觉皮层的研究是计算机视觉和人工智能的一大灵感来源。但在将视觉进行数字化之前,科学家必须克服生物视觉和计算机视觉之间巨大的硬件差距。生物视觉在皮层细胞和有机神经元的相互连接的网络上运行。而计算机视觉是在晶体管组成的电子芯片上运行的。

神经科学和医学技术的进步使得以毫秒为粒度研究单个神经元的活动成为可能。这些研究的结果帮助开发了不同类型的人工神经网络,这种人工智能算法可以大概模拟哺乳动物大脑皮层区域的工作方式。近年来,神经网络已被证明是视觉数据模式识别中最有效的算法,并已成为许多计算机视觉应用的关键组成部分。

2、体系结构的差异

近几十年来,深度学习领域出现了一系列创新工作,帮助计算机模拟生物视觉的某些功能。卷积层的灵感来自于对动物视觉皮层的研究,卷积层在寻找视觉数据中的模式方面非常有效。池化层有助于泛化卷积层的输出,使其对视觉模式的位移不那么敏感。叠在一起,卷积和池化层块可以从寻找小图案(角、边等)一直到复杂物体(脸、椅子、汽车等)。

在生物学中,大脑中的信息会向多个方向移动:光信号从视网膜到颞下叶皮质,再到视觉皮层的V1、V2和其他层。但每一层也会向其前序阶段提供反馈。在每一层中,神经元相互作用并传递信息。所有这些互动和相互联系帮助大脑填补视觉输入的空白,并在信息不完整时做出推论。

相比之下,在人工神经网络中,数据通常朝着单一方向移动。卷积神经网络是“前馈网络”,意思是信息只从输入层传递到更高的层和输出层。有一种反馈机制叫做“反向传播”,可以帮助纠正错误并调整神经网络的参数。但是反向传播在计算上很昂贵,而且只用于神经网络的训练。目前还不清楚反向传播是否直接对应于皮层的反馈机制。另一方面,将高层的输出与前一层的输入相结合的循环神经网络在计算机视觉中的应用还很有限。

3、目标的差异

通过演进,已经发展出一种能够完成许多任务的神经结构。研究表明,我们的视觉系统可以动态地调整它对我们想要完成的目标的敏感度。然而,创建具有这种灵活性的计算机视觉系统仍然是一个重大挑战。

目前的计算机视觉系统是为完成一项任务而设计的。我们有神经网络可以分类物体,定位物体,将图像分割成不同的物体,描述图像,生成图像,等等。

但核心问题是理解“视觉惯例”——我们怎样才能以任务相关的方式灵活地传递视觉信息呢?从本质上说,你可以在一张图像上回答无数个问题,不只是标记对象,还可以计算对象,可以描述它们的颜色,它们的相互作用、大小等等。我们可以建立不同网络来做这些事情,但我们没有网络可以同时做所有这些事情。虽然通过问答系统可以找到一些有趣的方法,但与人类的表现相比这些算法但仍然相当原始。

4、集成的差异

在人类和动物中,视觉与嗅觉、触觉和听觉密切相关。视觉、听觉、躯体感觉和嗅觉皮质相互作用,从对方那里获取线索,以调整他们对世界的推断。而在AI系统中,这些内容都是独立存在的。

我们需要这种整合来制造更好的计算机视觉系统吗?作者说:“作为科学家,我们经常喜欢把问题分开来解决,我个人认为这是一个合理的开始方式。没有嗅觉和听觉,我们也能看得很清楚。例如卓别林的默片电影。如果一个人天生耳聋,他们仍然可以看得很清楚。虽然有很多有趣的跨模式相互作用的例子,但我认为,通过这种简化,我们将取得很大进展。”

然而,更复杂的问题是视觉与大脑中更复杂的区域的整合。人类的视觉与其他大脑功能如逻辑、推理、语言和常识深度融合。一些视觉问题可能花费更多的时间,需要将视觉输入与现有的世界知识相结合。语言和常识等领域本身就是人工智能的巨大挑战。但是,这些问题是可以单独解决,还是整合本身就是解决所有问题的关键,仍有待观察。

总结

在某种程度上,我们需要研究认知的所有其他方面,很难想象在没有语言和逻辑的情况下如何整合认知。希望在未来的几年里,将更多的语言和逻辑整合到视觉模型中;反之,也可以将视觉整合到语言模型中,这将是令人兴奋的重大努力。

声明:本文版权归原作者所有,转载请注明出处,请勿转载至外网或用于商业用途。

相关推荐
免责声明
本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。