人类感知和深度学习有何不同？

人类与机器相比为什么会产生错觉？人类感知和深度学习系统在识别图像与声音上有什么区别？它们是如何感知的，原理是什么？本文将对上述几个方面的内容给出详细解释。

我们如何看待这个世界？为了理解这一点，首先让我们探讨一下我们是如何错误地认识世界的。“矩阵中的瑕疵”（glitches in the matrix）将会向我们揭示我们感知的本质。

Victoria Syke创造了上图所示的视错觉效果，这张图片扰乱了我们的感知。这张图片给人的错觉是，深蓝色的线条都是倾斜的。你可以通过滚动图像使其与浏览器窗口顶部对齐或者从一个边逐步测量图像来证明这一点。

我想知道的是，为什么这种错觉会产生？我们的认知过程中，到底是什么导致了错觉的产生？

在上面的错觉中，你会注意到浅蓝色条纹和黑色条纹的相交区域中的元素在某一特定方向上会有越来越小的趋势。除此之外，你还会感觉到深蓝色条纹里的线条高度不同。当这两种视觉效果相互结合，就会给人一种错觉，即条纹具有不断向上或向下的趋势。

即使将图像旋转90度，浅蓝色条纹也会显示为平行。这是因为浅蓝色条纹上的深色图案和大小都是相同的，并且它们也处在同一水平线上。

Victoria Syke 创造这个图像的灵感来自于两个方面：Richard Gregory对于“咖啡墙错觉”（Cafe Wall Illusion）的观察以及Akiyoshi Kitaoka的“边缘错觉”（ Fringe Edge Illusion）理论。

当墙壁的砖块采用亮度对比非常明显的黑白两色进行交替排布时，视觉上就会显现出一种错觉的感受：

fineartamerica.com/featured/ca…

这种方式所产生的错觉效果是每块砖似乎比邻近的砖要更大（或更小）。Syke还利用了Akiyoshi Kitaoka的“边缘错觉”和星形联接错觉理论（Y-junction illusion）来进一步加强效果。顺便说一下，这种效果也可以在垂直方向上起作用。

边缘错觉

星形联接错觉（Y-junction illusion）

人脑显然没有将图像看成是一个整体。相反，它将图像视为多种图像的组合，同时识别出彼此之间的相邻关系。为什么相邻关系对我们的视觉有如此强烈的影响？我们现在已经进化到可以充分利用联想（affordances ）来帮助我们的大脑更快地重建图像。换句话说，我们的大脑可以立即识别出有助于我们理解场景的模式。我们的视觉感知自动执行一种语义推理，使得更高层次的语义模式不会被忽略。这就是为什么无论我们多么使自己坚信线条确实是水平的，但是像上面这样的幻觉还是会出现。

这种错觉效果也发生在音频领域。有一种被称为Shepard Tone（谢巴德音调）的听觉错觉。这种错觉是由三个上升的音调造成的。其中一个更高的音调会听起来更加低，中间的音调具有恒定的响度，第三个低音听起来变得更高。大脑产生的错觉是会听到两个总是上升的音调。下面这个视频是最好的例子（从0:40开始）：

图像和听觉系统中的错觉向我们揭示了人脑如何感知世界的。当我们的大脑看到彼此相互关联的图像和声音时，就会开始在脑海中通过想象来预测进展，即使是这种进展完全不存在也会这样做。人脑不能在超越它所看到的东西之外进行想象预测，因此就会进行错误的重建。你在看上面图片的时候，你不可能不会注意到倾斜的线条。如果你远看图像或以一定角度观察图像，则会消除一些细节对你的干扰，因此就可以正确地重构现实。

但为什么相对量对我们的生物学很重要？我们可以从艺术中学习到哪些元素会产生深度感：物体重叠、缩小比例、大气视角、垂直位置和线性视角。大脑充分利用这些联想来重建世界的三维视角。我们生活在三维世界中，我们的感官旨在理解并与这个世界互动。对物体三维结构的重构是导致视错觉的主要原因，棋盘的阴影错觉很好地解释了这个现象：

A和B具有相同的色调

下面链接中是另一组令人产生错觉的图像，它说明了人类大脑必须有足够的时间才能正确地重建其感知：

视频链接:https://www.youtube.com/watch?v=LcpliVYfEqk

在上面的实验中，当你的视线聚焦于中心时，你会注意到视线边缘的面部变得扭曲了。当图像闪现的达到一定速度，我们的大脑在感知图象时，会受到前后两张图片的干扰，但图像闪现的速度又没有慢到可以使我们的大脑来得及进行正确的图像重建，因此产生了现在看到的错觉效果。

人类大脑在图像识别上会使用联想的方法（例如捷径和启发式）来构建其用于感知的模式，而深度学习网络则不同，它完全依赖于图像捕捉。深度学习网络专门使用忽略某些不变性的网络进行训练(例如ConvNets翻译)，而人类大脑的工作方式似乎不同，我们习惯于使用语义传达的模式。深度学习网络没有经过人类这种联想的训练，因此它缺少了可用于语义传达的图像识别能力，为了达到我们在人类中发现的那种视觉感知，我们必须训练深度学习系统来学习一些基本的人类图像识别技巧，例如遮挡，透视和阴影：

为了说明深度学习系统的视觉认知与人类是多么不同，最近的一篇名叫《Investigating Human Priors for Playing Video Games》的文章研究了如何去除人类在游戏中由于联想产生的错觉：

这个实验对街机游戏的纹理进行了重新修改及渲染，在修改后的游戏中，人类表现都非常糟糕，但相比之下，深度学习系统在两款游戏中都表现相当，这说明了深度学习系统不需要使用人类经验。另一方面，人类可以通过进行少量的训练来学习一款游戏，是因为我们可以利用现有的人类经验（或联想）。这个实验告诉我们，人类可以通过先前的经验来进行快速地学习。

DeepMind 的Pyschlab（心理实验室）是一个探索深度学习和人类视觉识别之间差异的组织。Pyschlab包含许多人类和机器都能完成的实验。我们可以通过考察双方在表现上的差异，来了解它们在认知上的差异性。总的来说，我们可以观察到，人类可以同时采用混合并行处理和顺序处理两种形式，而机器只采用并行处理这一种方式，这一差异我们可以从任务完成度的下降中辨别出来：

这一数据表明了在人类大脑中有并行和顺序两种视线之间的区别，而深度学习系统似乎只有并行一种。确认人类大脑与我们当前的深度学习系统之间的差异性，就相当于揭示出了一个改进未来深度学习系统设计的途径。

DeepMind的另一篇发表在《BioArxi》杂志上的论文《Prefrontal cortex as a meta-reinforcement learning system》，提出大脑会使用两种不同的强化学习系统的论题。论题假设人类大脑中的强化学习系统是由多巴胺的释放所驱动的，这是一种奖励驱动学习的标准模式。DeepMind认为有两个强化学习系统，一个是基于标准多巴胺分泌的模式，第二个位于前额叶皮层，前额叶皮层学习会受前一个系统的影响。实际上，标准的多巴胺分泌模式已经学习了人类的先前经验(或联觉效应)，并利用它来指导对前额叶皮层更动态的学习。

所以每当我们看到一些东西，我们只能看到它在过往的人类经验中的形象。然而，正如你在人脸识别的例子中看到的，在工作中需要有一个认知过程，试图重建它所看到的东西。太快地停止重建过程，你就会看到它是如何发生错误的。我们的大脑始终采用启发式的方法，但我们发现启发式在很多方面都会出现错误。

视频链接:betterhumans.coach.me/cognitive-b…

杰弗里·辛顿(GeoffreyHinton)的胶囊网络（ Capsule Network）可能走在了正确的轨道上。在胶囊网络中，有两个重要的阶段，第一个阶段能够使用ConvNet识别对象的一部分，然后在第二阶段中，采用投票的形式表决识别对象的哪种组成形式是最有可能被感知的。这两个阶段，其中前者是对象的识别，后者是推理，这种深度学习网络似乎越来越受到研究界的重视。

视频链接: www.youtube.com/watch?v=pPN…

在二十世纪八十年代，由于计算机的发展，出现了一个新的领域，被称为计算科学，它不同于现有的科学方法(即理论和实验)。计算科学通过计算机模拟来探索物理系统。同样的，深度学习的研究也正在渗透到神经科学和心理学领域。也就是说，当我们将模拟与我们自身进行比较时，我们便开始了对自身本质的了解。

总的来说，深度学习的研究趋势，是开始对人类感知的本质的更深入地挖掘，并找出它与深度学习感知的不同之处。从一个深度学习研究者的角度来看，仅仅理解数学和技术是不够的，还必须对人类基本感知的特征有所了解。对于深度学习来说，识别相反特征是有难度的，这一点是公认的。要解决这样的问题，我们首先必须要理解为什么对于人类而言这个问题是不存在的。这正是杰弗里·辛顿(GeoffreyHinton)在他对“卷积网络有什么问题”的演讲中所论述的问题。

原文作者：Carlos E. Perez

原文链接：https://medium.com/intuitionmachine/our-minds-see-and-hear-only-what-we-imagine-dc303056171

译文仅作学习用途，转载请注明：本文来自UXC原创翻译，如有其他用途请联系作者

今天看啥 - 高品质阅读平台
本文地址：http://www.jintiankansha.me/t/oscHiK7T3M

人类感知和深度学习有何不同？

相关文章