茶壶马桶分不清!Hinton:CNN存缺陷,胶囊网络才是未来

人工智能在经历漫长的发展寒冬之后,得益于深度学习和人工神经网络的进步,如今正炙手可热。


更准确地说,如今深度学习的成功很大程度上要归功于卷积神经网络(CNN)。


但是深度学习的先驱之一Geoffrey Hinton却在AAAI会议(主要的年度AI会议之一)上的主题演讲中谈到:CNN本身存在缺陷,胶囊网络才是未来。


具体原因为何,以下是国外作者Ben Dickson整理的Hinton演讲纪要,让我们一起探寻答案:


自从人工智能诞生之初,科学家就试图制造能够像人类一样看到世界的计算机,这就催生了统称为计算机视觉的领域。


计算机视觉的早期工作涉及符号人工智能的使用,其中必须由人类程序员指定每条规则的软件。问题在于,并非人类视觉设备的每个功能都可以在明确的计算机程序规则中分解。 该方法最终获得的成功和使用非常有限。


另一种方法是使用机器学习。 与符号AI相反,机器学习算法具有一般结构,并通过检查训练示例来释放它们自己的行为。 但是,大多数早期的机器学习算法仍然需要大量的人工来设计检测图像中相关特征的零件。


茶壶马桶分不清!Hinton:CNN存缺陷,胶囊网络才是未来

经典的机器学习方法涉及许多复杂的步骤,并且需要数十位领域专家,数学家和程序员的协作


另一方面,卷积神经网络是端到端的AI模型,它们发展了自己的特征检测机制。 训练有素的多层CNN会自动以分层的方式识别特征,从简单的边角开始到复杂的对象(例如脸,椅子,汽车,狗等)。


CNN最早是在1980年代由LeCun提出的,当时LeCun是多伦多大学Hinton实验室的博士后研究员。 但是由于它们对计算和数据的巨大需求,当时对CNN的采用非常有限。 经过三十年的发展,CNN的计算硬件和数据存储技术取得了长足的发展。


如今,由于大型计算集群,专用硬件和大量数据的可用性,卷积网在图像分类和对象识别中发现了许多有用的应用程序。


茶壶马桶分不清!Hinton:CNN存缺陷,胶囊网络才是未来

神经网络的每一层将从输入图像中提取特定特征


CNN和人类视觉之间的区别


“ CNN学会了端到端的一切。 事实证明,如果一项功能在某个地方不错,那么在其他地方也很不错,因此它赢得了巨大的胜利。 Hinton在AAAI演讲中说: “但是它们与人类的感知有很大不同。”


计算机视觉的主要挑战之一是处理现实世界中的数据差异。 我们的视觉系统可以从不同角度,在不同背景下以及在不同光照条件下识别物体。 当物体被其他物体部分遮挡或以偏心的方式上色时,我们的视觉系统会使用线索和其他知识来填充缺失的信息以及我们所见事物的原因。


实践证明,创建可以复制相同对象识别功能的AI非常困难。


Hinton说:“ CNN旨在应付翻译。” 这意味着训练有素的卷积网络可以识别对象,而不管其在图像中的位置如何。 但是他们并不能很好地处理视点变化的其他影响,例如旋转和缩放。


根据Hinton的说法,解决此问题的一种方法是使用4D或6D映射来训练AI,然后再执行对象检测。 他补充说:“但这真是令人望而却步。”


目前,我们最好的解决方案是收集大量图像,以不同位置显示每个对象。 然后,我们在这个庞大的数据集上训练我们的CNN,希望它能看到足够多的物体实例以进行概括,并能够在现实世界中以可靠的准确性检测物体。 ImageNet之类的数据集旨在实现这一目标,该数据集包含超过1400万个带注释的图像。


Hinton说:“这不是很有效。” “我们希望神经网络能够毫不费力地进行泛化。 如果他们学会了识别某些东西,并且将其放大10倍并旋转60度,那么这根本不会给它们带来任何问题。 我们知道计算机图形就是这样,我们希望使神经网络更像那样。”


实际上,ImageNet(目前是评估计算机视觉系统的首选基准)存在缺陷。 尽管数据集庞大,但无法捕获对象的所有可能角度和位置。 它主要由在理想照明条件下以已知角度拍摄的图像组成。


这对于人类视觉系统是可以接受的,它可以轻松地概括其知识。 实际上,从多个角度看待某个对象后,我们通常可以想象它在新位置和不同视觉条件下的外观。


但是,CNN需要详细说明它们需要处理的具体情况,而且他们没有人的创造力。 深度学习开发人员通常尝试通过应用称为“数据增强”的过程来解决此问题,在该过程中,他们在训练神经网络之前翻转图像或旋转少量图像。 实际上,CNN将在每个图像的多个副本上训练,每个副本略有不同。 这将帮助AI更好地对相同对象进行泛化。 数据扩充在某种程度上使AI模型更加鲁棒。


然而,数据扩充无法涵盖CNN和其他神经网络无法处理的极端情况,例如,椅子翘起或躺在床上的T恤衫弄皱。 这些是像素操纵无法实现的现实情况。


茶壶马桶分不清!Hinton:CNN存缺陷,胶囊网络才是未来

ImageNet与现实:在ImageNet(左列)中,对象放置整齐,处于理想的背景和光照条件下。 在现实世界中,事情变得更加混乱


目前,已经通过创建更好地表示现实世界的混乱视觉的计算机视觉基准和训练数据集来解决该泛化问题。 但是,

尽管它们可以改善当前AI系统的结果,但它们并不能解决跨视角泛化的根本问题。 这些新数据集始终不包含新的角度,新的照明条件,新的颜色和姿势。 那些新情况将使最大,最先进的AI系统困惑不已。


差异可能会很危险


从上面提出的观点来看,CNN显然以与人类截然不同的方式识别物体。 但是,这些差异不仅限于泛化能力弱,而且还需要更多示例来学习对象。 CNN产生的对象的内部表示形式也与人脑的生物神经网络非常不同。


“我可以拍摄一张图像,并增加一点点噪点,而CNN会将其识别为完全不同的东西,作为人类我却几乎看不到它已经改变。 这似乎真的很奇怪,我以此为依据证明CNN实际上是在使用与我们完全不同的信息来识别图像,”Hinton在AAAI会议上的主题演讲中说。


这些经过轻微修改的图像被称为“对抗性示例”,并且是AI界研究的热门领域。


茶壶马桶分不清!Hinton:CNN存缺陷,胶囊网络才是未来

对抗性示例可能会导致神经网络对图像进行错误分类,而对人眼却保持不变


Hinton说:“并不是说这是错的,他们只是以一种完全不同的方式来做,而且他们的完全不同的方式在泛化方式上也有所不同。”


但是许多例子表明,对抗性干扰可能是极其危险的。 当您的图像分类器错误地将熊猫标记为长臂猿时,一切都变得可爱有趣。 但是,当自动驾驶汽车的计算机视觉系统缺少停车标志,邪恶的黑客绕过面部识别安全系统或Google Photos将人类标记为大猩猩时,您就会遇到问题。


关于检测对抗性漏洞并创建可抵抗对抗性扰动的强大AI系统,已有许多研究。 但是,对抗性的例子也提醒我们:我们的视觉系统经过几代人的进化,可以处理我们周围的世界,我们也创造了我们的世界来适应我们的视觉系统。 因此,只要我们的计算机视觉系统以与人类视觉根本不同的方式工作,除非得到激光雷达和雷达测绘等互补技术的支持,否则它们将是不可预测且不可靠的。


坐标系和整体关系至关重要


Hinton在AAAI主旨演讲中指出的另一个问题是,卷积神经网络无法根据物体及其部位来理解图像。 它们将图像识别为以不同图案排列的像素斑点。 这些图像没有实体及其关系的显式内部表示。


“当您将CNN定位在各个像素位置的中心时,您会越来越多地描述该像素位置上发生的情况,这取决于越来越多的上下文。 最后,您获得了如此丰富的描述,以至于您知道图像中存在哪些对象。 但是它们并没有明确解析图像。”Hinton说。


我们对物体组成的了解有助于我们了解世界并了解我们之前从未见过的事物,例如这个奇异的茶壶。


茶壶马桶分不清!Hinton:CNN存缺陷,胶囊网络才是未来

将对象分解为多个部分有助于我们了解其性质。 这是马桶还是茶壶?


CNN还缺少坐标系,这是人类视觉的基本组成部分。 基本上,当我们看到一个物体时,我们会开发一个关于其方向的心理模型,这有助于我们解析其不同特征。 例如,在下面的图片中,考虑右边的脸。 如果您将其倒置,则脸会在左侧。 但实际上,您无需实际翻转图像即可看到左侧的面孔。 只需在心理上调整坐标框,就可以看到两个面孔,无论图片的方向如何。


茶壶马桶分不清!Hinton:CNN存缺陷,胶囊网络才是未来


“根据所施加的坐标系,您会有完全不同的内部感知。 卷积神经网络确实无法解释这一点。 您给他们一个输入,它们有一个洞察力,而洞察力与施加坐标系无关。 我想这与对抗性例子有关,也与卷积网以与人完全不同的方式进行感知这一事实有关。”Hinton说。


从计算机图形学中吸取经验


Hinton在AAAI会议上的演讲中指出,解决计算机视觉的一种非常方便的方法是制作逆图形。3D计算机图形模型由对象的层次结构组成。 每个对象都有一个转换矩阵,该矩阵定义了与其父对象相比的平移,旋转和缩放比例。 每个层次结构中顶级对象的变换矩阵定义了其相对于世界原点的坐标和方向。


例如,考虑汽车的3D模型。 基础对象具有4×4变换矩阵,该矩阵表示汽车的中心位于具有旋转(X = 0,Y = 0,Z = 90)的坐标(X = 10,Y = 10,Z = 0)处 。 汽车本身由许多对象组成,例如车轮,底盘,方向盘,挡风玻璃,变速箱,发动机等。每个对象都有自己的变换矩阵,与母矩阵(中心点)相比,它们定义了位置和方向。 汽车)。 例如,左前轮的中心位于(X = -1.5,Y = 2,Z = -0.3)。 左前轮的世界坐标可以通过将其变换矩阵乘以其父矩阵得到。


其中一些对象可能具有自己的子集。 例如,车轮由轮胎,轮辋,轮毂,螺母等组成。这些子项中的每个子项都有自己的变换矩阵。


使用这种坐标系层次结构,可以非常轻松地定位和可视化对象,而不管它们的姿势和方向或视点如何。 当您要渲染对象时,将3D对象中的每个三角形乘以其变换矩阵及其父级的变换矩阵。 然后将其与视点对齐(另一个矩阵乘法),然后在栅格化为像素之前转换为屏幕坐标。


“如果你(对从事计算机图形学工作的人)说,‘你能从另一个角度给我展示一下吗?’他们不会说,‘哦,好吧,我愿意,但我们没有从那个角度进行培训,所以我们不能从那个角度给你展示。’”“他们只是从另一个角度向你展示它,因为他们有一个3D模型,他们对空间结构建模,部分和整体之间的关系,这些关系完全不依赖于视角,”Hinton说。“我认为在处理3D物体的图像时,不使用这种漂亮的结构是很疯狂的。”


Hinton雄心勃勃的新项目Capsule Network尝试制作逆计算机图形。 尽管胶囊应该有自己的一套文章,但其背后的基本思想是拍摄图像,提取其对象及其零件,定义其坐标系并创建图像的模块化结构。


胶囊网络仍在研发中,自2017年推出以来,它们经历了多次迭代。 但是,如果Hinton和他的同事们成功地使他们发挥作用,我们将更接近复制人类的视野。


参考链接:

https://bdtechtalks.com/2020/03/02/geoffrey-hinton-convnets-cnn-limits/


分享到:


相關文章: