如何利用物理思想帮助机器“升维学习”?

学无国界

我们是知识的搬运工

福利时间

今天我们将送出由中信出版集团提供的优质科普书籍《上帝的骰子》。

如何利用物理思想帮助机器“升维学习”?

量子力学是什么?量子理论跟我又有什么关系?

它是现代科学的前沿阵地,研究比原子还小的微观世界。它一出生就离经叛道,和牛顿分庭抗礼,长大后又把爱因斯坦打得头破血流。人类进入信息新时代,量子技术居功至伟。没有它,就没有电脑、互联网、激光、导航、量子通信和计算机……量子与你我同在。

《上帝的骰子》是一本可以笑着看完的量子物理漫画书,集故事性和科学性于一体。普朗克、爱因斯坦、玻尔、海森伯、薛定谔轮番登场,上演大神的战争,让你轻松了解量子前沿科技。

只要你认真阅读下面的这篇文章,思考文末提出的问题,严格按照 互动:你的答案 格式在评论区留言,就有机会获得奖品!

翻译:xux

审校:Nuor

无论观察角度如何变化,物理学定律都一如既往。如今,计算机基于这一理念,拥有了在更高维的弯曲空间中分析识别的能力。

如何利用物理思想帮助机器“升维学习”?

新的深度学习技术有望比以前更准确地识别CT扫描中的肺部肿瘤,有朝一日可能实现更好的医学诊断。

发展到现在,计算机已经可以驾驶汽车,称霸象棋和围棋之类的棋盘游戏,甚至还可以撰写散文。人工智能的革命很大程度上源于一种人工神经网络的力量。这种神经网络有些特殊,其设计灵感来自哺乳动物视觉皮层中神经元的“连接层”。事实证明,这些“卷积神经网络(convolutional neural network,CNN)”擅长学习二维数据中的模式——尤其是识别手写的文字或者图片中的物体。

但是,在处理计算机三维动画中形状不规则的模型,或者自动驾驶汽车分析周边环境而生成的“点云”时,这种强大的机器学习架构表现得并不好。这些数据集中没有内置的平面几何形状,超出了卷积神经网络的能力范围。2016年前后,出现了一种称为几何深度学习(geometric deep learning)的新学科,目的就是让卷积神经网络“离开平地”,摆脱只能处理二维数据的窘境。

最近,研究人员提供了一个新的理论框架,由此构建的神经网络可以学习任意几何表面上的图案模式。由阿姆斯特丹大学和高通AI研究中心的塔可·科恩、莫里斯·韦勒、伯克利·基卡纳奥格鲁和马克斯·韦林(Taco Cohen,Maurice Weiler,Berkay Kicanaoglu和Max Welling)开发的这些“等规卷积神经网络 (gauge-equivariant convolutional neural networks)”,不仅可以检测二维像素阵列中的模式,对检测球体和不对称的弯曲物体也不在话下。韦林说:“这个框架完美地解决了曲面深度学习的问题。”

全球气候的模拟数据自然地映射到球面上。等规卷积神经网络在学习这一模式方面,已经大大超越了它的前辈。对于可以在三维水平上捕捉物体的无人机和无人汽车,这一框架也有用武之地。心脏,大脑等器官是由不规则曲面构成的,在分析这些复杂数据的时候,等规卷积神经网络同样可以大施拳脚。

如何利用物理思想帮助机器“升维学习”?

高通公司和阿姆斯特丹大学的机器学习研究者塔科·科恩是等规卷积神经网络的首席设计师之一。

深度学习能够跳出“平地”的解决方案,与物理学也有着深厚的联系。像阿尔伯特·爱因斯坦的广义相对论和粒子物理学的标准模型那样,描述世界的物理理论表现出一种称为“规范不变性(gauge equivariance)”的性质。这意味着世间的物理量及它们之间关系,不依赖于任意的参照系(或“规范”);无论观察者是移动还是静止不动,无论尺子上的数字差得多远,它们都保持一致。在那些不同的仪器上进行的测量是可以相互转换的,转换公式蕴含在彼此之间的内在关系中。

例如,以码或者米为单位测量一个足球场的长度,得到的数字是不同的,但其中规律是不变的。同样,两位摄影师从两个不同的位置拍摄物体,会产生不同的图像,但是这些图像可以彼此关联。等规可确保物理学家的现实模型保持一致,无论观察角度或测量单位如何。等规卷积神经网络对数据做出了相同的假设。

纽约大学的物理学家凯尔·克兰默(Kyle Cranmer)将机器学习用来研究粒子物理学。他说:“(物理学的)想法是,没有哪个方向是特殊的。他们希望把这一原则用在神经网络上,而且他们真的做到了。”

摆脱“平地”

伦敦帝国理工学院的计算机科学家迈克尔·布朗斯坦(Michael Bronstein)在2015年创造了“几何深度学习”一词,用以描述为“摆脱平地”而进行的初创工作,并设计了可以学习非平面数据模式的神经网络。这个词和研究工作很快流行起来。

布朗斯坦和他的合作者知道,超越欧几里德平面将要求他们重新构想一种基本的计算程序,该程序首先应使神经网络在二维图像识别方面有效。此过程称为“卷积”,它使神经网络中的一层对输入数据的每一块执行数学运算,然后将结果传递到网络中的下一层。

“大致上,你可以将卷积视为可以滑动的窗口,”布朗斯坦解释说。卷积神经网络将许多这些“窗口”作用到数据上,就像过滤器一样,每一个都旨在检测数据中的某种模式。如果是猫的照片,经过训练的卷积神经网络可能会使用检测原始输入像素中低级特征(例如边缘)的过滤器。这些特征将传递到网络中的其他层,执行另外的卷积操作,并提取更高阶的特征(例如眼睛,尾巴或三角形的耳朵)。

接受过识别猫训练的卷积神经网络最终将使用这些分层卷积的结果为整个图像分配标签(例如“猫”或“非猫”)。

如何利用物理思想帮助机器“升维学习”?

1. 特征检测装置在图片上滑过,每个过滤器与图片中每个块之间的匹配度被记录下来,产生一组特征映射。2. 经过操作之后,特征映射又可以利用卷积求解更高维的特征。3. 最后,神经网络学会辨别,正确分类图片。

但是这种方法仅适用于平面。韦林说:“当要分析的表面变弯时,你就遇上麻烦了。”

在曲面(在几何学上称为流形)上进行卷积,就像在地球上拿着一小块半透明的方格纸,试图准确地追踪格陵兰岛的海岸线。你不能在不使纸张起皱的情况下将正方形按在格陵兰岛上,这意味着当你再次将其放平时,你的图形会变形。

同时,将纸与地球表面相切放置,然后穿过这张透明纸片描绘格陵兰岛的边缘,这种方法(称为Mercator投影)也会产生变形。

另外,你也可以索性将方格纸放在平坦的世界地图上描边,但是这相当于在复制这些变形——就像地图的整个上边缘其实只代表一个点(北极)。

如果流形并不像球体那样是一个规则的球体,而是一个更复杂更不规则的东西,比如瓶子,或者折叠的蛋白质,那么在它上进行卷积就变得更加困难。

布朗斯坦和他的合作者在2015年找到了解决非欧氏流形上的卷积问题的一种解决方案,方法是将滑动窗口重新想象成类似圆形蜘蛛网的形状,而不是一张方格纸。这样就可以将其压向地球(或任何弯曲的表面),而不会使其弯曲,拉伸或撕裂。

以这种方式改变滑动滤波器的属性,能够使卷积神经网络更好地“懂得”某些几何关系。例如,网络可以自动识别出弯曲成两个不同姿势的三维形状(例如,一个站立的人和一个抬起一条腿的人)是同一物体,而不是两个完全不同的对象。这一变化也使神经网络的学习效率

大大提高。布朗斯坦说,常规的卷积神经网络“需要花数周时间,使用数百万个形状示例进行训练;我们使用了大约100种形状的不同姿势,并进行了大约半小时的训练。”

同时,塔科·科恩和他在阿姆斯特丹的同事开始从相反的方向着手解决同一问题。2015年,当时还是研究生的科恩没有研究如何将深度学习“带离平地”。相反,他对一个他认为的实际工程问题很感兴趣:数据效率,或者如何用比少于通常需要的数千或数百万个示例来训练神经网络。科恩说:“深度学习方法是非常缓慢的学习者。”如果你正在训练卷积神经网络来识别猫(从互联网上无休止地提供猫的图像),那么这几乎没有问题。但是,如果你希望网络检测到更重要的内容(例如肺组织图像中的癌症结节),那么找到足够的训练数据并非一件易事——这需要数据在医学上有很好的准确性,已经被很好地贴标签分好类,并且没有隐私问题。训练网络所需的示例越少越好。

科恩知道,一种提高神经网络数据效率的方法是预先给数据某些假设。例如,即使肺肿瘤在图像中旋转或翻转,它仍然是肺肿瘤。通常,要想让卷积网络学会这一点,必须从头开始,用许多“不同方向的同一物体”这样的例子来训练它。2016年,科恩和韦林合著了一篇论文,定义了如何将“几何对称”这样的假设编码为神经网络。这种方法行之有效,2018年,科恩和共同作者玛丽莎·温克尔斯(Marysia Winkels)进一步推广了该方法,将其应用在CT扫描中,用于识别肺癌,得到了很好的效果:他们的神经网络仅使用训练其他网络所用数据的十分之一,即可得到该疾病的可见证据。

阿姆斯特丹的研究人员还在不断推广。这就是他们的通往规范不变性之路。

拓展不变性

物理和机器学习具有基本的相似性。正如科恩所说:“两个领域都涉及进行观测,然后建立模型来预测未来的观测。”他指出,至关重要的是,这两个领域都不在于寻求单个事物的模型。对氢原子有一种描述,对颠倒的氢原子有另一种描述,这是不可取的,这应当去描述属于同一类别的东西。“当然,物理学在这方面已经非常成功。”

自爱因斯坦以来,物理学家们用等方差(或“协方差”,物理学家偏爱的术语)这一假设来推广他们的模型。阿姆斯特丹大学的理论物理学家米兰达·程(Miranda Cheng)解释说:“这只是意味着,如果要描述某种物理的规则,那么它应该与你使用哪种‘标尺’,或更笼统地说,你是什么样的观察者无关。”她与科恩等人撰写了一篇论文,探讨了物理学与等规卷积神经网络之间的联系。就像爱因斯坦本人在1916年所说的那样:“自然的一般定律应由对所有坐标系都适用的方程式表示。”

如何利用物理思想帮助机器“升维学习”?

阿姆斯特丹大学物理学家米兰达·程。

卷积网络通过利用该原理的一个简单例子“平移不变性”,成为深度学习中最成功的方法之一。检测图像中特定特征(例如垂直边缘)的窗口过滤器,会在整张图片上滑动(或“平移”),并对所有这些垂直边缘的位置进行编码;然后,它会创建一个标记这些位置的“特征图”,并将其传递到网络的下一层。平移不变性使得创建特征图成为可能:神经网络“假定”同一特征可以出现在二维平面中的任何位置,并且无论垂直边缘在右上角还是在左下角,都能够将其识别出来。

韦勒说:“等变神经网络的重点就是把这些明显的对称性放入网络体系结构中,这就跟免费的午餐似的。”(译者注:机器学习领域有“没有免费的午餐”定理,代表没有最优算法。这里自然引入物理的对称性,使得体系信息增加,更能达到最优化。)

到2018年,韦勒,科恩及其博士导师韦林扩大了“免费午餐”的范围,将其他不变性包括在内。他们的“组等价的”(“group-equivariant”)卷积神经网络可以在无需训练的情况下检测平面图像中的旋转或反射特征;球面卷积神经网络可以根据球体表面上的数据创建特征图,而无需将其变形为平面投影。

这些方法仍然不够通用,无法处理凹凸不平的不规则结构上的数据。这些结构涵盖了几乎所有的几何形状,从土豆到蛋白质,再到人体,再到时空弯曲。对于神经网络,这些类型的流形没有“全局”对称性来做出不变性假设。每个位置都是不同的。

如何利用物理思想帮助机器“升维学习”?

标准卷积神经网络不适用于弯面。一个在曲面上的边缘检测窗口经过滑动其取向会根据其路径改变,而且过滤器在不同的情况下会产生不同的特征。

挑战在于,将扁平过滤器在表面上滑动会改变过滤器的方向,取决于其采用的路径。想象一下设计用于检测简单图案的过滤器:左侧为深色斑点,右侧为浅色斑点。在平面网格中上下左右滑动它,它将始终保持左深右浅。但是,即使在球体的表面上,这种情况也会改变。如果将滤镜围绕球体的赤道移动

180度,则过滤器的方向将保持不变:左侧为深色斑点,右侧为浅色斑点。但是,如果从球体的北极将其滑动到同一点,结果却是颠倒的。过滤器将不会在数据中检测到相同的模式或编码出同样的特征图谱。不同路径的结果可能是各个方向的。

幸运的是,自爱因斯坦以来,物理学家们面临同样的问题,并找到了解决方案:等规

韦林解释说,问题的关键是不去关注跟踪过滤器沿不同路径移动时其方向如何变化,而是选择一个过滤器的取向(或规范),然后定义一种一致的方法,将所有其他方向转换为该方向。

要注意的是,尽管可以在初始方向上使用任意规范,但将其他量规转换为该参考系必须保留基本模式——就像将光速从每秒米转换为每小时英里必须保留基础物理量。韦林说,采用这种等量变方法,“虽然实际数字发生了变化,但是它们以完全可预测的方式发生了变化。”

科恩,韦勒和韦林在2019年将等规(最终的“免费午餐”)编码到了他们的卷积神经网络中。详细来说就是,他们对神经网络通过卷积的方法探测到的模式施加数学约束条件。只有规范不变的模式才会在网络的各个层之间传递。韦林说:“基本上,你可以让它处理任何表面”,从欧几里德平面到任意弯曲的物体,包括诸如克莱因瓶或四维时空的奇异流形,“并且它会如鱼得水地在该表面上进行深度学习。”

切实可行的理论

等规卷积神经网络的理论非常通用,它自动合并了之前的几何深度学习方法的内禀假设,例如旋转不变性和球上的移位过滤器。即使是迈克尔·布朗斯坦的更早方法(让神经网络识别弯曲成不同姿势的单个三维形状)也纳入了这一理论框架之中:“等规是一个非常广泛的框架。我们在2015年所做的工作是其中一种设定。”

理论上,卷积神经网络计可以在任何尺寸,任意弯曲的表面上工作,科恩和他的合作者已经在全球气候数据上对其进行了测试,该数据必然具有潜在的三维球形结构。他们使用自己的等规框架构造了一个卷积神经网络,该卷积神经网络经过训练,可以从气候模拟数据中检测出极端天气模式,例如热带气旋。2017年,政府和学术研究人员使用标准卷积网络检测数据中的旋风,准确性达到了74%;去年,规范卷积神经网络探测到旋风的准确率达到了97.9%(超过了2018年专门为球体设计的几何深度学习方法,该系统的准确度为94%)。

劳伦斯伯克利国家实验室(Lawrence Berkeley National Laboratory)的气候科学家玛雅·穆迪贡达(Mayur Mudigonda)经常使用深度学习,他表示他将继续

关注规范卷积神经网络。他说:“人类视觉能力的这一方面,”——准确地识别图形而不论其方向如何——“这就是我们想要转化到气候领域的东西。”高通公司是一家芯片制造商,最近雇用了科恩和韦林,并收购了他们建立的一家初创公司,将其早期工作纳入等规神经网络中。该公司现在正计划应用等规神经网络理论来开发更优化的计算机视觉应用,例如可以一次“看到”360度的无人机。(环境的鱼眼图就像全球气候数据一样,可以自然地映射到球形表面上。)

同时,规范的卷积神经网络在诸如克兰默之类的物理学家中越来越受欢迎,他们计划将其用于处理亚原子粒子相互作用的模拟数据。克兰默说:“我们正在分析与强核力有关的数据,试图了解质子内部发生了什么。” 他说,数据是四维的,“因此,对于具有这种等规的神经网络,我们拥有一个完美的使用场景。”

前物理学家里西·康多(Risi Kondor)现在正在研究等规神经网络,他说,这一框架的潜在科学应用可能比其在AI中的应用更为重要。

但是,尽管物理学家的数学方法启发了人们对卷积神经网络的了解,物理学家可能会为它们找到很多用处,但科恩指出,这些神经网络本身并不会发现任何新的物理。他说:“我们现在能够设计能够处理非常奇特的数据的网络,但是你必须事先知道该数据的结构是什么。”换句话说,物理学家之所以可以使用规范的卷积神经网络是因为爱因斯坦已经证明时空可以表示为四维弯曲流形。科恩的神经网络将无法独自“看到”该结构。他说:“学习对称性是我们不要做的事情,”尽管他希望将来这件事成为可能。

产生了这一跨学科的直觉,进而以严格的数学方法证明了这一点,科恩不禁为此感到欣慰。他说:“我一直感觉机器学习和物理学正在做非常相似的事情。我觉得这真的很奇妙:我们只是从一个工程问题开始,在改进系统的过程中,逐渐发现了越来越多的联系。”

原文链接:

https://www.quantamagazine.org/an-idea-from-physics-helps-ai-see-in-higher-dimensions-20200109/

【互动问题:你在工作或生活中有哪些神奇的技巧?

请大家严格按照 互动:问题答案的格式在评论区留言参与互动,格式不符合要求者无效。

截止到本周四中午12:00,点赞数排名前三的朋友将获得我们送出的图书一本。(年假期间发货会延迟到假期结束后,请谅解。)


分享到:


相關文章: