计算机视觉:人工智能的先行者

“人工智能”已经成为了学术界、工业界、媒体以及政府都关注的“学科”或称“名词”——因为很多用的人根本就不知道它是什么,只是显得高大上而已。

我将不涉及任何技术细节来给读者展现一幅人工智能的当代图景,并期待读者能获取一些相关哲学观和方法论。

大多数人目前所说的“人工智能”特指:由“深度学习”带来的对于解决计算机任务的一系列的方法论。“深度学习”中的“深”,是针对“人工神经网络”说的,它意味着层数更多的神经网络。而“人工神经网络”是模仿人类神经元做的多层结构,这个结构里下层“神经元”输出作为上层“神经元”的输入,每个“神经元”都是一种做加权平均后然后进行非线性映射的结构。

“人工神经网络”的重要性在于,只要它足够大,足够深,它能够表示任意复杂度的函数。而所谓“深度学习”都可以理解为:给定某个结构,我们去寻找这个结构的参数来最好地逼近某个复杂的函数。所有“深度学习”的进展,包括提出新的网络结构和提出更快更好的训练方法,但是目的都是让神经网络表现更好。

下面就是神经网络的一个例子。

计算机视觉:人工智能的先行者

“深度学习”的想法其实上个世纪八十年代就有,那个时候人们只能训练两层的神经网络,现在我们可以把它成为“浅度学习”,更深层的网络你可以提出来,但是你训练不出来。原本直觉上说,深层的神经网络肯定要比浅层的表现更好,但是由于神经网络的复杂性,人们找不到深层神经网络的好的参数,所以还不如浅层的表现好,因此深层神经网络就成了一个鸡肋的模型,有这个想法但没人能用。这个情况一直持续到到2006年。

这一年里,Geoffrey Hinton发表了一篇文章,里面提出训练深层神经网络可以先对其中的每相邻两层进行预训练,这样可以给后面的精确训练提供一个好的初始值,那么网络就能够训练出来了。他这篇文章一发,Yoshua Bengio跟进一连发了多篇文章对这个方法进行研究,以及他们利用了Yann LeCun在上世纪提出并一直持续研究的卷积神经网络达到了更好的效果。这三个人获得了2018年的图灵奖,而2006年也被称为深度学习元年。

计算机视觉:人工智能的先行者

从2006年到2012年,这三位研究者一直持续在深度学习领域深耕,提出了很多的神经网络结构和训练方法,这使得深度学习逐渐被更多的人关注。但是必须要说,深度学习在这个时候还没有太大的影响力,所以我们可以称这段时间为深度学习“创业时期”。

然后时间来到了2012年,这一年里由Geoffrey Hinton的博士生设计的AlexNet一举在一个叫ImageNet的比赛里拿下冠军,超出了第二名十几个百分点。他们的工作可以称为深度学习“创业时期”技术和技巧的集大成者,这一下几乎让所有学界的研究者都不得不关注深度学习。

这里还要说一下ImageNet这个比赛,这里所用的ImageNet是一个具有一百万多张图片的人工标记的数据集,这个标记大约是指,图片是关于狗的或者关于猫的,比赛就是让计算机程序判断给定的一张图片到底是狗还是猫。其实它还有一个更大的版本,包含一千五百多万张图片,两万多个分类。到目前为止,ImageNet依然是计算机视觉领域最大的数据集。

计算机视觉:人工智能的先行者

2012年的成功一举拉开了深度学习“革命时代”的序幕,如久旱逢甘霖一般,深度学习的网络结构和训练方法为很多计算机的任务带来了新思路和新方法,并从软件影响到硬件的开发,成为了一个蓬勃的时代。

列举几个,2014年由Bengio的博士生Ian Goodfellow提出的generative adversarial network,翻译为生成对抗网络。它做的任务是让两个神经网络互相打,就比如,你和你的朋友做简单版你画我猜,你负责画图,他需要猜这个图到底是你画的还是照片拍的。这个游戏想要达到的效果是,你画的越来越符合真实的照片,而他越来越能分辨是画还是照片。这样有点贪心的一举两得带来了很多有意思的想法和应用,比如图片修补,图片风格转换,当然也有反作用,比如人工换脸,把小黄片里女主的脸换成你喜欢的女明星这一宅男理想成为了现实。这个工作被LeCun称为“二十年来机器学习领域最出色的想法”,足可见其创新性。

还有一个例子是,何恺明在2016年提出的deep residual network,翻译为深度残差网络,它解决的是网络能多深的问题。一以贯之地想,是不是在深度学习的训练方法下,网络也是越深越好呢?

答案在2016年以前也是否定的,比如18层的网络可能比34层的更好。这依然是不符合常识的,而深度残差网络基本解决了这个问题,它能够让101层的网络表现得比几十层的要好,借此也得到了2016年一个计算机领域顶级会议的最佳论文。它的基本想法是,在两层之间加一条“高速公路”,这样就能有一些信息不是逐层传递的,而是通过“高速公路”,类比“绿色通道”或“八百里加急”。那么通过这条“高速公路”,一些重要的信息就可以完整而迅速地传递个各个网络层,避免了信息的丢失,那么结果就会更好。这两个工作都是负重致远,影响深刻,广泛应用的,提出者也成为了炙手可热的学术新星。

计算机视觉:人工智能的先行者


计算机视觉:人工智能的先行者

如今这个革命时代依然在蓬勃发展,并且逐渐积淀和深化,开始从学术界的话题成为工业界的产品,进入每个人的日常生活。

以上基本是深度学习的一个简史,但同时也是深度学习下的计算机视觉(computer vision, cv)的一个简史。因为2006年的工作是在计算机视觉的任务上做的,2012年的工作是在计算机视觉的比赛上打的,2014年和2016年的两个工作都是在做计算机视觉的任务的时候提出来的。计算机视觉,它见证了深度学习的开始,发展和辉煌。它一次一次成为深度学习的金子一般的想法的滥觞,进而影响其他领域,成为行业标准和规范。

计算机视觉:人工智能的先行者

如今的计算机视觉依然是深度学习研究最成熟最深刻的工具,数据集和开发平台最标准的领域,依然是深度学习从学术界到工业界的排头兵,如今计算机视觉四小龙商汤、旷视、依图和云从都是炙手可热的创业公司独角兽。这也就我说计算机视觉是深度学习或者说人工智能的“先行者”的原因。



分享到:


相關文章: