图中不是个真的人,但她真的是个威胁:机器生成图片是与非


图中不是个真的人,但她真的是个威胁:机器生成图片是与非

原文来自Medium,作者Thomas Smith

原文链接:https://medium.com/swlh/this-is-not-a-person-but-she-is-a-threat-6d6f2d4083f4


请看下图的女士:她看起来很友好,你可能会在职场社交平台LinkedIn(领英)加她为好友,或者雇她来帮你运营社交媒体;如果你在孩子的体育课上遇到她,你会主动和她打招呼,进行些尴尬的寒暄;如果你在交友软件Tinder上看到她的档案,你可能会右滑选择喜欢。

图中不是个真的人,但她真的是个威胁:机器生成图片是与非

​所有的这些可能性只存在一个问题——这位女士根本不存在。上面的图像是用一种叫做生成式对抗网络(Generative Adversarial Networks,下称GAN)的新型机器学习技术生成的,这项技术发明于2014年,其科技潜力和流行度都呈现了爆炸式的增长。

图灵奖获得者杨立昆(Yann Lecun)称之为“20年以来机器学习中最酷的想法”。它被应用于视频游戏、天文学和艺术领域,席卷了媒体和法律界。


揭秘GAN

GAN的工作原理是,让两个深度学习神经网络在一场迷你混战中进行较量。第一个网络是生成式网络,通常也是一个卷积神经网络(Convolutional Neural Network,下称CNN),我们利用样本图像集对其进行训练。和所有CNN一样,它会学习训练图像集的属性和模式,并能够重新生成类似的图像。

第二个网络是判别式网络。人们也利用原始数据对其进行训练,并用它来评估特定图像是否遵循原始数据集的统计分布。更简单地说,当给定一个新图像时,这一网络会努力猜测该图像是否属于原始图像集。

有趣的地方在于:GAN并没有让两个网络默默地独自工作,而是让它们相互斗争。生成式网络的目标是创造足够好的虚假图像来愚弄判别式网络,而判别式网络的目标是避免上当受骗——准确猜测哪些图像是假的,哪些确实属于原始数据。

生成式网络会持续创造新的图像,然后判别式网络会评估所生成的图像。然后它们会检查工作,看看每一场较量中谁是赢家。这两个网络在数千轮的较量中大致打成平手,它们都会利用反向传播算法(back propagation)从自己的错误和成功中吸取教训。生成式网络会越来越擅长于生成逼真的虚假图像,而判别式网络则越来越擅长于识别虚假图像。

随着时间的推移,这两个网络通过相互竞争而不断提升。这项技术利用了并行计算(parallel computing)领域的最新进展来快速训练网络——视觉计算技术公司NVIDIA和其他图形处理器(Graphics Processing Unit,GPU)公司是该技术的早期应用者。

图中不是个真的人,但她真的是个威胁:机器生成图片是与非

​图注:GPU的进步,正如这个NVIDIA显卡,使GAN成为可能。

到训练结束时,生成式网络已经非常擅长创建逼真的虚假图像。在亦敌亦友的判别式网络的帮助下,生成式网络得到了很大提升,现在它能生成的虚假图像已经逼真到可以骗过人类

这有点像棒球运动员会在正式比赛前用一根加重的球棒进行练习,也有点像大学生会利用比预期考试难度更大的习题进行练习。通过与一个狡黠的、并且在每次较量中都会愈加强大的对手一起训练,生成式网络也在竞赛中不断提升自己的水平。当一个强硬的对手已被迷惑,再转而愚弄一个普通的人类时,任务就相对容易了。


GAN带来了麻烦

不出所料,能够制造出令人信服的虚假人类图像的人工智能(Artificial Intelligence,下称AI)系统正在引起相当大的轰动,而且远远超出了深度学习(Deep Learning,是机器学习领域中一个新的研究方向,它被引入机器学习使其更接近于人工智能)的范畴。

在新闻媒体领域,GAN是对报道可信度的重大威胁,人们很自然地将其与换脸软件Deep Fakes联系了起来,该软件可以利用神经网络模拟一个真实的人,并且生成视频或照片,而其中的人所做的事和所说的话从未真正发生过。

当然,人们早已可以利用图片编辑软件Photoshop将名人或政客的形象编辑到一个他们从未真实参加过的活动中,或者展示他们与一个他们从未真正见过的人握手的景象。

但要制作一个逼真的视频要困难得多,让他们看上去像在发表种族主义言论,或说一些会激怒他们自己政党的话,且往往需要在GAN的帮助下实现。

对新闻媒体来说,这是一种事关生存的威胁。新闻内容的可信度是绝对关键的(虚假新闻除外)。但是,要如何确定一位告密者的隐藏摄像片段到底是一个真实的视频,还是只是一个由GAN精心制作的、为了破坏对手声誉的虚假视频呢?

还有更黑暗、更棘手的问题。依靠GAN创作的色情作品已经出现在了互联网上,且通常是用真实名人的脸来制作的

这个问题很可能蔓延开来。名人是一个能够轻易上手的目标,因为网上已经有很多名人的照片,并且公众对他们私人生活的兴趣已经很高,这使得获取GAN的训练数据变得相对容易,而且发布虚假的视频或照片也非常有利可图。

随着技术的进步和所需训练集规模的缩小,黑客可能得以制造出几乎所有人的限制级虚假视频片段,并将其用于敲诈勒索。


虚假图像属于谁?

先不说这些事关生存威胁和令人毛骨悚然的风险,即使是出于正当理由而建立的GAN也导致了一些棘手的法律问题。其中一个核心问题是,谁真正拥有GAN所创造图像的所有权?

美国版权法非常明确地指出,受版权保护的作品必须有人类作者。挑战这一基本前提的案例,多以各种形式的失败告终,且这些失败往往是轰动性的:从自动相机拍摄的监控录像的所有权案件,到臭名昭著的猴子自拍案件。后者案件中,善待动物组织(People for the Ethical Treatment of Animals,PETA)宣称,冠猕猴拥有它用自然摄影师的相机所拍摄的照片的所有权利。

图中不是个真的人,但她真的是个威胁:机器生成图片是与非

​图注:像这张监控摄像头图像这样,由机器生成的图像的版权是复杂的。

如果一个作品需要一个人类作者来获得版权保护,那么会有人类拥有GAN制作的图像的所有权利吗?毕竟,它们并不是被一个手持相机的人拍下的,而是两个电脑程序相互较量所得的结果。这是一个很难回答的问题,但谢天谢地,还有其他领域的先例,我将随后讲到。

除了所有权问题,人们对GAN的使用会有限制吗?你可以用它来模拟任何你想模拟的人吗?


人类的反击

面对GAN的威胁,许多组织和立法者已经开始反击。代表演员和演艺人员利益的美国演员工会(Screen Actors’ Guild,下称SAG)正在积极游说监管机构,防止制作公司用GAN协助制作的全息图代替真人演员。

这十分合理——如果你能创造出一个实际上是假的但看上去很真实的布拉德·皮特(Brad Pitt),让他按你的吩咐去做,为什么还要雇佣真正的演员呢

GAN生成的演员不需要休息,不会忘记台词,也不太可能要求获得高达7位数的工资。不过,说到过世的演员,事情就变得更复杂了。SAG希望永远锁定生成虚拟名人的权利,但这又违背了美国宪法第一修正案的内容(国会不得制定法律剥夺言论自由或出版自由)。

美国的好几个州也已经加入了这场斗争。2019年10月3日,加利福尼亚州通过AB-602法案,禁止在选举前60天内使用GAN制造政客们的虚假色情作品或视频片段。纽约正在考虑立法,通过形象权来处理GAN带来的问题。


GAN带来的益处

对GAN实行一定程度的监管是绝对必要的。在合成色情作品或其他损害他人利益的情况中,立法者介入并取缔不良行为当然是有意义的。

不过,对GAN的过度监管也存在风险。如果使用得当,生成式对抗网络可能是一种非常强大的技术,可以带来很多强大的益处。

以最初建立GAN的原因为例:这项技术开发的最初目的不是为了生成令人信服的虚假人物,而是为了生成用于培训其他深度学习系统的大型数据集

一般来说,在机器学习中,很难找到好的数据,尤其是在新的网络和技术下,数据科学家需要大量的图像来训练一个新的视觉AI系统——有时需要一百万张或更多的图像。购买所有这些图像的成本高得吓人,对独立的科学家和研究小组来说尤其如此。

图中不是个真的人,但她真的是个威胁:机器生成图片是与非

​图注:即使是购买基础训练图像的版权,比如这张在真实场景中的真人的图片,也是很昂贵的。

人们正是为了解决这个问题而建立了GAN。例如,一位正在开发新的面部识别系统的研究科学家不需要去购买数百万张人脸图像。相反,他们可以训练GAN,然后根据需要,用它生成尽可能多的虚假人脸图像,并在这些图像上训练他们的新系统。

GAN仍然主要用于这个目的,但这项技术并不是一个完美的解决方案——IBM的一位同事将这一过程描述为类似于影印一份复印件,而不是影印原始文档,但同样会产生失真和质量损失——然而它仍然是数据科学家的一个重要工具。

在真实训练数据有限的情况下,GAN也至关重要。例如,有人建议,可以将GAN作为解决非白人男性人脸训练图像短缺问题的方案,从而增加深度学习系统的多样性。你可以在——ThisPersonDoesNotExist.com——这个网址创造你自己的虚假人物进行实验。

除了机器学习之外,GAN还有各种各样的实际应用。在全景图片库和时尚领域,GAN可以独立生成可信的肖像,无需聘请模特或租用场地。这使得摄影师或设计师(尤其是刚起步的人)更容易实现一个概念或展示一件新衣服,且无需高额的前期投资。

在其他领域,GAN被用于任何存在视觉模式的地方。他们可以在天文学领域模拟暗物质;利用2D照片生成物体的3D模型;为电子游戏创建虚拟房间和空间;展示一个人衰老之后的可能形象;甚至为癌症研究中生成新分子或蛋白质提供思路。


GAN的未来

在未来,GAN将变得更加强大。目前在视觉领域,GAN大多局限于生成相对受限的、高度模式化的图像,这些图像中有大量的训练数据可供提取。

人脸就是一个完美的例子——人与人的脸各有不同,但有也许多相同的基本属性。世界上有60多亿的真实人口,所以GAN的学习材料十分丰富(假设它的创建者有足够的资源购买大型数据集)。

不过,随着技术的进步,这些障碍将变得不那么显著。人们普遍认为,在未来三到五年内,GAN将发展到可以重新生成全新场景的地步,而不仅仅是脸部特写。

例如,一个设计师可以说,“我想要一个女人走下楼梯、扶着栏杆、抬头向后看的照片”,GAN便能够创造出这样的精确场景,且其细节的真实度堪比照片。

已经有案例开始探索这种未来了。

一个名为StackGAN的网络已经可以对单个对象执行此操作,它能根据一只鸟的外观的文本描述生成虚假图片。而另一个GAN已经可以根据汽车、人等等的粗略示意图,生成一个相当好的(可能甚至是完美的)街道场景。

图中不是个真的人,但她真的是个威胁:机器生成图片是与非

图中不是个真的人,但她真的是个威胁:机器生成图片是与非

​图注:这个GAN可以从一组粗略的视觉指令中生成半真实的街景。

显然,随着这些技术的进步,它们可以取代摄影、电影制作、室内设计或任何其他依赖视觉媒体的领域

这些行业的人们应该选择立即寻找新工作,还是应该选择冒着被一个GAN取代的风险?所有的视觉艺术都会被机器所取代吗?


回到未来

在我们完全惊慌失措之前,我们得赶紧停下想一想,其实在一个领域已经具备类似GAN的属性及最终产品。

在这个领域里,有人对他们所见过的数百万人、地方或物体的记忆进行研究,他们进行大量训练,有时要面对严厉或狡猾的批评者。在某些情况下,它们还需要理解对所需场景或概念的文本描述,然后利用一些工具创造一个全新的图像。

这一图像可以在一个全新的环境中展现一个已知的人,或者可以在一个实际上不存在的场景中展现一个想象出来的人。

这一领域就叫做“插画”。

插画家、动画师和计算机生成影像(computer-generated imagery,下称CGI)艺术家每天都和GAN做着同样的事情——他们的全部工作就是想象新的场景、人物和地点,并将它们生动地呈现在网页或荧幕上。

在许多情况下,他们的创作都是极其逼真的——特别是在如今,人们往往无法将CGI作品与真实的场景或演员区分开来。

如果将GAN视作一种插画工具,而非一个全新的威胁,它就不那么可怕了。当然,它们使生成插画的过程更容易,而且使成果更逼真(取决于具体插图画家或动画师的技能)。归根到底,GAN并不是在做什么全新的工作;他们只是将深度学习应用到一个古老的艺术概念上——这个概念可以追溯到第一个在洞穴墙上画水牛的人类。

将GAN视为一种插画工具也解决了许多相关法律问题。法院一贯裁定,CGI创作的作品有资格获得版权保护,因为它们是通过人类操作者的创意决策而产生的。

而且,CGI工具也并不总是起决定性作用——它们要么从人类那里获取指令,在关键帧(keyframe)之间墨守成规地“填充”动画;要么生成新的序列,无需设计者直接建模。

没有人会争辩说,因为一个动画师利用图形视频处理软件After Effects填充了关键帧之间的一些动作,或者在线框图(wireframe)中添加了纹理和灯光,她就不应该享有她电影的版权保护。一件作品中,真正重要的是她的创意选择,以及这些选择是如何创作出最终产品的。

GAN的情况也是相似的:它们可以想象新的场景,但如果要产生有效输出,GAN仍然需要人类来指导它们具体生成什么。即使是随机生成人脸,GAN仍然需要人类的输入和指令来决定哪些人脸是可信的,哪些是适合某个特定的创造性项目的,等等。

提供这个指令本身就是一项创意操作,因此其理应能够产生版权。在许多情况下,GAN产生的结果并不完美,它们仍然需要人类的帮助才能产生有用的成果。

以本文开头的照片为例:这位女士乍一看很逼真,但请你仔细看一看,她的耳朵怎么了?

那是耳环吗?还是一点脏东西?基础的图像看起来是不错,但它受益于(稍微)熟练的人类操作员的善后和调整。所有这些调整和选择都是创意行为,能将GAN的原始输出转化为可用和令人信服的说明性材料。


GAN何去何从?

生成式对抗网络提出了一些社会需要继续思考和探索的重大问题。对于这些技术的滥用——用于换脸和露骨内容——令人不安,这正是监管机构应该尽早解决的问题。

不过,与此同时,社会方面也应该谨慎,不要在监管这些新技术方面干涉过多,从而扼杀对它们的积极应用。

虽然GAN的作品可能会让人害怕——甚至是令人毛骨悚然——但GAN也有可能彻底改变许多视觉艺术,使时尚和摄影更丰富,帮助药物研发,以及解决各种迄今尚未想象到的问题。现有的插画领域为我们着手解决有关GAN及其影响的问题提供了一个法律和伦理框架。

虚假人像照片可能很可怕,但它们不会消失。作为一个社会,我们需要承认它们的威胁,但也要拥抱它们带来的益处。在照片上的笑脸中,已经们背后的GAN中,也存在着一种机遇,这项技术可能会为那些设想照片真实存在的人们带来长久的的利益。

图中不是个真的人,但她真的是个威胁:机器生成图片是与非


分享到:


相關文章: