根据你的声音,描绘出你的样貌,这大概是AI目前做的最酷的事情了

美国麻省理工学院的研究人员发明了一种技术,可以仅凭一个人的声音,来绘制其面孔。

这项技术就是Speech2Face。

Speech2Face实际上是一个神经网络系统。麻省理工学院的研究者们利用YouTube等网站上的海量视频作为训练集,开发出这套算法,它可以查找出人们说话时相关的面部特征,凭借听“一个人讲话的方式就能推断出其相貌”。通过上述这张图片,你可以看出,虽然结果不是很完美,但确实,相似度很高。

只要有足够多的数据,足够强的计算能力,和足够长的时间,神经网络系统就可以通过分析视频片段、匹配人声与人脸并找到两者之间的模式和趋势,来“学习”如何绘制人的样貌。

但是,请注意,Speech2Face可以精确描绘出人脸中除了眼睛以外的部位,如鼻子、嘴唇、脸颊和骨架。原因在于,这些部位特征与人的声音之间有着直接的联系。比如说:声音低沉的人可能鼻子更宽;下巴越宽的人,声音可能越高。而眼睛的形状以及大小与声音并没有什么直接关联。

那么,Speech2Face究竟是怎么做到的呢?

想象一下,你和一个素未谋面的人打电话时的样子(比如说客服),或许你并没有意识到,你在打电话的时候,就已经通过对方的声音在脑海里勾勒出对方的样子了。倘若你用过播客,或者参与过电话会议,你甚至不需要任何努力,就能知道讲话的人是谁。

举个例子,请你根据以下三个步骤想象一下:

Step 1. 虚拟一个场景:酒吧里有两个小伙子在聊天

Step 2. 想象一下他们的对话内容和语调

Step 3. 假设他们说话带着澳大利亚口音

他们长什么样子?头发是什么颜色?

你脑海里浮现的样子可能和我不一样,但重点是,对于一个有着澳大利亚口音的男人,我们对其样貌认知是有相通之处的。你绘制出来的这两个人的长相可能和你在现实生活中认识的澳大利亚人有些相像,也有可能和你见过的所有澳大利亚人的长相都有某些相同点。

这就是Speech2Face做的事情,只不过它考虑的模式更多。有趣的是,我们的大脑已经可以完成Speech2Face做的一部分事情,如通过声音来辨认朋友。

所以说,生成对抗网络是凭空创造一个不存在的人,Speech2Face干的则是另外一件事情。

我认为,很有可能用不了十年,人工智能就可以创作出一个类人类的人造生命,它的声音和样貌都会和人类很相似,届时,我们将很难区分人造人和真实的人类。


分享到:


相關文章: