谷歌逆天技术,也许以后在公共场所聊天,带口罩变声才安全

人类具有一种能力,在背景杂音中,精准定位与自己对话的对象。谷歌公司的专家们利用深度学习结合脸部辨识,实现了此类效果。


简单来说,研究学者先用「干净」的人声与对应的视觉影像混合成一个假想的吵闹场景,然后训练机器去辨识如何从场景中还原出单一的人声来,最后产生一个模型。以这个脸部与声线对应的模型为基础,当侦测到目标嘴巴在动,系统就会试图抓取音频,将相关的部份分离出来。

谷歌逆天技术,也许以后在公共场所聊天,带口罩变声才安全

如同上面的脱口秀视频所示,这效果惊人地好,不仅可以把背景的杂音滤掉,就算有两个人同时在大声说话,也可以把目标分离出来。而且,即使讲者用麦克风挡住了嘴巴,似乎也不影响辨识呢。

也许以后在公共场所聊天都得带口罩变声才安全。


分享到:


相關文章: