MIT PixelPlayer可以“看到”声音来自哪里

“鸡尾酒会效应”描述了人类在嘈杂的环境中进行交谈的能力,通过倾听交谈对象所说的内容,同时过滤掉其他的噪音、音乐、环境噪音等。 我们可以自然地做到这一点,但是这个问题已经在机器学习领域得到了广泛的研究。

麻省理工学院 CSAIL 的研究人员最近介绍了他们的 PixelPlayer 系统,该系统已经学会识别在视频中产生声音的物体。 该系统使用深度学习,并通过连续观看60小时的音乐表演进行训练,以识别视觉和听觉信息的自然同步。

研究小组训练了深层神经网络,使其专注于图像和音频,并识别视频中声源的像素级图像位置。

Pixelplayer 架构包括一个视频分析网络,负责将视觉特征与视频帧分离,一个音频分析网络,对音频输入进行编码,以及一个音频合成器网络,该网络通过结合像素级视觉和音频特征来预测声音。

Pixelplayer 的自监督混合和分离训练也使它能够不用人工干预就注释仪器特性。 研究小组成员、前 NVIDIA 研究实习生 Hang Zhao 说,深度学习系统“能够知道哪些物体发出什么样的声音。”

研究人员使用了从 YouTube 视频中建立的 MUSIC (多模式乐器组合源)数据集来训练这个模型。 Music 有714个音乐独奏和二重奏的非后处理视频,以及11个乐器类别。 Nvidia Titan v GPU 芯片的处理能力允许 CNN 以非常高的速度分析视频。 “大约一天就学会了,”赵说。 现在可以识别超过20种乐器。

可以提取单个乐器的音轨,使工程师能够分离和调整每个乐器的不同音高。赵补充说,“这个系统也可以被机器人用来理解环境声音。”

其他研究小组正在使用各种方法来解决鸡尾酒会的问题,包括开发助听器的深度学习技术。

麻省理工学院的 CSAIL 论文《像素的声音》发表在 Arxiv 上,该团队将在9月份的欧洲计算机视觉会议上展示他们的工作。更多的可以在 http://sound-of-pixels.csail.mit.edu/ 找到。


【翻译自https://www.hindustantimes.com/】