MIT PixelPlayer可以“看到”聲音來自哪裡

MIT PixelPlayer可以“看到”聲音來自哪裡

“雞尾酒會效應”描述了人類在嘈雜的環境中進行交談的能力,通過傾聽交談對象所說的內容,同時過濾掉其他的噪音、音樂、環境噪音等。 我們可以自然地做到這一點,但是這個問題已經在機器學習領域得到了廣泛的研究。

麻省理工學院 CSAIL 的研究人員最近介紹了他們的 PixelPlayer 系統,該系統已經學會識別在視頻中產生聲音的物體。 該系統使用深度學習,並通過連續觀看60小時的音樂表演進行訓練,以識別視覺和聽覺信息的自然同步。

研究小組訓練了深層神經網絡,使其專注於圖像和音頻,並識別視頻中聲源的像素級圖像位置。

MIT PixelPlayer可以“看到”聲音來自哪裡

Pixelplayer 架構包括一個視頻分析網絡,負責將視覺特徵與視頻幀分離,一個音頻分析網絡,對音頻輸入進行編碼,以及一個音頻合成器網絡,該網絡通過結合像素級視覺和音頻特徵來預測聲音。

MIT PixelPlayer可以“看到”聲音來自哪裡

Pixelplayer 的自監督混合和分離訓練也使它能夠不用人工干預就註釋儀器特性。 研究小組成員、前 NVIDIA 研究實習生 Hang Zhao 說,深度學習系統“能夠知道哪些物體發出什麼樣的聲音。”

研究人員使用了從 YouTube 視頻中建立的 MUSIC (多模式樂器組合源)數據集來訓練這個模型。 Music 有714個音樂獨奏和二重奏的非後處理視頻,以及11個樂器類別。 Nvidia Titan v GPU 芯片的處理能力允許 CNN 以非常高的速度分析視頻。 “大約一天就學會了,”趙說。 現在可以識別超過20種樂器。

可以提取單個樂器的音軌,使工程師能夠分離和調整每個樂器的不同音高。趙補充說,“這個系統也可以被機器人用來理解環境聲音。”

其他研究小組正在使用各種方法來解決雞尾酒會的問題,包括開發助聽器的深度學習技術。

麻省理工學院的 CSAIL 論文《像素的聲音》發表在 Arxiv 上,該團隊將在9月份的歐洲計算機視覺會議上展示他們的工作。更多的可以在 http://sound-of-pixels.csail.mit.edu/ 找到。


【翻譯自https://www.hindustantimes.com/】


分享到:


相關文章: