音樂界殺手級應用？MIT研發出像素級聲源定位系統科學頭條網

2019-01-09 11:46:51 望潮科技

史無前例的科學發展和影響力對人們的生活和經濟帶來了巨大的重組。其中有一種人能夠在這個形勢下取得特別的優勢：

可以利用智能機器把自己的工作做得漂亮並有創造性。
換句話說，能夠使用智能並且有精英級別輸出的人在每個行業都能散發光芒。舉個例子，AI與音樂。業餘和專業音樂人都可能為視頻花費數小時，以弄清楚如何播放他們喜歡的歌曲的某些部分。
但是，如果有一種方法可以播放視頻並提取出人們唯一想聽到的樂器呢？

MIT的研究人員提出了一個深度學習系統PixelPlayer，該系統能以無監督的方式從圖像或聲音中識別目標、定位圖像中的目標，以及分離目標產生的聲音。
也就是說，該系統的作用是可以讓人們識別視頻中不同樂器的聲音，以及特定目標的音量調整、聲音移除等，使它們更響亮或更柔和。
什麼叫無監督呢？就是工作人員不需要手動註釋樂器是什麼或它們聽起來像什麼，該系統能夠自己學習。

經過了60小時以上的視頻訓練後，PixelPlayer系統可以處理它從未見過的音樂視頻，識別像素級別的特定樂器，並提取與這些樂器相關的聲音。
例如上圖的視頻截圖中，大號和小號在共同演奏《超級瑪麗》的主題曲，該系統能夠分離出與每種樂器相關的聲波。
這樣的系統對於音樂製作人的意義是什麼呢？
研究人員表示，改變單個樂器音量的能力意味著，在未來，像這樣的系統可能有助於工程師提高舊音樂錄像帶的音質。
其次，傳統分離聲源主要集中在音頻上，這通常需要廣泛的人類標籤。相比之下，PixelPlayer引入了視覺元素，研究人員稱其不需要人類標籤，因為視覺提供了自我監督。
那麼，PixelPlayer到底是如何在無監督的情況下，完成像素級的聲源定位呢？

該系統首先定位產生聲音的圖像區域，然後將輸入聲音分成一組表示每個像素的聲音的組件。
在測試時，輸入文件是多個樂器一起彈奏的視頻，其中包括圖像幀和單聲道音頻。PixelPlayer 將執行聲音與圖像源分離和定位，分割輸入聲音信號來評估輸出聲音組件，每個組件對應視頻幀中空間定位中的聲源。

項目組的博士生Zhao表示:“我們期待一種最好的情況，我們可以識別出哪種樂器會發出哪種聲音，我們很驚訝我們實際上可以在像素級別空間定位儀器。能夠做到這一點開闢了許多可能性，例如只需點擊一下視頻即可編輯單個樂器的音頻。”
該團隊證明PixelPlayer可以識別超過20種常見樂器的聲音
。Zhao表示，如果系統有更多的訓練數據，系統將能夠識別更多的儀器，儘管它仍然可能無法處理儀器子類之間的微妙差異（例如中音薩克斯與男高音）。
更多精彩內容，關注望潮科技微信號（ID：tech_beat）

分享到:

閱讀更多 望潮科技 的文章

關鍵字: 麻省理工學院人工智能音樂界