少年班才子新發現:聲波、光波等都是RNN

【中國科大新創校友基金會(ID:USTCIF),全球最活躍的科大校友組織,實時發佈科大要聞與校友資訊】

斯坦福大學範汕洄(中國科學技術大學88級少年班校友)的一項研究發現:物理學中波動與 RNN 中的計算存在對應關係。這是一篇來自機器之心的報道:

少年班才子新發現:聲波、光波等都是RNN

少年班才子新發現:聲波、光波等都是RNN

論文地址:https://advances.sciencemag.org/content/5/12/eaay6946

GitHub 地址:https://github.com/fancompute/wavetorch

最近,機器學習與物理和數值科學的一些領域碰撞出了不少火花。這讓機器學習框架在物理模型優化問題中有了用武之地,同時機器學習領域也在物理概念的幫助下出現了很多令人興奮的新模型(如神經 ODE 和哈密頓神經網絡等)。

本文作者所在小組的研究重點是:物理本身就可以作為計算引擎。換句話說,作者們感興趣的是那些可以作為硬件加速器(或是專門用於快速高效的機器學習計算的模擬處理器)的物理系統。

少年班才子新發現:聲波、光波等都是RNN

他們最近發表在《Science Advances》上的論文,證明了波的物理特性可被直接映射到循環神經網絡的時序變化。利用這種聯繫,作者們通過 PyTorch 開發了一個數值模型,該模型證明我們可以訓練一個聲學/光學系統,並利用它從人類說話者錄音中準確地識別出元音。本質上,作者們將元音元音波形引入物理模型,並允許優化器在域內的 1000 個點上添加和刪除材料,這個操作實際上可以當做模型的權重。

因為這個機器學習模型實際上對應於一個物理系統,這也就意味著研究者可以把經過訓練的材料分佈「打印」到真實的物理設備中。其結果類似於 ASIC (Application Specific Integrated Circuit),但只能針對特定的 RNN 計算。這令人感到非常興奮,因為這些結果表明可以在不消耗多餘能量(除了脈衝本身攜帶的能量)的情況下,執行復雜的循環機器學習計算。


以下是對這篇研究核心思想的介紹。

波動與 RNN 的聯繫

這一部分將介紹 RNN 的操作與波動之間的聯繫。

RNN 一步步對輸入序列的每一部分執行相同的操作,從而將輸入序列轉換成輸出序列(圖 1A)。之前步的信息被編碼存儲在 RNN 的隱藏狀態中,隱藏狀態在每一步都會更新。正是這些隱藏狀態使得 RNN 記住過去的信息,同時學習數據中的時序結構和長距離依賴關係。在給定時間步 t 處,RNN 同時處理輸入序列中的當前輸入向量 x_t 以及前一步傳來的隱藏狀態向量 h_t-1,從而得到輸出向量 y_t,並更新當下的隱藏狀態 h_t。

少年班才子新發現:聲波、光波等都是RNN

圖 1:標準 RNN 與基於波的物理系統之間的概念比較。

訓練一個分辨元音的物理系統

這一部分將說明如何使用波動方程來訓練元音分類器,其主要通過構建非均勻材料分佈來實現。為了完成這個任務,該研究所用數據集包含 45 位男性和 48 位女性關於 10 個元音的 930 條原始錄音。在模型訓練過程中,該研究選取了關於這 3 個元音(ae、ei、iy)的 279 條錄音作為訓練集(圖 2A)。


少年班才子新發現:聲波、光波等都是RNN

圖 2:元音識別的設置和訓練過程示意圖。

對初始網絡 5 次交叉驗證訓練的結果取均值後得到的訓練集與測試集上的混淆矩陣參見圖 3(A、B)。混淆矩陣中對角線上的值定義了正確預測元音的比例,非對角線上的值則是未能正確預測的比例。從結果可以看出,初始結構是無法完成識別任務的。

圖 3 中的 C 和 D 展示了優化後訓練集和測試集上的最終混淆矩陣。這些結果同樣是對 5 次交叉驗證運行的結果取均值得到的。訓練後的混淆矩陣是對角佔優的,也就是說現在這個結構可以執行元音識別任務了。

少年班才子新發現:聲波、光波等都是RNN

圖 3:元音識別任務的訓練結果。

圖 3 中的 E 和 F 分別展示了交叉熵損失和預測準確率,橫座標是訓練集和測試集上的訓練 epoch 數。圖中的實線表示平均值,陰影區域則是交叉驗證訓練運行的標準差。從中我們看到第一個 epoch 使損失下降了最多,而且對於準確率的提升也是最大的。從圖 3F 中可以看出,這個系統在訓練集上的平均準確率是 92.6 ±1.1%,而在測試集上的平均準確率是 86.3 ± 4.3%。

少年班才子新發現:聲波、光波等都是RNN

從圖 3 的 C 和 D 中可以觀察到系統在元音 ae 的識別上表現近乎完美,也能很好地將 iy 和 ei 分辨開來(不過準確率稍低),這種特徵在測試集的未見樣本上尤為明顯。圖 3 的 G 到 I 展示了:將每個元音類的代表性樣本注入到訓練結構中時的綜合場強分佈(integrated field intensity)∑_t u_t^2。

該研究用視覺化的方式證明了,產生目標結構的優化過程將大部分信號發送至正確的地方。該任務以傳統 RNN 作為性能基準,其分類準確率與波動方程差不多,但是它需要大量自由參數。此外,我們觀察到,訓練線性波動方程所獲得的分類準確率也是很有競爭力的,有關性能的更多細節會參見原論文。

討論

少年班才子新發現:聲波、光波等都是RNN

該研究提出的這種基於波的 RNN 有很多優勢,這些優勢使得它在處理時序編碼信息時可以得心應手。與傳統 RNN 不同,波動方程在從一個時間步到另一個時間步的更新過程中,通過拉普拉斯算子(圖 1E 中的稀疏矩陣)實現隱藏狀態元素之間的最近鄰耦合。最近鄰耦合主要得益於,波動方程是信息以有限速度傳播的雙曲型偏微分方程。因此,模擬 RNN 的隱藏狀態大小和存儲容量直接取決於傳播介質的大小。此外,與傳統 RNN 不同的是,波動方程遵循能量守恆約束,防止隱藏狀態和輸出信號的範數無限增長。相比之下,定義標準 RNN 更新關係的無約束密集矩陣會導致梯度消失和爆炸,這是傳統 RNN 訓練過程中的主要挑戰。

該研究證明波動方程在概念上等價於 RNN。這種概念上的聯繫為一類新的模擬硬件平臺提供了思路,在這類平臺中,演化時序在物理和數據集中都扮演著重要的角色。當我們專注於用標量波動方程描述的最普遍波動示例時,我們的結果可以很容易地擴展到其他類似於波的物理概念。這種利用物理執行計算的方法可能促進新型模擬機器學習設備新平臺的研發,模擬設備有望比對應的數字設備更自然高效地執行計算。該方法的通用性進一步表明,許多物理系統可能是對動態信號(如光學、聲學或地震學中的動態信號)執行類 RNN 計算的有力候選者。

參考鏈接:https://www.reddit.com/r/MachineLearning/comments/ej3bgf/r_acoustic_optical_and_other_types_of_waves_are/

新聞來源:本文為機器之心編譯。

【轉載請註明中國科大新創校友基金會。瞭解更多,請移步官方微信(ID:USTCIF)與網站(www.ustcif.org.cn)】


分享到:


相關文章: