神經網絡的基礎是MP模型?南大周志華組提出新型神經元模型FT

選自arXiv

機器之心編譯

在此論文中,來自南京大學的張紹群博士和周志華教授提出一個新型神經元模型 Flexible Transmitter (FT),該模型具備靈活的可塑性並支持複雜數據的處理。據論文介紹,這項研究為神經網絡提供了一種新的基本構造單元,展示了開發具有神經元可塑性的人工神經網絡的可行性。

神經網絡的基礎是MP模型?南大周志華組提出新型神經元模型FT

當前的神經網絡大多基於 MP 模型,即按照生物神經元的結構和工作原理構造出來的抽象和簡化模型。此類模型通常將神經元形式化為一個「激活函數複合上輸入信號加權和」的形式。

近日,來自南京大學張紹群博士和周志華教授提出了一個名為 Flexible Transmitter (FT) 的模型,這是一種具備靈活可塑性的新型生物擬真神經元。

FT 模型利用一對參數來建模神經元之間的傳輸遞質(transmitter),並設置一個神經遞質調節的記憶單元來記錄所關注神經元的長期學習信息。因此,該研究將 FT 模型形式化為一個二元二值函數,常用的 MP 神經元模型是其特殊形式。FT 模型可以處理更加複雜的數據,甚至時序信號。

為了展示 FT 模型的能力和潛力,研究者提出了 Flexible Transmitter Network (FTNet)。FTNet 基於最常見的全連接前饋架構而構建,並使用 FT 神經元作為其基本構造塊。FTNet 允許梯度計算,並且可以通過在複數域中的反向傳播算法來實現。在一系列任務上的實驗結果展示了 FTNet 的優越性能。這項研究為神經網絡提供了另一種基本構造塊,展示了開發具有神經元可塑性的人工神經網絡的可行性。

論文鏈接:https://arxiv.org/pdf/2004.03839v2.pdf

常見的 MP 模型

神經網絡的基礎計算單元是神經元,對應於生物神經系統的細胞。儘管神經網絡研究已經持續 50 餘年,多種神經網絡算法和架構層出不窮,然而人們對神經元建模方面的研究仍然不夠。

最著名也最常用的神經元表示是 MP 模型 [12],如下圖 1 所示:

神經網絡的基礎是MP模型?南大周志華組提出新型神經元模型FT

圖 1:MP 模型

MP 模型接收到來自 n 個其他神經元傳遞過來的輸入信號 x_i,這些輸入信號通過帶權重的連接 w_i 進行傳遞,神經元接收到的總輸入值將與神經元的閥值進行比較,然後通過激活函數 f 處理以產生神經元的輸出,即

神經網絡的基礎是MP模型?南大周志華組提出新型神經元模型FT

。從圖 1 中可以看到,x_i 表示來自其他神經元的信號,w_i 表示對應的連接權重,θ 表示神經元的閾值,f 表示通常連續可微的激活函數,如常用於淺層網絡的 sigmoid 函數和常用於深層網絡的 ReLU 函數。

儘管刻畫方式非常簡單,但 MP 模型很成功。然而實際中神經元細胞結構要複雜得多,因此探索具備其他生物擬真形式的神經元模型成為計算神經相關領域的一個基本問題。人們在建模細胞的放電行為方面做出了很多努力,提出了尖峰神經元模型(spiking neuron model)和以尖峰神經元作為基本計算單位的脈衝神經網絡 [9, 18]。

是否存在另一種形式的神經元模型?

南京大學的研究者考慮了另一個有趣的角度,並提出一種新型神經元模型。

神經科學研究 [2, 7] 揭示了,突觸可以確保兩個神經元之間的單向通信機制,即信息流的流向是從突觸前細胞到突觸後細胞。突觸通常在突觸前細胞的軸突和突觸後細胞的樹突之間形成。在常見的突觸結構中,樹突和軸突之間存在大約 20 微米的間隙(在神經科學中叫作「突觸間隙」),如圖 2 所示。

神經網絡的基礎是MP模型?南大周志華組提出新型神經元模型FT

圖 2:生物神經元(左)及其突觸結構(右)。

這意味著儘管密切相關,但突觸前細胞的軸突傳遞強度(axonal transmission strength)和突觸後細胞的樹突濃度(dendritic concentration)是不同的。因此,自然有必要在神經元模型中區分突觸前和突觸後的部分。

與簡單地將整個突觸結構視為可學習的實值參數 w 的 MP 模型和使用具有自衰減累積(leaky integration)結構的 ODE 方程建模突觸的尖峰神經元相反,該研究使用一對相關參數 (w, v) 來分別表示軸突傳遞強度和樹突濃度,這就是靈活傳輸遞質(flexible transmitter)。

此外,很多實驗研究 [8, 6] 指出,神經元擁有對過去學習行為的記憶,並且生物電壓根據近期的活動模式得到持續的加強或抑制,即長期増強(LTP)或抑制(LTD)。這項研究專門設置了一個記憶變量,即神經遞質自調節記憶元,用來記錄神經元對長期學習行為的記憶信息。

Flexible Transmitter 模型

神經科學方面的這一有趣發現表明,神經元 A 接收到來自神經元 B 的刺激信號後的響應不僅取決於神經元 B 的軸突傳遞強度,還依賴於神經元 A 的樹突濃度,而這與神經元 A 的記憶單元有關,如圖 2 所示。

受此啟發,該研究提出了 Flexible Transmitter 模型,如下圖 3 所示:

神經網絡的基礎是MP模型?南大周志華組提出新型神經元模型FT

圖 3:FT 模型圖示。其中 (w, v) 是傳輸遞質參數對,m_t 表示神經元 A 的記憶單元在時間 t 處的強度。

與 MP 模型相反,FT 模型中的交互包括兩個部分:wx_t,x_t 表示當下通過對應的軸突傳遞強度 w 發送至相關神經元的刺激信號;vm_t−1,m_t−1 表示在第 (t − 1) 時刻與樹突濃度 v 相關的記憶強度。也就是說,

FT 模型使用傳輸遞質參數對 (w, v),而不是 MP 模型中的實數權重 w,來表示突觸可塑性。

另一方面,FT 神經元在第 t 時刻的輸出也包括兩部分:s_t 和 m_t,其中 s_t 是神經元生成的生物電/化學刺激信號,m_t 是神經元的當前記憶強度。在該時刻結束後,刺激信號 s_t 被傳輸到下一個神經元,而相關神經元的記憶強度也更新為 m_t。

FT 模型利用參數對 (w, v) 表示突觸可塑性,用神經元唯一的變量 m_t 表示神經遞質調節的記憶單元。進而,FT 模型可以形式化為帶有參數對 (w, v) 的二元二值函數,如下所示:

神經網絡的基礎是MP模型?南大周志華組提出新型神經元模型FT

研究者將該模型叫作 Flexible Transmitter 模型。顯然,這種建模方法使 FT 神經元不僅更具生物逼真度,也更有潛力處理複雜結構的數據。

Flexible Transmitter Network

FTNet 採用全連接網絡架構,研究者用 FT 神經元代替了實值 MP 模型。他們還相應地開發了用於訓練 FTNet 的實用、高效反向傳播算法。

FT 模型的實現

根據公式 1,FT 模型本質上是由二元二值函數 f 和參數對 (w, v) 主導的。FT 模型的輸入和輸出包含兩個部分,它們之間的關係非常複雜。多數現有的神經元模型都依賴於單值函數,而單值函數很難直接應用於這一問題。一種有趣的解決方法是利用複變函數來表示神經元的輸入和輸出,得到的神經元模型如下所示:

神經網絡的基礎是MP模型?南大周志華組提出新型神經元模型FT

在復變分析中,複變函數輸出的實部和虛部是成對的,即 s_t 和 m_t 共享同一個複變函數 f 和參數對 (w, v)。

FTNet 的簡單架構

FT 神經元是神經網絡的基本單元。為了評估它的潛力,研究者考慮使用最簡單的全連接前饋神經網絡架構,用 FT 神經元做構造塊,替代原來的 MP 神經元,從而得到 FTNet。基於公式 2,我們為一層 FT 神經元提供一個通用向量化表示:

神經網絡的基礎是MP模型?南大周志華組提出新型神經元模型FT

逐層重用式 3 中的向量化表示,可以得到 FTNet 的多層全連接前饋架構。

現在還有兩個問題:1)複變函數 f 應該是什麼樣的?2)如何學習其參數?

為了解決這兩個問題,研究者將方程 2 中的複變函數 f 分為兩個部分:轉換函數 τ : C → C 和激活函數 σ : C → C,其中 f = σ ◦ τ。該複合運算將 f 中的複雜結構與非線性激活函數分離開來:轉換函數 τ 表示複數域上的加和運算,通常是可微的,而 σ 表示激活函數。因此,FTNet 允許梯度計算,且能夠適應一些傳統的激活函數。

複雜的反向傳播算法

為了訓練 FTNet,研究者提出了一種複雜的反向傳播算法(Complex Backpropagation,CBP)。該算法是常用反向傳播算法在複數域中的擴展版本。該研究還以單層 FTNet 和雙層 FTNet 為例,給出了 CBP 的詳細實現過程,詳見原論文附錄 B。

實驗

研究者在三個模擬和實際數據集上對比了 FTNet 和多個常見神經網絡。

模擬信號

研究者首先探索了使用不同配置的 FTNet 在模擬數據上的性能。

神經網絡的基礎是MP模型?南大周志華組提出新型神經元模型FT

實驗發現,tanh 激活函數是最能維持最優性能的,不管是使用 FT0 還是 FT1 架構都是如此。相比之下,sigmoid 和 modReLU 激活函數的性能要差一些。zReLU 的性能略優於 P ReLU。

研究人員猜想其原因在於,對於複數激活函數而言,半徑可能比相位更易受影響,也更重要。因此,研究者在接下來的現實世界任務中統一使用 tanh 激活函數和 0.01 的學習率來配置 FTNet。

單變量時序預測:鹽城汽車上牌量預測任務

研究者在鹽城汽車上牌量預測競賽數據集上進行了實驗,這是一個現實世界單變量時序預測任務。

神經網絡的基礎是MP模型?南大周志華組提出新型神經元模型FT

表 1:在鹽城汽車上牌量預測任務上的均方差(MSE)和模型設置。

從表 1 中可以看出,FT1 模型的性能極具競爭力。

多變量時序預測:HDUK 交通預測任務

研究者在 HDUK 數據集上驗證了 FTNet 的性能,這是一個典型的多變量時序預測數據集。實驗表明,在相同設置下,FTNet 的性能超過其他神經網絡。

神經網絡的基礎是MP模型?南大周志華組提出新型神經元模型FT

表 2:模型在 HDUK 交通預測任務上的 MSE 和 confusion accuracy。

在 pixel-by-pixel MNIST 數據集上的圖像識別性能

神經網絡的基礎是MP模型?南大周志華組提出新型神經元模型FT

表 3:各模型在 pixel-by-pixel MNIST 任務上的準確率。

實驗表明,FTNet 的性能優於之前最優的神經網絡。

關於作者

該研究的第一作者張紹群現在南京大學計算機科學與技術系 LAMDA 組讀博,導師是周志華,研究興趣是時序分析和計算神經科學。周志華教授也是該研究的通訊作者。

神經網絡的基礎是MP模型?南大周志華組提出新型神經元模型FT

第一作者張紹群


分享到:


相關文章: