循環神經網絡的原理

2018-09-29 16:43:50 超微雲物聯網

喜歡就關注【超微雲物聯網】

什麼是循環神經網絡（RNN）？它們如何運行？可以用在哪裡呢？本文試圖回答上述這些問題，還展示了一個 RNN 實現 demo，你可以根據自己的需要進行擴展。

循環神經網絡架構

基礎知識。Python、CNN 知識是必備的。瞭解 CNN 的相關知識，是為了與 RNN 進行對比：RNN 為什麼以及在哪些地方比 CNN 更好。

我們首先從「循環」（Recurrent）這個詞說起。為什麼將其稱為循環？循環的意思是：

經常或重複出現

將這類神經網絡稱為循環神經網絡是因為它對一組序列輸入重複進行同樣的操作。本文後續部分將討論這種操作的意義。

我們為什麼需要 RNN？

也許你現在想的是，已經有像卷積網絡這樣表現非常出色的網絡了，為什麼還需要其他類型的網絡呢？有一個需要用到 RNN 的特殊例子。為了解釋 RNN，你首先需要了解序列的相關知識，我們先來講一下序列。

序列是相互依賴的（有限或無限）數據流，比如時間序列數據、信息性的字符串、對話等。在對話中，一個句子可能有一個意思，但是整體的對話可能又是完全不同的意思。股市數據這樣的時間序列數據也是，單個數據表示當前價格，但是全天的數據會有不一樣的變化，促使我們作出買進或賣出的決定。

當輸入數據具有依賴性且是序列模式時，CNN 的結果一般都不太好。CNN 的前一個輸入和下一個輸入之間沒有任何關聯。所以所有的輸出都是獨立的。CNN 接受輸入，然後基於訓練好的模型輸出。如果你運行了 100 個不同的輸入，它們中的任何一個輸出都不會受之前輸出的影響。但想一下如果是文本生成或文本翻譯呢？所有生成的單詞與之前生成的單詞都是獨立的（有些情況下與之後的單詞也是獨立的，這裡暫不討論）。所以你需要有一些基於之前輸出的偏向。這就是需要 RNN 的地方。RNN 對之前發生在數據序列中的事是有一定記憶的。這有助於系統獲取上下文。理論上講，RNN 有無限的記憶，這意味著它們有無限回顧的能力。通過回顧可以瞭解所有之前的輸入。但從實際操作中看，它只能回顧最後幾步。

本文僅為了與人類大體相關聯，而不會做任何決定。本文只是基於之前關於該項目的知識做出了自己的判斷（我甚至尚未理解人類大腦的 0.1%）。

何時使用 RNN？

RNN 可用於許多不同的地方。下面是 RNN 應用最多的領域。

1. 語言建模和文本生成

給出一個詞語序列，試著預測下一個詞語的可能性。這在翻譯任務中是很有用的，因為最有可能的句子將是可能性最高的單詞組成的句子。

2. 機器翻譯

將文本內容從一種語言翻譯成其他語言使用了一種或幾種形式的 RNN。所有日常使用的實用系統都用了某種高級版本的 RNN。

3. 語音識別

基於輸入的聲波預測語音片段，從而確定詞語。

4. 生成圖像描述

RNN 一個非常廣泛的應用是理解圖像中發生了什麼，從而做出合理的描述。這是 CNN 和 RNN 相結合的作用。CNN 做圖像分割，RNN 用分割後的數據重建描述。這種應用雖然基本，但可能性是無窮的。

5. 視頻標記

可以通過一幀一幀地標記視頻進行視頻搜索。

深入挖掘

本文按照以下主題進行。每一部分都是基於之前的部分進行的，所以不要跳著讀。

前饋網絡
循環網絡
循環神經元
基於時間的反向傳播（BPTT）
RNN 實現

前饋網絡入門

前饋網絡通過在網絡的每個節點上做出的一系列操作傳遞信息。前饋網絡每次通過每個層直接向後傳遞信息。這與其他循環神經網絡不同。一般而言，前饋網絡接受一個輸入並據此產生輸出，這也是大多數監督學習的步驟，輸出結果可能是一個分類結果。它的行為與 CNN 類似。輸出可以是以貓狗等作為標籤的類別。

前饋網絡是基於一系列預先標註過的數據訓練的。訓練階段的目的是減少前饋網絡猜類別時的誤差。一旦訓練完成，我們就可以用訓練後的權重對新批次的數據進行分類。

一個典型的前饋網絡架構

還有一件事要注意。在前饋網絡中，無論在測試階段展示給分類器的圖像是什麼，都不會改變權重，所以也不會影響第二個決策。這是前饋網絡和循環網絡之間一個非常大的不同。

與循環網絡不同，前饋網絡在測試時不會記得之前的輸入數據。它們始終是取決於時間點的。它們只會在訓練階段記得歷史輸入數據。

循環網絡

也就是說，循環網絡不僅將當前的輸入樣例作為網絡輸入，還將它們之前感知到的一併作為輸入。

我們試著建立了一個多層感知器。從簡單的角度講，它有一個輸入層、一個具備特定激活函數的隱藏層，最終可以得到輸出。

多層感知器架構示例

如果在上述示例中的層數增加了，輸入層也接收輸入。那麼第一個隱藏層將激活傳遞到下一個隱藏層上，依此類推。最後到達輸出層。每一個隱藏層都有自己的權重和偏置項。現在問題變成了我們可以輸入到隱藏層嗎？

每一層都有自己的權重（W）、偏置項（B）和激活函數（F）。這些層的行為不同，合併它們從技術層面上講也極具挑戰性。為了合併它們，我們將所有層的權重和偏置項替換成相同的值。如下圖所示：

現在我們就可以將所有層合併在一起了。所有的隱藏層都可以結合在一個循環層中。所以看起來就像下圖：

我們在每一步都會向隱藏層提供輸入。現在一個循環神經元存儲了所有之前步的輸入，並將這些信息和當前步的輸入合併。因此，它還捕獲到一些當前數據步和之前步的相關性信息。t-1 步的決策影響到第 t 步做的決策。這很像人類在生活中做決策的方式。我們將當前數據和近期數據結合起來，幫助解決手頭的特定問題。這個例子很簡單，但從原則上講這與人類的決策能力是一致的。這讓我非常想知道我們作為人類是否真的很智能，或者說我們是否有非常高級的神經網絡模型。我們做出的決策只是對生活中收集到的數據進行訓練。那麼一旦有了能夠在合理時間段內存儲和計算數據的先進模型和系統時，是否可以數字化大腦呢？所以當我們有了比大腦更好更快的模型（基於數百萬人的數據訓練出的）時，會發生什麼？

另一篇文章（https://deeplearning4j.org/lstm.html）的有趣觀點：人總是被自己的行為所困擾。

我們用一個例子來闡述上面的解釋，這個例子是預測一系列字母后的下一個字母。想象一個有 8 個字母的單詞 namaskar。

namaskar（合十禮）：印度表示尊重的傳統問候或姿勢，將手掌合起置於面前或胸前鞠躬。

如果我們在向網絡輸入 7 個字母后試著找出第 8 個字母，會發生什麼呢？隱藏層會經歷 8 次迭代。如果展開網絡的話就是一個 8 層的網絡，每一層對應一個字母。所以你可以想象一個普通的神經網絡被重複了多次。展開的次數與它記得多久之前的數據是直接相關的。

循環神經網絡的運作原理

循環神經元

這裡我們將更深入地瞭解負責決策的實際神經元。以之前提到的 namaskar 為例，在給出前 7 個字母后，試著找出第 8 個字母。輸入數據的完整詞彙表是 {n,a,m,s,k,r}。在真實世界中單詞或句子都會更復雜。為了簡化問題，我們用的是下面這個簡單的詞彙表。

在上圖中，隱藏層或 RNN 塊在當前輸入和之前的狀態中應用了公式。在本例中，namaste 的字母 n 前面什麼都沒有。所以我們直接使用當前信息推斷，並移動到下一個字母 a。在推斷字母 a 的過程中，隱藏層應用了上述公式結合當前推斷 a 的信息與前面推斷 n 的信息。輸入在網絡中傳遞的每一個狀態都是一個時間步或一步，所以時間步 t 的輸入是 a，時間步 t-1 的輸入就是 n。將公式同時應用於 n 和 a 後，就得到了一個新狀態。

用於當前狀態的公式如下所示：

h_t 是新狀態，h_t-1 是前一個狀態。x_t 是時間 t 時的輸入。在對之前的時間步應用了相同的公式後，我們已經能感知到之前的輸入了。我們將檢查 7 個這樣的輸入，它們在每一步的權重和函數都是相同的。

現在試著以簡單的方式定義 f()。我們使用 tanh 激活函數。通過矩陣 W_hh 定義權重，通過矩陣 W_xh 定義輸入。公式如下所示：

上例只將最後一步作為記憶，因此只與最後一步的數據合併。為了提升網絡的記憶能力，並在記憶中保留較長的序列，我們必須在方程中添加更多的狀態，如 h_t-2、h_t-3 等。最後輸出可以按測試階段的計算方式進行計算：

其中，y_t 是輸出。對輸出與實際輸出進行對比，然後計算出誤差值。網絡通過反向傳播誤差來更新權重，進行學習。本文後續部分會對反向傳播進行討論。

基於時間的反向傳播算法（BPTT）

本節默認你已經瞭解了反向傳播概念。如果需要對反向傳播進行深入瞭解，請參閱鏈接：http://cs231n.github.io/optimization-2/。

現在我們瞭解了 RNN 是如何實際運作的，但是在實際工作中如何訓練 RNN 呢？該如何決定每個連接的權重呢？如何初始化這些隱藏單元的權重呢？循環網絡的目的是要準確地對序列輸入進行分類。這要靠誤差值的反向傳播和梯度下降來實現。但是前饋網絡中使用的標準反向傳播無法在此應用。

與有向無環的前饋網絡不同，RNN 是循環圖，這也是問題所在。在前饋網絡中可以計算出之前層的誤差導數。但 RNN 的層級排列與前饋網絡並不相同。

答案就在之前討論過的內容中。我們需要展開網絡。展開網絡使其看起來像前饋網絡就可以了。

展開 RNN

在每個時間步取出 RNN 的隱藏單元並複製。時間步中的每一次複製就像前饋網絡中的一層。在時間步 t+1 中每個時間步 t 層與所有可能的層連接。因此我們對權重進行隨機初始化，展開網絡，然後在隱藏層中通過反向傳播優化權重。通過向最低層傳遞參數完成初始化。這些參數作為反向傳播的一部分也得到了優化。

展開網絡的結果是，現在每一層的權重都不同，因此最終會得到不同程度的優化。無法保證基於權重計算出的誤差是相等的。所以每一次運行結束時每一層的權重都不同。這是我們絕對不希望看到的。最簡單的解決辦法是以某種方式將所有層的誤差合併到一起。可以對誤差值取平均或者求和。通過這種方式，我們可以在所有時間步中使用一層來保持相同的權重。

RNN 實現

本文試著用 Keras 模型實現 RNN。我們試著根據給定的文本預測下一個序列。

代碼地址：

https://gist.github.com/09aefc5231972618d2c13ccedb0e22cc.git

該模型是 Yash Katariya 建的。我對該模型做了一些細微的改動以適合本文的要求。

分享到:

閱讀更多 超微雲物聯網 的文章

關鍵字: 本文 CNN 神經網絡

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"

循環神經網絡的原理

喜歡就關注【超微雲物聯網】

相關文章:

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

30種不同的編程語言怎麼寫“Hello, World”

percona QAN 介紹

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

網絡工程師職業生涯中，哪兩點是最重要的？

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

Hive分桶表

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

第一章 Spring Framework概述

opencv人工智能深度學習這樣實現人臉的年齡檢測

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

Redis內存分析工具--rdr安裝與使用

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

一行代碼提升遷移性能

利用相似幾何信息，做可泛化3D形狀分割模型

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

分佈式緩存，真香

特徵工程的力量

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

SpringBoot如何優雅的使用RocketMQ

css代碼規範工具stylelint

從法律上來說，李國慶搶奪公章的行為，違法嗎？他們還沒離婚？

部分高校取消五一假，你怎麼看？

今年研究生擴招，會對以後的考研產生什麼影響嗎？

國慶和俞渝誰會最終佔領，噹噹？

李國慶和俞渝曾是患難夫妻，為何多次撕破臉皮地爭得你死我活嗎？

花生醬，芝麻醬哪個牌子好？

你怎麼理解早教中心？你會選擇讓孩子去上早教中心嗎？

下學期我孫女要上一年級這學期不去幼兒園可以嗎？

未來豬肉價格會有怎樣的趨勢呢？

你知道哪些古文中隱藏的天文知識？

有人說信用卡逾期即將爆發，對此你怎麼看，你是否也是參與者？

記者：天海即將獲得中超準入，中甲遞補按成績選擇！為什麼丁勇鬧劇後，足協就開竅了？

你看過哪些改變你世界觀的書籍，推薦一下，謝謝？

大一，讀計算機專業，父母抱怨當初沒有選師範專業，說是當老師有多好，而現在已經不能轉專業，我該怎麼辦？

我想知道“何為人生人生為何，為何人生，生為何人”？

職場中一直踏實努力，但被別人看不上，怎樣解決？

假如家中有一個抑鬱症和焦慮症的親人，你該怎麼幫他？

太老實總吃虧幹更多的活，經常被人戲弄開玩笑；想讓自己遇事和交際變得不卑不亢，該看什麼書籍？

如果你是一名抑鬱症患者，你希望周圍的人怎樣做？

你現在最想擁有的是什麼？你最後悔失去過的是什麼？

杏鮑菇雞蛋包子怎麼做？

如果拋開一切因素，你會選擇事業還是在家全職帶娃？

為什麼有些球迷經常互黑？

孝順的老公是好老公嗎？

“無愛不婚”寧願單身！90後一些快30歲的我們。大家都有什麼想法？

一個習慣異地戀的女孩是一個怎樣的女孩？

你的愛情觀是怎麼樣的？婚後的感情是不是還有初戀的影子存在？

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪