深度學習:總結的幾個信息理論概念

深度學習:總結的幾個信息理論概念

信息論是一個重要的領域,它對深度學習和人工智能作出了重大貢獻,但很多人對它卻並不瞭解。信息論可以看作是微積分、概率論和統計學這些深度學習基本組成部分的複雜融合。人工智能中的很多概念來自信息論或相關領域:

  • 常用的交叉熵損失函數
  • 根據最大信息增益構建決策樹
  • 廣泛應用於NLP和語音領域的維特比算法
  • 廣泛用於機器翻譯RNN和各種其他類型模型的編碼器-解碼器概念

也可以稱為信息熵或香農熵。

深度學習:總結的幾個信息理論概念

熵是實驗中隨機性或不確定性的度量

熵給出了實驗中不確定性的度量。讓我們考慮兩個實驗:

  • 拋出一枚無偏硬幣(P(H)= 0.5)並觀察它的輸出,假設H
  • 拋出一枚有偏硬幣(P(H)= 0.99)並觀察其輸出,假設H

如果我們比較兩個實驗,與實驗1相比,實驗2更容易預測結果。因此,我們可以說實驗1本質上比實驗2更不確定或不可預測。實驗中的這種不確定性是使用熵度量的。

因此,如果實驗中存在更多固有的不確定性,那麼它的熵更大。或者說實驗越不可預測熵越大。實驗的概率分佈用於計算熵。

一個完全可預測的確定性實驗,即投擲P(H)= 1的硬幣的熵為零。一個完全隨機的實驗,比如滾動無偏骰子,是最不可預測的,具有最大的不確定性,在這些實驗中熵最大。

深度學習:總結的幾個信息理論概念

拋擲一枚無偏硬幣的實驗比拋擲有偏硬幣具有更多的熵

另一種觀察熵的方法是我們觀察隨機實驗結果時獲得的平均信息。將實驗結果獲得的信息定義為該結果發生概率的函數。結果越罕見,從觀察中獲得的信息就越多。

例如,在確定性實驗中,我們總是知道結果,因此通過觀察結果沒有獲得新信息,因此熵為零。

數學定義

對於離散隨機變量X,可能的結果(狀態)x_1,...,x_n,熵(以位為單位)定義為:

深度學習:總結的幾個信息理論概念

其中p(x_i)是X的第i個結果的概率。

應用

  • 熵用於自動決策樹構造。在樹構建的每個步驟中,使用熵標準來完成特徵選擇。
  • 基於最大熵原理選擇模型,從對比的模型中選出熵最大的模型為最佳模型。

交叉熵

交叉熵用於比較兩個概率分佈。它告訴我們兩個分佈有多相似。

數學定義

在相同的結果集上定義的兩個概率分佈p和q之間的交叉熵由下式給出:

深度學習:總結的幾個信息理論概念

應用

深度學習:總結的幾個信息理論概念

基於卷積神經網絡的分類器通常使用softmax層作為最後一層,並使用交叉熵損失函數進行訓練

  • 交叉熵損失函數廣泛用於邏輯迴歸等分類模型,隨著預測偏離真實輸出,交叉熵損失函數會增大。
  • 在諸如卷積神經網絡的深度學習架構中,最終輸出的softmax層經常使用交叉熵作為損失函數。

交互信息

交互信息是兩種概率分佈或隨機變量之間相互依賴性的度量。它告訴我們另一個變量有多少關於該變量的信息。

交互信息獲取隨機變量之間的依賴性,比一般的相關係數更具廣義性,後者只表現線性關係。

數學定義

兩個離散隨機變量X和Y的交互信息定義為:

深度學習:總結的幾個信息理論概念

其中p(x,y)是X和Y的聯合概率分佈,p(x)和p(y)分別是X和Y的邊緣概率分佈。

應用

深度學習:總結的幾個信息理論概念

在貝葉斯網絡中,可以使用交互信息來確定變量之間的關係結構

  • 特徵選擇:使用交互信息,而不是使用相關性。相關性僅表現線性依賴性而忽略非線性依賴性,但交互信息不會。零的交互獨立性保證隨機變量是獨立的,但零相關不是。
  • 在貝葉斯網絡中,交互信息用於學習隨機變量之間的關係結構,並定義這些關係的強度。

Kullback Leibler(KL)散度

也稱為相對熵。

深度學習:總結的幾個信息理論概念

KL散度用於比較兩個概率分佈

KL散度是另一種表示兩個概率分佈之間相似性的方法。它衡量一個分佈與另一個分佈的差異。

假設我們有一些數據,它的真實分佈是P。但是我們不知道P,所以我們選擇一個新的分佈Q來近似這個數據。由於Q只是一個近似值,它無法像P那樣準確地逼近數據,會造成一些信息的丟失。這個信息損失由KL散度給出。

P和Q之間的KL散度告訴我們,當我們試圖用P和Q來近似數據時,我們損失了多少信息。

數學定義

一個概率分佈Q與另一個概率分佈P的KL散度定義為:

深度學習:總結的幾個信息理論概念

應用

KL散度通常用於無監督機器學習技術中的變分自編碼器。

信息論最初是由數學家和電氣工程師克勞德·香農,在1948年的開創性論文“通信的數學理論”中提出的。

注意:隨機變量和AI,機器學習,深度學習,數據科學等專業術語已被廣泛使用,但在不同的領域中會有不同的物理含義。

今日資源推薦:

咕泡學院《仿生學神經網絡人工智能高薪就業實戰課》課程

以深度神經網絡為代表的“深度學習”系統正開始逐漸地接手人工智能的各種任務,從YOLO物體追蹤、圖像識別、圖像分割、圖像補全、語音喚醒、聊天機器人等實戰項目。因此,在許多先進的學術環境中,深度學習的專業知識正迅速從深奧的需要轉變為強制性的先決條件,並在工業就業市場上具有很大優勢。

在本課程中,我們將學習深層神經網絡的基礎知識,以及它們在各種人工智能任務中的應用。在課程結束時,學生應該對該學科有一定的瞭解,並能夠將深度學習應用到各種任務中。

課程鏈接:https://ke.qq.com/course/364348?flowToken=1010952


分享到:


相關文章: