他是信息論和人工智能的奠基人,華為蘋果都靠他的理論活著!

他是信息論和人工智能的奠基人,華為蘋果都靠他的理論活著!

克勞德·艾爾伍德·香農(Claude Elwood Shannon ),1916年4月30日—2001年2月26日。

香農是信息論和人工智能的奠基人,他的研究成果深遠的影響著這個時代,他謙遜的品格也鼓舞著後來人不斷進取,這是一個值得被人銘記的名字,正因為信息的傳播打破了時空的限制,像空氣和水一樣廉價,如果世人傳頌我的故事,讓他們說,我曾與英雄同在,我活在信息時代。

他是信息論和人工智能的奠基人,華為蘋果都靠他的理論活著!

1943年,第二次世界大戰正使全世界處於動盪不安之中,同時也是全球精英突破各種困難之時,克勞德·香農和阿蘭·圖靈正是在這階段認識的,他們在研究如何破譯軸心國的加密信息。他們曾在貝爾實驗室餐廳共進午餐,他們都相信機器可以被賦予思考的力量。雙方的討論會很激烈,香農提議將有“文化的東西”灌入電子的大腦中,圖靈則說“不,我對建造一顆強大的大腦不感興趣,我只想要一顆普通的大腦。”,這些聊天讓人目瞪口呆,機器能被賦予智能麼?

香農在研究密碼學時,發現任何語言都有一定的統計結構和冗餘。比如,在一篇文章中,去掉某些詞,並不影響這篇文章包含的信息。香農估計,英語的冗餘度是百分之五十。隨著研究的深入,香農對“信息論”的存在逐漸清晰,他興奮的說:“對於信息論的研究而言,與信息的‘意義’基本無關”。1948年,香農發表了《通信的數學理論》,揭示出:信息的意義不是在語義上衡量的,而是數學上的。簡單的說,一些信息出現的可能性大或者一些信息更重要,這樣的說法都是建立在概率基礎上的。香農又通過數學方法定義了信息熵、信道容量等概念,到20世紀60年代,信息論發展成為了關於信息、信息傳輸和信息處理的新學科。

1949年夏的一天,香農用鉛筆在活頁紙上自上而下而下的畫了一條豎線,並在旁邊寫下了10的冪,從100 到1013 。他將座標軸命名為“比特存儲容量”。然後他開始列舉一些可以儲存的東西,在103 下,香農寫下了打孔卡片,在104 處,他寫下了“單行距打字頁面”(有32種可能),在105 附近,他寫下了不同尋常的東西:“人類的基因構成”,這種科學思考可謂史無前例,因為人類的DNA結構要等上幾年才會被提出,香農還是猜的太保守了,起碼低了四個數量級。在107 的級別上,是一本厚厚的《無線電工程師學會學報》,在 109級別,則是《不列顛百科全書》,1011比特是一小時的電視節目,而一小時的彩色電影,就要超過1013比特了。最後,就在下1014,香農寫下了他所能想象的最大信息量:美國國會圖書館。

他是信息論和人工智能的奠基人,華為蘋果都靠他的理論活著!

香農的活頁紙

1951年,香農則展示了一個機器人,儘管它不聰明,外表也不像人,但是它給觀眾留下了深刻印象,因為它能學會走迷宮,他們稱它為“香農的老鼠”。

他是信息論和人工智能的奠基人,華為蘋果都靠他的理論活著!

香農的老鼠

這些看起來有點不可思議,尤其是香農的老鼠,它具有學習的能力,不同於以往人類發明的其它機器。這些具有開創性的工作,是如何完成的?香農和其他信息論的先驅們到底是怎麼開創了一個基礎學科的?


熵的概念,最早起源於物理學,用於度量熱力學系統的無序程度,1865年,熱力學的主要奠基人魯道夫首先使用了該詞,他發現了一種量,這種量與能量無關,他就稱之為“熵”。1877年, 玻爾茲曼用下面的關係式來表示系統 無序性的大小:S∝lnΩ。1900年, 普朗克引進了比例係數k,將上式寫為S=klnΩ。該公式後來刻在玻爾茲曼的墓碑上,這就是第九個表彰的公式——玻爾茲曼公式。k為玻爾茲曼常量,S是宏觀系統熵值,是 分子運動或排列混亂程度的衡量尺度。Ω是可能的微觀態數。Ω越大,系統就越混亂 無序。由此看出熵的微觀意義:熵是系統內 分子熱運動無序性的一種量度。

香農首先將熵用於描述信息的不確定性,因為無序程度和不確定性,其背後都帶有隨機分佈的特點,熵的計算被定義為:

他是信息論和人工智能的奠基人,華為蘋果都靠他的理論活著!

其中,X代表一個離散型隨機變量, p(x)為其概率分佈函數。當對數函數以2為底時,熵的單位是比特。熵的大小不取決於X的實際值,而僅依賴其概率分佈。這個公式也被稱為香農熵。

當有多個隨機變量表示多個關聯的事件時,事件之間相互影響。

他是信息論和人工智能的奠基人,華為蘋果都靠他的理論活著!

以上三個公式分別是兩個隨機變量(X,Y)的聯合熵,條件熵和互信息,其證明過程採用香農熵、聯合概率分佈函數,鏈式法則。我們使用互信息來衡量不同事件空間,兩個信息的相關性。熵與互信息存在關係,通俗的說,任何新信息的增加,都不會使得原有信息的熵增加。就像我們玩德州撲克,不管你的表情如何改變,只要做了改變,都會被精明的玩家窺探到你手中的牌怎麼樣,因為你增加了信息,在牌局中,那些面無表情的人是最可怕的,一些人還會帶著帽子、墨鏡來掩飾自己的情緒。另外一個例子,偉大的發明和公司,往往是使熵降低的,比如互聯網搜索引擎使人們獲取信息的成本很低,從而解決了信息的不對稱,有利於階層之間的流動,使熵降低。

他是信息論和人工智能的奠基人,華為蘋果都靠他的理論活著!

熵與互信息的關係

香農的通信系統模型

下圖是香農提出的通信系統模型。

他是信息論和人工智能的奠基人,華為蘋果都靠他的理論活著!

香農模型

信源是發送信息的主體,信宿是接收者,信道是信息傳送的通道,編碼泛指將信源的信息轉換成適合通過信道傳送的信號的設備,譯碼是編碼的相反的設備。信道可以分為兩大類:有線信道和無線信道。有線信道包括光纖、電纜等沿導線的電磁波傳遞介質,無線信道則是依賴於自由空間來傳遞電磁波。此外,信道也可以分為有無記憶、連續還是離散等方式。信號在通過信道時,會有延時,還有伴有固定或時變的損耗,在通信系統中,這部分信道被成為干擾。干擾的來源可能是人為、自然和設備內部。

信道容量是指該信道中,每個字符平均能傳送的最大信息量,信道容量等於輸入與輸出的互信息的最大可能值。

他是信息論和人工智能的奠基人,華為蘋果都靠他的理論活著!

信道容量

在通信系統中,信息需要編解碼,然後在信道中傳輸,香農信道編碼定理,描述了信息傳輸速率與信道容量的關係:如果信源的信息速率小於信道容量,那麼則存在一種編碼方式,能保證發送信息的誤差任意小。也就是說,通過不可靠的信道,實現可靠的信息傳輸。在人們不具備更好的信道的條件下,如何將現有信道發揮到最大的利用價值,香農給出了一個極限。在香農以前,在這個問題上,物理學家和數學家總是聊不到一起,直到香農的三大定理給大家一個評價標準。有趣的是,當時香農並沒有給出這個結論的證明,這個證明直到後來才被人推導出來。近些年來,信道編碼取得重要進展,已經實現了無誤差編碼方式。

最大熵模型

在信息論中,熵是用來度量信息的不確定程度的,熵增定律說明了一個孤立系統有朝著熵增的方向發展的趨勢,進而呈現出一種最無序的、最不確定的狀態。最大熵就是使系統處於熵最大的狀態 - 滿足已有事件,無偏的對待不確定事件,即對未確定的事件,認為是等概率出現的。最大熵原理即是認為,在統計學習裡,所有的模型中,熵最大的模型是最好的模型。

最大熵原理對目前機器學習的優化算法而言是舉足輕重的,是訓練人工神經網絡的指導思想。

他是信息論和人工智能的奠基人,華為蘋果都靠他的理論活著!

最大熵模型求解過程

因為信息處理和信息傳輸,就像是一枚硬幣的兩面,這枚硬幣就是“信息”。以上公式看起來繁瑣,實際上,對於一個給定了數據集的機器學習任務,就是構建特徵f,然後,使用凸優化方法求極值。對於一個有等式約束的優化問題,使用拉格朗日乘子法,對上式中各變量求導數,然後令各方程為0,並組成方程組,然後對方程組求解。


信息論與人工智能

他是信息論和人工智能的奠基人,華為蘋果都靠他的理論活著!

越是深入的瞭解前人的工作,越能感受到,信息論和人工智能源起一處,我們可以很容易的將二者聯繫起來,比如機器學習的模型充當了信息論中的編譯碼器的角色,引入信息論中的哈夫曼編碼的算法可以加快網絡的訓練速度,使用最大熵或交叉熵構造機器學習的代價函數,對抗網絡很類似於信息論中的信道均衡的抽頭係數的訓練 --- 通信的成功應用正在讓人工智能快速成長。

香農在成功面前是虛懷若谷的,在20世紀五十年代,香農一邊從事火控系統和密碼學方面的工作,一邊苦苦思考他對信息的設想,他獨自一人住在紐約格林尼治村的公寓裡,與同事幾乎沒有交往,因為他們都搬到了新澤西的新總部,而他卻選擇留在西街的舊辦公樓,他不需要向別人解釋自己在幹什麼,畢竟他從事的是戰爭工作,有時候,他會去辦公樓對面的微波研究組閒逛,並且在那裡認識了貝蒂·摩爾,1948年,兩人開始約會,隨後在1949年初結婚,也就是在那個時候,他成為了人人都在談論的科學家。

他是信息論和人工智能的奠基人,華為蘋果都靠他的理論活著!

香農談論工作

香農是一個可以與牛頓、愛因斯坦、特斯拉等科學偉人相提並論的非凡人物。我們看不到那些被歷史遮蓋的事實,他有沒有低谷的時候,他克服困難後的喜悅,但是我相信,他被周圍的人愛著,也在努力愛這個世界,他堅持自己的事業,追求科學的樂趣,真正以謙遜的態度看待自己的成功。

今天,我們工作是後香農時代的人工智能單元,我們感謝他的貢獻,

他是信息論和人工智能的奠基人,華為蘋果都靠他的理論活著!

高通聯合創始人維特比先生談香農

概率的本質不是自然的隨機,而是人類的無知。希爾伯特說過一句名言:我們必須知道,我們必將知道。如果世人傳頌我的故事,讓他們說,我曾與英雄同在。


分享到:


相關文章: