現代人離不開的信息論01——信息產生

信息時代最大的特徵是不確定性,而信息論是解決不確定性問題最有效的工具。

介紹信息論從信息的產生、信息的傳播、信息的應用三方面闡述,本文重點介紹信息產生。

現代人離不開的信息論01——信息產生

01 信息度量

我們把充滿不確定性的黑盒子叫做“信息源”,它裡面的不確定性叫做“信息熵”,而“信息”就是用來消除這些不確定性的,搞清楚黑盒子裡是怎麼一回事,需要的“信息量”就等於盒子裡的“信息熵”。

信息是可以度量的,“比特”是度量信息量的基本單位。

很多複雜交易和產品都是利用了信息的可度量性,把信息問題變成了概率問題。多瞭解信息論和基本的數據常識,可以在生活中省下不少冤枉錢。

02 信息編碼

現代人離不開的信息論01——信息產生

霍夫曼編碼

香農第一定理,編碼長度≧信息熵/每一個碼的信息量。

信息編碼要遵循易辨識和有效性兩個基本原理。

有效編碼,其實就是讓理論最佳值在應用中落地。同理,知識學習了之後,只有真正使用了,才能變成自己的東西,因此學以致用比學習更重要。

最短編碼:霍夫曼編碼。

最好、最重要的資源要用於哪些出現最頻繁的事情,這樣分配資源最有效。

利用霍夫曼編碼的做事方式,從不排斥嘗試新東西,這樣就不會失去機會,但是花了精力也沒做好的項目,要堅決止損做減法,以保證把最好的資源投入到最擅長、成功率最高的事情上。

03 矢量化

現代人離不開的信息論01——信息產生

矢量圖

人類象形文字的演化實際上就是一個矢量化的過程。

矢量化讓問題變得簡單,但是會丟失信息,而平衡便利性和信息的完整性,就是一門藝術了。

人年輕的時候,總想兩者兼而有之,學習了各種科學知識後,就知道這種實行在理論行就辦不到。

世界上人為想做的,但違背規律的事情,做起來總是困難重重。

04 冗餘度

冗餘度是對信息“密集”和“稀疏”程度的描述。

冗餘度=(信息的編碼長度-一條信息的信息量)/信息的編碼長度

冗餘的優點:易理解、消除歧義性、容錯性

冗餘的缺點:存儲和傳遞信息時的浪費;如果混有噪音,可能導致錯誤。

相對於英語來書,漢字冗餘度低,所以難學。

做事心得:讀書要把書讀薄,讀出主線。

05 等價性

善用等價信息,這是我們這個時代每一個人都必須掌握的工作技巧。

傅里葉變換

應用案例如語言壓縮、圖像壓縮、核磁共振。

06 信息增量

主幀+增量編碼的方法

應用案例:視頻壓縮(這也是為什麼視頻壓縮比率比圖片壓縮比率高的原因)、谷歌存儲網頁

信息增量可以應用,是由世界漸變的特性決定的。

信息增量原理,解釋了為什麼保守主義的做事方式成本最低。

思考生活、工作的“主幀”。

07 信息壓縮

信息壓縮分為無損壓縮和有損壓縮。

無損壓縮:僅適用傅里葉變換、霍夫曼編碼

有損壓縮的三個原則;

  • 世界上很多時候沒有做好的技術方案,只能根據場景找到合適的,因此做事的目的性很重要。
  • 丟失一部分信息,一定會增加不確定性。用的信息少,永遠不可能做的和原來一樣好。
  • 要看應用場景,根據不同場景使用不同壓縮算法(保留內容,保留口音,去除高頻),通常是“槍打出頭鳥”。

08 信息正交性

利用和組合信息,提高決策水平。

信息正交時,消除不確定時效果最好。

應用案例明信片識別(圖像識別+網絡信息)

找正交信息的三個原則:

  • 不同信息源
  • 避免使用相互嵌套、相互包含的信息
  • 從多個不同角度看

處理信息的兩個方法:不斷疊加(最佳、次佳、次次佳...)、不斷刪除(最差、次差、次次差...)

09 互信息

互信息是判斷信息相關程度大小的工具。

找強相關性,弱相關性沒有用,相關不是因果,同時切記因果倒置。

10 條件熵和信息增益

信息熵H(X) ≧ 條件熵H(X|Y)

信息增益IG(Y1)=H(X)-H(X|Y1)

標新立異才有可能提供信息增量。對於每個人,第一個發表意見,以及能夠發表與眾不同的意見,對提高自己的影響力至關重要。

11 置信度

就拿擲硬幣來說,你與多達把握說硬幣不均勻,正面朝上的概率更大,這個把握就是置信度。

置信度不到95%的結論不能相信,如擲硬幣要140次以後。

只有被重複檢驗足夠多次之後,置信度才高,這樣的經驗才可靠。

12 交叉熵

你的猜測和真實情況完全一致,你不損失任何東西,但只要不一致,就會或多或少有損失。

你的猜測和真實情況相差越大,損失越大。特別是原來以為的小概率事件發生了,損失最大,那些就是所謂的黑天鵝事件。

自大的人容易遺漏很多原本應該考慮的事情,如趙括、馬謖。

過分防範各種情況,患得患失,也會有損失。

任何硬性的決定都要損失信息,避免all in。

學習筆記——吳軍博士的《信息論40講》


分享到:


相關文章: