信息時代最大的特徵是不確定性,而信息論是解決不確定性問題最有效的工具。
介紹信息論從信息的產生、信息的傳播、信息的應用三方面闡述,本文重點介紹信息產生。
01 信息度量
我們把充滿不確定性的黑盒子叫做“信息源”,它裡面的不確定性叫做“信息熵”,而“信息”就是用來消除這些不確定性的,搞清楚黑盒子裡是怎麼一回事,需要的“信息量”就等於盒子裡的“信息熵”。
信息是可以度量的,“比特”是度量信息量的基本單位。
很多複雜交易和產品都是利用了信息的可度量性,把信息問題變成了概率問題。多瞭解信息論和基本的數據常識,可以在生活中省下不少冤枉錢。
02 信息編碼
香農第一定理,編碼長度≧信息熵/每一個碼的信息量。
信息編碼要遵循易辨識和有效性兩個基本原理。
有效編碼,其實就是讓理論最佳值在應用中落地。同理,知識學習了之後,只有真正使用了,才能變成自己的東西,因此學以致用比學習更重要。
最短編碼:霍夫曼編碼。
最好、最重要的資源要用於哪些出現最頻繁的事情,這樣分配資源最有效。
利用霍夫曼編碼的做事方式,從不排斥嘗試新東西,這樣就不會失去機會,但是花了精力也沒做好的項目,要堅決止損做減法,以保證把最好的資源投入到最擅長、成功率最高的事情上。
03 矢量化
人類象形文字的演化實際上就是一個矢量化的過程。
矢量化讓問題變得簡單,但是會丟失信息,而平衡便利性和信息的完整性,就是一門藝術了。
人年輕的時候,總想兩者兼而有之,學習了各種科學知識後,就知道這種實行在理論行就辦不到。
世界上人為想做的,但違背規律的事情,做起來總是困難重重。
04 冗餘度
冗餘度是對信息“密集”和“稀疏”程度的描述。
冗餘度=(信息的編碼長度-一條信息的信息量)/信息的編碼長度
冗餘的優點:易理解、消除歧義性、容錯性
冗餘的缺點:存儲和傳遞信息時的浪費;如果混有噪音,可能導致錯誤。
相對於英語來書,漢字冗餘度低,所以難學。
做事心得:讀書要把書讀薄,讀出主線。
05 等價性
善用等價信息,這是我們這個時代每一個人都必須掌握的工作技巧。
傅里葉變換
應用案例如語言壓縮、圖像壓縮、核磁共振。
06 信息增量
主幀+增量編碼的方法
應用案例:視頻壓縮(這也是為什麼視頻壓縮比率比圖片壓縮比率高的原因)、谷歌存儲網頁
信息增量可以應用,是由世界漸變的特性決定的。
信息增量原理,解釋了為什麼保守主義的做事方式成本最低。
思考生活、工作的“主幀”。
07 信息壓縮
信息壓縮分為無損壓縮和有損壓縮。
無損壓縮:僅適用傅里葉變換、霍夫曼編碼
有損壓縮的三個原則;
- 世界上很多時候沒有做好的技術方案,只能根據場景找到合適的,因此做事的目的性很重要。
- 丟失一部分信息,一定會增加不確定性。用的信息少,永遠不可能做的和原來一樣好。
- 要看應用場景,根據不同場景使用不同壓縮算法(保留內容,保留口音,去除高頻),通常是“槍打出頭鳥”。
08 信息正交性
利用和組合信息,提高決策水平。
信息正交時,消除不確定時效果最好。
應用案例明信片識別(圖像識別+網絡信息)
找正交信息的三個原則:
- 不同信息源
- 避免使用相互嵌套、相互包含的信息
- 從多個不同角度看
處理信息的兩個方法:不斷疊加(最佳、次佳、次次佳...)、不斷刪除(最差、次差、次次差...)
09 互信息
互信息是判斷信息相關程度大小的工具。
找強相關性,弱相關性沒有用,相關不是因果,同時切記因果倒置。
10 條件熵和信息增益
信息熵H(X) ≧ 條件熵H(X|Y)
信息增益IG(Y1)=H(X)-H(X|Y1)
標新立異才有可能提供信息增量。對於每個人,第一個發表意見,以及能夠發表與眾不同的意見,對提高自己的影響力至關重要。
11 置信度
就拿擲硬幣來說,你與多達把握說硬幣不均勻,正面朝上的概率更大,這個把握就是置信度。
置信度不到95%的結論不能相信,如擲硬幣要140次以後。
只有被重複檢驗足夠多次之後,置信度才高,這樣的經驗才可靠。
12 交叉熵
你的猜測和真實情況完全一致,你不損失任何東西,但只要不一致,就會或多或少有損失。
你的猜測和真實情況相差越大,損失越大。特別是原來以為的小概率事件發生了,損失最大,那些就是所謂的黑天鵝事件。
自大的人容易遺漏很多原本應該考慮的事情,如趙括、馬謖。
過分防範各種情況,患得患失,也會有損失。
任何硬性的決定都要損失信息,避免all in。
學習筆記——吳軍博士的《信息論40講》