權威解讀:什麼是大數據思維

權威解讀:什麼是大數據思維

每個行業都有每個行業特有的思維方式,這種思維方式是這個行業的精英們從若干年的實踐中總結出來的,行之有效的方法論。例如,毛澤東思想,就是由毛澤東倡導並在二十世紀中國革命中大範圍實踐的一種政治、軍事、發展理論,一般認為其為馬列主義在中國的發展。無數的互聯網人也總結了互聯網的思維方式,我們一般稱為互聯網思維。百度創始人李彥宏最早提出互聯網思維這個概念,雷軍、周鴻禕、張亞琴、柳傳志等業界大咖也有許多關於互聯網思維的精彩解讀。和君商學院的趙大偉更是進一步理論化、系統化出來《互聯網思維之獨孤九劍》。

隨著大數據技術的深入人心,很多大數據的技術專家、戰略專家、未來學學者等開始提出、解讀並豐富大數據思維概念的內涵和外延。總體來說,大數據思維包括全樣思維、容錯思維和相關思維。

權威解讀:什麼是大數據思維

(1)全樣思維

抽樣又稱取樣,是從欲研究的全部樣品中抽取一部分樣品單位。其基本要求是要保證所抽取的樣品單位對全部樣品具有充分的代表性。抽樣的目的是從被抽取樣品單位的分析、研究結果來估計和推斷全部樣品特性,是科學實驗、質量檢驗、社會調查普遍採用的一種經濟有效的工作和研究方法。

抽樣在一定歷史時期內曾經極大的推動了社會的發展,在數據採集難度大、分析和處理困難的時候,抽樣不愧為一種非常好的權宜之計。例如,要計算洞庭湖的銀魚的數量,我們可以事先對10000條銀魚打上特定記號,並將這些魚均勻的投放到洞庭湖中。過一段時間進行捕撈,假設捕撈上來10000條銀魚,有4條打上了預先的記號,那麼我們可以得出結論,洞庭湖大概有2500萬條銀魚。

抽樣的好處顯而易見,壞處也顯而易見。抽樣保證了在客觀條件達不到的情況下,可能得出一個相對靠譜的結論,讓研究有的放矢。抽樣也帶來了新的問題。首先抽樣是不穩定的,從而導致結論與實際可能差異非常明顯。上面的例子,有可能今天去捕撈得到打了記號的銀魚4條,明天去捕撈有可能打了記號的銀魚有400條。國貿大廈上一塊磚頭掉下來,砸死一個博士,得出結論北京人學歷都是博士,這是抽樣在極端情況下結論不穩定的極端表現。

在很多情況下,不能抽樣。例如為了獲得中國的準確人口,從而為黨和國家在制定政策、方針時更加符合時代要求,我們基本不會採用抽樣,而是採用人口普查。所謂人口普查,就是獲得中國所有人的樣本,計算中國的精確人口數量。

李開復先生在《李開復自傳》中寫道,他鄰居在院子的池塘裡養了很多魚,總是誇口說有100條。李開復老師不相信,趁著鄰居一家人都出門了,幾個孩子把池塘的水全舀幹了,仔細一數,發現根本沒有100 條魚。從李開復老師的這個例子可以看出,李老師是從小具有全樣思維的人。

大數據與“小數據”的根本區別在於大數據採用全樣思維方式,小數據強調抽樣。抽樣是數據採集、數據存儲、數據分析、數據呈現技術達不到實際要求,或成本遠超過預期的情況下的權宜之計。隨著技術的發展,在過去不可能獲取全樣數據,不可能存儲和分析全樣數據的情況都將一去不復返。大數據年代是全樣的年代,抽樣的場景將有利於小,最終消失在歷史長河中。

權威解讀:什麼是大數據思維

(2)容錯思維

前面已經提到,在小數據年代,我們習慣了抽樣。由於抽樣從理論上講結論就是不穩定的。一般來說,全樣的樣本數量比抽樣樣本數量的很多倍,因此抽樣的一丁點錯誤,就容易導致結論的“失之毫厘謬以千里”。為保證抽樣得出的結論相對靠譜,人們對抽樣的數據精益求精,容不得半點差錯。

這種對數據質量的近乎瘋狂的追求,是小數據年代的必然要求。這樣,一方面極大的增加了數據預處理的代價,一大堆的數據清洗算法和模型被提出,導致系統邏輯特別複雜。另一方面,不同的數據清洗模型可能會造成清洗後數據差異很大,從而進一步加大數據結論的不穩定性。最後,在現實中,世界本身就是不完美的,現實中的數據本身就是存在異常、紕漏、疏忽,甚至錯誤。將抽樣數據做了極致清洗後,很可能導致結論反而不符合客觀事實。這也是為什麼很多小數據的模型在測試階段效果非常好,一到了實際環境效果就非常差的原因。

大數據年代,因為我們採集了全樣數據,而不是一部分數據,數據中的異常、紕漏、疏忽、錯誤都是數據的實際情況,我們沒有必要進行任何清晰,其結果是最接近客觀事實的。

權威解讀:什麼是大數據思維

(3)相關思維

在小數據的年代,大家總是相信因果關係,而不認可其他關係。在歷史長河中,佛教在中國信徒眾多,其宣揚的也是一種因果報應。因果報應是宗教中關於因果關係的最高闡述。佛教中關於因果報應的闡述,有一種叫現報:幹了壞事,立馬報應,稱為“現作善惡之報,現受苦樂之報”;有一種叫速報,幹了壞事,很快報應,稱為“眼前作業,目下受報”。

但是因果關係是一個非常不穩定的關係,“有因必有果”的結論也非常武斷,在大部分情況下這種關係是錯誤的,或不合時宜的。以前大家都認為天鵝是白色的,“因為是天鵝,所以是白色的”曾被世界上所有人認為經典。但是當人們在澳大利亞發現真有天鵝就是黑色的時候,世人關於天鵝的知識體系崩潰了。我們曾經引為經典,認為千真萬確的牛頓力學理論,在高速運行的世界裡全顛覆了,許許多多的曾經認為理所當然的因果關係蕩然無存。這都說明因果關係是非常脆弱的,非常不穩定的。

在現實生活中,有很多人幹了很多壞事,但是一輩子都沒有得到任何報應。這本來可以證明因果關係在很多情況下是不成立的,或者在因果報應也是不靠譜的。為了保證因果關係在這種情況下繼續成立,圓因果報應的理論,佛教中也增加了一種報應,生報,即前生作業今生報,或今生作業來生報。

因果關係根源於數據抽樣理論。因果關係的得出,一般分為如下幾個步驟:

1、我們在一個抽樣樣本中,偶爾發現某個有趣的規律;

2、我們拿到另一個更大的樣本中,我們發現規律依然成立;

3、我們在能見到的所有樣本上都判斷一下,發現規律依然成立;

4、我們得出結論,這個規律是一個必然規律,因果關係成立。

權威解讀:什麼是大數據思維

因果關係是一種非常脆弱的關係,只要存在一個反例,因果關係就失敗。從黑天鵝事件可以看出,上述步驟3並不是全樣,當歐洲人把所有天鵝都看了,所以他們下結論:天鵝都是白色的。當澳大利亞出現黑天鵝的時候,整個因果關係就瞬間崩塌了。

在大數據年代,我們不追求抽樣,而追求全樣。當全部數據都加入分析的時候,由於只要有一個反例,因果關係就不成立,因此在大數據時代,因果關係變得幾乎不可能。而另一種關係就進入大數據專家的眼裡:相關關係。很多男人去超市買了啤酒後會順便買紙尿褲,但不是買啤酒就一定買紙尿褲。因此,啤酒喝紙尿褲的關係不能算因果關係,而只能是一種相關關係。同樣,女孩子裙子的長短與經濟熱度、摩天大廈與經濟危機的關係都是一種相關關係,不是因果關係。(文/龔才春)


分享到:


相關文章: