12.10 3個實例告訴你,大數據面前,統計學的價值在哪裡?

3個實例告訴你,大數據面前,統計學的價值在哪裡?

演講人:朱利平,中國人民大學統計與大數據研究院副院長、博士生導師,中國人民大學“傑出學者”特聘教授。國家自然科學基金優秀青年基金獲得者。入選中組部青年拔尖人才計劃、教育部新世紀優秀人才計劃等。長期從事複雜數據分析的研究工作,在統計學重要學術期刊上發表學術論文70餘篇。

統計學對大數據的意義

在談大數據之前,我們首先來看看什麼是數據。很長一段時間裡,大家對數據的理解,可能只是停留在阿拉伯數字這個層面。近些年來,大家開始講大數據。結果有人就開始好奇了:這個大數據和我們之前說的數據有什麼關係呢?

阿拉伯數字是不是數據呢?當然是數據。大數據是不是數據呢?當然也還是數據。不過,現在我們對數據的理解要廣泛得多了。凡是可以被數據化的信息載體,我們都可以認為是數據。比如說,我們接觸的文本,包括平時看到的一些文字,現在我們都可以把它量化。我們看到的圖片、視頻和音頻,現在也都可以量化。包括阿拉伯數字、文本、圖片、視頻和音頻,我們都稱之為數據。現在我們理解的數據,從來源上來說更加廣泛了,從類型上說變得很複雜了。

這些不同來源、類型複雜的數據組合在一起,達到一定的體量之後,就可以認為是一個大數據了。

現在我們來說一下統計學,統計學是什麼呢?首先,從學科定位上說,統計學已經被列為一級學科了。這一點和數學、法學等都一樣了。大不列顛百科全書對統計學有個定義,說這是一門收集數據、分析數據的科學和藝術。定義中提到統計學是一門科學,這個容易理解。那為什麼說統計學是一門藝術呢?這個問題,就和我今天主要回答的一個問題很有關係。順便說一句,現在美國很多高校的統計系,它並不設在理學院下面,而是設在藝術學院下面。

今天我主要回答一個問題:

在大數據時代,我們究竟是否需要基於抽樣的統計學?

有些人認為,現在計算機科學非常發達,可以收集海量的數據。為了特定的研究目的,我們現在甚至有能力通過計算機技術收集與特定的研究目的相關的全部數據。今天,基於抽樣的統計學就沒有那麼重要了,甚至都不在被需要了。事實真的是這樣嗎?

統計學是一門收集數據的藝術

既然統計學被認為是一門收集數據、分析數據的科學和藝術。我們暫時不談科學,先來看看統計學為什麼被認為是一門收集數據的藝術。

我們來看第一個案例。這個案例是希望調查15個國家的國民的誠實情況。調查人員想要知道,哪些國家的國民最傾向於撒謊,哪些國家的國民很誠實。如果直接去問被調查的人員:“您是否撒過謊?”十之八九,是問不到真實答案的。如果被調查人員以前撒過謊,也不在乎多撒這個謊了。被調查人員可能出於不同的動機,不願意給出真實答案。那麼,調查數據怎麼得來呢?這顯然不是簡單地通過計算機技術、通過某些爬蟲軟件就容易收集到適合研究目的相關數據的。

3個實例告訴你,大數據面前,統計學的價值在哪裡?

如何利用統計學方法來收集數據呢?這就需要統計學的智慧了。調查人員設計了兩組實驗。

調查人員先從每一個國家找1000人參與測試,15個國家一共找了15000人,找這麼多不同國家的人來面對面調查,這是非常困難的,所以調查人員通過互聯網找到了這15個國家共計15000人。兩組實驗都是在互聯網上進行的。

在第一組中,他們先做了一個測試,請受調查者在家裡拋硬幣,硬幣有正反兩面,調查者事先規定,受調查者拋硬幣之後要告訴我結果,如果硬幣正面朝上,我就獎勵你十塊錢,如果反面朝上,我就不給你獎勵。這個調查不需要提供你拋硬幣的證據,只是由你告訴調查者,拋硬幣的結果。這也就是說,受調查者有沒有撒謊,只有他自己知道。

這個最後的結果,實際上調查者是有參照的。因為,每個國家有1000人參與測試。正常情況下,1000次拋硬幣的結果,應該是500次左右正面朝上。某個國家參與實驗的1000個人之中,如果有900個人聲稱自己拋出來的硬幣正面朝上,甚至1000人聲稱拋出來硬幣正面朝上。那麼,很大概率就是其中有人撒謊了。這是第一組實驗。

第一組的實驗有價值,但是它也不一定能夠全面反映真實的情況,所以調查人員還有第二組實驗。

第二組實驗,是要求受調查者回答五個問題。這五個問題在回答之前,需要受調查者承諾,他不能為了答題去查閱任何資料,不能去尋求任何幫助,也就是說,看了這五個問題之後,受調查者需要立即給出答案。調查者承諾,如果五個問題中,回答對了四個以上,就獎勵給受訪者十塊錢,如果答對三個或者三個以下,就沒有獎勵。

而這五個問題中,其中有三個問題特別簡單,類似於像1+1等於幾這種問題。另外兩個問題則非常生僻。如果受調查者不去查閱資料或諮詢他人的話,基本是不太可能回答出來的。因此,如果有受調查者答對了這兩道難題,十有八九就說明他違反了自己事先承諾的“不去查閱資料尋求幫助”,由此可以推論他在這件事情上不誠實。

然後統計人員通過這兩組實驗結果,互相驗證。這兩組數據收集的過程都非常恰當地體現了統計學在收集數據方面的智慧。

所以說,即使在大數據時代,不是說有了計算機,有了爬蟲技術,我們就能收集到適合研究目的的所有數據。統計學是一個收集數據的藝術,針對特定的研究目的,設計非常漂亮的數據收集方案,就是一個非常藝術的收集數據的過程了。

3個實例告訴你,大數據面前,統計學的價值在哪裡?

我們再舉一個例子。這是最近美國麻省理工剛剛完成的一個實驗,大致在2018年左右完成的,實驗結果也公佈出來了。目的是想了解大家目前的婚姻觀念,100人受到邀請來到一個封閉的場所參與這個實驗。參加實驗時,每人都會被貼上一個編號。男的編號是單數一三五七九,女的編號是雙數二四六八十,以此類推。參與實驗的這100人不知道自己的編號,也不知道究竟有多少人參加了這次實驗。換句話說,他們不知道參加這次實驗的正好是50個男人和50個女人,受訪者僅僅知道,這次實驗有很多人參加。

在這裡統計人員採取了一點小花招,就是當受訪者進門的時候,把編號貼在受訪者後背上,受訪者知道自己有編號,但是不知道自己的編號是多少,不過他能夠看到別人後背上的編號。實驗規則說,允許100人中的任何兩個人進行交談,除了不能告訴對方他的後背編號是多少,其他話題都可以談。

然後實驗者把這100人帶到一個很小的一個房間裡,宣佈給大家5分鐘時間,在這5分鐘內,大家自行配對,每人只能配一名異性。5分鐘結束之後,如果配對成功了,兩個人背後的數字加起來乘以十,就是兩人能夠拿到的獎金。也就是說,如果編號是100的那個女性找到了那個編號為99的男性,那麼兩人就可以拿到(100+99)×10的獎金,也就是1990美元,這筆錢已經很可觀了。但是如果你是一個編號為2的女性,而你找到的是那個編號為1的男性,那麼你倆只能得到(1+2)×10也就是30美元,你倆用這獎金一起吃頓飯都不一定夠。但是5分鐘之後,如果還沒有配對成功的話,你就連一美分都拿不到。因此,參加者必須在5分鐘之內,在一個很小的擁擠空間內,儘快找到願意跟自己配對的那個人。而且在這個過程中,要儘可能讓自己的獎金數額變得很大。

實驗人員之所以把100人故意安排在非常擁擠的小房間內,就是考慮到,一方面要讓大家能夠很快速地看到一些人的編號,另一方面又能保證一個人不可能看到所有人的編號。在人擠人的情況下,有些編號是肯定看不到的。

實驗開始了。

一些人很快就發現,自己連續跟別人配對三四次,大家都拒絕他。這很可能說明,自己後背的編號數字不夠大,別人不感興趣。於是這其中就有人採取了應對策略,他跟別人講,如果你願意跟我配對的話,那我願意把獎金全部給你,反正我數字也不大,所以我的錢不要了。還有人說,只要你這次跟我配對成功了,我們出去以後,我再單獨請你吃頓飯。

另外還有一些人,雖然他不知道自己後背的編號,但是他發現有很多人過來找他,所以他很快就意識到,自己後背的編號很可能很大,但具體多大,他並不知道。而且要儘可能讓兩個人組合出來的數字變得很大。於是他很快就把眼前這批他能看到數字的人拒絕掉了,因為他理所當然地認為接下來肯定還有更大的編號,但是他並不知道最大的編號是多少,同時他還必須要在5分鐘內快速決定跟誰配對。

這個實驗的結果是,編號99的男性並沒有與編號100的女性配對成功。那位編號100的女性,找到的是編號八十幾的一位男性。那些數字在中間的人,大體都配對了跟自己差不多的另一個人。這個結果,很符合中國的一種傳統思想,也就是門當戶對。

我們現在來看這個實驗的結果,它基本上跟中國男女婚姻觀念的現實比較類似。比如說,實驗者因為自己編號小,就讓渡自己的獎金給對方甚至於承諾事後請對方吃飯,以求得成功配對,這個跟現實中“我的個人條件差一些,但是我父母同意我們兩個結婚之後送給我們一套房子”的承諾是類似的。而且我們在生活中也發現,一些最優秀的男性女性,他們身邊不乏追求者,但是他們並沒有找到自己的“最佳匹配對象”。

這個數據的收集過程是非常漂亮的。

——未完待續——

注:本文基於朱利平教授在國家圖書館國圖講壇的演講而整理,轉載於光明日報。本文為上半部分,主要講述統計學與大數據之間的關聯,以及以3個案例舉證:為什麼說統計學是收集數據的藝術。

下半部分,敬請期待。


分享到:


相關文章: