你能解決這一懸案嗎?

寫於2020.3.7


你能解決這一懸案嗎?


1787年,美國召開制憲會議,頒佈了憲法。為了號召民眾支持憲法,三位美國政治家亞歷山大•漢密而頓、約翰•傑伊和詹姆斯•麥迪遜,共用一個筆名,在報刊上一共發表了85篇文章,形成了後來著名的《聯邦黨人文集》。

由於共用一個筆名,這就導致在這85篇文章當中,具體哪篇是由哪個人寫的,一直是個謎,就連當事人的說法也不一致。其中,就有12篇文章,漢密而頓和麥迪遜都說是自己寫的。當時《聯邦黨人文集》出版後的一百多年,很多人都想搞清楚這個問題。

如果換了是你,把自己想象成一個偵察,你能解決這一懸案嗎?

這件懸案一直拖到了1963年,也就是將近200年後,才有兩位美國大學的教授站出來解決了這個問題。這兩位教授不是歷史學家,也不是政治學家,他們是統計學家。

對,統計學家。他們正是利用統計的方法解決這一問題。

你看,每個人的寫作都會有自己的特性,體現到文章當中,就是每個人使用詞語的頻率會不一樣。兩位教授對漢密而頓和麥迪遜的文章研究後,發現兩個人在用詞上很不一樣。比如,漢密而頓更喜歡使用“according”,而麥迪遜更喜歡使用“also”。於是兩位教授選擇了已經明確的,漢密而頓和麥迪遜的各自的文章,統計出各自的詞頻,得到兩組數據,實際上就是他們兩個人各自的“文字指紋”

有了指紋,這就好辦了。把現場的指紋(也就是那12篇文章)進行比對,就得到結論:那12篇文章是麥迪遜寫的。

這就是大數據的早期應用。

現在,想想淘寶給你推薦的商品,想想美團給你推薦的美食,想想今日頭條給你推薦的新聞,想想抖音給你推薦的短視頻,想想網易雲音樂給你推薦的音樂……本質上都是掌握了你的“嗜好指紋”罷了

你看,大數據就在我們身邊。


分享到:


相關文章: