想成爲優秀的數據科學家?前提是心中有「數」

2013年的夏天,一匹紅褐色的賽馬靜靜地站在紐約州北部的一個馬廄裡,它比一般的賽馬體型略大一些,有著黑色的鬃毛。它是那一天被拍賣的152匹賽馬中的一匹,也是那一年被拍賣的1萬匹1歲大的賽馬之一。

它還沒有名字,人們就用它的馬廄的編號來叫它,賽馬第85號。它譜系(pedigree,也就是遺傳因子,是傳統評估賽馬最重要的因素之一)不錯但也沒有十分突出。它的父親是頂尖的賽馬,但它父親的其它孩子都不太成功。

另外,它的膝蓋上還有一個劃痕,有些買主擔心是因為受傷留下的。它的主人——Ahmed Zayat, 準備把它賣了,再買另外幾匹馬。像其它的買主一樣,Zayat也僱了一個專家團隊來替他選馬。一般的選馬的專家都來自於肯塔基或者佛羅里達鄉村來的養馬世家。中年男人可能沒有受過太多的教育。但這次Zayat的團隊有些不同,這個團隊的負責人——Jeff Seder是從哈佛大學畢業的。

經過幾天的評估,Jeff告訴Zayat,他無法幫他找到合適的賽馬,相反,Seder幾乎是用乞求的口氣對Zayat說,“不要賣你的馬,就是賣了你的房子,也不要賣你的馬!”第二天,賽馬第85號以30萬美元成交,買主叫Bloodstock,其實Bloodstock就是Zayat本人。在這次拍賣中,62匹賽馬賣出了比85號高的價錢,其中有兩匹馬超過了100萬美元。3個月之後,85號賽馬終於有了自己的名字——American Pharoah。18個月之後,在紐約郊區的一個週六的夜晚,American Pharoah成為了30年來第一匹得到三連冠的賽馬。

想成為優秀的數據科學家?前提是心中有“數”

那麼是什麼原因讓這個哈佛的畢業生這麼有自信選擇American Pharoah呢?

Seder從哈佛畢業之後,又繼續拿了一個法律和一個商學院的學位。像大多數有相似背景的人一樣,他畢業之後就去了華爾街。

一天,在公司裡他被一張有著遼闊的曠野的油畫所吸引,這張油畫激起了他內心對鄉村生活的嚮往以及對馬的熱愛。第二天,他就辭職搬到了賓夕法尼亞。選賽馬是非常具有挑戰性的。傳統的方式認為遺傳是最重要的因素。但是如果我們看看數據,所有年度賽馬(每年賽馬的最高獎項)的後代,有3/4沒有贏得任何主要的賽事。

當然傳統的方式也會看其它的信息,如馬跑的姿態。但關鍵是沒有任何大家都認為有效的標準。由於又有大量的熱錢,使得整個系統變得非常低效。10年前,一匹有史以來最好的賽馬的後代,被1千6百萬賣出,但只贏了3場比賽,共得到1萬美元的獎金。所以,Seder不想使用任何傳統的方法,他只對數據有興趣。他對馬進行各種的測量,包括鼻孔的大小,心率,肌肉,甚至糞便的重量。但都沒有什麼結果。

直到12年前,他有了突破,他決定去測量內臟的大小,他發現左心室的大小和馬的成功非常相關。他通過對馬跑的姿勢的數字化處理,發現一些和成功相關的姿態。他還發現跑一會兒就發出哮聲的馬,這些馬有的會賣出上百萬,實際上很少會成功。通常在1000匹賽馬中,只有10匹可以通過Seder的數據標準。而第85號賽馬,它的左心室的大小是99.61%,加上其它的數據,Seder預測它是一匹10萬里挑一,甚至百萬裡挑一的賽馬。

這一次,他是正確的。

上面這個故事是我在Stephens-Davidowitz, Seth寫的《Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are》中看到的,有興趣的同學可以看看。

而朋友圈前一陣還流傳著一篇關於林彪的文章,題目有些標題黨《林彪:玩大數據的鼻祖》。是說在遼瀋戰役開始後,林彪每天深夜都要值班參謀讀出下屬各個縱隊、師、團用電臺報告的當日戰況和繳獲情況。林彪的要求很細,俘虜要分清軍官和士兵,繳獲的槍支,要統計出機槍、長槍、短槍,擊毀和繳獲尚能使用的汽車,也要分出大小和類別。一天,他聽參謀彙報的時候突然說“停”,問“剛才的唸的在胡家窩棚那個戰鬥的繳獲,你們聽到了嗎?”,在大家一臉茫然的時候他連問了三句:

“為什麼那裡繳獲的短槍與長槍的比例比其它戰鬥略高?”

“為什麼那裡繳獲和擊毀的小車與大車的比例比其它戰鬥略高?”

“為什麼在那裡俘虜和擊斃的軍官與士兵的比例比其它戰鬥略高?”

他就此判斷,那個戰鬥發生的地方,就是敵人的指揮所。他命令部隊乘勝追擊,並且傳達下口號“矮胖子,白淨臉,金絲眼鏡,湖南腔,不要放走廖耀湘!”。剛剛慶幸脫身的廖耀湘,就這樣成了俘虜。林彪之所以可以做出準確及時的判斷,是和他的數據積累和對數據的敏感分不開的,可以迅速在數據中發現異常點。“數據的積累、數據的挖掘、分析、歸納、整理,是一支優秀團隊所必須具備的基本素養,沒有它,你永遠是匹夫之勇。”文章在最後這樣總結到。

今年5月我去杭州參加了王堅博士發起的2050大會,參加了一個非常“另類”的論壇——“中國一億少女正在改變世界”。論壇裡是由大V,網紅,微商構成,於是我就非常想去了解一下她們的想法是怎樣的,她們的世界是怎樣的,她們的故事又是怎樣的。

我印象最深的一位演講者,她講她是怎樣從一個家裡都沒有門的農村走出來一步步走向成功的。她剛剛從農村到上海的時候,靠押了自己的身份證拿了一些尾貨到街上賣。但她不是盲目的賣,她發現賣貨的那條街,有非常多的大學生情侶,她就把貨組成情侶體恤衫,基本上別人賣一件,她就可以賣兩件。另外她從來沒有被城管抓到過,不是因為她找了個城管的男朋友,而是她發現城管都是從街的兩頭開始抓人的,她就儘量在街的中間擺攤兒。就這樣,她成了那條街上最成功的小販,後面進一步成為成功的淘寶店主,成功的微商。

一個是哈佛的高材生,一個是統帥千軍萬馬的將軍,一個是成功的電商。他們或許沒有一個人聽說過大數據這個詞,也可能並不知道什麼是AI。但他們具有了一個在我看來數據科學家最重要的特質,就是心中有“數”。

心中有數實際上是包含了兩個能力,一是觀察能力,二是分析的能力。Seder觀察到對於賽馬的評估,方法非常傳統,而且效果很差,他分析出這裡面有非常大的就機會,用現代統計的方式顛覆了整個行業。林彪持續的觀察每一次戰鬥結束後俘虜和戰利品的情況,通過分析掌握了其中的規律(從統計學上說就是均值和方差),所以當一旦這些值偏離出正常的範圍,他就可以敏感的捕捉到信號。而這位靠自己打拼成功的正在改變世界的少女,正是通過自己的觀察和分析,發現了消費者的購買特性和城管抓人的模式,掙到了人生的第一桶金。

作為一個數據科學家,當然需要具備很多的能力,如基本的統計和數學能力,編程能力,建模能力,這些能力可以讓你成為一個不錯的IC(individual contributor)。也就是說別人定義好問題,你可以來解決。在這些能力之上,良好的溝通能力,協調能力,能讓你成為一個不錯的數據科學團隊的Leader,可以整合資源,用團隊的力量完成公司重要的項目。我上面所提到的觀察分析能力,是在於對業務的理解,根據業務的需求,提出問題,並找到解決的辦法的能力。具備了這個能力,你就有機會成為真正一流的數據科學家。

想成為一流的數據科學家嗎?那麼別猶豫, 9月歡迎到友盟+主辦的UBDC大會一起進化,努力做個心中有“數”的人吧。

作者:李丹楓【友盟+】CDO,美國數據分析和挖掘領域工作10多年,曾任職於包括雅虎,微軟,FICO等在數據應用走在前沿的公司,積累了豐富的數據挖掘和機器學習的實戰經驗。負責【友盟+】數據科學團隊,並帶領【友盟+】數據科學團隊基於設備行為數據建立風控數據模型,成功打造了互聯網金融風控解決方案。

本文首發自微信公眾號 友盟全域數據 (ID:umeng_data),轉載請註明出處

數據智能 驅動品牌 / 業務持續增長


分享到:


相關文章: