從皮毛到內功,談談進階數據分析的三個階段

金庸在《射鵰英雄傳》中刻畫了郭靖這個形象,他一路追隨江南七俠,到全真高人指點,再到師從洪七公學習降龍十八掌,在這個過程中他經歷了幾次蛻變,最終成長為一代大俠。我從進入數據科學行業到現在已經將近5年了,加上在校學習的幾年,可以說基本完成了一個數據小白到數據研究者的蛻變。從我個人的體會來說,數據分析至少存在三個階段或者說三重境界,這三重境界與郭靖的成長頗有幾分相似。

從皮毛到內功,談談進階數據分析的三個階段

階段1:熟悉計算工具

第一個階段是熟悉計算工具階段,也就是能從數據中正確計算出結論。這一階段需要的是編程能力和基礎的邏輯分析。在這個階段,需要打好基本的編程和數理基礎,比如如何使用一種編程語言從某個數據源中提取數據,進行必要的轉化,生成一個結果。在這個階段,我經常認為數據分析就是編程。那時也對編程和數據分析產生很大的畏難情緒,覺得自己離學好編程、使用好各類工具的狀態有很大差距。

同時,我也對如何分析數據感到一籌莫展。雖然在學校課堂和各類網絡教程中學過很多編程方面的技術,也能夠看懂一些別人的程序,但是對於一個嶄新的問題,我不知道使用哪種工具,編寫什麼樣的程序,進行哪些方面的分析。

處在這個階段,我認為主要因為自己的編程經驗停留在“學”上,還沒有過度到“用”的境界。只能說學會了一些工具(比如編程語言),但是不知道如何應用。另一方面,自己的實戰經驗太少,沒有實戰經驗,只學習一些表面的皮毛,出去忽悠一些非科班的人還像模像樣,但是真正讓我去做一個新案例的數據挖掘和分析,我可能完全不知如何入手。就像當年郭靖跟江南七俠學過一些武功,但是遇到梅超風這樣的人,仍然怕她幾分。從大師的角度來看,郭靖當時學的那些功夫都是一些皮毛。

在這個階段,我們一方面需要打磨自己的編程能力,另外一方面也不斷學習一些數學模型,包括各類機器學習算法、概率論等。

階段2:提升分析能力

隨著對編程工具的熟悉,比如開始熟悉了Shell、SQL、Python、大數據等,我發現使用工具不一定能得出特別好的結論。

經濟學有一個關於啤酒和尿不溼的例子:沃爾瑪一家分店的營銷經理對超市的銷售數量進行設定跟蹤,有一次他發現了一個很奇怪的現象:啤酒與尿不溼的銷量在週末總會出現成比例增長。主要因為爸爸們週末採購時,買完尿不溼想順手捎帶幾瓶啤酒。

其實,獲取到這個數據並不難,但原始數據中絕對沒有這個現成的結論。進行數據分析的第一步是找到一個方向,先看看哪些潛在的假設能夠解釋現象。比如,這個例子中,沃爾瑪對銷售數據做相關性分析。數據是死的,是躺在硬盤中的一堆字符。如果沒有一個基本的假設或者方向,即使有再強大的編程能力,也很難得出一個觀點或結論。

這時候我們能夠看懂很多數據分析的報告,能夠開始建立起數據之間的聯繫。如果有一些高人指點,加上實戰練習,在數據分析上可以有茅塞頓開般的提升。就像郭靖得到全真教馬鈺的一些指點,在內功上有很大精進。

很多入門和初學者基本上都停留在第一階段和第二階段的初級水平。一部分人在這個階段做大量重複性的工作,多年可能沒有任何進步,無法進入到下一階段。

階段3:形成思維方式

說實話,以前我認為現代社會發展變化太快,新事物層出不窮,經驗不值一提。但是接觸了越多的大牛,我開始發現這些人的經驗才是他們安身立命之本。經驗不侷限於數據、工具或者技術,經驗是逐漸培養起來的,是分析問題的思維方式。金庸在他的武俠系列中一直強調內功的重要性,經驗就是這樣的內功。

數據分析的最後一個階段,一般是團隊的領導需要達到的水平。由於團隊的領導一般具有多年的實戰經驗,他們可以很快發現問題。當我還是小白的時候,我發現團隊的領導幾乎天天都在看數據,每次開會都在討論數據,從一張數據圖中他們可以很快發現一些問題,面對新問題,他們也有很多解決思路和探索方向。而且,這裡的團隊領導不僅限於技術團隊,包括產品或者運營相關團隊的領導也對數據有很強的敏感性。比如,在與產品溝通的通氣會上,產品團隊的領導經常抓住數據可疑點,讓我們技術團隊來解釋背後的原因。我非常震驚,為什麼非技術出身的他們,也能找到一些問題的關鍵。再到後來,我發現不僅僅是互聯網行業,各行各業的佼佼者都對數據非常敏感,都有一套問題求解的思路。比如,我之前以疫情分析為例的那篇文章疫情分析是最好的實戰教材中列舉了一些作者,他們分析問題的能力都值得我們學習,實際上他們並不都是100%的技術背景出身。

後來,我漸漸明白了,數據分析不侷限於技術和工具,它本質上是一種思維方式。真正的數據分析大師能快速通過一些現象,找到背後的邏輯。因此,無論你是不是純技術出身,如果堅持對很多問題進行深入思考,從實戰中獲得經驗,那麼你可以用一個Excel來分析出你想要的結論。

一些誤區

從皮毛到內功,談談進階數據分析的三個階段

處在第一、二階段的朋友會覺得數據分析的核心是編程、模型和技術能力,有時候他們會掉入兩個誤區:

  1. 認為數據分析就是各類工具的總和,拼命學習各類編程和算法,但是沒有實戰經驗,無法將理論應用到實際。或者不善於將一些工作提取成為寶貴的經驗。
  2. 掌握了一些高大上的算法,在工作中發現很多時候都是在重複性地做一些數據提取的工作,對當前的工作非常失望,覺得自己的屠龍之術無法應用,認為是當前的工作崗位限制了自己才能,想跳槽。

第一類誤區認為數據分析是一種技能,追逐技能加成,忽視如何形成自己的思維方式。

第二類誤區其實是第一類的另一種表現形式,仍然覺得只有掌握了一些技術,才可以做好數據分析。想通過換一個新的環境,期望在新工作中學到更多的屠龍之術,這樣才能積累相關的經驗。從團隊領導的角度,新團隊的領導其實是不會將一個更復雜的數學模型交由一個團隊新人來做的,因為不信任。我建議,在這種情況下,不如在原工作崗位的基礎上做一些深挖,看看有沒有機會突破當前的自己。

普通人的成長路徑其實跟郭靖頗有幾分相似,既需要自己努力,也需要有高人指點。個人精進最重要的是修煉內功,不能被一些皮毛功夫遮蔽雙眼。


分享到:


相關文章: