一文讓你瞭解數據專家的工作流程

雖然數據的價值已經被廣泛接受,但對於大多數人來講,數據的具體應用過程,還是非常神秘。哪怕是一些數據從業者,也很難說得明白。所以,很多公司雖然喊著數據驅動的口號,但卻沒有真正體現出數據的價值。

數據、業務、算法是三位一體的閉環體系,必須將數據思維紮實地嵌入到業務之中,才能挖掘出數據所蘊含的趨勢和規律。

一文讓你瞭解數據專家的工作流程

三位一體

我希望通過本文和大家聊一聊,數據是怎麼樣一步一步應用到業務之中的,幫助大家瞭解數據專家的工作流程。

定義問題

並不是所有的問題都可以用數據解決,很多問題看上去好像是數據問題,但實際情況是數據所能起到的作用微乎其微,而又有很多問題看上去不能用數據解決,但經過抽象後,數據便可以為這些問題創造價值。

很多做內容推薦的平臺,都希望找到“好”的內容,然而脫離用戶行動,僅從內容數據本身去評判質量,往往不能滿足要求,因為“好”的概念過於寬泛,沒有一個明確的標準。

我們可以對問題進行抽象,將“找到好的內容”改成“找到完成率高的內容”。這樣,問題就有了明確的、可量化的目標,這符合機器處理問題的方式。

機器與人的思維方式是不同的,人是網狀思維,可以發散式地解決問題,而機器是線性的,每一次決策,都需要有一個明確的、可量化的目標。

我們需要將人所面對的問題轉化成機器能夠理解的形式,才能讓機器從數據中學習到解決問題的方法。

與此同時,看似類同的目標,從機器的角度,會找到完全不同的結果。所以,在定義問題的目標時,要非常嚴謹,才能得到預期的效果。

比如:平臺想要提高用戶的留存率,但目標卻是用戶的點擊率,貌似效果一樣,可最終結果會差別很大。

準備數據

在實際工作中,80%以上的時間都是在準備數據,而且它是流程中最重要的技術環節,這就好比“巧婦難為無米之炊”。

然而,什麼樣的數據才是機器所需要的數據,才是高質量的數據呢?

大家可能認為數據量越大就越好了,但實際上是數據越全面越好。就好像,你喝再多的礦泉水,也不可能知道可樂的味道一樣。

在面對一個具體的問題時,我們需要判斷描述問題的數據是否足夠全面,包括問題的不同側面的數據。同時,我們還需要調整數據中不同樣本的比例,以保證機器能夠充分地學習。

在統計學中,只有樣本均勻時,統計推斷的結果才是合理的。

所以,很多時候需要人工標註的數據,來增強機器的學習能力。產品中的點贊、收藏等功能,除了用戶側的需求外,還包含了數據的標註需求。

特徵工程

人可以很輕鬆的處理非結構化的數據,但機器卻只能處理結構化的數據。如果描述問題的數據不能特徵化(數據化),那麼機器便無法學習到任何的規律。

在特徵工程方面,非常考驗數據專家的判斷力,而其判斷力來自於大量的實戰經驗和對業務的理解程度。

因此,一個好的數據專家,一定是對業務十分熟悉的,能夠建立從原始數據到特徵數據的技術體系,可以將原有業務經驗充分覆蓋,甚至超越原有經驗的侷限。

不僅需要對數據進行清洗,關聯和整理,更需要捕捉到原始數據背後的深層數據。

深層數據的3個提煉方式:

  1. 時間,通過數據在不同時間維度上的變化,提煉新數據。
  2. 場景,通過結合不同場景下數據的變化,提煉新數據。
  3. 交叉,通過數據彼此之間的交叉對比,提煉新數據。

很多時候,當大量弱數據彼此組合關聯然後衍生為新數據時,這些合成數據便可以成為解決問題的關鍵數據。

算法調優

真實的數據往往極其複雜,需要簡單強壯的算法去征服它們。所謂好算法,就是不浪費數據,能最大化數據價值的算法,是基於不同數據結構而發揮數據價值的。

數據是解決問題的材料,算法是解決問題的工具。主要有三大類的算法方向:

  1. 規則主義:不對數據做出任何假設,而是直接從現實數據中提煉一系列決策規則,並假設這些決策規則適用於一切新數據。
  2. 頻率主義:假設需要學習的數據服從某類理想的統計分佈,並利用數學技術從理想數據中推斷規律。
  3. 貝葉斯主義:它們不從數據中做任何推理,而是找到不同案例之間的關聯關係。

而想要決定到底是哪種算法效果比較好,需要根據實驗效果設定自動挑選算法和自動調參的算法,讓機器自動選擇當前數據最適合的算法和工具。

這就好比,理解發動機的原理,並不能幫助你擁有更高超的開車技巧,還需要實踐才能得到最優的結果。

如果說機器學習算法是強大的發動機,那麼這個算法發動機需要一個簡單易用的方向盤,可視化便是機器學習技術的方向盤。

只有將各種數值可視化呈現出來,才能對算法進行調優。

總結

有經驗的數據專家可以憑藉業務經驗,直覺和邏輯推理提煉出大量具有預測意義的數據特徵,並且快速找到解決問題的算法。

所以,這也就解釋了為什麼從事數據方向的工程師,越老越值錢的原因。

最後,安利大家一本掘金小冊《深入理解NLP的中文分詞:從原理到實踐》(點擊瞭解更多

,訪問詳情),讓你從零掌握中文分詞技術,踏入NLP的大門。

如果因為以上內容對你有所幫助,希望你能夠點贊、評論、轉發,多謝多謝!


分享到:


相關文章: