傳統企業的模型最佳實踐,為什麼很難複製推廣?

文 | 傅一平

源 | 與數據同行

數據挖掘是是用人工智能、機器學習、統計學和數據庫的交叉方法在相對較大型的數據集中發現模式的計算過程,這個發現的模式就是我們一般意義上的數據模型。

在移動互聯網時代,我們每天產生著海量的數據,各個行業的企業則基於這些數據研發出各類模型,我們實際已經處於一個被模型包圍的世界,模型甚至已經主導了我們的大多日常行為,從購物到出行再到娛樂,不一而足。

無論你是哪一類公司,只要需要基於數據進行決策或業務拓展,你就需要好的模型,大數據時代,模型能力甚至決定了企業的核心競爭力,阿里說自己是個大數據公司,但更是個模型公司,因為模型是其業務的大腦。

但正如業務發展有好有壞一樣,即使針對同樣業務研發的模型也有好有壞,比如你會比較喜歡亞馬遜的圖書推薦但卻不喜歡噹噹的,因此你會想,難道不能把亞馬遜的推薦模型分享出來嗎?

對的,這個就叫做模型的最佳實踐推廣,最佳實踐被諮詢公司、研究機構、政府機構和行業協會定義為持續有效地達到企業目標而採取的最成功的解決方案或解決問題的方法,亞馬遜當然不可能把自己的最佳實踐模型分享給競爭對手,這是它的商業機密,但如果有個大型企業有很多的分公司,某個分公司研發出了很好的模型,取得了不錯的效果,這個企業的領導自然會想到能不能把這個分公司的最佳實踐快速複製到其它分公司,這樣整個公司獲益最大。

互聯網公司在線業務打破了地區差異性,模型往往是一點發布,全網共享,最佳實踐不存在推廣的問題,但很多傳統大企業則不同,不僅研發一個模型不易,推廣模型更是困難重重,為什麼?

數據挖掘首先需要依託於大數據平臺進行數據處理,同時也要部署專門的數據挖掘引擎進行模型訓練,傳統大企業由於歷史原因,比如有集團-省-地市-縣市的管理劃分方式,推廣方和被推廣方的平臺環境往往是有差異的,大數據平臺尤甚,這意味著巨大的代碼轉化和移植工作,當然現在很多企業隨著大數據平臺的統一建設,情況在逐步好轉。

但你會發現,即使平臺環境基本一致,模型移植推廣也非常不易,為什麼?

模型由數據挖掘產生,比如一個區域的模型要複製到另一個區域,就要看兩個區域營造的數據挖掘環境是否存在差異,如果差異很小,說明可複製性就較高,否則,就會水土不服。

一般來說數據挖掘可以分為業務環境、數據理解、數據準備、算法選擇、模型訓練、測試驗證、生產應用、迭代提升等步驟,我們可以看看這些步驟在不同的區域環境下的差異,從而一探模型水土不服的原因。

傳統企業的模型最佳實踐,為什麼很難複製推廣?

1、業務環境

組織越統一,業務越統一,創造的數據環境越一致,數據環境的一致性是模型能高效複製的一個基本前提,這裡的業務的統一性不僅僅是指業務名稱,還包括了政策、產品、渠道等各種要素及其組合。

大家都知道數據挖掘的結果依賴於數據,而數據依賴於人的行為和業務施加在人身上的影響,也就是說,不僅僅是地域差異導致的人行為的差異性,而且由於地域業務的不一致,往往也造成了數據更大的差異,我們經常提為什麼在一個地方的模型效果很好但在另一個地方不好,很大原因是業務(各個區域同樣的業務名稱其實內涵相差很大)和數據變了,比如促銷可能短期內改變用戶的行為數據,比如政策完全一樣但選擇的渠道不一樣造成的實際模型不可用等等。

互聯網公司由於其組織、業務的統一性和全網數據強大的歸集能力,具備了先天統一的業務環境,即使各個地方的人的消費行為也不一致,也可以按照地域快速分建多個模型來克服。

很多大型傳統企業最佳實踐推廣是不得已為之的,這是由其組織、業務、數據的割裂性造成的,而互聯網企業的模型往往沒有試點推廣一說,人家一做就是全網的。

2、數據理解

大數據時代、數據的統一歸集及標準化價值有多大,想想秦始皇的“書同文,車同軌”就知道了,秦始皇要下個命令,如果還需要翻譯成各國文字,其管理成本有多高不可想象。

模型複製也一樣,如果推廣和被推廣的單位在源系統、基礎模型到融合模型存在任何不一致的地方,比如表,字段、枚舉值,就需要投入巨大的人力成本去克服。

關鍵是企業還很難找到對雙方環境都熟悉的人去幹這事,比如大企業的長期外包及由此形成的核心能力缺失,使得做這種事情的效率往往不高,因此,打造一套標準化的數據管理體系是非常重要的。

3、數據準備

整個數據挖掘過程的70-80%時間是花在數據準備工作上的,包括清洗轉化整合等,由於數據實體的不同造成原始數據準備代碼無法拷貝黏貼,本地數據的準備一般是要重新來過的,但即使數據處理邏輯一致,但只要代碼不一致,就有可能造成統計的誤差,我們在做報表,取數的時候,這種苦頭吃多了,明明業務描述一致,不同的人來取就是不一樣。

但即使大企業已經建設了一個統一的大數據平臺,即使各個區域(或租戶)已經能使用同樣的平臺和基礎數據,但這還不夠,物理上的統一併不代表一個區域的數據準備過程就能被另一個租戶快速複製過來,因為如果每個租戶缺乏約束的自建一套數據倉庫,特別是整個數據處理過程還不規範透明,複製將非常困難,比如直接在後臺寫代碼,隨意命名錶名等等,我們是吃過很多苦頭的。

因此,建立一套透明化,標準化的數據管理體系對於集約化異常重要,沒有數據開發管理規範的約束會讓最佳實踐的快速複製化為泡影,企業在建設統一大數據平臺的時候,一定要考慮數據管理體系的建設,大數據平臺技術也許可以依賴外部力量,但數據管理能力則更多的需要依賴自己,這個很難拿來主義,傳統企業如果真的做到了數據準備過程的“一點發布,全網複製”,則意味著數據管理的高水平,可以高效率的推進全網數字化運營。

傳統企業的模型最佳實踐,為什麼很難複製推廣?

4、算法選擇/訓練/驗證

各類數據挖掘引擎的出現讓算法的選擇不成為問題,換個算法的成本也很低,因此複製過程中更要關注的是過擬合問題,儘量讓算法能抓到超越了地域限制的共性規律,比如隨機森林等不易過擬合的算法。

但筆者對於直接沿用最佳實踐模型的訓練結果(比如邏輯迴歸的參數)是沒有太大信心的,畢竟是根據某個特定區域的數據訓練出來的規律,過擬合不可避免,準確率必然下降,因此模型移植還是需要一定的人力投入進行重新訓練,推廣的時候如果能基於全網的數據建模,可以考慮將地域也作為一個輸入變量。

如果各個地域的特徵差異(比如收入差距)非常明顯,則基於統一數據平臺訓練多個模型也是很自然的事情,分而治之是一種提高模型準確率的方法,當然如果地域的差異性到了影響變量的選擇程度,這個時候就無所謂最佳實踐,完全是另一個模型了,需要重新研究。

5、生產應用

傳統企業線下業務為主,很多應用場景中,價值鏈中數據模型的比重其實不是很高,倒是各個區域的市場環境,用戶特點,政策選擇,渠道能力直接決定了最終的效果,比如由於外呼水平的不同導致的巨大效果差異,最為合理的驗證方法是AB測試,保持所有環境變量都一樣,就是模型不一樣,最後看效果是不是一致,但這麼苛刻的環境在很多企業的最佳實踐推廣中很難創造,因此可能的結果就是效果不佳或者差異巨大。

因此,如果沒有一套相對客觀的模型驗證的方法論,就沒法區分到底是模型的問題還是其它的問題,甚至,這個市場問題根本就不是模型所能解決的,比如區域市場的促銷問題,那就是雞同鴨講了,這個時候,場景的選擇就很重要了,一定要是能讓模型的價值凸顯的場景。

由此可見,模型最佳實踐複製其實是個非常複雜的問題,需要有對於業務和技術都非常熟悉的人來操盤,這對於傳統企業的挑戰可不小。

傳統企業的模型最佳實踐,為什麼很難複製推廣?

6、迭代優化

有點悲傷的是,由於模型是對歷史規律的把握,但歷史是在變化的,今天的歷史跟明天的歷史不一樣,今天再好的模型,也會隨著歷史的變化而變得逐步不可用,這是必然的,因此,一般來說越是穩定的市場,模型的生命力會更長點,但如果面臨的市場是變化的,那模型也要與時俱進。

這個時候模型的運營才是王道,所謂“小步快跑,快速迭代”,因此,模型最佳實踐推廣不僅僅要強調模型本身的複製,更應該強調模型運營能力的複製,但有點遺憾,模型運營能力提升很難一蹴而就。

既然短期內不能奢望各個區域都有這個模型運營能力,對於大型傳統企業來講,建立一支中臺運營團隊就很重要了,即一般所說的“小前臺,大中臺”,你看,筆者以前講了很多中臺的東西,這回說模型複製也被繞回來了,但萬變不離其宗,這的確是大企業解決能力共享問題的一個辦法。

你可能會說,為什麼不提機制流程?

機制流程的確很重要,但企業只要真的重視這個事情,一般不會成為問題,關鍵是能否在推廣前把存在的問題和挑戰說清楚,把需要的資源說清楚,模型推廣不是某個專業部門就能解決的問題,不僅牽頭方、被推廣方及推廣方要協同,業務、數據、技術各條線更要協同,只有這樣,才可能把PPT裡面美好的東西落下來。

當然,提了這麼多困難並不是說最佳實踐複製就不要做了,而是要能更全面的考慮問題,從而確保模型複製效果,同時,通過一場戰役的形式在短期推進某個最佳實踐的快速複製也是可能的,但成本是比較大的。

但長期來講,一要靠業務的真正統一,二要靠系統化,自動化的複製手段,才能真正達到目標,否則很容易曇花一現。


分享到:


相關文章: