諮詢專欄丨券商O2O大數據營銷實踐

隨著互聯網金融時代的到來和證券業市場化進程的推進,券商業務線上化加速,行業競爭加劇,佣金費率持續下降,對券商的經紀業務帶來了很大的衝擊。然而隨著流量邊際成本的提高,券商線上獲客成本劇增,競爭從獲客轉為存量經營,

傳統券商的一個優勢反而顯現出來,那就是線下渠道。券商擁有大量的營業部和營銷人員,對比其他純線上的金融機構有線下優勢。

線下營銷渠道的優勢主要體現在信任度和專業度上,尤其是在客戶生命週期的早期,比如開戶、投資建議和資產管理等方面。一對一的營銷可以讓客戶產生信任感,客戶經理可以有充分的時間來了解客戶的需求和困惑,併發揮他們的專業知識來說服客戶。相比之下線上的營銷手段,比如MOT和短信,則受制於時間、長度和方式,只能傾向於提供短平快的信息,難以為客戶量身定製深度的投資意見和建議。

然而,目前券商卻受制於一系列問題,並沒有發揮出線下渠道的優勢。首先是覆蓋問題。目前我國的證券市場的投資者約為1.2億人,但是行業的投資顧問僅有1.5萬人,即使加上客戶經理等,每個人需要服務的客戶數量也要達到數千人之多,這超出了大部分投資顧問的能力。為了覆蓋更多的客戶,很多券商大力投資於智能投顧,試圖通過固化已有的投資理念和投資算法來為更多的投資者服務。然而智能投顧卻仍然存在著信任度不足、效果不好、缺乏個性化等問題,很難得到投資者的信賴。

其次是效率問題。線下的投資顧問普遍存在盲目營銷的情況,營銷效率較低。很多投資顧問只是根據自己的經驗來選擇營銷對象,卻因為人均客戶數量大、對客戶瞭解少等原因,選擇營銷對象有相當的隨意性,最後造成營銷效果不佳。投資顧問浪費大量的精力來與轉化意願不強或潛在價值不高的營銷對象溝通,然而接通率/有效溝通率等卻往往不高,最後的轉化效果更是難以令人滿意(以用戶轉開戶場景為例,電銷接通率30%左右,有效溝通率不足20%,轉化率不足1%)。

那麼如何才能解決這些問題呢?辦法就是更加深入的瞭解客戶,不僅是他們的基礎屬性、投資屬性,更要預測他們的偏好和意願。

這樣才能更好地服務於他們,並提高他們的忠誠度,給企業帶來更多的收入。大數據時代的到來恰恰為我們深入瞭解客戶帶來了契機。隨著券商的服務日益走向線上化和移動化,我們有更多的途徑來了解客戶。通過在手機的安裝包內植入代碼(SDK),企業可以收集到客戶大量的交互數據。通過這些交互數據,我們可以深入地瞭解客戶的行為特點和偏好。TalkingData還可以在企業獲得用戶授權的基礎上,通過SDK來收集用戶的應用偏好。在這些數據的基礎上,還可以通過機器學習模型來推斷客戶的其他屬性,比如客戶的年齡、性別等等。

諮詢專欄丨券商O2O大數據營銷實踐

通過這些數據,我們可以得到一些以往並不瞭解的有用信息。比如一個客戶長期出現在金融圈(比如陸家嘴),那麼,這個客戶的金融屬性可能較強,更有可能開戶或接受更多的金融服務。再比如一個客戶晚上居住的區域是房價很高的小區,那麼這個客戶的潛在價值就可能較高。但是,如果只是單純的條件篩選,相比於大數據建模,可以提供的名單卻往往不足,而且轉化效果也不佳。

為了更加充分地利用各種交互數據和用戶的交易和資產數據,我們使用了機器學習模型來預測客戶的屬性。那麼在線下營銷的場景裡,什麼樣的屬性最為重要呢? 我認為是轉化意願和轉化價值。這兩個屬性相乘,構成了客戶的潛在價值。我們可以通過客戶的這兩個屬性來挑選潛在價值最高的客戶,提供給客戶經理。這樣,客戶經理可以在龐大的可營銷人群中,挑選出潛在價值最高的人群進行營銷,這樣避免了對大量潛在價值不高、轉化意願不強的客戶進行的無效營銷,解決了覆蓋度的問題。

同時,客戶經理可以通過模型來選出有不同意願的客戶(開戶意願強的用戶,迴流意願較強的流失客戶,比如理財型客戶、股票客戶等等),並有針對性的設計營銷話術。

實踐結果表明,這些方法可以非常明顯的提高營銷的轉化率,極大地提高了客戶經理營銷的效率。以用戶轉開戶短名單模型為例,模型選出的用戶的開戶轉化率在10% 左右,遠遠高於隨機挑選出的名單1%左右的轉化率,也高於模型選出但是沒有撥打的名單的轉化率(2%左右)。

機器學習模型不僅可以在很大程度上解決目前線下營銷出現的問題,而且它還具有普適性,可以應用到客戶生命週期的多個營銷場景。從下載App開始,到註冊手機號,到開戶,到入金,到購買股票/理財產品,到流失,到迴流,每個場景下,我們都有相應的模型可以應用,為營銷人員提供大量的TDID。我們還可以將這些模型的流程自動化並落地到系統中,並對接到公司的營銷平臺進行分發,節省了大量的人力物力。

那麼我們是如何建立這些模型,又是如何優化它們,並最終落地到系統中的呢?

諮詢專欄丨券商O2O大數據營銷實踐

  • 首先是確定模型目標。

這是非常關鍵的一步,對模型最終的業務效果有非常重要的影響。模型目標取決於多個因素。首先是要確定業務目標。以用戶轉客戶模型來說,就是要提高註冊手機號的用戶最終開戶的比例。然而,業務目標並不完全等於模型目標。以用戶轉開戶模型為例:很多用戶進入開戶流程後,卻因為各種原因終止了開戶(比如身份證頭像問題、視頻驗證問題等等)。這些用戶已經表達了非常強烈的開戶意願,然而卻被客觀因素阻止了開戶。因為我們的模型主要是用於預測客戶的意願,所以我們把這些用戶也作為模型的正樣本。除此之外我們還要考慮很多其他業務上的問題。還是以用戶轉客戶模型來說,存在很多在註冊手機號當天就開戶的用戶。這些用戶很多在App基本沒有點擊行為。根據我們對業務的瞭解,這些手機號中有很大一部分來自於線下渠道,是通過客戶經理的推薦才開戶的,甚至就是由客戶經理操作開戶的。所以,不能從這些手機號的行為數據來預測客戶的開戶傾向,所以從正樣本中予以刪除。

  • 確定模型目標還要確定好目標的口徑

客戶在一段時間內的行為在時間的維度上有影響的範圍。比如客戶在昨天點擊了很多股票的行情,還看了理財產品的推薦頁面。一年後,這個客戶購買了理財產品。然而,很難說客戶昨天的行為影響了一年之後的購買行為。在討論之後,我們把模型的目標口徑定為在一週內的轉化。於是我們把業務目標翻譯成為可以從數據庫中提取的模型目標。

  • 其次是確定模型的數據來源和收集範圍。

對於不同的業務場景,預測的數據來源有很大的差異。比如對於用戶轉開戶的場景,因為用戶沒有開戶,所以沒有任何交易和資產類的數據。所以所需的數據很大程度上來源於用戶在設備上的交互數據。對於流失預警模型,數據則主要來源於用戶在近期的交易和資產數據,以及近期的交互數據。而不同時間範圍的數據重要性也有所不同,越近期的數據權重越高。對於營銷欺詐模型,則渠道和設備的數據顯得更加重要,因為營銷欺詐往往在渠道、設備屬性上有集中效應(比如喜歡使用老舊和廉價設備,某些渠道營銷欺詐近期的比例較高)。對於預測客戶的價值屬性(潛在高價值客戶模型),則客戶的外部數據顯得更加重要。因為我們看到客戶在系統裡的資產,往往只是客戶資產總量的一小部分,客戶在其他金融機構存放的資產是我們需要挖掘的目標。這方面TalkingData的數據可以給予很大的幫助,我們可以通過這些數據來預測客戶的價值屬性。

  • 然後則是數據的加工和處理。

目前,很多券商的數據整合度仍然不夠,重要的數據還分佈在各個子系統內,需要進行整合和加工。交易和資產數據來自於櫃檯交易系統,一般較為完備,客戶的交互數據則不然。這些數據來自於STK包上傳的日誌,需要通過解析腳本來批量結構化。我們要對這些數據進行清理、加工、整合,最後開發為我們可以使用的結構化數據。最後我們還要利用TalkingData 的ID Mapping 技術對這些數據進行打通,使他們能夠通過TDID關聯起來,最後成為我們可以利用的去識別化的數據來源。

  • 完成數據整合之後是對數據的採集和處理。

我們使用結構化的計算機語言(SQL/Hive SQL)對數據進行壓縮,提取有用的彙總數據,再通過表與表之間的關聯將這些數據彙總到一張或數張寬表內,作為模型的原始數據。

  • 採集完數據後,我們還需要對數據進行校驗和分析。

我們需要檢查各個字段的飽和度和異常值,分析數據的質量,並對出現的問題進行分析,找出原因。分析這些問題是否對模型有影響,以及如何處理髒數據。然後,我們還需要根據業務邏輯來確定對缺失數據填補的邏輯,以及對於異常數據的處理方法。特別需要注意的問題是,要防止因果混淆的問題,要將用於預測的數據和模型目標變量完全的隔離開來,以免造成因果不分的情況。

  • 之後則是將數據加工為最終模型使用的特徵。

這其中很大一部分工作可以在數據採集和處理過程中完成,其他的工作則在數據校驗之後完成。需要對數值型的變量進行計算,生成加工後的特徵值,可以計算最大值、最小值、平均值、變化率等等等,對於類別數據,則採用各種編碼方法進行處理。類別較少的數據可以採用獨熱編碼,類別多的數據可以考慮其他的各種編碼方式。還可以用這個分類特徵去關聯其他的數據,並加工為特徵。

現在我們有了大量的特徵和目標變量,然而我們並不能直接把這些數據輸入模型,需要對這些特徵進行篩選和處理。缺失率特別高的特徵需要給予刪除,特徵出現共線性則需要選擇去除部分的特徵。我們還可以使用一些模型自帶的特徵篩選器對特徵進行篩選(比如隨機森林自帶的特徵篩選器)。我們還需要根據最後運行的模型確定是否需要對特徵進行標準化。對於樹類的模型(隨機森林 C4.5等),標準化往往不是必須的,對於其他的很多模型,為了加快模型損失函數的收斂速度,我們需要對特徵進行標準化。有各種標準化的手段可供選擇。

在最終運行模型之前,我們還需要通過對業務需求的判斷確定模型的評估標準。常見的模型評估標準有查全率(recall)、準確率(precision)、F1、AUC等。比如對於營銷欺詐模型,模型衡量標準主要是 KS值,業務部門的人員還對模型的準確率提出了特別的需求。對於各種轉化名單,則需要在準確率和查全率之間進行權衡,往往通過一些綜合性指標(AUC、F1)等進行衡量。我們還可以通過ROC曲線來分析模型在不同閾值上的表現情況。然而,最重要的衡量標準是模型在實際轉化中的表現。

還有一個需要考慮的問題是不均衡樣本的問題。在很多轉化場景下,正樣本的數量往往遠小於負樣本的數量。比如在流失迴流的模型中,迴流的正樣本只佔樣本總量的0.3%。在這種情形下,模型的效果往往會受到嚴重的影響。我們於是採用了一系列採樣的方法來加以應對,比如欠採樣和過採樣(如圖)。

諮詢專欄丨券商O2O大數據營銷實踐

確定好模型的評估標準之後,則需要選用合適的機器學習算法。

機器學習算法的原理比較常用的機器學習模型是基於決策樹的模型,迴歸類模型還有神經網絡類模型。樹類的模型主要有決策樹、C4.5以及結合集成學習方法生成的RF模型和XGBoost 模型等。迴歸類模型主要是由線性迴歸、邏輯迴歸、嶺迴歸等一系列模型。我們對各個模型在測試集上的表現進行了評估,結果顯示,XGBoost和RF模型是表現最好的模型之一,這也是我們最後選擇落地的模型。

XGBoost模型和RF模型的原理圖:

諮詢專欄丨券商O2O大數據營銷實踐

諮詢專欄丨券商O2O大數據營銷實踐

之後則是模型訓練和模型優化。我們對數據進行分割,將數據分割成測試集、預測集和驗證集。我們在測試集採用交叉檢驗的手段來防止過擬合的情況。我們還採用了正則化的手段,在損失函數中加入正則項以進一步防止過擬合。我們還使用網格搜索、隨機搜索等方法對模型的參數進行調優,最終得到相對較優的模型。

然而,只在測試集表現好的模型是不夠的,我們還需要在實際的業務中判斷模型的效果,最後根據業務人員的反饋來對模型進行進一步迭代優化。比如在用戶轉開戶的TDID名單模型中,營銷人員反映接通率較低,於是我們通過黑名單對數據進行初篩,這樣有效的提高了客戶的接通率。同時,我們還對TDID的匹配方式進行了優化,最後的名單的轉化效果也有了大幅度的提升。

諮詢專欄丨券商O2O大數據營銷實踐

諮詢專欄丨券商O2O大數據營銷實踐

最後我們還需要將模型落地,將模型的所有過程自動化,並寫成計劃任務定期執行。

我們與營銷平臺開發人員和數據庫開發人員進行合作,對接數據源,形成數據流,最終使我們的模型結果直接展現在營銷平臺上,以供分支營銷人員使用。最後我們還規範了模型反饋結果數據,把撥測以及實際轉化的情況的跟蹤代碼落地為報表,以便持續自動地跟蹤模型的表現,並根據反饋做進一步的優化。

這樣,通過利用大數據建模,我們可以有效應對目前線下營銷所遇到的困難,充分發揮線下營銷的潛能,從而進一步完善券商的數據運營體系。線上營銷專注於推送和千人千面,傾向於提供簡短、精要,及時的信息,而線下渠道則是專注於根據客戶的意願、偏好和實際/潛在價值提供更加專業的服務。而兩者,都由數據驅動,為客戶提供更加精準,更加個性化,也更加人性的服務。


分享到:


相關文章: