「和鯨科技案例」中國銀聯:內外聯動數據競賽驅動企業數字化轉型


「和鯨科技案例」中國銀聯:內外聯動數據競賽驅動企業數字化轉型

本案例由和鯨科技投遞數據猿並參與評選

伴隨著前沿技術的不斷成熟和雲端遷移的趨勢,處於銀行卡業務核心樞紐地位的中國銀聯希望通過打造常規性、延續性、品牌性的數據科學競賽促進內外協同創新,持續引領金融領域的技術前沿,樹立數據驅動的創新標杆。

因此,在企業內部連續三年舉辦數據科學競賽的豐富經驗的基礎上,中國銀聯於2019年6-9月在和鯨科技的全程技術與運營支持下面向公眾舉辦了首屆高校極客挑戰賽。旨在通過競賽觸達優質數據科學人才的同時,以賽題承載真實業務中與大數據與人工智能算法息息相關的問題,藉助公眾競賽的形式收集解決思路與方法。

實施時間:

A.競賽籌備——2019年5月22日-6月23日,共32天,主要服務內容包括:

●賽題設計與定製

●消費金融主題數據集採購與預處理

●賽題測評算法開發

●數據科學平臺系統部署及功能支持

B.初賽——2019年6月24日-7月21日,共27天

C.複賽——2019年7月29日-8月18日,共21天

D.決賽——2019年9月20日

應用場景

在首屆高校極客挑戰賽中,競賽賽題承載了中國銀聯在真實業務中面臨的真實問題。要求參賽選手基於脫敏和採樣後的用戶消費行為數據,設計相應的算法進行數據分析和處理,預測在未來的一段時間內,用戶對於某產品是否會有購買和收藏的行為。

基於如下四個賽題考察點,最終競賽成果將高度貼進真實業務場景的實際情況,可運用於新產品或新業務在冷啟動階段,對於潛在目標用戶的行為分析與針對性營銷策略制訂。

1.對於小數據的考察,在習慣了傳統的大量結構化數據的前提下,考察選手對於小數據(冷啟動數據)的適應和調整能力,我們在減少數據條數的同時並沒有因此縮減數據的維度,考察選手在處理此類數據時的思路和方法;

2.對於脫敏數據的數據分析和特徵工程思路,因為數據安全性的考慮,本次的數據採用的是脫敏後的數據,這對於選手團隊的數據分析以及基於數據分析的特徵工程能力提出了一定的要求,判斷哪些數據字段或是數據字段的組合是有效的,如何衡量每個數據字段的重要性甚至如何去推測某個指標的含義都是值得關注的點;

3.指標分佈不平均的情景,本次賽題需要預測的兩個指標(用戶的購買和收藏行為)的分佈並不全是平均的,本次賽題也旨在考量選手對於待預測指標分佈不平均的情況下的處理思路;

4.訓練集測試集分佈不同,本次數據集的訓練集和測試集有著相當不同的分佈,如何解決甚至利用分佈不同這個問題,使得選手的模型在線下的驗證和線上的成績能夠得到一定的趨同,也會是選手們面臨的一大難題。

面臨挑戰

●數據涉及客戶敏感信息,在競賽環境中需要高度保障數據案例和防止信息洩露;

●AI協作開發工具、競賽系統與銀聯網站需要打通協作的產品定製化開發要求;

●在全球各類數據科學競賽中均無法徹底規避的競賽作弊行為可能嚴重影響賽事公平性、成果有效性、選手積極性和中國銀聯的品牌聲譽。

數據支持

首屆高校極客挑戰賽數據建模賽道運用了57,453條經過脫敏處理的消費金融主題數據。其中,初賽使用14,366條數據,合計26.5MB;複賽使用43,087條數據,合計106MB。數據集樣例示意如下:

「和鯨科技案例」中國銀聯:內外聯動數據競賽驅動企業數字化轉型

競賽數據共包含346個字段,示意如下:

「和鯨科技案例」中國銀聯:內外聯動數據競賽驅動企業數字化轉型


應用技術/實施過程

數據建模賽道比賽系統

此次競賽在銀聯自建網站上進行發佈和開發操作,而由和鯨提供協同AI開發工具K-Lab和評審系統。和鯨科技選擇從銀聯方面最小的改動和工作量出發,進行了高度定製化的技術方案設計及完善——提供API接口將評審系統與銀聯繫統對接,同時,K-Lab也進行了定製開發,接入了銀聯方面提供的標準SSO解決方案。在方案確定後,雙方開發人員密切配合,高效完成了聯調任務。

「和鯨科技案例」中國銀聯:內外聯動數據競賽驅動企業數字化轉型

在生產環境部署階段,和鯨科技為銀聯提供了測試賬號和測試樣例,並安排專人對比賽運營進行了K-Lab使用培訓和演示。在賽題和提交確定後,在K-Lab內提供了比賽樣例,演示了比賽中的關鍵操作的實現。在比賽開始後,和鯨技術團隊抽調資源,解決選手提交和代碼運行問題。

此外,和鯨科技也在比賽排行榜設計、用戶指引、用戶如何查看比賽提交等多個關鍵細節上提供了諮詢和建議。其中用戶查看提交記錄和得分是一個非常關鍵的需求點,銀聯平臺在設計階段未設計相關功能,和鯨技術團隊主動溝通提出此問題,並提供了補救技術方案,在短時間內配合銀聯平臺的開發人員解決了此項問題。

提交功能

參賽選手能過為其配置的專屬token可將在K-Lab上開發完備的算法模型或答案文件穩定地提交上傳到競賽系統。和鯨科技搭建了token和用戶提交接口測試服務,供銀聯方面調試。

客觀評審服務

通過提交token的跟蹤,系統可自動判別提交文件屬於是由哪去參賽團隊上傳的。同是,和鯨科技在競賽系統中預置了自動評審代碼,可對選手提交文件進行快速地自動評審並給出分數。

由於本次賽題考察的是選手對於兩個指標的建模,因此設計的測評指標為兩個獨立指標的AUC的平均值。在競賽系統中預置自動測評代碼即可對選手的提交文件進行自動測評並出分。

排行榜功能

系統根據所有隊伍的評審分數自動生成排行榜,並以API的方式提供給銀聯網站進行顯示。

數據科學平臺系統部署及功能支持

和鯨科技為競賽搭建了便捷易用的數據科學協作平臺,供參賽選手進行模型開發,數據科學協作平臺整體架構與功能如下:

「和鯨科技案例」中國銀聯:內外聯動數據競賽驅動企業數字化轉型

簡潔明瞭的運行頁面,提高數據分析效率

「和鯨科技案例」中國銀聯:內外聯動數據競賽驅動企業數字化轉型

數據文件預覽與數據庫憑證管理

「和鯨科技案例」中國銀聯:內外聯動數據競賽驅動企業數字化轉型

模型解析與部署服務

「和鯨科技案例」中國銀聯:內外聯動數據競賽驅動企業數字化轉型

最優競賽成果算法模型解析

最終奪得第一名的團隊AUC得分達0.692。

該團隊採用了“數據清洗 - 特徵工程 - 單模型預測 - 模型融合”的機器學習建模思路,其整體思路當中包含了對於行業業務的分析以及用戶群特徵的分析的內容。在對於收藏這一消費者行為的預測的模型當中採用了word2vec的方式進行用戶行為的特徵處理,製作成用戶行為的順序星系,隨後採用deepwalk構建同構網絡,使用圖網絡當中節點與節點的共線關係來學習節點的向量表示,構建用戶與ID的全局關係網絡。

同時,針對消費者行為的特徵,篩選出一些具有業務特色的數據(如買家和賣家擁有相同的id,即自刷點擊量),輔之以三大類基礎業務數據(用戶行為數據、業務時序特徵群和信息完整度特徵群),構成模型輸入的主要特徵群。通過優秀的特徵工程使模型線上線下具有較高的一致性,穩定,提高模型的魯棒性。

在模型訓練階段,採用了業內對於CTR類問題的經典解決模型Lightgbm, 結合上文所述圖表示學習和自動化特徵篩選的技術,在單模型階段就能夠取得穩定的高分數,同時採用graph embedding的技術使得模型在大數據量上的延展性更強,同時兼顧了線上部署的便捷性和實用性。

在最終的模型融合階段,將Lightgbm 模型結合了近年來多個海內外先進的CTR訓練模型,如CatBoost,DeepFM, XGBoost, 並且加入了規則過濾來進行模型組合,確保最終生成的模型有著更加優秀的預測結果。

外部合作

CareerX作為和鯨科技的協作夥伴,為中國銀聯首屆高校極客挑戰賽提供了參賽選手社群運營和決賽現場運營管理的服務支持。

在參賽選手社群運營方面,和鯨科技向參賽選手微信群中派駐專業的技術及項目人員,對選手問題進行及時響應和協助解決,同時,通過FAQ的方式對高頻出現的問題進行定期梳理、總結和沉澱,保障選手能夠通過集中呈現問題的通道得到更有效率的答疑體驗。

「和鯨科技案例」中國銀聯:內外聯動數據競賽驅動企業數字化轉型

在決賽現場運營管理方面,CareeX提供了會場佈置、相關人員對接、決賽流程把控等全方位的服務支持,確保了決賽的有序進行,為參賽選手充分展示其算法模型開發成果與創新思路提供了良好的條件。

商業變化

拓寬人才接觸管道,優化人才考核方式,招聘成本大幅下降

在傳統的校園招聘模式下,企業往往需要耗費大量的成本和精力投入線下宣講、簡歷收集與篩選、面試安排等一系列工作中。且傳統的面試手段往往因時間短、問題模板化等問題,難以真實反應求職人員的素質與能力是否與企業需求契合。

而首屆高校極客挑戰賽數據建模賽道為中國銀聯吸引了來自451所海內外高校的871名參賽選手,985/211高校覆蓋率高達84.6%,最終13支團隊進入決賽環節,近20名參賽選手進入中國銀聯2020年接招綠色通道。在近3個月的競賽週期中,通過與中國銀聯實際業務高度貼近的賽題,不僅對數據科學人才的各項能力進行了全方位的考察與驗證,而且讓數據科學人才對具體行業場景的技術應用能力得到了鍛鍊和提升,起到了崗前培訓的效果。為中國銀聯有效降低了人才招募成本。

優質競賽成果高度貼合業務場景,更敏捷地檢驗技術應用效果

通過數據科學競賽這類面向社會的開放式創新手段,中國銀聯能夠在對不同前沿AI技術和數據在具體業務場景下的應用方向進行更低成本的探索,對應用效果進行更高效率的驗證。同時可真實收穫在賽馬機制驅動下誕生的優質算法成果。

本次比賽在客觀評審的階段採用了雙AUC取平均值的計算方法,將兩個預測難度差距較大的指標的AUC進行了平均計算。參賽選手成績從初賽到複賽的階段有了很大的提高,其中初賽的成績前十名的水平線維0.621,而在複賽階段該水平線提升到了0.669,有了接近8%的提升。而在最終的排行榜上,複賽階段的最高成績比初賽階段的最高成績高出了4.8%,最終進入決賽的隊伍更是無一例外的超過了初賽的最好成績。成績分佈方面,初賽的大部分成績集中在0.59 - 0.61分,而複賽的隊伍得分集中在0.63 - 0.65,可以看出有了比較明顯地提高。

此次選手的得分表現,既真實地反映了賽題的難點(數據小、分佈差距大),同時體現了選手團隊優秀的建模能力,0.68+的AUC 分數在該賽題設定的場景下是非常出色的水準,而所有獲獎團隊都獲得了好於這個指標的分數。

案例提交企業·和鯨科技:

和鯨科技(運營主體為“上海和今信息科技有限公司”)2015年創始於上海,是中國領先的“數據科學協同平臺”供應商,以“connect people with data ”為使命,專注於挖掘商業數據和數據人才的價值。旗下擁有連接30萬數據人才的第三方數據科學社區——和鯨社區(即Kesci.com,原“科賽網”),具備國際領先水平的數據科學協同平臺——KesciLab(簡稱“K-Lab”)。

和鯨科技是愛分析評選的2019“中國數據智能創新企業50強”,AWS高級技術合作夥伴,同盾科技、Talkingdata、Udacity戰略合作伙伴,並獲得了國內一線AI、數據領域投資機構10fund和線性資本的PreA輪投資,晨興資本的A輪投資。創始人範向偉入選由美國福布斯雜誌發佈的第三屆“30 under 30” 科技榜單。


分享到:


相關文章: