乾貨解析|如何通過用戶的行爲序列來提升欺詐風險識別

小螞蟻說:

移動支付在帶給人們便捷生活的同時,也面臨著網絡欺詐的空前挑戰。僅在支付寶場景中,每日的欺詐舉報量上千,涉案金額上百萬。作為移動支付領航者的支付寶,藉助大數據和AI技術,並歷經了十多年的發展後,構建了世界級領先的風控技術能力。

本文講述了螞蟻金服技術團隊在支付寶現有風險識別體系上,進行了深度學習的升級,基於被騙者及欺詐者行為序列進行的欺詐場景應用探索。

後期我們還會進一步深入挖掘行為序列在欺詐風險識別的應用,以提升支付寶整體的欺詐風險識別能力,敬請期待!

一、業務背景

1.欺詐和欺詐風險識別:

文中所指的欺詐特指電信詐騙或網絡詐騙,即欺詐者使用某些話術和套路,讓受害人誤以為真,而自願將資金轉移給欺詐者,從而蒙受損失的欺詐行為。

常見的欺詐手法包括以刷單為由,讓用戶點擊購買商品;冒充公檢法、領導或親友讓用戶進行大額轉賬;騙子獲取了客戶網絡購物信息,冒充客服人員以退款為由,向用戶發送釣魚鏈接等。為了保護支付寶用戶,淨化支付寶體系,需要對這類欺詐交易和欺詐者進行識別,由此產生了欺詐風險識別的需求場景。

2.欺詐風險識別的難點:

欺詐風險識別具有一定的挑戰性,主要以下有幾個難點:

  • 被騙交易之前的行為大多發生在體系外,比如通過微信或QQ聊天,或者被電信欺詐,因此可用數據較其它風險而言相對較少。
  • 行為特徵不明顯,由於用戶自己被騙,其操作及支付行為都是自己發起的,因此無法獲取到用戶的明顯異常行為。
  • 欺詐交易中的收益銀行卡,有相當多的是新卡,由於新卡信息少,對於風險防控來說更加具有挑戰性。


乾貨解析|如何通過用戶的行為序列來提升欺詐風險識別

二、欺詐風險識別模型的解決思路

現有模型體系:

現有風險識別模型主要是事中識別,整個模型包括了三個不同層級,四類場景構成的模型體系,從層級上有可信模型、實時模型和離線模型,場景由轉賬到賬戶、轉賬到卡、直連非BD商戶和間商戶這四種場景構成。

現有的變量主要從主動方支付行為的異常及被動方的收款行為進行刻畫。大體上可以分為三大類變量,第一是歷史信息彙總類變量,即velocity類,第二是衍生類變量,包括個體突變和群體概率,第三是關係類變量。

基於深度學習的升級:

現有模型體系可以識別大部分欺詐交易,但對於部分突變或收款異常特徵不明顯情況較難識別到,另隨著風險對抗升級,這種異常行為也會逐漸轉移;對被騙者及欺詐者的行為序列深入分析發現,被騙者及欺詐者的行為序列模式都有跡可循:例如正常轉賬交易情況下主動方登錄後直接進行轉賬,而被騙轉賬交易下被騙者登錄後先查看自己的芝麻分或借唄後再轉賬;一般正常人收到轉賬前無任何操作,收到錢後也不會直接轉出,而欺詐者在收到轉賬之前,往往會查看自己賬戶信息或更改頭像,而且會在收到錢後直接提現轉出。

基於這些行為序列,我們可以通過特徵工程來刻畫變量,加入到現有模型中,也可以直接基於深度學習來自動學習刻畫這些變量。因此我們引入了基於操作、支付以及瀏覽行為的事件序列,採用LSTM模型結構深入刻畫主動方(賬戶)以及被動方(賬戶/卡Bin)的異常行為鏈,以提升整體的欺詐風險識別能力。

三、LSTM介紹

LSTM是RNN的一種特殊類型,保留了循環神經網絡(RNN)的鏈式重複神經網絡模塊結構來捕捉序列信息,同時利用門結構來控制模型中信息的傳輸量,從而可以學習長期依賴(long-term dependency)信息,在序列建模中被廣泛使用。

RNN的隱藏層只有一個狀態h,它對於短期的輸入非常敏感,LSTM中增加一個狀態c (cell state)來保存長期的狀態。LSTM中使用三個控制開關控制長期狀態c,第一個開關負責控制繼續保存長期狀態c,第二個開關負責控制把即時狀態輸入到長期狀態c,第三個開關負責控制是否把長期狀態c作為當前的LSTM的輸出。三個開關的作用如下圖所示:

乾貨解析|如何通過用戶的行為序列來提升欺詐風險識別

乾貨解析|如何通過用戶的行為序列來提升欺詐風險識別

門實際上就是一層全連接層,它的輸入是一個向量,輸出是一個0到1之間的實數向量。假設W是門的權重,b是偏置項,那麼門可以表示為

乾貨解析|如何通過用戶的行為序列來提升欺詐風險識別

。T時刻LSTM的輸入有三個:當前時刻網絡的輸入值

乾貨解析|如何通過用戶的行為序列來提升欺詐風險識別

、上一時刻LSTM的輸出值

乾貨解析|如何通過用戶的行為序列來提升欺詐風險識別

、以及上一時刻的單元狀態

乾貨解析|如何通過用戶的行為序列來提升欺詐風險識別

,LSTM的輸出有兩個:當前時刻LSTM輸出值

乾貨解析|如何通過用戶的行為序列來提升欺詐風險識別

、和當前時刻的單元狀態

乾貨解析|如何通過用戶的行為序列來提升欺詐風險識別

,LSTM的前向計算如下圖所示:

乾貨解析|如何通過用戶的行為序列來提升欺詐風險識別

乾貨解析|如何通過用戶的行為序列來提升欺詐風險識別

LSTM的訓練算法仍然是反向傳播算法,主要有下面三個步驟:

  • 前向計算每個神經元的輸出值,對於LSTM來說,即
乾貨解析|如何通過用戶的行為序列來提升欺詐風險識別

  • 五個向量的值。
  • 反向計算每個神經元的誤差項值
乾貨解析|如何通過用戶的行為序列來提升欺詐風險識別

  • 。與循環神經網絡一樣,LSTM誤差項的反向傳播也是包括兩個方向:一個是沿時間的反向傳播,即從當前t時刻開始,計算每個時刻的誤差項;一個是將誤差項向上一層傳播。
  • 根據相應的誤差項,計算每個權重的梯度。

四、欺詐防控應用

4.1轉賬到賬戶場景

一筆轉賬到賬戶交易涉及兩個主體即支出賬戶及收款賬戶。在風控事件中除了賬戶交易行為還包括賬戶的操作行為及日誌等信息,其中賬戶作為主動方的行為包括支出,改密,加好友,改頭像等等,賬戶作為被動方的行為包括收款,被舉報,被加好友等等,針對一筆轉賬交易,我們可以基於支出賬戶的行為和收款賬戶的行為進行序列挖掘分析,並且針對賬戶的短期行為及歷史長期行為進行不同長短時間窗的挖掘,識別賬戶異常行為序列,提升欺詐防控。具體我們構造了8個行為序列,如下所示:

序列1:支出賬戶的實時事件序列

序列2:支出賬戶的實時RPC序列

序列3:收款賬戶的實時事件序列

序列4:收款賬戶的實時RPC序列

序列5:支出賬戶的歷史事件序列

序列6:收款賬戶的歷史事件序列

序列7:支出賬戶與收款賬戶歷史序列

序列8:支出賬戶與收款賬戶實時事件序列

乾貨解析|如何通過用戶的行為序列來提升欺詐風險識別

實時序列中序列向量為小時維度,計算每個小時中事件或rpc的彙總,同時做log處理,歷史序列中序列向量為天維度,計算每天的事件或RPC彙總,同樣做log處理。支出賬戶與收款賬戶的實時序列均將其作為主動方序列與被動方序列合併為一個向量,另我們嘗試發現實時序列用小時維度彙總比直接事件序列輸入效果要好,因為很多收款賬戶並非很短時間內完成欺詐序列,而是在近1天內的行為鏈路異常。序列建模主要流程如上圖,分別基於8種不同序列建立LSTM模型,將序列隱藏層最後一步輸出接一個全連接層最終輸出風險分值,將8個序列風險分值與現有變量合併建模,輸出最終欺詐風險分。目前輸出8個行為序列分值作為最終模型變量,在模型130變量中基於IV值評估:8個序列分值3個排在top5內,7個排在top35內。將序列模型分加入到現有模型中最終建模評估在高分段可提升5%+的可見案件覆蓋率,具體效果如下:

乾貨解析|如何通過用戶的行為序列來提升欺詐風險識別

4.2轉賬到卡場景

如前面已提到轉賬到卡場景欺詐的防控難點在於新卡的防控。根據歷史經驗群體變量及FTG變量對於新卡有一定的防控效果,目前在轉賬到卡場景已刻畫城市、年齡及卡bin等維度的FTG變量。為了進一步防控新卡風險,我們從群體及FTG變量的思路出發,利用深度學習序列建模生成卡維度的embedding,然後將卡維度的embedding再彙總到卡bin維度,彙總的embedding提煉了該卡bin的行為信息,從而對於新卡來說只要其卡bin出現過就可以獲取其卡bin行為特徵。最後將生成的embedding變量與現有變量合併建模,輸出整體欺詐風險分值,具體流程圖如下:

乾貨解析|如何通過用戶的行為序列來提升欺詐風險識別

我們主要刻畫卡的收款序列,取每個收款事件上卡的屬性及行為特徵作為向量輸入訓練LSTM模型,將序列隱藏層最後一步輸出接一個全連接層最終輸出embedding向量。另我們嘗試了不同位數的卡bin截斷,儘量保證新卡能被歷史卡bin覆蓋同時粒度不能太粗,最終選擇10位及12位兩種截斷方式。我們將卡維度的embedding及卡bin維度彙總的embedding變量T+1推送線上,GBDT Retrain模型的效果如下:模型在全量卡交易評估同打擾下可提升2-3%的覆蓋率,在全量卡交易評估同打擾下可提升3-4%的覆蓋率:

乾貨解析|如何通過用戶的行為序列來提升欺詐風險識別

五、小結

本文只是行為序列在欺詐場景應用探索的開始,目前仍在行為序列的刻畫方式及其它業務場景做更多嘗試,例如我們發現將賬戶的事件序列和RPC序列合併效果比單獨一個序列要好,目前是單獨輸出後再合併後維持同效果,另例如在欺詐者銷贓環節對欺詐者行為序列建模,在資金流出環節進行攔截等,後面會進一步深入挖掘行為序列在欺詐風險識別的應用。

參考文獻

[1]Rafal,Jozefowicz,Wojciech Zaremba,Ilya Sutskever.An Empirical Exploration of Recurrent Network Architectures[J].International Conference on International Conference on Machine Learning,2015:2342-2350

[2] Long Short-Term Memory in Recurrent Neural Networks, Felix Gers, PhD Thesis @ EPFL

[3]https://zybuluo.com/hanbingtao/note/581764

[4]http://colah.github.io/posts/2015-08-Understanding-LSTMs/

[5]http://lib.csdn.net/article/deeplearning/45380


— END —

螞蟻金服官方唯一對外技術傳播渠道

投稿郵箱:[email protected]

乾貨解析|如何通過用戶的行為序列來提升欺詐風險識別



分享到:


相關文章: