消費金融大數據風控架構與實踐「轉」

01

風險在哪裡



_____

消費金融大數據風控架構與實踐「轉」

1.1 信用風險

根據銀行業的風險理論,信用風險是指借款人因各種原因未能及時、足額償還債權人或銀行貸款而違約的可能性。

信用風險的風控重點在於,甄別客戶違約的原因究竟是還款能力,還是還款意願問題。如果客戶真的由於各方面的原因,暫時不具備還款能力,這是概率問題。即使發生了,處置起來也不會有什麼損失。而如果是還款意願問題,存在較大的資金損失概率。


1.2 欺詐風險

在風控中,欺詐風險比信用風險要大得多,所以反欺詐是重中之重。一般來說正常的客戶,如果不是刻意騙貸的,只是因為家裡出現突發事故、生意出現問題、暫時失業等等原因而導致資金週轉不過來而逾期的,這畢竟是少數,而且借款只是逾期,能夠還款的概率還是比較高。

消費金融行業絕大多數不良是因為欺詐引起的,如果反欺詐能夠比較有效的情況下,信用風險控制在5%以內沒有太大問題。


02

主要挑戰

_____

消費金融大數據風控架構與實踐「轉」

消費金融發放的借款都就小額分散的,沒有任何抵押和擔保的情況。隨著消費金融行業的崛起和規模擴大,整個行業面臨的欺詐問題越來越嚴重,一批批的羊毛黨和欺詐等黑產團體接踵而來。黑產團隊的規模越大,意味著消費金融機構的損失越大。

欺詐風險目前是整體消費金融風控的重點,目前整個行業75%甚至以上的風險都是來自欺詐風險。形式有很多種,如常見的身份偽冒、中介黑產、偽造材料、惡意套現等。欺詐主體一是申請本人或親戚朋友,二是借用或盜用別人的身份信息進行欺詐。欺詐主體的不同,防範風險的手段和形式也不同。


03

全生命週期管理

_____

消費金融大數據風控架構與實踐「轉」

一個完整的風控平臺需要包括對借款申請全生命週期進行管理 ,是一個極為複雜的過程,每一個流程都會影響整體的風控質量。


04

架構實踐

_____

4.1 業務架構

消費金融大數據風控架構與實踐「轉」

風控平臺是相對獨立的系統,信審的案件可以從借款端平臺推過來,也可以從第三方平臺推過來。信審案件到達風控平臺後,自動創建工作流,根據風控流程處理各流程環節任務。

• 自動決策

風控流程自動處理案件,訪問第三方合作伙伴的接口,獲取用戶黑名單、欺詐數據和多頭借貸等數據,查詢名單數據,決策引擎輸出各環節處理結果。自動決策後出三個結果,自動通過、轉人工、拒絕。

• 人工信審

根據決策引擎輸出的結果進行轉人工處理,人工通過初審和複核崗,給出具體信審結果,信審通過的案件給出風險等級和具體額度。

• 拒絕

被自動或者人工拒絕的案件通知到用戶,建議補充資料、過段時間重新申請或者推薦到第三方機構。


4.2 技術架構

消費金融大數據風控架構與實踐「轉」

4.2.1 分佈式、微服務架構

分佈式架構目前是互聯網行業成熟應用的架構,這裡不詳細討論。

微服務架構下,比較成熟的使用Spring Framework,使用MyBatis、Hibernate等數據映射框架。

4.2.2 RPC架構

RPC是分佈式架構的核心,解決服務分佈和服務解耦問題,目前我們使用的是Dubbo, RPC框架解決序列化、反序列化、網絡框架、連接池、收發線程、超時處理、狀態機等“業務之外”的重複技術勞動。

4.2.3 分佈式消息

分佈式系統中重要的組件,解決應用耦合,異步消息,流量削鋒等問題,是分佈式系統不可缺少的中間件。目前在生產環境,使用較多的消息隊列有ActiveMQ,RabbitMQ,ZeroMQ,Kafka,MetaMQ,RocketMQ等。

4.2.4 分佈式緩存

高併發環境下,大量的讀寫請求湧向數據庫,磁盤的處理速度與內存顯然不在一個量級,從減輕數據庫的壓力和提高系統響應速度兩個角度來考慮,一般都會在數據庫之前加一層緩存。由於單臺機器的內存資源以及承載能力有限,並且,如果大量使用本地緩存,也會使相同的數據被不同的節點存儲多份,對內存資源造成較大的浪費,因此,才催生出了分佈式緩存。常用的分佈式緩存是Redis。

4.2.5 分佈式日誌

分佈式情況下,每個日誌分散到各自服務所在機器,日誌的收集和分析需要統一處理。日誌框架主要這幾塊內容:

• 業務日誌埋點

• 日誌收集處理系統

• 日誌處理系統

• 日誌分析系統

ELK(ElasticSearch, Logstash, Kibana)平臺可以實現日誌收集、日誌搜索和日誌分析的功能。


4.3 反欺詐平臺

目前的欺詐團伙已經形成完整的地下產業鏈,反欺詐平臺需要根據平臺沉澱的用戶數據、環境數據、第三方數據結合生物探針技術採集的本次用戶行為數據,建立用戶、環境、行為畫像以及基於用戶、環境、行為的關係網絡,通過對業務數據建立多重模型來甄別對異常用戶的識別能力和反欺詐能力。

4.3.1 數據來源

數據源主要是三個方向:

1. 用戶申請過程的填寫的數據和埋點時採集的行為數據和日誌數據。

2. 第三方合作數據,如人行徵信數據、學歷、多頭借貸等數據。

3. 互聯網上的數據,需要靠開發的爬蟲平臺去抓取。

數據分類主要以下幾類:

1. 身份信息:姓名、身份證、手機號、卡號、居住地址、學歷等。

2. 信用信息:收入信息、借款信息、帳戶信息、還款和逾期信息。

3. 社交信息:通迅錄信息、通話記錄、QQ和其它平臺交互信息。

4. 消費信息:銀行卡詳單、電商網站購買信息等其它信息。

5. 行為信息:申請和填寫信息、GPS、時間點、地點等信息。

6. 第三方:多頭信息、黑灰名單、授信信息。

4.3.2 反欺詐模型

以上的多方面數據,可以根據對用戶行為、語義、關聯網絡等組成一個巨大的數據關係圖譜。利用這些數據建立的模型風控體系對用戶的欺詐概率、還款風險等進行強有力的預測和判斷。

4.3.2.1 社交圖譜模型

消費金融大數據風控架構與實踐「轉」

利用“手機-設備”及“手機-手機(通話)”關係,進行圖建模,所有用戶及外部已知風險手機號容納在一張圖中,通過圖中的風險標記以及圖中的異常關係結構。

用戶數據量上來的時候,社交關係很容易破億,這時候就要使用圖數據庫,相對成熟就是Neo4j,比易用性和穩定性來講Neo4j比orientdb和arangodb要好很多。

NEO4J數據庫,其可提供35億節點,當前2.5億多點,其中付費版支持無限節點,費用是6.8萬美元/年。

4.3.2.2 黑產攻擊模型

通過分析收集的高風險人群及中介通話數據,挖掘出一張高風險人群聯繫密切的關係網,有效識別申請動機不良的客戶,發現黑產攻擊苗頭。

4.3.2.3 多頭授信模型

通過對客戶與各類機構的通信關係,發現一些體現多頭風險異常結構,如客戶總被一些催收機構聯繫,同時又在主動撥打其他一些機構的營銷電話。

4.3.2.4 頻次異常分析

消費金融大數據風控架構與實踐「轉」

欺詐團伙在發現系統規則漏洞時,往往會在短時間內發起大量欺詐交易,以便在受害者反應過來前儘快變現,例如醫美欺詐案,短時間內大量發起虛假的美容貸款請求。

這種交易的頻次常常會在時間分佈上形成異常的波形,通過ARIMA模型可以很好的預測事件的時間分部特徵,貝葉斯框架的生成式模型能夠解決不同空間分佈維度下細顆粒都的時間分佈問題。

通過這兩種手段可以將時間和空間分佈上存在異常的交易行為與正常的交易行為區分開來。

4.3.2.5 欺詐團伙發現

在互聯網金融行業,欺詐團伙日益嚴重並且難以防範。從特點上來看,團伙欺詐有如下幾個特點:

• 專業性。欺詐團伙通常會根據各平臺的風控規則,制定相應的欺詐手段;

• 多變性。欺詐團伙的欺詐手法經常變化,讓各平臺防不勝防;

• 爆發性。欺詐團伙一旦發現欺詐的可能性,會在短時間內,利用地下渠道獲得的身份信息,大量反覆地欺詐;

團伙欺詐的發現是業務反欺詐領域面臨的一個重要挑戰。目前反團伙欺詐技術思路如下:

• 構成網絡:將交易,交易信息項(地址,電話,設備id),用戶等定義為節點;同屬一個交易的節點間形成邊;對邊根據業務經驗或其他規則賦予權重;

• 特徵提取和信息挖掘:提取網絡飽和度,網絡直徑,關聯度,中心度,群聚係數等特徵;基於已有的黑名單,利用社區發現等算法得到節點的欺詐相關程度預測;

• 加入模型:提取的特徵可以作為模型或規則的輸入;

• 欺詐預警:在無標註數據的情況下,及時發現異常的網絡拓撲結構,作為欺詐的早期預警;

4.3.2.6 評分模型

消費金融大數據風控架構與實踐「轉」

在消費金融反欺詐領域,各種欺詐特徵常以規則形式出現,通過一系列的規則的邏輯組合,排除有欺詐嫌疑的進件:

• 規則系統優點:可解釋性強,可以迅速調整,應對欺詐手段變化;

• 規則系統缺點:複雜的規則體系難於維護,難以利用弱特徵,對強特徵依賴,容易被攻破;

評分模型:評分模型在金融領域應用相當成熟,信用評分模型是最常見的應用。但公司將評分模型應用到反欺詐場景時常常與信用評分混淆,但本質上,二者的預測目標是不同的,反欺詐模型預測的是欺詐的可能性,信用模型預測的是還款的可能性。因此建立獨立的反欺詐評分模型很有必要。

反欺詐評分模型有如下優點:

• 可以充分利用弱特徵;

• 對抗性好,模型結構由一系列弱特徵決定,提高欺詐者偽裝成本;

反欺詐評分模型和反欺詐規則系統有很好的互補性,在風控平臺中,同時建立起反欺詐規則系統和評分模型很有必要。


4.4 變量平臺

反欺詐模型和信用模型兩個模型體系裡,最基礎的需要先加工出風控變量,根據基礎信息、關聯關係、信用歷史、設備信息、社交數據以及消費和交易數據等六大緯度加工出數百、數千或者數萬個變量。輸出給模型進行計算和決策。

基於實時決策的風控流程需要對數據和大部分變量加工有實時性要求。隨著數據量越來越大,傳統關係數據無法解決實時和效率的問題,基於Hadoop平臺的解決方案成為變量平臺的方案。

消費金融大數據風控架構與實踐「轉」

4.4.1 數據來源

• 實時日誌採集:

業務埋點在流程處理中把風控需要的數據打印到日誌中。

Flume從日誌採集的數據放入kafka消息隊列中。

• 實時日誌採集:

通過Canal分析mysql的bilog日誌,放到kafka中。

4.4.2 數據加工

Spark streaming處理時效只能達到準實時,所以變量加工採用Storm方案。Storm可以達到低延遲的響應,在秒級或者毫秒級完成分析、並得到響應,而且體系能夠隨著數據量的增大而拓展。


05

總結

_____

消費金融行業這兩年規模增長比較快,主要是基於在線的小額分散的借款。一定程度上無法有效和及時的識別真正的客戶,某些消費場景內面對欺詐團伙和黑產需要建立有效和多種風控手段和模型。

基於大數據的風控和反欺詐模型起步也沒有幾年,大部分公司都在逐步完善和成熟的過程,基於機器學習的風險模型也都在大量的投入和嘗試。需要從大數據上進行挖掘、分析和建模,利用用戶身份數據、行為數據、外部數據和黑產數據建立反欺詐平臺、規則和欺詐關聯網絡來提高反欺詐能力和風險

識別能力。



原文地址:https://blog.csdn.net/k6t9q8xks6iikzppifq/article/details/80544925


分享到:


相關文章: