無監督機器學習:超越規則引擎和有監督機器學習的反欺詐分析方法

規則引擎,機器學習模型,設備指紋,黑白名單(例如郵件、IP地址黑白名單)和無監督檢測分析?經常會有人問,我們應該選擇哪種反欺詐檢測方式?其實每一種方法都有其獨特的優勢,企業應該結合反欺詐解決方案及反欺詐行業專家經驗,搭建出一套最適合自己公司業務、產品以及用戶類型的反欺詐管理系統。

規則引擎和學習模型是傳統反欺詐系統構建中重要的兩個基本組成部分。接下來的文章中會介紹這兩套系統是如何工作的?它們各自的優勢和侷限性是什麼?為什麼無監督分析算法優越於規則引擎和機器學習模型,以及使用無監督分析算法在捕捉新型欺詐時的必要性

>>>>規則引擎

無監督機器學習:超越規則引擎和有監督機器學習的反欺詐分析方法

>>>>工作機制

規則引擎將商業業務邏輯和應用程序代碼劃分開來,安全和風險分析師等基於SQL或數據庫知識就可以獨自管理運行規則。有效的規則可以通過幾行邏輯代碼一目瞭然的進行表述:If A and B, then do C。例如:

IF(user_email=type_free_email_service) AND (comment_character_count ≥ 150 per sec) {

flag user_account as spammer

mute comment

}

規則引擎同樣可以使用加權打分評分機制。例如,下表中的每一項規則都對應一個分值,正數或負數,這個分值可以由分析師賦值。所有規則的分數會被加起來,之後得到一個總計分數。規則引擎基於分數臨界值創建出業務運維流程。在一個典型的運維流中,根據分數範圍,一般會分為三種行為類型,例如:

1.高於1000 - 否認(如拒絕交易,暫停帳戶)

2.低於300-接受(如確認訂單,通過內容)

3.介於300到1000-提示需要增加額外的審核,置入人工審校池

無監督機器學習:超越規則引擎和有監督機器學習的反欺詐分析方法

➜優勢

規則引擎可以從數據庫中導入數據,挑選出黑名單(如IP地址)和其它壞的列表。每當一個新的欺詐情況發生後,分析師會增加一個新規則,以保證公司在可預見範圍內免於欺詐風險。這樣通過使用規則引擎,公司便可以避免一些週期性出現的欺詐。

➜侷限性

一旦欺詐規模增大,規則引擎就會展現出侷限性。欺詐者不會在被捕捉後依舊坐以待斃,他們會研究你是如何捕捉他們,之後變換新的方式,避免再次被捉到。所以,規則作用的時間很有限,可能是幾周,甚至幾天。試想一下,當你在運行和測試成百上千條新的規則同時,還需要每隔幾天增加新的規則,刪除或更新之前的規則,並對規則進行加權,這無疑要花費大量運營資源,時間,和費用來維護。

如果一個反欺詐分析師要在3種規則下計算出通過、拒絕及比例數字,並通過比例變化情況調整每一項規則的分值,需要做出8種改變:2^3 = 8(values^rules)。而測試3種不同值的10種規則需要做出超過5.9萬次變化。逐漸隨著規則數量增加,改變頻率也會隨之快速增長。

無監督機器學習:超越規則引擎和有監督機器學習的反欺詐分析方法

規則引擎不會從分析觀察或反饋中自動學習。由於欺詐者經常改變欺詐方式,導致數據會間歇性暴露在各種新的攻擊下。此外,規則引擎是基於二進制方式處理信息,有可能無法完全檢測到數據細微差別,這會導致出現更高的誤判率及用戶負面體驗。

有監督機器學習模型

➜工作機制

有監督機器學習模式是反欺詐檢測中最為廣泛使用的機器學習模式。其中包含的幾個學習技術分別有決策樹算法,隨機森林,最近鄰算法,支持向量機和樸素貝葉斯分類。機器學習通常從有標籤數據中自動創建出模型,來檢測欺詐行為。

無監督機器學習:超越規則引擎和有監督機器學習的反欺詐分析方法

在創建模型的過程中,清楚瞭解哪些是欺詐行為,哪些不是,會起到至關重要的作用。模型中倒入的數據會影響其檢測效果。用已知欺詐數據和正常數據做訓練集,可以訓練出學習模型來填補並增強規則引擎無法覆蓋的複雜欺詐行為。

下面是一個關於有監督機器學習機制如何將新的數據劃分為欺詐和非欺詐的例子。訓練數據通過識別模型特點,可以預知兩種類型欺詐者: 1. 信用卡欺詐者 2. 垃圾信息製造者。以下三種特徵對識別欺詐攻擊類型非常有幫助:1. 郵件地址結構 2. IP地址類型 3. 關聯賬戶密度指示欺詐攻擊類型(如變化的回覆)。實際上,一個典型的模型有成百上千種特徵。

在此例中,擁有以下特徵的用戶會被訓練出的模型識別為信用卡欺詐:

  • 郵箱地址前5個是字母,後3個是數字

  • 使用匿名代理

  • 中等密度關聯賬號(例如10)

有以下特徵的用戶會被識別為垃圾信息製造者:

  • 郵箱地址按某種形式隨機生成的

  • 使用數據中心的IP地址

  • 高密度關聯賬號(例如30+)

假設現在你的模型正在從下面一批用戶裡評估風險,這個模型會計算每個用戶的郵件地址結構,IP地址類型以及賬號關聯密度。正常情況下,模型會將第二種和第三種用戶歸類為垃圾製造者,把第一、第四、第五種歸為信用卡欺詐者。

無監督機器學習:超越規則引擎和有監督機器學習的反欺詐分析方法

➜優勢

訓練學習模型填補並增強了規則引擎無法覆蓋的範圍,學習模型可以通過增加訓練數據持續提高其檢測效率。學習模型可以處理非結構數據(如圖像,郵件內容),即使有成千上萬的輸入信息變化特徵,也可以自動識別複雜的欺詐模式。

➜侷限性

雖然有監督機器學習創建模型功能比較強大,但同時也有侷限性。如果出現之前沒有標籤案例的、新的欺詐類型該怎麼辦?由於欺詐方式經常變化,這種情況普遍存在。畢竟欺詐者在不停地變化欺詐手段,日以繼夜的實施各種新型攻擊,如果之前沒有遇到這種欺詐攻擊模式,也沒有足夠的訓練數據,那麼訓練出的模型就不能返回優質、可靠的結果。

從下圖中可以看出,收集數據和標記數據是創建有監督機器學習過程中最重要的部分。產出準確的訓練標籤可能需要花費數週到數月的時間。並且產生標籤的過程需要反欺詐分析團隊全面審核案例,將數據進行正確標籤分類,並在投入使用前進行驗證測試。除非學習模型之前有足夠的相應訓練數據,否則一旦出現新的攻擊,學出的模型將會無法識別。

無監督機器學習:超越規則引擎和有監督機器學習的反欺詐分析方法

無監督機器學習-超越規則引擎和有監督機器學習

以上兩種欺詐檢測框架都有各自明顯的侷限性,DataVisor創新的無監督機器學習算法彌補了這兩種模型的不足。無監督檢測算法無需依賴於任何標籤數據來訓練模型。這種檢測機制算法的核心內容是無監督欺詐行為檢測,通過利用關聯分析和相似性分析,發現欺詐用戶行為間的聯繫,創建群組,並在一個或多個其他群組中發掘新型欺詐行為和案例。

無監督機器學習:超越規則引擎和有監督機器學習的反欺詐分析方法

無監督檢測提供了攻擊的群組信息,並自動生成訓練數據,之後匯入到有監督的機器學習模塊中。基於這些數據,有監督機器學習通過模型結構,可以進一步發現大規模攻擊群組之外的欺詐用戶。DataVisor所採用的這種框架模式不僅可以找出由個人賬號發起的攻擊,更重要的是可以有效發現由多個賬號組成的欺詐或犯罪團伙實施的有組織的大規模攻擊,為客戶反欺詐檢測框架增加至關重要的早期全方位檢測。

無監督機器學習:超越規則引擎和有監督機器學習的反欺詐分析方法

DataVisor採用的關聯分析方法將欺詐行為相似的群組歸為一類。而另一種檢測技術-異常檢測,將不符合好用戶行為特點的用戶均列為欺詐對象。其原理是假設壞用戶都是孤立於正常用戶之外的單個用戶或小群組。下面圖表列舉了欺詐者F1、F3、群組F2,以及好用戶群組G1和G2。異常檢測模型只能發現此類孤立的欺詐行為,但在鑑別大規模的群組欺詐時就會面臨很大的挑戰。在這一點上,相比於異常檢測,無監督分析的優勢顯而易見。

無監督機器學習:超越規則引擎和有監督機器學習的反欺詐分析方法

DataVisor把無監督分析算法結合規則引擎和機器學習模型一起使用。對於客戶來說,這種全方位的檢測在提供欺詐信息列表的同時,也會提供給客戶新的欺詐檢測模型,並幫助用戶創建新的檢測規則。一旦DataVisor的檢測方式發現客戶遇到新型未知欺詐,無監督檢測可以有效提前早期預警。

通過專注於早期檢測和發現未知欺詐,DataVisor幫助客戶在欺詐解決方案的各個方面提升機制、提高效率:

  • 檢測虛假金融交易和活動;

  • 發現虛假推廣和促銷濫用;

翻譯者:Lily.Wang


分享到:


相關文章: