爲什麼無監督機器學習能改變反欺詐行業|技術解析

無監督機器學習作為機器學習的一大門類,雖沒有“深度學習”那麼大名鼎鼎,卻也是由來已久並在另一個場景頗有建樹——那就是

反欺詐。事實上,無監督機器學習技術已經被認為是最新一代的反欺詐新技術,其在團伙欺詐方面的檢測成果也已被業界廣泛認可。

為什麼無監督機器學習能改變反欺詐行業|技術解析

圖1:四種欺詐方法比較

無監督機器學習為什麼是反欺詐行業的新選擇。

就在我們之前的文章 中提到:

“對貓的識別中,來嘗試提取貓的特徵:皮毛、四肢、耳朵、眼睛、鬍鬚、牙齒、舌頭等等。通過對特徵相同的動物的聚類,可以將貓或者貓科動物聚成一類。但是此時,我們不知道這群毛茸茸的東西是什麼,只知道這團東西屬於一類,兔子不在這個類(耳朵不符合),飛機也不在這個類(有翅膀)。特徵有效性直接決定著算法有效性。如果我們拿體重來聚類,而忽略體態特徵,恐怕就很難區分出兔子和貓了。”

而無監督反欺詐最核心的兩個問題就是:

1. 選擇哪些特徵判斷是否為欺詐分子?

2. 這些特徵之間的相似度是多少?

所以作為一名專業的反欺詐人員,要多關注欺詐手法,才能做到一舉攻破欺詐。這裡的“知己知彼”就是欺詐中的特徵選取這一步驟。

以騙貸為例,在騙貸的場景中如何使用通訊錄這一資料呢?假如深入瞭解欺詐機制就能夠知道,通訊錄的作用有二:一是通過通訊錄找到用戶和用戶間的相關性。例如,用戶A和用戶B的通訊錄中都有用戶B,那麼用戶A和用戶B能也可能認識,即是“共同好友”;另外一個作用就是對照黑名單,看用戶的通訊錄中是否有欺詐分子。如果風控人員發現用戶A的通訊錄裡有老賴用戶B,那麼,就需要對用戶A特別關注。如果忽略這一重要線索,就會漏掉某些欺詐用戶,使結果的漏報率很高。

而在保險行業,假如同片區域的保單採用為相同的機構代碼。如果把機構代碼相同作為特徵之一來聚類,這樣的結果就是是產生大量的錯報。

所以特徵的挑選需要豐富的行業背景和經驗,隔行如隔山。如果你不懂得該行業的業務邏輯,便無法抓住欺詐分子。

通過以上兩個例子,我們就能知道特徵是非常重要的一個因素。事實上,但如果特徵選對了卻沒有很好地處理,同樣達不到反欺詐效果。這就是拿到同樣一份數據卻得到了不同的結果的原因。特徵計算主要有:特徵提取、特徵拆解和特徵組合。

特徵的提取就是特徵的選擇。

特徵拆解同樣也十分容易理解,就是對特徵進行拆分觀察。例如號碼或者ip地址的前綴拿出來對比,把前綴相同或者類似的人聚合在一起分析。

特徵的組合是指多個字段在一起才是有含義的。例如字段X是經度,字段Y是緯度,那麼,當XY在一起的時候才能確定這個人的特徵,單看X或Y都不具備可研究性。巧妙利用特徵組合可以發現很多欺詐手法的共性,識別機器人偽裝。例如,比較設備型號+設備分辨率,發現某一批用戶的兩個信息不符(iPad的分辨率卻與Phone 5相同),則可斷定這是採用模擬器偽裝的設備。

來看第二個問題,如何判斷特徵之間的相似度。一般採用集群內聯性這一概念來定義相似度。

為了便於理解,分兩個步驟來拆解介紹:

第一步:特徵映射及聚類,

如下圖所示。用戶的信息被映射到多維向量空間(點),並採用DataVisor無監督算法進行動態聚類,可以看到聚類後成團的點簇,我們稱之為集群(Cluster)。

為什麼無監督機器學習能改變反欺詐行業|技術解析

圖2:特徵映射及聚類

第二步:判斷欺詐屬性

如下圖所示。聚類出的群組特徵與DataVisor全球智能信譽庫匹配,檢測群組集中性、規律性、與全量相比的差異性、特徵稀有性等各種信息,同時結合業務經驗,判斷群組的欺詐屬性。

為什麼無監督機器學習能改變反欺詐行業|技術解析

圖3:判斷欺詐屬性

寫在最後

當人工智能將變革我們每一個角落,無論是看不見的還是可看見的。而“深度學習”早已傳遍每個人的耳朵,“無監督學習”作為獨有優勢的人工智能學習技術,也早已在大眾用戶看不見的地方,默默的守護著用戶的安全。尤其是現在的欺詐鬥爭早已不再是以前粗糙的時代,而是一場持續持久精細運營的鬥爭。

而非常榮幸的是,DataVisor通過運用獨有的無監督機器學習技術,站在了這場鬥爭的頭部。DataVisor在2013年在硅谷山景城成立以來,是首個將無監督機器學習運用於反欺詐檢測也是首個被驗證方案可行的企業。於2016年進入中國,短短五年間,已經涵蓋全球30億用戶數,處理超6000億事件和1.4億壞用戶。無監督機器學習在反欺詐場景中的優勢也許有方方面面,但更重要的是,DataVisor的使命一直都是用卓越的技術為這個世界提供更多的安全和信任。


分享到:


相關文章: