對話微眾銀行:聯邦學習在金融領域的實踐方法及落地建議

對話微眾銀行:聯邦學習在金融領域的實踐方法及落地建議

來源:獨訊頭條自媒體平臺:入駐獨訊頭條自媒體平臺,享受三億補貼

近兩年,聯邦學習技術發展迅速。作為分佈式的機器學習範式,聯邦學習能夠有效解決數據孤島問題,讓參與方在不共享數據的基礎上聯合建模,從技術上打破數據孤島。但是,目前這一技術在很多企業落地遇到了困難,InfoQ 將通過選題的方式逐一介紹各大公司如何在金融領域落地實踐該技術。

在人工智能領域,技術實踐,尤其是大規模落地是所有開發者高度關注的話題。然而,在實際的落地過程中,總是面臨著各種問題。僅僅是最基礎的數據,就已成為大多數企業技術無法取得突破的瓶頸:數據質量差——如許多數據標籤難以收集,甚至沒有標籤;數據分散的——每家應用的數據都不一樣,很難跨組織間數據合作等。隨著國內關於數據的法律條例越來越嚴格,數據問題變得更加棘手,而聯邦學習的出現則讓開發者發現瞭解決問題的可行性。

過去幾年,國內不少公司投入到聯邦學習的研發中,並且已經進入落地實踐階段。本文,InfoQ 採訪了微眾銀行人工智能部副總經理陳天健,對聯邦學習各類方法在微眾銀行的實踐進行了深入瞭解。

聯邦學習在金融領域的應用來源:獨訊頭條自媒體平臺:入駐獨訊頭條自媒體平臺,享受三億補貼

目前,聯邦學習已經在一些關鍵的金融領域取得了進展,比如聯合反洗錢建模、聯合信貸風控建模、聯合權益定價建模、聯合客戶價值建模等。相較於其他領域,金融領域對數據的管控更為嚴格,對數據隱私更加重視,因此也是最需要通過技術手段解決數據孤島問題的領域。

陳天健表示,信貸風險管理、核保風險評估等都是聯邦學習比較適合的金融應用。相對於其他領域,金融應用更著力於對風險的量化,畢竟風險價格往往是金融產品價格的主要組成部分。基於聯邦學習的風險量化模型,能通過擴展數據維度,顯著改善風險量化能力,從而降低整體金融產品價格,進一步提升金融服務對社會大眾而言的可得性。

聯邦學習三大分類體系實踐

在聯邦學習的分類體系中,包括:

  • 橫向聯邦學習,兩個數據集的用戶特徵 ( X1, X2, … ) 重疊部分較大,而用戶 ( U1, U2, … ) 重疊部分較小;
  • 縱向聯邦學習,兩個數據集的用戶 ( U1, U2, … ) 重疊部分較大,而用戶特徵 ( X1, X2, … ) 重疊部分較小;
  • 聯邦遷移學習,通過聯邦學習和遷移學習,解決兩個數據集的用戶 ( U1, U2, … ) 與用戶特徵重疊 ( X1, X2, … ) 部分都比較小的問題。

不同的分類體系,適合解決金融領域不同場景下的問題。

橫向聯邦學習

首先,我們來了解一下橫向聯邦學習的應用實踐。陳天健表示,橫向聯邦學習的特點是數據特徵相同,樣本 ID 不同,金融領域的常見應用是銀行處理反洗錢。

反洗錢在銀行的日常運作中起著重要作用。但確定交易記錄是否為洗錢活動很無聊且容易出錯。傳統上,銀行使用基於規則的模型來過濾那些明顯的非洗錢記錄並手動查看其餘記錄。這類基於規則的模型可以提供很多幫助,但由於覆蓋範圍較小,因此人工審核仍然會花費大量時間。此外,雖然傳統模型在已知的傳統情況下效果很好,但對於未知情況,如新的洗錢形式等,卻顯得缺乏認知。

而通過橫向聯邦學習,各個機構無需建立物理模型即可共享通用模型,這可以有效解決該領域樣本少,數據質量低的問題。例如,在不共享用戶數據的前提下,微眾銀行聯合多家銀行建立了反洗錢模型,經過模擬測試,這一模型參與銀行越多,其性能就越高。

這一應用中所使用到的聯邦訓練模型稱為同質邏輯迴歸(Homo-LR)。所有銀行都提供同類數據,這意味著它們具有相同的特徵,但具有不同的樣品編號。通過這種組合,整個數據集包括大量積極案例,並使模型表現良好,Homo-LR 的原理如下所示:

對話微眾銀行:聯邦學習在金融領域的實踐方法及落地建議

在每次迭代中,每一方都通過自己的數據訓練模型,並將他們的模型權重或梯度發送給稱為 Arbiter 的第三方。仲裁器將所有這些模型權重或梯度進行彙總,然後更新回各方。當模型由所有人共同訓練時,各方的數據永遠不會從其自己的來源:獨訊頭條自媒體平臺:入駐獨訊頭條自媒體平臺,享受三億補貼數據庫中出來。推斷過程也易於理解和執行:

對話微眾銀行:聯邦學習在金融領域的實踐方法及落地建議

這種方式極大提高了模型性能。lr 模型的 AUC 增加了 14%,減少了人工審核的數量和難度,下圖為使用模型前後的效果比較:

對話微眾銀行:聯邦學習在金融領域的實踐方法及落地建議

縱向聯邦學習

其次是縱向聯邦學習,特點是數據特徵不同,樣本 ID 相同,這種方法可以應用在風控信貸方面。

近年來,在國家政策的支持下,小微企業貸款受到越來越多關注,已成為衡量銀行發展潛力和能力的重要指標。由於風險過高,許多銀行不願向小微企業貸款,因此如何規避風險並降低小微企業的不良率尤為重要。

目前,大多數銀行都將白名單機制用於小微企業貸款的風險管理,而白名單是通過篩選規則和風險模型來實現的。規則和風險模型都取決於小型和微型企業及其控制者的相關數據。對於風險管理,相關數據可以包括中央銀行的信用報告、稅收、聲譽、財務、無形資產等。但是,對銀行而言,實際上只有中央銀行的信用報告,拿不到其他有效信息。縱向聯邦學習為模型訓練提供了一種可行的方式:不將數據洩漏給其他人,並且可以實現等效或接近完整數據模型的效果。

舉例來說,假設銀行擁有標籤 Y 和中央銀行信用報告特徵 X3,合作公司擁有相關數據 X。因為缺少 Y 的信息,合作公司無法訓練模型,但因為隱私安全問題,又不能直接將數據 X 傳給微眾銀行,通過聯邦學習,找到兩者之間的交集,比如納稅人識別號,但這項工作不能讓另一方知道,利用 RSA 加密技術,合作公司可以通過與加密的中間結果(而不是原始用戶數據)交互來安全地得到相關信息。陳天健表示,銀行目前能夠結合發票開票金額與央行的徵信數據等標籤屬性進行聯合建模,將小微企業風控模型區分度——AUC of ROC(衡量模型區分好壞樣本的評估標準之一)提升 12%。

對話微眾銀行:聯邦學習在金融領域的實踐方法及落地建議

通過使用 FATE(下文詳述,這是微眾銀行開源的聯邦學習平臺),微眾銀行與合作公司一起訓練了模型。聯邦訓練的模型稱為異構邏輯迴歸(Hetero-LR)。與傳統的 Logistic 迴歸不同,Hetero-LR 維護其模型,並使用各自的數據進行訓練,使用加密的中間結果來交互,並彙總最終模型梯度,在每一側更新模型。這提高了模型性能,與僅使用中央銀行的信用評分相比,Hetero-LR 模型的 AUC 增加了 12%。隨著模型效果的改善,貸款不良率明顯下降。

對話微眾銀行:聯邦學習在金融領域的實踐方法及落地建議

最後,則是走在科技前來源:獨訊頭條自媒體平臺:入駐獨訊頭條自媒體平臺,享受三億補貼沿的聯邦遷移學習技術。陳天健表示,聯邦遷移學習目前還處於研究階段,是縱向聯邦學習和橫向聯邦學習的一種增強、提升和統一,實際工業應用還有待進一步開發。

微眾銀行聯邦學習實踐三個階段

縱觀科技領域的大部分技術發展,兩大重要節點:一是技術標準的確立;二是大規模落地實踐。標準的完善,可以讓更多企業願意嘗試該技術,大規模落地實踐階段會暴露出很多問題,這是技術走向成熟的必經之路。這兩點都體現在了微眾銀行對聯邦學習的落地過程中。

2018 年,在業務實踐和行業觀察中,陳天健所在團隊發現訓練 AI 所需要的大數據實際上很難獲得,數據的控制權分散在不同機構、不同部門,“數據孤島”問題嚴重,加之政策法規對數據隱私和數據安全的要求讓數據共享和合作更加困難。

針對實際的業務痛點,他們發現聯邦學習是一種行之有效的解決方案。從全球視野來看,隨著數據保護立法不斷深化,進程進一步加快,大數據合規合作的需求更為迫切,聯邦學習蘊藏巨大的發展潛力。從 2018 年起,微眾銀行人工智能團隊基於聯邦學習理論研究進行相關開源軟件研發,並且在 2018 年向 IEEE 提交聯邦學習國際標準獲批。

陳天健補充道,聯邦學習的發展需要經歷三個階段,即“聯邦學習理論研究發展階段”,“批量應用落地階段”與“聯邦學習價值聯盟網絡建立階段”。在經歷以理論研究為重點的第一階段之後,目前的聯邦學習正在邁向批量應用的落地階段(第二階段)。

在第一階段,聯邦學習的探索主要是理論研究和小範圍實踐,搭建聯邦學習生態框架。

從 2018 年到 2019 年初,微眾銀行發表了多篇聯邦學習相關論文,對於聯邦學習的概念、分類、基本原理等基礎理論進行系統性研究;同時,在 2018 年向 IEEE 提交聯邦學習國際標準獲批;經過第一階段探索,搭建起了理論研究、工具軟件、技術標準、行業應用的多層級聯邦學習生態框架,並且開始有騰訊、華為、京東、平安等生態合作伙伴加入。

第二階段,聯邦學習在更多領域行業落地,積累案例,聯邦學習生態進一步擴大。

2019 年初,微眾銀行正式開源全球首個工業級聯邦學習框架 FATE(Federated Learning Enabler),並開始嘗試將聯邦學習應用於金融業務中。

隨著聯邦學習理論研究的深入,微眾銀行在國內、國際大會上聯合多家合作伙伴舉辦聯邦學習研討會,比如國際頂會 IJCAI 和 NeruIPS,國內計算機學會 CCFTF 等,吸引了更多研究者加入;FATE 開源社群也漸漸吸納上百家機構應用和共建;行業落地在金融領域更加深入,在風控、反洗錢領域的應用均取得了很好的效果。

而在標準制定層面,IEEE 國際標準預計於今年出臺草案,國內首個聯邦學習團體標準於 2019 年 6 月發佈,目前也在積極提案將聯邦學習納入國家標準。

2019 年至今,越來越多的合作伙伴加入,無論是 FATE 的共同開發實踐,還是標準討論、理論研究,聯邦學習越來越為行業所知,也受到了政府部門的關注。

實踐成果

開源框架

在實踐過程中,微眾銀行開源了聯邦學習平臺 FATE,該項目於 2019 年 1 月份首次上線,近期發佈了 FATE 1.2 版本,這是一種通用的縱向聯邦神經網絡算法解決方案,可將深度學習算法應用於分散割裂的數據中。

聯邦神經網絡算法的實現依賴 FATE 1.2 新增的核心功能模塊:SecretShare 多方安全計算協議。同時,聯邦化的特徵變量相關性分析也依賴此模塊。在金融風控領域,特徵變量間相關性分析是一個非常重要的風控建模步驟。

據陳天健透露,FATE 項目研發大體有三大方向:

  • 打通與三大深度學習框架 Tensorflow,Pytorch,PaddlePaddle 的互操作;
  • 持續提升實際商業化場景中,聯邦建模的性能、易用性和可管理性;
  • 不斷應對新的數據安全挑戰和合規要求。

微眾銀行正在基於 FATE 構建一個基於聯邦學習的數據合作網絡。在這個網絡裡面,越來越多的企業可以找到對其業務有幫助的合作企業,並進行合規的安全數據合作。陳天健表示,目前正在推進的包括銀行業,保險業,零售業等多個領域的批量應用落地。

標準制定

國際技術標準會為業界提供通用的技術溝通語言,無論本身是怎樣的技術架構和技術工具,在統一的標準下,大家才能更好地協作,這對於聯邦學習這個本身就強調“聯邦”合作機制的技術範式來說尤為重要。

對於聯邦學習這項新技術而言,技術標準的出臺將標誌著技術向更通用、更成熟的方向發展,為社會各界共建聯邦生態奠定基礎,同時為立法和監管提供技術依據。理想情況下,不同廠商基於同一技術標準開發的聯邦學習系統可以相互協作,就像現在的網絡設備一樣。

作為國內“聯邦學習”技術的首倡者,微眾銀行不斷推進聯邦學習的標準化建設工作。陳天健表示,根據已召開的四次聯邦學習標準工作組會議的討論,標準內容大致包含聯邦學習的定義、框架,以及在 To B(企業端)、To C(用戶端)以及 To G(政府端)不同情境下的場景分類、聯邦學習的安全測評等內容。

從時間週期上來說,IEEE 聯邦學習標準草案預計在今年上半年出臺,正式的標準預期最快下半年發佈。

金融企業實踐建議來源:獨訊頭條自媒體平臺:入駐獨訊頭條自媒體平臺,享受三億補貼

從一項技術真正成為關鍵系統和產品方案,微眾銀行在這個過程中也遇到了很多挑戰,比如一站式建模過程的聯邦化;廣域網場景下的分佈式加密機器學習算法的 易理解和易維護;跨站點數據傳輸安全性和可管理性,如何讓交互部分是可以被管理和被審計的等。

對於同樣希望部署聯邦學習的金融企業,陳天健結合微眾銀行的實踐經驗給出了一些建議。他表示,首先,金融企業需要意識到,數據規制的嚴格化是個趨勢性問題,因此需要在制定企業長期發展所依賴的數據戰略時,將聯邦學習技術作為數據發展戰略的一個重要組成部分。

其次,與大數據打交道最為頻密的中臺部門,例如風險管理部,需要牽頭對聯邦學習應用進行驗證和改進,以一個示範應用為突破,再推廣到其他。

再次,需要選擇比較靠譜的、合規的數據合作伙伴,因為聯邦學習是一種數據保護技術,並不是數據保護的全部。聯邦學習合規性的前提是假定各方數據採集的過程都是合規的,這一點一定要保證。

最後,技術層面要選擇開放、開源、可被第三方審計的技術。一方面,開源保證技術供應的連續性;另一方面,開源保證第三方審計的可行性。比如,現已變成 Linux 基金會託管的聯邦學習國際項目 FATE 會是一個比較好的選擇。

採訪嘉賓:來源:獨訊頭條自媒體平臺:入駐獨訊頭條自媒體平臺,享受三億補貼

微眾銀行人工智能部副總經理陳天健,負責銀行智能化和聯邦學習技術生態的構建。曾任職於百度、迅雷、華大基因等多家科技公司,曾任百度主任架構師(T10),百度金融首席架構師,設計百度搜索、推薦、大數據、金融等多個業務的總體架構和關鍵系統。


分享到:


相關文章: