螞蟻金服2018ATEC高校技術論壇圓滿結束,來看現場的AI技術吧!

小螞蟻說:

從6月6日開始,螞蟻金服在全國範圍內舉辦了2018 ATEC高校技術論壇巡迴演講活動。為期兩週的巡迴活動中,螞蟻金服技術專家團隊先後走進哈爾濱、北京、上海、南京等地高校,結合螞蟻金服AI實際案例,與學界研究者共同探討人工智能在金融領域的應用研究課題。

近日活動已圓滿結束,本文是我們從現場帶回的精華內容分享,一起來看看吧!

螞蟻金服2018ATEC高校技術論壇圓滿結束,來看現場的AI技術吧!

前言

據瞭解,本次高校技術論壇圍繞金融科技領域兩大挑戰難題——風險識別與智能客服的技術實踐進行了深入探討。在金融科技領域,如何對戰不斷升級的黑產攻擊,確保數億消費者資金安全;以及如何通過技術算法為用戶提供更智能的金融服務,被視為金融科技要解決的根目錄問題。其挑戰之大、前景之廣闊,從各高校技術論壇火爆的現場中可見一斑。

作為螞蟻金服ATEC科技品牌之一,ATEC高校技術論壇將持續關注前沿技術的學術研究與應用開發等問題,以加深產學研之間的有效互動,為中國培養核心人才、掌握核心技術而共同努力。

【NLP中識別語義相似度的核心算法】

分享嘉賓:張家興博士,螞蟻金服人工智能部技術總監、資深算法專家。

智能客服中,業務的目標是通過智能化的手段滿足用戶服務訴求,來自助答疑、分擔人工客服壓力,其中最重要的兩點就是智庫的構建以及客服對用戶意圖的理解。

針對智庫語義匹配,在語義框架方面螞蟻金服有較為成熟的實踐。比如多模型混合,主要包含兩個部分,第一部分是基於深度神經網絡構建的匹配模型,此外還採用了傳統的比如Jaccard 距離、BM25、WMD,還有LDA一些語義結構的內容,可以看到,在智能客服的時候,語義匹配是核心,語義匹配除了離線智庫匹配、在線客服還應用在很多搜索的場景、對話的場景等。

不只是語義匹配

學術領域中,語義相似度的計算有更嚴格的定義。比如哈爾濱工業大學劉挺教授曾指出,更嚴謹的表述應該是“問句的複述(Paraphrase)”。所謂問句的複述是指,一個問句有其他的說法,把內容進行重新的表達。翻譯也是這樣,中文翻譯到中文也是一種複述的方法。

第二種和任務相同的就是“蘊含(Textual Entailment)”。蘊含的標籤有三種,一是一句話是不是包含了另一句話的意思,二是這兩句話是中性的沒有任何的相關性,三是表達相反的意思。雖然標籤比較多但根還是在表述這兩句話的關係是什麼,從更廣義或者抽象的角度來說這是一個相關性的問題,可以是Query-Document的相關性,也可以是Question-Answer的相關性,更抽象一點是個匹配的問題比如“人-商品、人-內容”等。

所以說相似問題的計算不僅侷限於判斷哪句話和哪句話相似,更多的是判斷兩句話之間的關係,包括人和物品之間、物品和物品之間的關係等範疇。

【對抗攻擊和深度學習模型的防禦】

分享嘉賓:朱軍博士,清華大學計算機系長聘副教授、卡內基梅隆大學兼職教授

對抗樣本已經證明,為一個模型生成對抗樣本也可以欺騙另一個模型。對抗樣本使黑箱攻擊成為可能,這可能會在真實世界的應用中導致真正的安全問題。

所謂對抗樣本,就是對輸入數據進行略微修改,以使得機器學習算法對該輸入給出錯誤的分類結果。目前的機器學習分類器很容易受到對抗樣本的攻擊。在欺詐風險識別場景中,AI模型需要具有在對抗環境下仍然保持正常運行的魯棒性。

進一步講,在對抗機器學習中,防禦者應對的是一個開放的問題,即攻擊者發來的分佈輸入是未知的,且多變的,因此對抗防禦中,僅僅提供針對某種單一的攻擊方式的防禦方式,或者一系列研究人員提前準備好的防禦方式是不夠的,模型要應對不同的攻擊。

【風控數據的特徵以及創新的算法與效果】

分享嘉賓:周俊,螞蟻金服資深算法專家

所謂支付安全、風險控制,這本身是一個行業性的問題,就是——如果發生了交易風險,我們如何用大數據的方法去識別它、控制它。

風控體系四個特點

理解風控領域的四個特點能幫助我們更好地理解風控數據的特徵和特性:

A 樣本失衡。99.99%的交易方都是好人,真正產生案件的交易是非常少的,這樣一個明顯是黑樣本有缺失的情況下如何去建模,怎樣去提升整個模型的準確率,這是我們要去考慮的;

B 數據海量。在風控體系運行中,風控要採集非常非常多的數據,如何保證上億數的數據安全地應用,這對整個工程體系是巨大的挑戰;

C 攻防激烈。支付風控對壞人是一個攻防和博弈的過程,壞人在反覆測試你的策略,但同時你的風控系統也在不停地升級。也就是說,風險識別的核心是對抗,模型要應對不同的攻擊。

D 影響巨大。整個風控對業務的影響非常巨大。舉個例子,如果今天風控系統識別風險的概率是50%,那意味著我們一半的交易是抓錯的、一半的交易是抓對的,那些我們抓錯的的交易會對用戶帶來困擾,因為他明明是好人,卻會被風控抓到。所以風控的高準確概率非常重要。

風控建模的影響因素

A.規則vs模型

在解決一個工業問題的時候,我們應該更看重哪個方法能夠更快更高效地去解決問題,而不是一味傾向於遷移學習等越複雜的算法或者越創新的算法去解決問題。

所以面對這個場景,我們可以思考的是能否抽象出明確的規則。規則具有準確性高等好處,能保證覆蓋識別基礎的風險。相對於規則,模型最大的價值在於其本身有很多的變量,因為規則本身比較簡單,大部分都是if /else的邏輯,但是對於模型來說,規則可以消費非常多的變量。

B.黑樣本檢測vs 白樣本檢測

影響風控建模的第二大因素是樣本的檢測。目前大家建模的時候通常把Y設置成黑樣本,但風控就是一個激烈對抗的過程,所以當把Y設置成黑樣本的時候會發現Y的屬性一直在變。這時候其實可以考慮檢測一些白樣本,因為好人的行為是比較固定的,某種程度上來說好人的行為更符合一個模型的定義。實踐中需要判定哪些人是壞人,以及哪些人是好人,其實兩者是分不開的。

C.用戶分群vs檢測分層

另外是用戶分群和檢測分層。整個建模領域中有個非常重要概念—— segmentation。我們在做模型的時候可以對用戶做分類,即根據不同的人、群體去建模,用分而治之的方法去解決問題,樣對每類用戶的識別更加精準。舉個例子,在風控領域,螞蟻金服的客戶中有商家,也有個人用戶,不同用戶有不同屬性。比如商戶類,一些的高頻行為可能是make sense的;但對於個人類用戶來說,就很難在一個段時間內做如此高頻的交易,所以把商戶、個人用戶一起建模的話就會產生一些問題,所以鼓勵大家做一些用戶分群。第二個是檢測分層,我們不僅可以去預測哪些是黑樣本,也可以考慮去預測哪些是白樣本。

D.模型集成

我們有很多的模型、算法,比如randomforest、GBDT、DNN等,其實算法因為本身原理、性能、構成的不同適用於不同的領域或者適用於解決不同的問題,這時候我們就有必要對不同模型進行集成。舉個例子,我們可以嘗試把一個深度學習的模型和一個DNN的模型進行結合,或嘗試通過把一個問題拆解成多個問題然後做模型的集成。在工程實踐中,我們更關注的應是模型的結果而非只能用一種算法。

E. 特徵工程

最後對風控建模有重要影響的是特徵工程。特徵工程的本質是你對一個業務的理解,基於你對這個業務的理解去定義變量是什麼。

……

如果覺得這些乾貨還不過癮,來一把實戰深度體驗吧!

【開發者大賽介紹】

為了推動AI在金融領域的工程化落地,解決風險識別與智能客服兩大場景難題,螞蟻金服在2018年4 月 25 日面向全球啟動首屆金融科技開發者大賽,開放具體實戰場景,設立百萬獎金池,懸賞安全風控和智能金融服務最優算法。

據瞭解,此次大賽從普惠金融服務代表的金融大腦和精準風控代表的風險大腦兩個維度出發,同時賽題涉及 NLP、機器學習、神經網絡等支撐金融服務背後的技術領域。大賽啟動至今,賽題打榜盛況空間,參賽模型準確率不斷提升。據統計,截止目前,大賽已經吸引了來自全球超過5000支隊伍參與,涵蓋學術界與工業界AI研究精英,碩士博士參賽者過半。

據瞭解,大賽主辦方將針對金融大腦賽題在初賽期間開放10萬訓練集,進入決賽的選手們將在一年一度雲棲大會主場現場巔峰對決!

據稱,智能金融服務賽題初賽進入Top100、支付風險識別賽題進入Top150的隊伍可以進入複賽!

【大賽亮點】

最前沿:金融科技行業級高質量課題

最權威:中、美、英全球頂尖AI長老聯合發佈

最大咖:世界級大咖全程賽事指導

最心動:百萬獎金池,億級實踐場景

【獎項及激勵】

單題獎金

一等獎:一支隊伍,300000元/隊

二等獎:一支隊伍,200000元/隊

三等獎:一支隊伍,100000元/隊

TOP20優勝獎:

大賽認證證書

1、螞蟻金服集團技術崗綠色通道

(前三名,直通終面資格,第四-二十名,免筆試初試資格。每隊至少一人,一年內有效)

2、學界實驗室:高校深度合作項目機會

3、創客團隊:技術投資合作機會

【賽程】

比賽已正式啟動,數據集也已正式開放下載。

大賽初賽截止日期為2018年7月8日。

複賽時間為2018年7月13日至2018年8月26日。

最終優勝複賽隊伍於2018年9月中下旬進行決賽答辯以及頒獎。

現在即可登錄大賽官網進行提前報名,複製打開 https://dc.antfin.com/ 可跳轉至官網哦。

【加入大賽群,參與賽題討論】


分享到:


相關文章: