知識圖譜的原理、特性與金融業應用實踐

來源:未央網 作者:未央研究

4月16日,由清華大學金融科技研究院金融大數據研究中心主辦、未央網聯合主辦、百融雲創承辦的“金融科技在線大講堂”第六期成功舉行。平安科技知識圖譜技術團隊副總工程師汪偉以“知識圖譜原理、特性與金融業應用實踐”為主題,從當前AI技術認知邏輯框架與侷限、知識圖譜的意義和實戰應用分析三個方面帶來精彩分享。以下整理來自嘉賓分享實錄:


知識圖譜的原理、特性與金融業應用實踐


當前AI技術關於認知的邏輯框架與侷限


在AI技術關於認知這個模塊,從業者經常碰到諸如此類的問題,我們為什麼要去做標註?為什麼要喂大量的樣本給機器?為什麼機器得出來的結果是一個百分之多少的可能性?為什麼樣本量要足夠大?如果不夠大又會產生什麼樣的效果?這就要回到問題的原點,瞭解了背景,才能夠明白底層的邏輯。


1.學習模式差異

第一個是學習模式的差異。學習模式主要有兩種,一種叫外延式學習,另一種叫內涵式學習。現在所有的機器學習、數據挖掘和人工智能,都是基於外延式學習的。其優點是隻需要告訴它事物明顯的特徵即可,不觸及本質的內在結構,方便學習,成本很低。比如我們教小朋友認識事物,指著告訴他這是桌子,這是椅子就能懂了。但這種學習模式也有缺陷,就是在推廣的時候有一些特殊情形,可能容易看錯。內涵式學習,比如關於人的定義,古希臘說人是一種理性的動物,後來馬克思說人是一切社會關係的總和。像這樣的描述,的確觸及到了事物的本質,但它不好的地方就是你把這個東西告訴計算機,它卻沒辦法計算、沒法工作。內涵式學習有一個很好的地方,就是定義清楚之後,它的泛化或者說推廣能力非常強,這樣的話只需要學很少的樣本,它就可以推廣出去。


2.推理模式差異

第二個是推理模式的差異。推理也有兩種方式,一種是演繹推理,一種是歸納推理。演繹推理就是所謂的三段式推理。一個經典例子:人是要死的,蘇格拉底是人,所以蘇格拉底一定會死。注意一下最後的推理結論,它一定是一個確鑿的,而不是概率性的結論。而歸納推理,比如說男生的頭髮通常是短的,張三的頭髮也很短,張三很可能是男生。最後的結論是一種程度的描述——很可能是男生,這個概率可能是70%,也可能是80%。但如果這個時候加一些描述,比如說張三穿了一件紅色的衣服,戴了一副耳環,最後的結論就會發生變化,這是歸納推理所特有的性質。前面說的機器學習、人工智能和數據挖掘運用的都是歸納推理。在風險測量或者定價的時候,增加因子數量的多少,輸入信息的變化會影響最終判斷結果。


知識圖譜技術的原理、特性


1.關聯-從數據表到數據鏈

知識圖譜有一個很重要的特性,就是關聯。在現實工作生活中,無論做企業分析還是個人分析,都會涉及到數據表。比如去辦事,會被詢問身份證、手機號、姓名、年齡、生日等信息,這些信息是拿來做關聯的。但這種關聯本身有侷限性,比如很多東西關聯不上,或者說關聯沒那麼緊密。這種情況下該怎麼辦呢?我認為隨著5G的發展,我們將從“主鍵關聯”邁向“萬物互聯”,即物與物、設備與設備之間的關聯,進而演進為“萬數互聯”的形態。


為什麼說萬數互聯是一種趨勢,或者說萬數互聯有怎樣的意義?一方面,關聯面變大。舉個例子,我們經常在新聞裡聽到麵粉會發生粉塵爆炸,很少聽到小麥會燃燒爆炸。這是由於小麥磨成麵粉之後,它的表面積變化了,這個比表面積變化的量級是百倍級的,麥粒表面接觸到的氧原子(在它磨成麵粉之後)的接觸面積變大了,導致物質的性質發生了質變——變得易燃易爆。另一方面,關聯力度變細。比如說一家公司和另一家公司可能不會發生關聯,但是公司和事件可以關聯嗎?事件和事件可以關聯嗎?這種關聯在現有的表關聯的結構體系中是很少出現的,但在知識圖譜裡他們可以被關聯起來。


2.推理-從大數定理到邏輯完備性鏈條

我們現在的技術,所有的統計分析,基本上都是從大數定理或者中心極限定理來的。但這兩個定理有一個前提條件,樣本量要足夠大。在做信貸審核的時候,分析個人信用都不成問題,因為個人信息很多。但是做企業信用評級就很麻煩,不同行業的差異性很大,要在裡面找一些違約樣本或者破產樣本很難。這裡我提出了一個數學公理和天文學原理。什麼意思呢?天文學有一個非常重要的特徵就是用極少的信息,來還原宇宙完整的真相。第二個特徵就是天文學只是一次性的發生,比如說宇宙大爆炸就發生一次,它沒辦法反覆做實驗。如果只發生一次,也就是說有些樣本只有一個,需要解決在這種情況下如何分析的問題——這就是天文學特有的分析方法論——模型嵌套思想。


3.從相關性到因果性強AI發展路徑

現在所有的機器學習分析,數據挖掘也好,深度學習也好,其實都是基於相關性的角度去做工作,很少去講為什麼會這樣?它的因果性是怎麼樣的?知識圖譜或許能夠回答這樣的問題。

在因果分析裡其實有三個東西,第一是相關性,比如說太陽昇起和公雞打鳴經常伴隨發生的;第二個是干預,如果雞多叫兩聲太陽是不是升得更快,或者是太陽昇得更大?干預一個因素,導致另外一個因素有沒有相關的變化?第三個是反事實推理,假設這個雞不叫了,太陽是不是就不升起了?這是一個現實當中不會發生的想象事件,但是它存在一個邏輯。因果性的存在有很重要的原因,因為因果性非常符合人類大腦的工作框架,人很容易或者很習慣地去問為什麼。


銀行業的應用實踐


企業客戶關聯圖譜及風險畫像

1)需求背景

  • 通過銀行特有企業核心價值數據(供應鏈、支付鏈、抵質押、擔保等)與歐拉強大的輿情分析、語義理解和關係推測能力相結合,建立企業客戶畫像,有效豐富企業關係圖譜維度,更精準地推測風險傳導關係。
  • 通過企業客戶360畫像庫的搭建,批量挖掘高潛客群、深度挖掘集團存量客戶價值,有效擴大銀行客戶規模、提升存量客戶貢獻度。
  • 通過企業客戶標籤體系的梳理,建立產品適配標籤庫和特徵屬性標籤庫,為客戶智能推薦產品、為營銷活動精準定位客群。


2)設計思路

知識圖譜的原理、特性與金融業應用實踐

知識圖譜的原理、特性與金融業應用實踐

3)企業經營分析-全方位多維度的銀行綜合競爭力評價

知識圖譜的原理、特性與金融業應用實踐

知識圖譜的原理、特性與金融業應用實踐

4)企業經營分析-銀行經營分析

知識圖譜的原理、特性與金融業應用實踐

知識圖譜的原理、特性與金融業應用實踐

5)展示形式

知識圖譜的原理、特性與金融業應用實踐


分享到:


相關文章: