什麼是知識圖譜

知識圖譜的定義

知識圖譜在國內屬於一個比較新興的概念,國內目前paper都比較少,應用方主要集中在BAT這類手握海量數據的企業,這個概念是google在2012年提出的,當時主要是為了將傳統的keyword-base搜索模型向基於語義的搜索升級。知識圖譜可以用來更好的查詢複雜的關聯信息,從語義層面理解用戶意圖,改進搜索質量。

個人認為,知識圖譜最大的優勢是在於對數據的描述能力非常強大,各種機器學習算法雖然在預測能力上很不錯,但是在描述能力上非常弱,知識圖譜剛好填補了這部分空缺。

知識圖譜的定義非常多,我這裡提供一部分我自己的理解:

1.知識圖譜主要目標是用來描述真實世界中存在的各種實體和概念,以及他們之間的強關係,我們用關係去描述兩個實體之間的關聯,例如姚明和火箭隊之間的關係,他們的屬性,我們就用“屬性--值對“來刻畫它的內在特性,比如說我們的人物,他有年齡、身高、體重屬性。

2.知識圖譜可以通過人為構建與定義,去描述各種概念之間的弱關係,例如:“忘了訂單號”和“找回訂單號”之間的關係

知識庫的概念

知識庫的種類

知識庫目前可以分為兩種類型:Curated KBs 和 Extracted KBs

Curated KBs:以yago2和freebase為代表,他們從維基百科和WordNet等知識庫抽取了大量的實體及實體關係,可以把它理解城一種結構化的維基百科。

Extracted KBs:主要是以Open Information Extraction (Open IE), Never-Ending Language Learning (NELL)為代表,他們直接從上億個網頁中抽取實體關係三元組。與freebase相比,這樣得到的實體知識更具有多樣性,而它們的實體關係和實體更多的則是自然語言的形式,如“姚明出生於上海。” 可以被表示為(“Yao Ming”, “was also born in”, “Shanghai”)。直接從網頁中抽取出來的知識,也會存在一定的噪聲,其精確度低於Curated KBs。

目前行業內使用的比較多的還是Curated KBs,主要是因為Curated KBs比較簡單,容易構建,噪音少。

什麼是知識庫

a)“姚明出生於上海”

b)“姚明是籃球運動員”

c)“姚明是現任中國籃協主席”

以上就是一條條知識,把大量的知識匯聚起來就成為了知識庫(Knowledge Base)。我們可以從wikipedia,百度百科等百科全書獲取到大量的知識。但是,這些百科全書的知識是由非結構化的自然語言組建而成的,這樣的組織方式很適合人們閱讀但並不適合計算機處理。

什麼是知識圖譜

圖1:知識圖實例

知識庫的表示形式

為了方便計算機的處理和理解,我們需要更加形式化、簡潔化的方式去表示知識,那就是三元組(triple)。

“姚明出生於中國上海” 可以用三元組表示為(Yao Ming, PlaceOfBirth, Shanghai)[1]。這裡我們可以簡單的把三元組理解為(實體entity,實體關係relation,實體entity)。如果我們把實體看作是結點,把實體關係(包括屬性,類別等等)看作是一條邊,那麼包含了大量三元組的知識庫就成為了一個龐大的知識圖。

有些時候會將實體稱為topic,如Justin Bieber。實體關係也可分為兩種,一種是屬性property,一種是關係relation。如下圖所示,屬性和關係的最大區別在於,屬性所在的三元組對應的兩個實體,常常是一個topic和一個字符串,如屬性Type/Gender,對應的三元組(Justin Bieber, Type, Person),而關係所在的三元組所對應的兩個實體,常常是兩個topic。如關係PlaceOfBrith,對應的三元組(Justin Bieber, PlaceOfBrith, London)。

什麼是知識圖譜

圖2:Justin Bieber知識圖

(圖中藍色方塊表示topic,橙色橢圓包括屬性值,它們都屬於知識庫的實體;藍色直線表示關係,橙色直線表示屬性,它們都統稱為知識庫的實體關係,都可以用三元組刻畫實體和實體關係)

知識庫的數據結構

這裡只是簡單介紹一下數據結構,知識表達這一塊會在《知識圖譜基礎(二)-知識圖譜的知識表達系統》中詳細講解。

讀者只要記住,freebase的基礎知識表達形式:(實體)-[關係]-(實體),(實體)-[關係]-(值)即可,參考圖3,姚明和葉莉的關係。

什麼是知識圖譜

圖3 知識表達

知識圖譜的應用

通過知識圖譜,不僅可以將互聯網的信息表達成更接近人類認知世界的形式,而且提供了一種更好的組織、管理和利用海量信息的方式。下圖是筆者整理的知識圖譜有關的應用,接下來的一些文章筆者會對下面的應用進行剖析。

什麼是知識圖譜

圖4 知識圖譜的應用

從圖4上看,知識圖譜的應用主要集中在搜索與推薦領域,robot(客服機器人,私人助理)是問答系統,本質上也是搜索與推薦的延伸。可能是因為知識圖譜這項技術(特指freebase)誕生之初就是為了解決搜索問題的。知識存儲這一塊可能是企查查和啟信寶這些企業發現使用圖結構的數據比較好清洗加工。

在語義搜索這一塊,知識圖譜的搜索不同於常規的搜索,常規的搜索是根據keyword找到對應的網頁集合,然後通過page rank等算法去給網頁集合內的網頁進行排名,然後展示給用戶;基於知識圖譜的搜索是在已有的圖譜知識庫中遍歷知識,然後將查詢到的知識返回給用戶,通常如果路徑正確,查詢出來的知識只有1個或幾個,相當精準。

問答系統這一塊,系統同樣會首先在知識圖譜的幫助下對用戶使用自然語言提出的問題進行語義分析和語法分析,進而將其轉化成結構化形式的查詢語句,然後在知識圖譜中查詢答案。

鏈接:https://www.jianshu.com/p/cd937f20bf55


分享到:


相關文章: