11.29 知識圖譜與認知智能

從技術角度來看,“人工智能”是機器學習、數據挖掘、機器人技術、專家系統等多種技術的統稱,籠統地談論“人工智能”則缺乏實際意義。今天的人工智能技術公司,主要通過圖像識別、語音識別等模式識別技術,完成“感知”層面的工作。而真正到達“認知”的層面,目前知識圖譜技術被廣泛看好,它有希望成為“大腦”。最典型的則是IBM Watson在認知計算方向的探索,路雖坎坷,但方向值得肯定


智能時代

從基於明確規則與特定領域的“計算智能”,到語音、圖像、視頻識別預處理的“感知智能”,再到具備理解、推理和解釋的“認知智能”,難度價值越來越大。而隨著數據紅利消耗殆盡,以深度學習為代表的感知智能遇到天花板,認知智能將是未來一段時期內AI發展的焦點,是進一步釋放AI產能的關鍵。認知智能應用需求廣泛多樣:精準分析、智慧搜索、智能推薦、智能解釋、自然人機交互、深層關係推理等,需要對傳統信息化手段的全面而徹底的革新,以解放人類腦力,顯著提高機器生產力。知識圖譜是實現認知智能的關鍵技術, 是實現機器認知智能的使能器

知識圖譜

知識圖譜,作為一種語義網絡,是大數據時代知識表示的重要方式之一;作為一種技術體系,是大數據時代知識工程的代表性進展

機器理解數據的本質是建立從數據到知識庫中實體、概念、關係的映射;機器解釋現象的本質是利用知識庫中實體、概念、關係解釋現象的過程

知識是人類在認識和改造客觀世界的過程中總結出的客觀事實、概 念、定理和公理的集合

起源與發展

知識圖譜始於20世紀50年代,至今大致分為三個發展階段

  • 第一階段 (1955年—1977年)是知識圖譜的起源階段,在這一階段中引文網絡分析開始成為一種研究當代科學發展脈絡的常用方法
  • 第二階段(1977年-2012 年)是知識圖譜的發展階段,語義網得到快速發展,“知識本體”的研究開始成為計算機科學的一個重要領域,知識圖譜吸收了語義網、本體在知識組織和表達方面的理念,使得知識更易於在計算機之間和計算機與人之間交換、流通和加工
  • 第三階段(2012年—至今)是知識圖譜繁榮階段,2012年穀歌提出Google Knowledge Graph,知識圖譜正式得名,谷歌通過知識圖譜技術改善了搜索引擎性能。在人工智能的蓬勃發展下,知識圖譜涉及到的知識抽取、表示、融合、推理、問答等關鍵問題得到一定程度的解決和突破,知識圖譜成為知識服務領域的一個新熱點,受到國內外學者和 工業界廣泛關注
知識圖譜與認知智能

知識圖譜發展歷史


知識圖譜主要技術


知識圖譜與認知智能

知識圖譜技術架構圖

  • 知識獲取


知識圖譜與認知智能

知識獲取示意圖

通過知識抽取技術從不同來源、不同結構(結構化、半結構化和非結構化)的數據中提取計算機可理解和計算的結構化數據,形成知識存儲到知識圖譜中。當前,獲取知識主要針對文本數據進行,按照抽取對象的不同可分為:實體抽取、關係抽取、屬性抽取和事件抽取。通常有以下四種方式:眾包法、爬蟲、機器學習、專家法

  1. 實體抽取(命名實體識別,NER) 指從文本語料庫中自動識別出專有名詞(機構名、地名、人名、時間等)或有意義的名詞性短語,是知識圖譜構建和知識獲取的基礎和關鍵,實體抽取的準確性直接影響知識獲取的質量和效率
  2. 關係抽取 利用多種技術自動從文本中發現命名實體之間的語義關係,將文本中的關係映射到實體關係三元組上
  3. 屬性抽取 針對實體而言,以實現對實體的完整描述,由於可以把實體的屬性看作實體與屬性值之間的一種名詞性關係,所以屬性抽取任務就可以轉化為關係抽取任務
  4. 事件抽取 發生在某個特定時間點或時間段、某個特定地域範圍內,由一個或多個角色參與的一個或多個動作組成的事情或狀態的改變
  • 知識表示

知識是人類在認識和改造客觀世界的過程中總結出的客觀事實、概念、定理和公理的集合。知識表示是將現實世界中存在的知識轉換成計算機可識別和處理的內容,是一種描述知識的數據結構,用於對知識的一種描述或約定,也是知識圖譜研究中知識獲取、融合、建模、計算與應用的基礎。知識表示方法主要分為

  1. 基於符號的知識表示方法 一階謂詞邏輯表示法、產生式規則表示法、框架表示法、語義網絡表示法
  2. 基於表示學習的知識表示方法
  • 知識存儲

針對知識圖譜的知識表示形式設計底層存儲方式,完成各類知識的存儲,以支持對大規模圖數據的有效管理和計算。知識存儲黨的對象包括:基本屬性知識、關聯知識、事件知識、時序知識和資源知識等。知識存儲方式的質量直接影響到知識圖譜中知識查詢、知識計算及知識更新的效率


知識圖譜與認知智能

知識存儲方式

知識存儲方式和工具

  1. 基於表結構的存儲(關係型數據庫)
  2. 基於圖結構的存儲(圖數據庫) 屬性圖、資源描述框架(RDF)、超圖(Hyper Graph)
  • 知識建模

知識建模是指建立知識圖譜的數據模型,即採用什麼樣的方式來表達知識,構建一個本體模型對知識進行描述。在本體模型中需要構建本體的概念,屬性以及概念之間的關係。一般有自頂向下和自底向上兩種途徑

建模方法

  1. 手工建模方式 步驟:明確領域本體及任務、模型複用、列出本體涉及領域中的元素、明確分類體系、定義屬性及關係、定義約束條件


知識圖譜與認知智能

手工建模方式

2.半自動建模方式 半自動建模方式先通過自動方式獲取知識圖譜,然後進行大量的人工干預過程。運用自然語言處理技術先自動建模的方法可以分為三大類:基於結構化數據的知識建模方法,基於半結構化數據的知識建模方法和基於非結構化數據的知識建模方法


知識圖譜與認知智能

半自動建模方式

  • 知識融合

知識融合是知識組織與信息融合的交叉學科,它面向需求和創新,通過對眾多分散、異構資源上知識的獲取、匹配、集成、挖掘等處理,獲取隱含的或有價值的新知識,同時優化知識的結構和內涵,提供知識服務


知識圖譜與認知智能

知識融合概念分解

  • 知識計算 知識計算是基於已構建的知識圖譜進行能力輸出的過程,是知識圖譜能力輸出的主要方式。主要包括知識統計與圖挖掘、知識推理兩大部分內容,知識統計與圖挖掘重點研究的是知識查詢、指標統計和圖挖掘; 知識推理重點研究的是基於圖譜的邏輯推理算法,主要包括基於符號的推理和基於統計的推理
知識圖譜與認知智能

知識計算概念

  • 知識運維

知識運維是指在知識圖譜初次構建完成之後,根據用戶的使用反饋、不斷出現的同類型知識以及增加的新的知識來源進行全量行業知識圖譜的演化和完善的過程,運維過程中需要保證知識圖譜的質量可控及逐步的豐富衍化。知識圖譜的運維過程是個工程化的體系,覆蓋了知識圖譜的從知識獲取至知識計算等的整個生命週期。知識圖譜的運維包括兩個方面的關注點: 一個是從數據源方面的基於增量數據的知識圖譜的構建過程監控,另一個是通過知識圖譜的應用層發現的知識錯誤和新的業務需求


知識圖譜與認知智能

知識運維


知識圖譜存在的挑戰

1.數據相關的挑戰 數據是知識圖譜的基石,其數據來源主要有兩種:自有數據(自身採集或擁有)和外源數據(網絡爬蟲、開放共享或從數據交易所獲取)。在實際應用中,多源數據的歧義、噪聲大、數據關聯性不明確等缺陷

2.算法相關的挑戰 知識圖譜系統從獲取、建模、融合、計算等各個環節均涉及不同的算法,目前個步驟所用到的算法根據現狀和需求不同存在不同挑戰。主要體現在:算法泛化能力差、算法魯棒性差、算法多樣化,缺乏統一的評測指標、算法可解釋性、基礎知識庫融合挑戰、垂直領域知識庫構建挑戰、基礎知識庫不願開放的挑戰、貫穿知識圖譜全生命週期的平臺缺失、基於文本的知識圖譜構建工具性能弱、隱私安全和倫理相關的挑戰、測試評估及商業模式等方面的挑戰

小結

從感知到認知,是個必然事件,而知識圖譜相當於計算機的大腦,是認知計算的關鍵組成部分。智能認知領域是下一個待突破的方向,前景可期

參考文獻

《知識圖譜標準化白皮書2019》


分享到:


相關文章: