為什麼要將「知識圖譜」追溯到1956年?

為什麼要將「知識圖譜」追溯到1956年?

忘記過去的人註定要重蹈覆轍

—— George Santayana

作者 | Claudio Gutierrez

編譯 | MrBear

以史為鑑,可以知興替。縱觀近期包括 AAAI、NeurIPS、IJCAI 在內的AI頂級會議,對圖結構模型的研究是一個繞不開的話題,大量學者湧入這個賽道,想一試身手。

然而,作為一類古老的理論,人們對圖論的研究實際上貫穿於計算機科學發展的始終。如今我們看來耀眼輝煌的人工智能技術,實際上也是離散數學、統計理論、邏輯推理、數據庫、分佈式計算等基礎理論厚積薄發的產物。

本文為智利大學教授 Claudio Gutierrez 為 ISWC 大會所撰寫的主題文章,從人工智能的起源開始,循序漸進地介紹了知識圖譜誕生的歷史,也探討了該學科未來的研究方向。

本世紀初,研究者們提出了「知識圖譜」這一術語,谷歌從 2012 年起大力推廣「知識圖譜」技術,讓它在學術界和工業界迅速流行了起來。隨之,網上也出現了對知識圖譜大量的定義和討論。

但不管如何,客觀地說,它都是多個研究領域共同的結晶,包括語義 Web、數據庫、知識表徵和推理、自然語言處理、機器學習等。

來自這些不同學科的思想和技術融合在一起,極大豐富了知識圖譜的概念,但同時也給相關從業人員和研究人員提出了挑戰:

他們很難梳理清楚,當前的研究進展如何根植於早期的技術,並從中發展而來。

這個必須回溯歷史,從知識圖譜學科發展的角度去完整梳理,才能抓住其脈絡。

本文的核心目的正是這樣。我們將為讀者展示該領域的知識結構,引導讀者跟進最新的相關思想、理論,以及我們認為具有標誌性意義、並推動了當前學科發展的學術事件。

希望這篇文章能夠,幫助你理解哪些思想有效、哪些無效,以及它如何啟發人們得出下一個想法。

顯然,

知識圖譜所包含的基本要素,可以追溯到古代,你要去研究數學、哲學、語言學、心理學等,但這裡我們不打算搞這麼宏大。

從時間的角度來看,我們將集中討論現代意義上的計算出現之後(上世紀 50 年代),知識圖譜的演變。

此外,我們將每個時代劃分為「數據」、「知識」和「數據+知識」,從而來組織相關的思想、技術和系統。

我們以幾個十年為一個週期,但我們也意識到,週期之間的界限實際上較為模糊[4]。

一、數字時代的來臨(20世紀 50、60年代)

數字計算機的出現和普及、第一代編程語言(LISP、FORTRAN、COBOL、ALGOL 等最具代表性的語言)、一個新的科學和技術領域(即計算機科學)的誕生,標誌著數字時代的開端。

接下來,我們將重點介紹這一時代的五條發展路線:

(1)第一條發展路線是自動推理。

Newell、Shaw 和 Simon 在 1956 年發明的「Logic Theorist」是第一個標誌性的處理複雜信息的程序。在這之後,他們於 1958 年開發的「通用解題程序」,很好地闡釋了研究人員奉為圭臬的研究範式:「該程序是作者的研究工作的一部分,目的是理解人類智能、適應能力和創造能力背後的信息處理機制」。其目標為:「構建可以解決對智能和適應性有所需求的計算機程序,並探索這些程序中有哪些可以與人類處理問題的方式相匹配」。

此後,研究者們繼續在自動推理領域取得了一系列進展,其中較為突出的工作有:Robinson 第一定理(歸結原理)[5]、Green 和 Raphael 通過開發問答系統將數據庫中的定理證明和演繹聯繫起來[6][7]。

在實踐層面上,「推理」特徵的實現是多種多樣的。Joseph Weizenbaum 的 ELIZA 系統就是一個很好的例子,只要程序編寫正確,該程序就可以用英語進進行關於任何話題的對話。

(2)第二條發展路線就是我們今天所說的「在空間中搜索」。

很早,人們就意識到在某種空間中進行搜索是所謂的「智能」或「推理」的努力的重要部分。為這樣的空間建立一種好的表徵可以使搜索更加容易。「排序」就是一個很直觀的例子(70 年代以前,有 25% 的計算時間被用來對數據進行排序,使任何搜索過程都變得可行[8])。

甚至在計算機出現之前,對於從事數據處理的人來說,搜索的概念就廣為人知。但是,對於在多樣且複雜的空間(特別是在國際象棋、跳棋、圍棋等遊戲中產生的搜索空間)中進行搜索和表徵的思想還是很新穎的。迪傑斯特拉(Dijkstra)於 1956 年提出了著名的最短路徑算法,而這一算法在 1968 年被擴展,從而產生了 A* 算法。

(3)第三條發展路線是從非結構化數據源中檢索信息。

一旦具備了一定的計算能力,人們就可以從傳統的結構化數據之外的數據源中獲取數據。其中,具有里程碑意義的工作是:Bertram Raphael 於 1964 年發表的「SIR: A Computer Program for Semantic Information Retrieval」。

該系統展示了可以合理地被稱為「理解」語義信息的能力。它使用單詞關聯和屬性列表來建模對話語句中傳達的關係信息。同時,他們通過格式匹配處理程序從英語句子中提取語義內容。

(4)第四條發展路線是處理數據的語言和系統。

這一方向具有標誌性的工作是:Charles Bachman 於 1963 年提出的集成數據存儲(IDS)系統[9]。IDS 系統在磁盤上維護共享文件的集合,擁有構造和維護這些集合的工具和一種操作數據的應用程序語言。

這種做法保證了工作的效率,但是犧牲了後來被稱為「數據獨立性」的特性。IDS 成為了「CODASYL」標準的基礎,後來還演變成了人們熟知的數據庫管理系統(DBMS)。

此外,人們認為應該有更多的專用語言來處理數據,從而催生了 COBOL(1959)。COBOL 是一種早期的面向數據處理的編程語言,其語法看上去與英語類似。

(5)第五條發展路線是知識的圖表徵。

由 Richard H.Richens 於 1956 年提出的「語義網絡」是知識圖譜領域最重要的概念之一,起初人們將它作為自然語言機器翻譯的一種工具[10]。

然而,只有少數研究人員獨立地進行了進一步的研究,其中較為有影響力的工作有:Ross Quillian 於 1963 年發表的「A notation for representing conceptual information: An application to semantics and mechanical English paraphrasing」,他於 1967 年發表的博士論文「Word concepts: A theory and simulation of some basic semantic capabilities」也對此進行了說明[11]。

在上世紀 50 年年代和 60 年代期間,人們意識到:

  • 自動推理的重要性和可行性

  • 處理大型搜索空間的問題

  • 對理解自然語言和其它人類對於知識的表徵的需要

  • 語義網絡(和更加通用的圖表徵)作為抽象層的潛力

  • 系統和高級語言對於管理數據的相關性

當時技術的侷限性則包括:

  • 硬件的物理、技術和成本限制

  • 圖表徵和線性實現之間的差異

  • 人類語言邏輯和計算機系統處理的數據之間的差異

二、數據和知識的基石(20 世紀 70 年代)

上世紀 70 年代,計算機在工業界得到了更加廣泛的應用。在這十年間,諸如蘋果和微軟等著名的公司紛紛成立。同時,像「Wordstar」和「Visicalc」等數據處理系統也誕生了。此時,存儲和處理能力不斷提升,人類的專業知識漸漸積累,從而推動了大型公司對改進數據管理方法的需求。

1、數據

對數據處理需求的增長帶來了通過「表徵獨立性」(Representational Independence)概念體現的勞動分工。這個時候,程序員和應用程序現在「忘掉」為了訪問數據而對數據進行物理上的組織的方法。

這一想法是 Edgar Codd 的論文「A Relational Model of Data for Large Shared Data Banks」的核心,該論文描述了利用關係作為一種數學模型來提供表徵獨立性(Codd 將其稱之為「數據獨立性」)。這種理念促進了數據庫管理系統和建模工具的發展。

在建模層面上,Peter Chen 在他的論文「The Entity-Relationship Model - Toward a Unified View of Data」中介紹了「關係-實體」(ER)數據模型,提倡基於實體和它們之間的關係對數據建模。這樣的 ER 模型以圖的形式包含了現實世界的語義信息。這是早期嘗試將概念設計與數據模型(在本例中是關係數據模型)聯繫起來的嘗試之一。

在系統層面上,人們基於關係模型,開發並實現了用於管理數據的軟件應用程序,即關係型數據庫數據庫管理系統(RDBMS)。在這十年間,出現了兩個關鍵系統:

(1)IBM 的 System R,詳情請參閱論文「System R: Relational Approach to Database Management」;

(2)加州大學伯克利分校的 INGRES 系統,詳情請參閱論文「The Design and Implementation of INGRES」。

這些系統首次實現了 Codd 所描述的關係模型查詢系統的「願景」,包括關係查詢語言(如最終催生了當今最成功的聲明式查詢語言 SQL 的 SEQUEL 和 QUEL)。

2、知識

雖然「數據」流派重點關注數據結構,並創建系統以最好地管理數據,但「知識」流派則重點關注數據的意義。

S. C. Shapiro 的工作便是這一方向的早期探索,他提出了一種網絡數據結構(一種存儲方式)來組織和檢索語義信息[13]。這些想法在語義網絡和處理系統(SNePS)中得以實現,它可以被認為是第一個獨立的 KRR 系統。

在這十年間,對語義網絡結構的批評甚囂塵上,主要都是針對其較弱的邏輯基礎。在這些批評的聲音中,具有代表性的工作是 Wood 於 1975 年發表的論文「What's in a Link: Foundations for Semantic Networks」。

在這十年間,研究者們通過意義和形式化語義對語義網絡進行了拓展。另一種代表性的人工智能語言是 Marvin Minsky 於 1974 年在論文「A Framework for Representing Knowledge」中提出的 Frames,它是一種為局部和微觀的數據賦予結構和可擴展性的方式,即給出一種「統一且連貫的理論」。其中,我們將一個由節點和關係組成的網絡定義為一個「幀」。

1976 年,John Sowa 在他的論文「Conceptual Graphs for a Data Base Interface」中引入了概念圖,作為一種將自然語言查詢和斷言映射到關係型數據庫中的中間語言。這種形式化的體系體現為概念和關係類型的有序邏輯。

幾乎在同一時間,Patrick Hayes 於 1977 年在其論文「In Defense of Logic」中認識到,可以使用一階邏輯對 Frame 網絡進行形式化處理。

這份工作後來影響了 Brachman 和 Levesque,啟發他們確定了一個易處理的一階邏輯的子集,而這後來成為了描述邏輯領域的第一個研究進展。(詳見 1980 年代)

3、數據+知識

在這十年間,我們開始經歷數據和知識的融合。Robert Kowalski 在論文「Predicate Logic as Programming Language」中提出將邏輯同時作為聲明式的和過程式的知識表徵,這一領域目前被稱為「邏輯編程」。Alain Colmerauer 在 PROLOG 語言中實現了這些思想。

在構建一個基於知識的系統時,一個重要的問題是「從哪裡獲取知識」,該領域被稱為「知識獲取」。專家系統是對特定領域人類專家的知識(特別是規則)進行編碼的程序,它解決了知識獲取的問題。

上世紀 60 年代後期,Edward Shortliffe 開始開發第一個專家系統,該系統在 70 年代逐漸流行了起來。MYCIN 是專家系統的一個經典範例,它是一個識別引起嚴重感染的細菌的專家系統[14]。

於 1977 年在法國的圖盧茲舉行的邏輯和數據庫研討會是這十年中的一個里程碑事件,它由 Herve Gallaire,Jack Minker,和 Jean-Marie Nicolas 組織。

在這次研討會上,出現了諸如 Ray Reiter 提出的「封閉世界假設」和 Keith Clark 提出的「失敗即否定」原則等重要的概念,這次會議可以被認為標誌著數據邏輯方法的誕生,對該領域產生了深遠的影響。人們普遍認為,這次研討會形式化定義了邏輯和數據庫之間的聯繫,並將其作為一個單獨的字段。

在這十年間,人們意識到:

  • 需要保證表徵獨立性,關係模型就是第一個例子,而這種方法也可以在實際的系統中被實現。

  • 需要通過形式化邏輯的工具,形式化定義語義網絡。

  • 可以通過網絡的方法將邏輯和數據融合起來。

當時技術的侷限性包括:

  • 在數據方面,需要有更靈活的數據結構來表徵新型的數據,從而產生了面向對象的思想和圖數據結構。

  • 在知識方面,需要進一步理解邏輯中知識的形式化,從而產生了描述邏輯。

三、管理數據和知識(20 世紀 80 年代)

20 世紀 80 年代,隨著個人電腦的蓬勃發展,計算任務逐漸從工業界發展到家庭。在數據管理領域,關係型數據庫工業發展迅速(Oracle、Sybase、IBM 等公司紛紛入場)。面向對象的抽象作為一種新的表徵獨立性的形式而發展起來。與此同時,互聯網開始改變人們交流和交換信息的方式。

1、數據

不斷增長的計算能力推動了新計算領域和相關產品的發展。這些反過來又生成了需要管理的複雜數據。此外,假定表徵獨立性需要的關係演變導致了軟件程序與數據的分離,促使人們想方設法將編程語言(特別是像 Smalltalk 這樣的面嚮對象語言)與數據庫

結合起來。這導致了面向對象的數據庫(OODB)的發展。

該領域研究如何通過引入將成為未來數據中心的功能(如對象、標識符、關係、繼承對象相等[15]),處理複雜的數據。許多來自學術界和工業界的系統在這個時期得到了蓬勃發展,例如 Encore-Observer(布朗大學)、EXODUS(威斯康星大學麥迪遜分校)、IRIS(惠普)、ODE (貝爾實驗室)、ORION(MCC)和 Zeitgeist(德州儀器),這些系統衍生了一系列商業產品。

在這一時期,人們開始將圖作為面向對象數據、圖形化和可視化界面、超文本系統等的表徵方式,對其進行研究。

一個早期的例子是 Harel 於 1988 年提出的圖形化編程語言「HiGraph」[16]。Alberto Mendelzon 和他的學生針對該領域的而研究工作產出了有影響力的成果。他們使用圖上的遞歸式來開發查詢語言,這是現代圖查詢語言的基礎[17]。

然而,目前仍然沒有一種成熟的技術能夠讓這些圖系統真正實用[18]。研究人員提出了一些方法試圖解決這些難題,例如在超圖上引入操作來彌補「對象-關係」之間的差距等[19]。由於一些值得進一步研究的原因,OODB 和圖數據庫系統未能戰勝 RDBMS 的激烈競爭。

2、知識

20世紀80年代最重要的成就是形式化定義了語言表達能力和計算複雜度或推理任務之間的根本上的平衡。這在 Brachman 和 Levesque 的論文「The Tractability of Subsumption in Frame-Based Description Languages」中得到了首次展示。

要想提升語言的表達能力,就必須在計算效率上付出代價。這導致研究人員開展一系列工作尋找表達性連續體(Expressivity Continuum)的平衡點,從而產生了一套名為「描述邏輯」的新邏輯理論。最突出的系統有「KL-ONE」、「LOOM」、「CLASSIC」等。除了描述邏輯,另一個形式化體系在此期間也得到了發展: 「F-邏輯」,它深受對象(Object)和幀(Frame)的影響。

儘管這些早期的邏輯系統在當時並沒有得到大規模的工業應用,但它們表明邏輯推理可以在易於處理的軟件中實現。最終,它們將成為當今應用最廣泛的本體建模語言 OWL 和語義網絡的基礎(詳見 2000 年代)。

在這裡,值得一提的是,非單調推理技術在這十年間也得以發展。例如,許多形式化體系(包括限定推理、缺省邏輯、自認知邏輯、以及條件邏輯)被引入到非單調推理中[20]。

3、數據+知識

在這十年間,人們對融合數據和知識的興趣日益濃厚。在這個發展過程中,一個重要的事件是:日本的第五代計算機計劃對人工智能的大力宣傳。鑑於日本在汽車和電子工業上的成功,他們也希望在軟件領域取得成功。

他們的目標是創造人工智能硬件和軟件,將邏輯和數據結合起來,並能像人類一樣進行對話、翻譯語言、解釋圖片並進行推理。其採用邏輯編程作為邏輯和數據結合的基礎[21]。

日本的這一計劃引發了世界範圍內人工智能活動的浪潮,催生了諸如美國的微電子學和計算機技術聯盟(MCC)[22]、慕尼黑的歐洲計算機研究中心(ECRC)和英國的 Alvey 計劃等競爭項目。在整個80年代和90年代,MCC 都是硬件和軟件領域重要的研究中心。例如,MCC 開展的 Cyc 計劃旨在創建世界上最大的常識知識庫,用於執行類人推理的應用程序[23]。

作為一種在計算機中編纂知識的實用手段,專家系統在此期間迅速發展,成為了人工智能風口浪尖上的話題。諸如「OPS5」和「Rate algorithm」等產生式規則系統在此期間也取得了進展,從而高效地實現基於規則的系統。

為了將專家系統提升到更高的水平上,人們認為專家系統應該被部署到並行處理的計算機集群上。因此,我們看到了像「DADO 並行計算機」、「大規模並行機」(Connection Machine)、「PARKA 計劃」這樣的系統紛紛出現。專家系統開始展現出其商業價值(請參考 Xcon、ACE 的例子)。

風險投資人逐漸開始為諸如「IntelliCorp」[25]、「ILOG」、「Neuron Data」、「Haley 系統」等人工智能公司注資。

從學術的角度來說,將邏輯與數據相結合的初步方法是:在關係型數據庫的基礎上進行邏輯編程。在邏輯編程中,人們指定程序的功能(「是什麼」)而不指定算法(「怎麼做」),因此優化起著關鍵作用。

在這段時間裡,我們認識到優化問題比關係查詢優化問題要困難得多。這催生了演繹數據庫系統,它們用遞歸規則和優化自然地擴展了關係型數據庫。

「Datalog」是 Prolog 的一個子集,它可以被看作是通過將關係型數據庫語言形式化,為邏輯編程創造簡潔的語義。Datalog 成為了演繹數據庫的查詢語言(詳情請參閱 Ceri 等人的論文「What you always wanted to know about Datalog (and never dared to ask)」)

Bancelhon 等人在他們的論文「Magic sets and other strange ways to implement logic programs」中提出的「魔法集」(Magic Set)是對 Datalog 的一項重要優化,它重寫了邏輯規則,以減少產生的無關事實。

LDL 系統是最早的演繹數據庫系統之一,在 Tsur 和 Zaniolo 的論文「LDL: A Logic-Based Data-Language」中介紹了這一系統。其中許多思想直接體現在當時被稱為主動數據庫的關係型數據庫中[26]。

1990 年代初,事實證明專家系統成本高昂,難以更新和維護。演繹推理也很難解釋,並十分脆弱,且侷限於特定領域。

因此,IT 世界改變了發展策略,將這種經驗從 IBM、SAP、Oracle 等供應商那裡轉移到主流 IT 工具中。在日本第五代計算機項目啟動十年之後,它最初令人印象深刻的一系列目標還沒有實現。資金逐漸枯竭了(除了 Cyc 之外),這些因素導致了人工智能走向「冬天」。

在這十年間,人們意識到:

  • 邏輯和數據的結合需要緊密耦合(而不僅僅是數據庫基礎上的層 prolog/專家系統)。

  • 需要平衡邏輯語言的表達能力與推理任務的計算複雜度。

當時技術的侷限性包括:

  • 否定邏輯很難處理。那時人們還沒有很好地理解它。

  • 大規模推理很困難,硬件還不能滿足該任務的需求。

  • 知識獲取的瓶頸客觀存在。

四、數據、知識和網絡(20 世紀 90 年代)

20世紀90年代,兩種改變世界的現象級技術誕生了。

首先,萬維網橫空出世。這種全球信息基礎設施徹底改變了傳統的數據、信息和知識實踐。在通用信息空間的概念下,任何人都可以發佈信息和閱讀(從文本和圖像等形式開始),它以分佈式的方式完全改變了知識和數據管理的哲學和實踐。

其次,我們社會幾乎所有的方面都被數字化(從紙張到電子,從電子模擬信號到電子數字信號)。這些現象為我們今天所知的大數據鋪平了道路[27]。科學研究和工業生產都轉向了這些新的發展領域。

1、數據

那時,數據庫行業正忙於開發 RDBMS,並對其進行調優,以滿足通過 Web 漸漸普及的電子商務所提出的需求。這導致我們產生了大量需要綜合並分析的數據,在這一勢頭之上開展的研究重點關注網絡數據、數據集成和數據倉庫/OLAP 等領域。

慢慢地,數據研究社區也轉而研究網絡數據。許多工作提升了人們對網絡上數據和計算的理解,例如 Mendelzon 和 Milo 的論文「Formal Models of the Web」[18] 以及 Abiteboul 和 Vianu 的論文「Queries and Computation on the Web」。

此外,網絡激發了分發數據和自我描述數據的需求。在實現這些目標的過程中,一個關鍵的研究成果是:用於半結構化數據的數據模型和查詢語言,如 XML、 OEM、 RDF 和 XQUERY 等。

在此期間,研究和工業機構需要集成多個分佈式、異構的數據源,以便進行業務決策。聯邦數據庫在 80 年代就開始著手解決這個問題(詳見 Sheth 和 Larson 的綜述「Federated Database Systems for Managing D

istributed, Heterogeneous, and Autonomous Databases」)。

然而,這是一個數據集成達到巔峰的時代,許多產學結合的項目誕生了,包括 TSIMMIS 和斯坦福/ IBM 的 Lore,南加州大學的 SIMS,MCC 的 InfoSleuth 等。這些系統引入了介質(Mediators)[29]和包裝器的概念,諸如 SIMS 和 InfoSleuth 之類的系統也將本體引入到了數據集成組合中[30]。

此時,我們也漸漸看到需要使用正在生成和集成的數據來驅動業務決策報告的生成。這就衍生出了數據倉庫,它可以支持對多維數據立方體的分析,即聯機分析處理(OLAP)。與此同時,大部分的研究著眼於提出啟發式算法來實現數據立方體的查詢優化[31]。

2、知識

從知識的角度來說,研究者們意識到,實現專家系統主要的瓶頸是從領域專家那裡獲取知識。這催生了一個被稱為「知識管理和獲取」的研究領域,後來它發展為人們熟知的「知識工程」,最終演變為「本體工程」(ontology engineering)。

由 Brain Gaines 組織的,在 Banff 舉辦的「知識獲取研討會」,就是在此期間發生的一系列開創性事件的代表。在這裡,研究者們的目標仍然是:將關於世界的信息編碼為計算機可以理解的形式。然而,終端產品的性質已經在不斷改變和發展——包括概念數據模型、產生式規則、語義網絡和邏輯。

網絡使人們意識到知識應該被反覆共享和重複使用。Gruber 在他的論文「A translation approach to portable ontology specifications」中將術語「本體」在計算上的意義定義為「概念化的明確說明」。知識獲取的主要焦點是設計和維護本體的方法。

Uschold 和 Gruninger 在他們的論文「Ontologies: principles, methods and applications」中開創了本體工程的研究領域。

此後,一些衍生的方法論陸續出現,如馬德里大學人工智能實驗室開發的「Methontology」,知識獲取和文檔結構化(KADS)方法論,CommonKADS,以及一些專用的方法(例如,OntoClean)。與此同時,我們也開始看到第一批本體工程工具(例如 Ontolingua、WebODE、Protege 等)陸續出現。

3、數據+知識

在此期間,演繹數據庫體現了傳統數據庫上數據和知識的融合達到了巔峰。

1990 年- 1999 年舉辦的「演繹數據庫研討會」和1994 年到 2003 年舉辦的「表徵與數據庫研討會」等學術活動是該領域研究活動的中心,這些研究進展催生了 Datalog 的一些改進版本(例如 Datalog +/-)。

這些研究的主要挑戰是如何在大規模網絡數據上進行形式化推理。事實上,將網絡視為一個通用的信息空間,引起了開發語言來描述、查詢和推理海量數據、信息和知識的需求。在這十年間,最雄心勃勃的計劃就是將網絡上的知識和數據結合起來,這一想法並最終命名為「語義網絡」。

諸如簡單 HTML 本體擴展(SHOE)、語義 Web 中間件「Ontobroker」[32]、本體推理層(OIL)和 DARPA 智能體標記語言(DAML)、知識查詢與操作語言(KQML)和歐盟資助的專題網絡「OntoWeb」[33](用於知識管理和電子商務的基於本體的信息交換)等等的研究進展對語義網絡項目產生了強烈的影響,併為其定下了框架,最終融合在了網絡本體語言 OWL 的定義中。其目標是匯聚網絡上的諸如知識表徵、本體、邏輯、數據庫、信息檢索等技術。這些發展催生了一個圍繞網絡及其可能性的研究和實踐的新領域。

在這十年間,人們意識到:

  • 網絡迅速地改變了數據、信息和知識的世界。

  • 新型的額數據正在傳播開來(特別是通過各種媒體:圖像、視頻、聲音)。

  • 數據需要被(而且現在已經可以被)連接起來,從而獲取價值。

當時技術的侷限性包括:

  • 為了處理網絡產生的新的數量級的數據,需要更大的算力。

  • 單純的邏輯技術在複雜度上有限制,這會使可擴展性難以實現。

五、大規模的數據和知識(21 世紀)

在21世紀初,我們見證了電子商務、在線社交網絡(例如,Facebook、Twitter)的爆炸式增長,並且認識到可用數據是海量的(即大數據)。這導致人們開發了新的系統和方法,以比以前更大的規模管理和分析數據。在 21世紀第一個十年末,統計方法(通過引入深度學習)開始在各種各樣的應用取得了超越邏輯方法的性能表現。

1、數據

谷歌和亞馬遜等互聯網公司開始構建數據管理的壁壘,並驅使開發人員跳出典型的企業數據環境的思維。在他們的論文「MapReduce: Simplified Data Processing on Large Clusters」[34]中,谷歌引入了一種使用 MapReduce 處理大量數據的基礎設施 [34]。

隨著 CouchDB 等系統的出現,非關係型、分佈式數據存儲得到了蓬勃發展,隨後谷歌發表了論文「Bigtable: A Distributed Storage System for Structured Data」。

亞馬遜也緊隨其後,發表了論文「Dynamo: Amazon’s Highly Available Key-value Store」,這就催生了 NoSQL 數據庫,它再一次普及了針對列、文檔、鍵值和圖數據模型的數據庫管理系統。

數據管理研究社區進一步關注數據集成(模式匹配、實體鏈接等)和 XML 處理問題。數據庫理論研究人員從基礎的角度(正如 Lenzerini 在「Data Integration: A Theoretical Perspective」中所展示的那樣)開始研究數據集成,並催生了針對數據交換的研究工作。

2、知識

此時,描述邏輯的研究社區為了進行知識表徵,繼續定義新的邏輯描述方法,研究二者之間的平衡,並且在「FACT」、「Hermit」、「Pellet」等系統中實現算法。目前研究社區正在尋找這些研究成果落地應用的機會。一個可能產生影響的機會就是:成為網絡革命(特別是語義網絡)的一部分。

世界上充斥著大量的數據,這些數據為人工智能的統計方法(特別是機器學習和後來的深度學習)提供了輸入。有人可能會說,產生知識的邏輯方法正在退居幕後。

在知識領域,統計技術被認為是從已知的事實中推導出新的事實,它使實際應用中的邏輯方法不像以往那樣受人關注。自從論文「Imagenet classification with deep convolutional neural networks」於 2012 年被髮表以來,知識表徵和推理研究領域的重點發生了改變。隨著算力的提升,當初六十年代嘗試直接通過神經網絡建立知識模型的做法現在又有效了。

如今,這些技術和系統在許多人類才能完成的任務(例如分類,以及有大量訓練數據的應用程序)中超過了人類。通常,這篇圖像檢測論文被認為是引發這場革命的標誌性論文。當然,大多數傳統的關於知識的研究還是在試圖找到一個與統計和機器學習相結合的方法。

3、數據+知識

在這一時期,連接數據和知識的工作有兩條發展軌跡:語義網絡和關聯數據。

結合數據和知識的主要工作是在語義網絡項目中體現出來的。這建立在本文之前介紹的許多研究成果智商,特別是自描述圖數據模型(RDF)、描述邏輯和知識工程。

Tim Berners-Lee、Jim Hendler 和 Ora Lassila 在「科學美國人」雜誌上發表的論文「語義網絡」最初引起了業界和學術界的興趣。

藉助於萬維網聯盟(W3C)的標準化工作,支撐語義網絡的技術(例如,數據模型、模式、本體語言和查詢語言等),便正在由學術界和工業界同時開發。

語義網絡標準(RDF、OWL、SPARQL)恰好處於「走在時代前沿」的平衡點,既沒有太晚(世界已經由於信息爆炸而碎片化) ,也沒有太早(沒有人願意採用它)。然而也許人們對學術界的偏見過於嚴重[35],或者存在一些更為根本的問題——即「外部」因素(如對分佈式和民主的數據管理方式不感興趣的大公司的壟斷和中心化)。總而言之,事實就是,在這十年中,語義網絡的大部分活動並沒有像預期的那樣受到業界的歡迎。

早期的語義網絡項目著眼於知識表徵和推理,特別是自上世紀 90 年代起對本體的研究工作。描述邏輯的研究社區產生的研究成果實現了本體語言的標準化。2004 年確立了第一版網絡本體語言(OWL)的標準,它是歐洲的 OIL 項目和美國的 DAML 項目

結合的產物。

在這十年的中期,「關聯數據」這一術語作為一套聯通互聯網上數據的最佳實踐凸顯了出來,旨在增強網絡上的知識。這催生了關聯開放數據(LOD)項目和大型的基於 RDF 的知識庫(例如,DBPedia、Freebase),並最終催生了 Wikidata。其中,LOD 項目展示瞭如何在大規模網絡上集成數據。

這些概念都在2007年的國際語義網絡會議(ISWC 2017)上被引入。在 2000 年代後期,主要的搜索引擎發佈了「schema. org」作為一種提升網站語義標註的方法,這個網站是建立在語義網絡研究社區的成果之上的。

另一方面,這十年見證了統計技術的繁榮。在這個層面上,我們可以看到數據處理和知識處理之間極度不平衡。由於知識處理(從數據中提取知識)的驚人進步,傳統的數據管理技術顯示出其侷限性。這可能是在大數據世界中尋找存儲、管理和整合數據和知識的新形式的驅動因素之一。這與知識圖譜概念的提出有很大關係。

在這十年間,人們實現了:

  • 我們學著從更宏大的視角(大規模網絡)思考數據和知識的問題。

  • 由於新型硬件和智能的學習技術的誕生,我們進入了神經網絡的時代。

當時技術的侷限性包括:

  • 並不知道如何將邏輯和統計的觀點結合起來。

  • (特別是神經網絡中的)統計方法並不能提供有關「推理」或「演繹」的信息,這在對可解釋性有所要求的領域提出了挑戰。

六、我們現在處於怎樣的歷史方位?

縱觀這段歷史,我們可以觀察到兩條重要的發展脈絡:

  • 大規模表徵和管理數據。

  • 整合最多樣化、與眾不同且幾乎無限量的數據和知識源(結構化的數據文本、規則、圖像、語音、視頻等)。

此外,所有這些都必須對於「普通」用戶是可以獲取和訪問的。

2012 年,谷歌發佈了一款名為「知識圖譜」的產品,它基於將數據表徵為與知識相連的圖。知識圖譜的概念指出了這一需求。事實上,我們可以認為它是一個不斷髮展的項目、設想中的遠景,而不僅僅是一個精確的概念或系統。可以說,這樣的產品是語義網絡計劃的具體實現。

知識圖譜的誕生使得了其它類型的「圖」服務如雨後春筍般湧現了出來。例如,2013年 Facebook 發佈了他們的圖搜索服務,該服務也包含了類似的想法,基本上呈現了一個虛擬圖,它整合了針對主題和實體的已經編譯的數據。此外,我們還看到了來自微軟、Facebook、亞馬遜、Ebay 等巨頭的「知識圖譜」類服務[36]。

後來,無以計數的公司和組織開始使用知識圖譜關鍵詞來指代由實體和關係構成的圖的數據集成方式 [37]。學術界開始使用這個關鍵詞來指定一類條件較為寬泛的系統,這些系統將數據與一些圖結構

結合在一起,是語義網絡和關聯數據的「涅槃重生」。

與此同時,各種公司和學術機構正在開發圖數據庫技術。例如,幾乎所有公司基於 RDF 和 SPARQL 建立的數據庫,如 Virtuoso、Allegrograph、Ontotext、Stardog、Amazon Neptune 等;Neo4j 及其使用的語言 Cypher;Oracle 及其使用的語言 PGQL;以及像 G-CORE 這樣的研究查詢語言。

今天,我們有幸見證統計方法和邏輯方法的融合,前者在公眾眼中勢不可擋,在某種程度上讓後者顯得黯淡無光:這就是為什麼我們認為有必要喚起人們對這段歷史的關注

隨著機器和深度學習如「海嘯」般襲來,重新喚起人們對數據和知識的意義的認識至關重要。儘管過去的這些思想和發展在當時並不成功,不廣為人知,甚至根本不為人所知,但它們蘊含著豐富的思考,可以對未來的研究有所啟發,照亮我們前進的道路!

參考文獻

[1] Nevertheless, there exist works on related topics and focused periods, e.g.: F. Gandon (2018) A Survey of the First 20 Years of Research on Semantic Web and Linked Data and L. Poirier (2017) A Turn for the Scruffy: An Ethnographic Study of Semantic Web Architecture (we thank Frank van Harmelen for these references).

[2] Stuart Russel, Peter Norvig. Artificial Intelligence, A Modern Approach. 1995. Chp. 1.2, 1.3.

[3] An example of ancient times data processing are the Quipus, the knot-based devices Inca civilization used to collect and keep track of records of data.

[4] The writer J. L. Borges once pointed out the arbitrariness of what he called the “obsession with the base 10”.

[5] Robinson, J. Alan (1965). "A Machine-Oriented Logic Based on the Resolution Principle". Journal of the ACM. 12 (1): 23–41

[6] Green, C. C., and Raphael, B., The Use of Theorem-Proving Techniques in Question-Answering Systems, in: Proceedings of the 23rd ACM National Conference, Washington, DC, 1968.

[7] Raghu Ramakrishnan, Jeffrey D. Ullman, A survey of deductive database systems,

The Journal of Logic Programming, Volume 23, Issue 2, 1995, Pages 125-149. Historical Overview in Section 5.

[8] Ceruzzi, History of Modern Computing, MIT Press, 1998. p. 89

[9] Charles W. Bachman. The Origin of the Integrated Data Store (IDS): The First Direct-Access DBMS. IEEE Annals of the History of Computers, 2009, vol. 31, pp. 42-54.

[10] Richens, "Preprogramming for mechanical translation," Mechanical Translation 3 (1), July 1956, 20–25.. See Page 23

[11] Ross Quillian, PhD dissertation, Carnegie Inst. of Technology, now CMU, 1967.

[12] INGRES (INteractive Graphics REtrieval SystemPostgres) led to POSTGRES (POST inGRES) and later evolved into PostgreSQL.

[13] Shapiro, Stuart C. (1971), "A Net Structure for Semantic Information Storage, Deduction, and Retrieval", Proceedings of the 2nd International Joint Conference on Artificial Intelligence (Los Altos, CA: Morgan Kaufmann): 512–523.

[14] Shortliffe, E. Computer-Based Medical Consultations: MYCIN

[15] S. Heller, U. Daval, J. Orenstein, S. Radke-Sproull. An object-oriented approach to data management: why design databases need it. Proceeding DAC '87 Proceedings of the 24th ACM/IEEE Design Automation Conference Pages 335-340

[16] Harel, D. (1988), On Visual Formalisms, Communications of the ACM, Volume 31, Number 5

[17] (1) Cruz, I. F., Mendelzon A. O., and Wood, P. T. A graphical query language supporting recursion. In Proc. ACM SIGMOD, pages 323–330, 1987. (2) Mariano P. Consens, Alberto O. Mendelzon. GraphLog: a visual formal

ism for real life recursion. PODS '90, pp. 404-416. (3) See Peter Wood’s PhD Thesis

[18] R. Angles, C. Gutierrez. Survey of Graph Databases Models.

[19] Harold Boley, Operations on Nets. Computers & Mathematics with Applications Volume 23, Issues 6–9. 1992

[20] R. Brachman. The Future of Knowledge Representation. AAAI-90.

[21] Given the popularity of LISP in the United States, the Japanese decided to adopt the European’s Prolog, given that they competed against the Americans. The relationship between US and Japan in the 80s was very tense.

[22] Computer Consortium Lags. NY Times. 1984 and Plugged In: 30 years ago, MCC consortium helped ‘put Austin on the technology map’ Statesman. 2013

[23] Douglas B. Lenat: CYC: A Large-Scale Investment in Knowledge Infrastructure. Commun. ACM 38(11): 32-38 (1995) , Douglas B. Lenat and R. V. Guha.

Building Large Knowledge-Based Systems; Representation and Inference in the Cyc Project (1st ed.). Addison-Wesley 1990

[24] This algorithm was developed by Charles Forgy in his PhD during the late 70s, and it is still the defacto algorithm for rule based systems today.

[25] Edward Feigenbaum was a founder, which commercialized the expert system Knowledge Engineering Environment (KEE) which was influenced by MYCIN

[26] Jennifer Widom claims that Deductive is at a higher level of abstraction while Active is at a lower.

[27] Unthinkable without a universal platform to access data.

[28] See all the work by Alberto Mendelzon on th

is topic

[29] G. Wiederhold. Mediators in the architecture of future information systems

[30] The term “Ontology-based data access” (OBDA) is a reincarnation of much of the data integration work from the 90s but with semantic web and graph clothes and with further understanding of the Description Logic which was not well understood in the 90s.

[31] Surajit Chaudhuri and Umeshwar Dayal. 1997. An overview of data warehousing and OLAP technology. SIGMOD Rec. 26, 1 (March 1997) and “Implementing Data Cubes Efficiently”

[32] Decker S., Erdmann M., Fensel D., Studer R. (1999) Ontobroker: Ontology Based Access to Distributed and Semi-Structured Information. In: Meersman R., Tari Z., Stevens S. (eds) Database Semantics

[33] https://www.ercim.eu/publication/Ercim_News/enw51/EN51.pdf

[34] Mapreduce has received criticism from the database community due to its lack of novelty. Additionally, the map and reduce functions on cluster of machines can be traced back to parallel expert systems such as DADO and Connection Machine covered in the previous chapter.

[35] Researchers studied the semantic web from a foundational point of view. Notably, Alberto Mendelezon, who had already been working on graphs during the previous 20 years, made a point to study the semantic web in “Foundations of Semantic Web Databases”. We see other work such as “Semantics and Complexity of SPARQL”, “The Expressive Power of SPARQL”, among others.

[36] Noy et al. Industry-Scale Knowledge Graphs: Lessons and Challenges. Communications of the ACM, August 2019, Vol. 62 No. 8, Pages 36-43

[37]https://www.slideshare.net/Frank.van.Harmelen/adoption-of-knowledge-graphs-late-2019

via http://knowledgegraph.today/paper.html


分享到:


相關文章: