知识工程技术:知识图谱历程及未来

知识工程技术:知识图谱历程及未来

作为新一代的知识工程技术,知识图谱在当下越来越火,那到底知识工程将如何影响未来人工智能领域的发展,甚至让计算机拥有像人类一样的认知能力呢?

过去几年,以深度学习为代表的连接主义取得了丰硕的成果,如今提到人工智能,都默认是基于深度学习和机器学习方法,而其它研究方向似乎被众人遗忘。随着大数据红利消耗殆尽,深度学习模型效果的天花板日益迫近,人们四处寻找新的突破口,“得知识者得天下”的声势渐长。

以知识图谱为代表的符号主义被打上追光,这个蕴含大量先验知识的宝库尚未被有效挖掘。

知识工程是符号主义人工智能的典型代表,近年来越来越火的知识图谱,就是新一代的知识工程技术。知识工程将如何影响未来人工智能领域的发展,甚至让计算机拥有像人类一样的认知能力?本文将从历史出发,系统梳理知识工程近 40 年的发展历程,结合互联网大数据时代的技术和社会背景,展望知识工程和知识图谱的未来前景。

智能化的突破口:知识工程

一般认为,人工智能分为计算智能、感知智能和认知智能三个层次。简要来讲,计算智能即快速计算、记忆和储存能力;感知智能,即视觉、听觉、触觉等感知能力,当下十分热门的语音识别、语音合成、图像识别即是感知智能;认知智能则为理解、解释的能力。

知识工程技术:知识图谱历程及未来

落眼当下,以快速计算、存储为目标的计算智能已经基本实现。近几年,在深度学习推动下,以视觉、听觉等识别技术为目标的感知智能也取得不错的胜利果实。然而,相比于前两者,认知能力的实现难度较大。举个例子,小猫可以“识别”主人,它所用到的感知能力,一般动物都具备,而认知智能则是人独有的能力。人工智能的研究目标之一,就是希望机器将具备认知智能,能够像人一样“思考”。

这种像人一样的思考能力具体体现在:机器对数据和语言的理解、推理、解释、归纳、演绎的能力,体现在一切人类所独有的认知能力上。学界业界都希望通过计算机模拟,让机器获得和人类相似的智慧,解决智能时代下的精准分析、智慧搜索、自然人机交互、深层关系推理等实际问题。

知道了认知智能是机器智能化的关键,进一步我们要思考,如何实现认知智能——如何让机器拥有理解和解释的认知能力。

过去几年,由于大数据红利的消失,深度学习面临巨大的瓶颈,需要寻找新的突破口。以深度学习为代表的统计学习方法,严重依赖样本,只能习得数据中的信息。部分研究者已经关注到,另一个非常重要的突破方向在于——知识,特别是符号化的知识。

肖仰华教授认为,知识图谱和以知识图谱为代表的知识工程系列技术是认知智能的核心。知识工程主要包括:知识获取、知识表示和知识应用。我们可以尝试突破的方向在于知识的利用,在于对符号知识和数值模型结合的应用。而这些努力,最终结果就是使机器具备理解和解释的能力。

知识工程技术:知识图谱历程及未来

为何传统知识工程困难重重?

在上世纪七八十年代,传统的知识工程的确解决了很多的问题,但是这些问题都有一个很鲜明的特点,它们大部分都是在规则明确、边界清晰、应用封闭的场景取得的成功。一旦涉及到开放的问题就基本不太可能实现,比如数学定理的证明,或是下棋。

传统知识工程为什么会有这么苛刻的条件呢?因为传统知识工程是一种典型的自上而下的做法,是一种严重依赖专家干预的做法。知识工程的基本目标,就是把专家的知识赋予机器,希望机器能够利用专家知识来解决问题。传统的知识工程里,首先需要有领域专家,专家能够把自己的知识表达出来;进一步,还需要有知识工程师把专家表达这个知识变成计算机能够处理的形式。

知识工程技术:知识图谱历程及未来

如此依赖专家去表达知识、获取知识、运用知识,就会存在很多问题,一方面,这个机器背后的知识库规模很有限,另外一方面,它的质量也会存在很多的疑问,这就是为什么我们说传统的知识工程困难重重。

除了上面介绍的一些问题,传统的知识工程面临着的两个主要困难:

第一:知识获取困难

隐性知识、过程知识等难以表达。比如如何表达老中医看病用了哪些知识;不同专家可能存在主观性,例如,我国有明确治疗规范的疾病占比非常小,大部分依赖医生的主观性。

第二:知识应用困难

很多的应用,尤其是很多开放性的应用很容易超出预先设定的知识边界;还有很多应用需要常识的支撑,而整个人工智能最怕的恰恰就是常识。为什么?因为常识它难以定义、难以表达、难以表征;知识更新困难,太依赖领域专家,还有很多异常或难以处理的情况。

互联网应用催生大数据时代知识工程

由于上节所述种种原因,知识工程到了上世纪八十年代之后就销声匿迹了。

虽然知识工程解决问题的思路极具前瞻性,但传统知识表示的规模有限,难以适应互联网时代大规模开放应用的需求。为了应对这些问题,学界和业界的知识工程研究者们试图寻找新的解决方案。

首先取得重大突破的,是谷歌。谷歌搜索是谷歌公司的核心产品服务,这类互联网的应用,主要有以下特点:

大规模开放性应用,永远不知道用户下一次搜索关键词是什么;

精度要求不高;大部分搜索理解与回答只需要实现简单的推理,复杂推理为极少数。

在这样的诉求下,谷歌推出了自己的知识图谱,使用与语义检索,从多种来收集信息,以提高搜索质量。而知识图谱的推出,基本上宣告了知识工程进入了一个新的时代,我们称之为大数据时代的知识工程阶段。谷歌利用一个全新名称表达与传统知识表示其毅然决裂的态度。

知识工程技术:知识图谱历程及未来

知识图谱引领知识工程复兴

大数据时代下知识图谱的出现,有其必然性,大数据时代给知识图谱技术的发展奠定了丰富的土壤。或许你会问,知识图谱和传统的语义网络有什么本质不同么?大数据时代能给我们带来什么特别的有利条件?前沿进展的回答是——

大数据技术使得大规模获取知识成为可能,而知识图谱即为一种大规模语义网络。这样的一个知识规模上的量变带来了知识效用的质变。

我们有海量的数据、强大计算能力、群智计算以及层出不穷的模型。在这些的外力的支持下,解决了传统知识工程的一个瓶颈性问题——知识获取。我们可以利用算法实现数据驱动的大规模自动化知识获取。

和传统知识获取不同,以前是通过专家自上而下的获取知识,而现在是利用数据自下而上,从数据里面去挖掘知识、抽取知识。另外,众包与群智成为大规模知识获取的一条新路径。高质量的UGC内容,为自动挖掘知识提供了高质量数据源。

总的来说,知识工程在知识图谱技术引领下进入了全新阶段,叫做大数据时代知识工程阶段。肖仰华教授提出了一个简单的公式表明传统知识工程与以知识图谱为代表的新一代知识工程的联系与区别:

Small knowledge + Big data=Big knowledge

大数据知识这个词是BigKE,它将会显著提升机器认知智能水平,那么,大数据知识工程对我们人工智能最根本的意义是什么?是提升机器的认知智能水平。我们正在经历感知智能到认知智能的过渡阶段,未来最重要到技术即是实现认知智能。

大数据时代下,知识图谱又有什么独特的魅力?为什么会受到如此广泛的关注呢?

知识图谱使机器语言认知成为可能。机器想要认知语言、理解语言,需要背景知识的支持。而知识图谱富含大量的实体及概念间的关系,可以作为背景知识来支撑机器理解自然语言。

知识图谱使可解释人工智能成为可能。在人工智能发展的任何阶段,我们都需要事物的可解释性,现在的深度学习也常因为缺少可解释性受人诟病。而知识图谱中包含的概念、属性、关系是天然可拿来做解释的。

知识工程技术:知识图谱历程及未来

知识将显著增强机器学习能力。传统的机器学习都是通过大量的样本习得知识,在大数据红利渐渐消失的情况下,逐渐遇到发展瓶颈。而通过知识图谱等先验的知识去赋能机器学习,来降低机器学习对于样本的依赖,增强机器学习的能力,或许是连接主义和符号主义在新时代下的共生发展。

除了上述的种种优势,知识图谱在一系列实际应用上也非常有用,比如搜索、精准推荐、风险识别、深化行业数据的理解与洞察等,将在各种各样的应用场景发挥作用。

信息技术革命持续进行,数据将会继续向更大规模、更多连接的方向发展,在此背景下,知识图谱将引领知识工程走上复兴的道路,推动在机器身上实现认知智能。


分享到:


相關文章: