人工智能与自然语言处理简介:AI三大阶段、NLP技术与应用

人工智能的概述

AI 指代「人工智能」,是让机器能够像人类一样完成智能任务的技术。AI 使用智能完成自动化任务。

人工智能包含两个关键点:1. 自动化;2.智能

人工智能的目标

§ 推理

§ 自动学习&调度

§ 机器学习

§ 自然语言处理

§ 计算机视觉

§ 机器人

§ 通用智能

人工智能三大阶段

§ 阶段 1——机器学习:智能系统使用一系列算法从经验中进行学习。

§ 阶段 2——机器智能:机器使用的一系列从经验中进行学习的高级算法,例如深度神经网络。

§ 阶段 3——机器意识:不需要外部数据就能从经验中自学习。

§ 目前技术能力已处于第3阶段

人工智能的类型

§ ANI(狭义人工智能):它包含基础的、角色型任务,比如由 Siri、Alexa 这样的聊天机器人、个人助手完成的任务。

§ AGI(通用人工智能):通用人工智能包含人类水平的任务,它涉及到机器的持续学习。

§ ASI(强人工智能):强人工智能指代比人类更聪明的机器。

什么使得系统智能化?

§ 自然语言处理

§ 知识表示

§ 自动推理

§ 机器学习


人工智能与自然语言处理简介:AI三大阶段、NLP技术与应用


NLP、人工智能、机器学习、深度学习和神经网络之间的区别

§ 人工智能:建立能智能化处理事物的系统。

§ 自然语言处理:建立能够理解语言的系统,人工智能的一个分支。

§ 机器学习:建立能从经验中进行学习的系统,也是人工智能的一个分支。

§ 神经网络:生物学启发出的人工神经元网络。

§ 深度学习:在大型数据集上,建立使用深度神经网络的系统,机器学习的一个分支。


人工智能与自然语言处理简介:AI三大阶段、NLP技术与应用


自然语言处理的概念

自然语言处理(NLP)是指机器理解并解释人类写作、说话方式的能力。NLP 的目标是让计算机/机器在理解语言上像人类一样智能。最终目标是弥补人类交流(自然语言)和计算机理解(机器语言)之间的差距。

下面是三个不同等级的语言学分析:

§ 句法学:给定文本的哪部分是语法正确的。

§ 语义学:给定文本的含义是什么?

§ 语用学:文本的目的是什么?

NLP 处理语言的不同方面

§ 音韵学:指代语言中发音的系统化组织。

§ 词态学:研究单词构成以及相互之间的关系。

NLP 中理解语义分析的方法

§ 分布式:它利用机器学习和深度学习的大规模统计策略。

§ 框架式:句法不同,但语义相同的句子在数据结构(帧)中被表示为程式化情景。

§ 理论式:这种方法基于的思路是,句子指代的真正的词结合句子的部分内容可表达全部含义。

§ 交互式(学习):它涉及到语用方法,在交互式学习环境中用户教计算机一步一步学习语言。

NLP 流程

如果要用语音产生文本,需要完成文本转语音任务

NLP 的机制涉及两个流程:1. 自然语言理解 ;2. 自然语言生成

自然语言理解(NLU)

NLU 是要理解给定文本的含义。文本内每个单词的特性与结构需要被理解。在理解结构上,NLU 要理解自然语言中的以下几个歧义性:

§ 词法歧义性:单词有多重含义

§ 句法歧义性:语句有多重解析树

§ 语义歧义性:句子有多重含义

§ 回指歧义性(Anaphoric Ambiguity):之前提到的短语或单词在后面句子中有不同的含义。

自然语言生成(NLG)

NLG 是从结构化数据中以可读地方式自动生成文本的过程。

自然语言生成可被分为三个阶段:

1. 文本规划:完成结构化数据中基础内容的规划。

2. 语句规划:从结构化数据中组合语句,来表达信息流。

3. 实现:产生语法通顺的语句来表达文本。

NLP 与文本挖掘(或文本分析)之间的不同

自然语言处理是理解给定文本的含义与结构的流程。

文本挖掘或文本分析是通过模式识别提起文本数据中隐藏的信息的流程。

自然语言处理被用来理解给定文本数据的含义(语义),而文本挖掘被用来理解给定文本数据的结构(句法)。


人工智能与自然语言处理简介:AI三大阶段、NLP技术与应用


我们为什么需要 NLP

有了 NLP,有可能完成自动语音、自动文本编写这样的任务。由于大型数据(文本)的存在,我们为什么不使用计算机的能力,不知疲倦地运行算法来完成这样的任务,花费的时间也更少。这些任务包括 NLP 的其他应用,比如自动摘要(生成给定文本的总结)、机器翻译及合同文档比对等。

NLP技术可以应用在哪些业务中呢?

举一个列子,合同审核是企业防范法律风险的必要程序,尤其在风控要求高的企事业单位,如信托、基金、证券等行业,合同的审查要求非常严格。

在一些大的企事业单位中,合同条款非常详细,为了提高合同签署效率,合同设定为模板化的制式合同,为了防止合同被另一方恶意修改,制式合同的出具方需要对合同的全部文字条款做确认,如此,文本审核的工作量非常大。

传统的法务审核方式不仅效率低下,且容易受审核人员业务素养、体力、精神状态等因素的影响出现差错,一旦审核出现疏漏,损失将是巨大的。


人工智能与自然语言处理简介:AI三大阶段、NLP技术与应用


合同智能识别与合同比对机器人,利用机器视觉智能识别输入两份合同,并自动标注前后合同的差异,实现计算机替代人工肉眼审核比对,解决合同比对工作中纯人工审核造成的时间成本高、人力成本高和风险高等难题。

传统合同比对缺点

1、风险高

人工审核错误率和遗漏率高,业务口或合约方篡改合同,引发法律和经济风险等;

2、时间成本高

合同份数多、页码多、工作量大、费神费力、人工审核效率低,审核速度慢;

3、人力成本高

雇佣金融或法律精英作为审核员,雇佣成本高;从事地段重复的工作,员工变动大;

4、传统合同比对场景再现

开始比对合同,然后销售人员或者客户催着问合同审核情况。终于完成了一份篇幅很长的合同的比对。这时,人已经有点疲惫了,必须休息一下眼睛和大脑。完成了一天的合同比对工作,终于下班了,精疲力尽。最后查看一天的工作量仅仅完成了几份合同审核比对。效率严重低下,还担心中间浏览速度过快,有没有出差错。不错则已,一错惊人。

反之,如果应用上具备NLP技术的合同比对机器人,3分钟即可完成一份60页的合同审核比对。3个小时基本上完成一整天的工作量,把财务人员从枯燥重复、机械乏味的审核比对工作中解脱出来,从事更有价值的工作。

合同比对机器人为何如此强大?

1、产品功能技术特点

1) 采用先进的全文识别技术,配合独创的比对引擎。

2) 图像处理技术

· 图像的倾斜校正:软件会将扫描倾斜的合同自动矫正;

· 噪声去除:扫描好的合同会有黑点等杂质,影响文字识别,应用噪声去除识别技术,提高识别率;

· 文本检测:准确率高达98%;

3) 版面分析、表格分析、文字分析(NLP)技术

基于深度学习的版式自动识别,自动检测合同上文本区域和表格区域,对表格线拆分,然后提取其中的内容,达到每字每段都不遗漏,从而实现全文识别。

4) OCR字符识别

单字符识别率达到98%,误差小。

5) 数据组织输出

360度无死角,每个字符的位置信息都能精确输出。

6) 文字行自动比对

系统自动对两份合同进行逐行的文字比对,进行全字匹配,标注出不一致的文字。对于多行、少行的等其他文字,系统也能自动发现并提示。

2、产品价值

1)提升效率:自动识别、自动比对,并标识合同差异;

2)提升风控力:软件比对结果辅助人工审核,降低出错率,降低企业风险,避免重大损失;

3)提升价值:解放重复性体力劳动,可从事其他高附加值工作。

3、适用行业

保险、证券、银行、电讯、基金、信托等风控要求高的机构和合同量大的大中型企业。



分享到:


相關文章: