人工智能與自然語言處理簡介:AI三大階段、NLP技術與應用

人工智能的概述

AI 指代「人工智能」,是讓機器能夠像人類一樣完成智能任務的技術。AI 使用智能完成自動化任務。

人工智能包含兩個關鍵點:1. 自動化;2.智能

人工智能的目標

§ 推理

§ 自動學習&調度

§ 機器學習

§ 自然語言處理

§ 計算機視覺

§ 機器人

§ 通用智能

人工智能三大階段

§ 階段 1——機器學習:智能系統使用一系列算法從經驗中進行學習。

§ 階段 2——機器智能:機器使用的一系列從經驗中進行學習的高級算法,例如深度神經網絡。

§ 階段 3——機器意識:不需要外部數據就能從經驗中自學習。

§ 目前技術能力已處於第3階段

人工智能的類型

§ ANI(狹義人工智能):它包含基礎的、角色型任務,比如由 Siri、Alexa 這樣的聊天機器人、個人助手完成的任務。

§ AGI(通用人工智能):通用人工智能包含人類水平的任務,它涉及到機器的持續學習。

§ ASI(強人工智能):強人工智能指代比人類更聰明的機器。

什麼使得系統智能化?

§ 自然語言處理

§ 知識表示

§ 自動推理

§ 機器學習


人工智能與自然語言處理簡介:AI三大階段、NLP技術與應用


NLP、人工智能、機器學習、深度學習和神經網絡之間的區別

§ 人工智能:建立能智能化處理事物的系統。

§ 自然語言處理:建立能夠理解語言的系統,人工智能的一個分支。

§ 機器學習:建立能從經驗中進行學習的系統,也是人工智能的一個分支。

§ 神經網絡:生物學啟發出的人工神經元網絡。

§ 深度學習:在大型數據集上,建立使用深度神經網絡的系統,機器學習的一個分支。


人工智能與自然語言處理簡介:AI三大階段、NLP技術與應用


自然語言處理的概念

自然語言處理(NLP)是指機器理解並解釋人類寫作、說話方式的能力。NLP 的目標是讓計算機/機器在理解語言上像人類一樣智能。最終目標是彌補人類交流(自然語言)和計算機理解(機器語言)之間的差距。

下面是三個不同等級的語言學分析:

§ 句法學:給定文本的哪部分是語法正確的。

§ 語義學:給定文本的含義是什麼?

§ 語用學:文本的目的是什麼?

NLP 處理語言的不同方面

§ 音韻學:指代語言中發音的系統化組織。

§ 詞態學:研究單詞構成以及相互之間的關係。

NLP 中理解語義分析的方法

§ 分佈式:它利用機器學習和深度學習的大規模統計策略。

§ 框架式:句法不同,但語義相同的句子在數據結構(幀)中被表示為程式化情景。

§ 理論式:這種方法基於的思路是,句子指代的真正的詞結合句子的部分內容可表達全部含義。

§ 交互式(學習):它涉及到語用方法,在交互式學習環境中用戶教計算機一步一步學習語言。

NLP 流程

如果要用語音產生文本,需要完成文本轉語音任務

NLP 的機制涉及兩個流程:1. 自然語言理解 ;2. 自然語言生成

自然語言理解(NLU)

NLU 是要理解給定文本的含義。文本內每個單詞的特性與結構需要被理解。在理解結構上,NLU 要理解自然語言中的以下幾個歧義性:

§ 詞法歧義性:單詞有多重含義

§ 句法歧義性:語句有多重解析樹

§ 語義歧義性:句子有多重含義

§ 回指歧義性(Anaphoric Ambiguity):之前提到的短語或單詞在後面句子中有不同的含義。

自然語言生成(NLG)

NLG 是從結構化數據中以可讀地方式自動生成文本的過程。

自然語言生成可被分為三個階段:

1. 文本規劃:完成結構化數據中基礎內容的規劃。

2. 語句規劃:從結構化數據中組合語句,來表達信息流。

3. 實現:產生語法通順的語句來表達文本。

NLP 與文本挖掘(或文本分析)之間的不同

自然語言處理是理解給定文本的含義與結構的流程。

文本挖掘或文本分析是通過模式識別提起文本數據中隱藏的信息的流程。

自然語言處理被用來理解給定文本數據的含義(語義),而文本挖掘被用來理解給定文本數據的結構(句法)。


人工智能與自然語言處理簡介:AI三大階段、NLP技術與應用


我們為什麼需要 NLP

有了 NLP,有可能完成自動語音、自動文本編寫這樣的任務。由於大型數據(文本)的存在,我們為什麼不使用計算機的能力,不知疲倦地運行算法來完成這樣的任務,花費的時間也更少。這些任務包括 NLP 的其他應用,比如自動摘要(生成給定文本的總結)、機器翻譯及合同文檔比對等。

NLP技術可以應用在哪些業務中呢?

舉一個列子,合同審核是企業防範法律風險的必要程序,尤其在風控要求高的企事業單位,如信託、基金、證券等行業,合同的審查要求非常嚴格。

在一些大的企事業單位中,合同條款非常詳細,為了提高合同簽署效率,合同設定為模板化的制式合同,為了防止合同被另一方惡意修改,制式合同的出具方需要對合同的全部文字條款做確認,如此,文本審核的工作量非常大。

傳統的法務審核方式不僅效率低下,且容易受審核人員業務素養、體力、精神狀態等因素的影響出現差錯,一旦審核出現疏漏,損失將是巨大的。


人工智能與自然語言處理簡介:AI三大階段、NLP技術與應用


合同智能識別與合同比對機器人,利用機器視覺智能識別輸入兩份合同,並自動標註前後合同的差異,實現計算機替代人工肉眼審核比對,解決合同比對工作中純人工審核造成的時間成本高、人力成本高和風險高等難題。

傳統合同比對缺點

1、風險高

人工審核錯誤率和遺漏率高,業務口或合約方篡改合同,引發法律和經濟風險等;

2、時間成本高

合同份數多、頁碼多、工作量大、費神費力、人工審核效率低,審核速度慢;

3、人力成本高

僱傭金融或法律精英作為審核員,僱傭成本高;從事地段重複的工作,員工變動大;

4、傳統合同比對場景再現

開始比對合同,然後銷售人員或者客戶催著問合同審核情況。終於完成了一份篇幅很長的合同的比對。這時,人已經有點疲憊了,必須休息一下眼睛和大腦。完成了一天的合同比對工作,終於下班了,精疲力盡。最後查看一天的工作量僅僅完成了幾份合同審核比對。效率嚴重低下,還擔心中間瀏覽速度過快,有沒有出差錯。不錯則已,一錯驚人。

反之,如果應用上具備NLP技術的合同比對機器人,3分鐘即可完成一份60頁的合同審核比對。3個小時基本上完成一整天的工作量,把財務人員從枯燥重複、機械乏味的審核比對工作中解脫出來,從事更有價值的工作。

合同比對機器人為何如此強大?

1、產品功能技術特點

1) 採用先進的全文識別技術,配合獨創的比對引擎。

2) 圖像處理技術

· 圖像的傾斜校正:軟件會將掃描傾斜的合同自動矯正;

· 噪聲去除:掃描好的合同會有黑點等雜質,影響文字識別,應用噪聲去除識別技術,提高識別率;

· 文本檢測:準確率高達98%;

3) 版面分析、表格分析、文字分析(NLP)技術

基於深度學習的版式自動識別,自動檢測合同上文本區域和表格區域,對錶格線拆分,然後提取其中的內容,達到每字每段都不遺漏,從而實現全文識別。

4) OCR字符識別

單字符識別率達到98%,誤差小。

5) 數據組織輸出

360度無死角,每個字符的位置信息都能精確輸出。

6) 文字行自動比對

系統自動對兩份合同進行逐行的文字比對,進行全字匹配,標註出不一致的文字。對於多行、少行的等其他文字,系統也能自動發現並提示。

2、產品價值

1)提升效率:自動識別、自動比對,並標識合同差異;

2)提升風控力:軟件比對結果輔助人工審核,降低出錯率,降低企業風險,避免重大損失;

3)提升價值:解放重複性體力勞動,可從事其他高附加值工作。

3、適用行業

保險、證券、銀行、電訊、基金、信託等風控要求高的機構和合同量大的大中型企業。



分享到:


相關文章: