分享:2018自然語言處理研究報告!(附完整版下載)

點擊上方關注,All in AI中國

自然語言處理是人工智能的一個重要應用領域,也是新一代計算機必須研究的課題。它的主要目的是克服人機對話中的各種限制,使用戶能用自己的語言與計算機對話。本研究報告對自然語言進行了簡單梳理,包括以下內容:

自然語言處理概念。首先對自然語言處理進行定義,接著對自然語言的發展歷程進行了 梳理,對我國自然語言處理現狀進行了簡單介紹,對自然語言處理業界情況進行介紹。

自然語言處理研究情況。依據 2016 年中文信息學會發布的中文信息處理發展報告對自 然語言處理研究中的重要技術進行介紹。

自然語言處理領域專家介紹。利用 AMiner 大數據對自然語言處理領域專家進行深入挖掘,對國內外自然語言處理知名實驗室及其主要負責人進行介紹。

自然語言處理的應用及趨勢預測。自然語言處理在現實生活中應用廣泛,目前的應用集 中在語言學、數據處理、認知科學以及語言工程等領域,在介紹相關應用的基礎上,對機器 翻譯未來的發展趨勢做出了相應的預測。

以下是摘取的報告的部分內容,完整版點擊關注“AI中國”,私信回覆“NLP”即可獲得《2018自然語言處理研究報告》

自然語言處理概念

自然語言是指漢語、英語、法語等人們日常使用的語言,是自然而然的隨著人類社會發 展演變而來的語言,而不是人造的語言,它是人類學習生活的重要工具。概括說來,自然語 言是指人類社會約定俗成的,區別於人工語言,如程序設計的語言。在整個人類歷史上以語 言文字形式記載和流傳的知識佔到知識總量的 80%以上。就計算機應用而言,據統計,用於 數學計算的僅佔 10%,用於過程控制的不到 5%,其餘 85%左右都是用於語言文字的信息處 理。

處理包含理解、轉化、生成等過程。自然語言處理,是指用計算機對自然語言的形、音、 義等信息進行處理,即對字、詞、句、篇章的輸入、輸出、識別、分析、理解、生成等的操 作和加工。實現人機間的信息交流,是人工智能界、計算機科學和語言學界所共同關注的重 要問題。自然語言處理的具體表現形式包括機器翻譯、文本摘要、文本分類、文本校對、信 息抽取、語音合成、語音識別等。可以說,自然語言處理就是要計算機理解自然語言,自然 語言處理機制涉及兩個流程,包括自然語言理解和自然語言生成。自然語言理解是指計算機 能夠理解自然語言文本的意義,自然語言生成則是指能以自然語言文本來表達給定的意圖。

分享:2018自然語言處理研究報告!(附完整版下載)

自然語言的理解和分析是一個層次化的過程,許多語言學家把這一過程分為五個層次, 可以更好地體現語言本身的構成,五個層次分別是語音分析、詞法分析、句法分析、語義分 析和語用分析。

語音分析是要根據音位規則,從語音流中區分出一個個獨立的音素,再根據音位形態規 則找出音節及其對應的詞素或詞。

詞法分析是找出詞彙的各個詞素,從中獲得語言學的信息。

句法分析是對句子和短語的結構進行分析,目的是要找出詞、短語等的相互關係以及各 自在句中的作用。

語義分析是找出詞義、結構意義及其結合意義,從而確定語言所表達的真正含義或概念。語用分析是研究語言所存在的外界環境對語言使用者所產生的影響。

在人工智能領域或者是語音信息處理領域中,學者們普遍認為採用圖靈試驗可以判斷計 算機是否理解了某種自然語言,具體的判別標準有以下幾條:

第一, 問答,機器人能正確回答輸入文本中的有關問題;

第二, 文摘生成,機器有能力生成輸入文本的摘要;

第三, 釋義,機器能用不同的詞語和句型來複述其輸入的文本;

第四, 翻譯,機器具有把一種語言翻譯成另一種語言的能力。

分享:2018自然語言處理研究報告!(附完整版下載)

自然語言處理業界發展

分享:2018自然語言處理研究報告!(附完整版下載)

 微軟亞洲研究院

微軟亞洲研究院 1998 年成立自然語言計算組,研究內容包括多國語言文本分析、機器 翻譯、跨語言信息檢索和自動問答系統等。這些研究項目研發了一系列實用成果,如 IME、 對聯遊戲、Bing 詞典、Bing 翻譯器、語音翻譯、搜索引擎等,為微軟產品做出了重大的貢 獻,並且在自然語言處理頂級會議,例如 ACL(Association for Computational Linguistics)、COLING(International Conference on Computational Linguistics)等會議上發表了許多論文。

2017 年微軟在語音翻譯上全面採用了神經網絡機器翻譯,並新擴展了 Microsoft Translator Live Feature,可以在演講和開會時,實時同步在手機端和桌面端,同時把講話者 的話翻譯成多種語言。其中最重要的技術是對於源語言的編碼以及引進的語言知識,微軟將 句法知識引入到神經網絡的編碼、解碼中,得到了更好的翻譯。同時,微軟還表示,將來要 將知識圖譜納入神經網絡機器翻譯中規劃語言理解的過程中。

在人機對話方面微軟也取得了極大的進展,如小娜現在已經擁有超過 1.4 億用戶,在數 以十億計的設備上與人們進行交流,並且覆蓋了十幾種語言。還有聊天機器人小冰,正在試 圖把各國語言的知識融合在一起,實現一個開放語言自由聊天的過程,目前小冰實現了中文、 日文和英文的覆蓋,有上億用戶。

分享:2018自然語言處理研究報告!(附完整版下載)

 Google

Google 是最早開始研究自然語言處理技術的團隊之一,作為一個以搜索為核心的公司,Google 對自然語言處理更為重視。Google 擁有著海量數據,可以搭建豐富龐大的數據庫, 可以為其研究提供強大的數據支撐。Google 對自然語言處理的研究側重於應用規模、跨語言和跨領域的算法,其成果在 Google 的許多方面都被使用,提升了用戶在搜索、移動、應 用、廣告、翻譯等方面的體驗。

機器翻譯方面,2016 年 Google 發佈 GNMT 使用最先進的訓練技術,能夠實現機器翻 譯質量的最大提升,2017 年宣佈其機器翻譯實現了完全基於 attention 的 transformer 機器翻 譯網絡架構,實現了新的最佳水平。

分享:2018自然語言處理研究報告!(附完整版下載)

Google 的知識圖譜更是遙遙領先,例如自動挖掘新知識的準確程度、文本中命名實體的 識別、純文本搜索詞條到在知識圖譜上的結構化搜索詞條的轉換等,效果都領先於其他公司, 而且很多技術都實現了產品化。

語音識別方面,Google 一直致力於投資語音搜索技術和蘋果公司的 siri 競爭,2011 年 收購語言信息平臺 SayNow,把語音通信、點對點對話、以及群組通話和社交應用融合在一 起,2014 年收購了 SR Tech Group 的多項語音識別相關專利,自 2012 年以來將神經網絡應 用於這一領域,使語音識別錯誤率極大降低。

 Facebook

Facebook 涉獵自然語言處理較晚,Facebook 在 2013 年收購了語音對語音翻譯(speech- to-speech translation)研發公司 Mobile Technologies,開始組建語言技術組。該團隊很快就投 入到其第一個項目——翻譯工具——的研發,到 2015 年 12 月,Facebook 用的翻譯工具已 經完全轉變為自主開發。Facebook 語言技術小組不斷改進自然語言處理技術以改善用戶體 驗,致力於機器翻譯、語音識別和會話理解。2016 年,Facebook 首次將 29 層深度卷積神經 網絡用於自然語言處理,2017 年,Facebook 團隊使用全新的卷積神經網絡進行翻譯,以往 循環神經網絡 9 倍的速度實現了當時最高的準確率。

2015 年,Facebook 相繼建立語音識別和對話理解工具,開始了語音識別的研發之路。2016 年 Facebook 開發了一個響應“Hey Oculus”的語音識別系統,並且在 2018 年初開發了wav2letter,這是一個簡單高效的端到端自動語音識別(ASR)系統。Facebook 針對文本處 理還開發了有效的方法和輕量級工具,這些都基於 2016 年發佈的 FastText 即預訓練單詞向 量模型。

百度自然語言處理部是百度最早成立的部門之一,研究涉及深度問答、閱讀理解、智能 寫作、對話系統、機器翻譯、語義計算、語言分析、知識挖掘、個性化、反饋學習等。其中, 百度自然語言處理在深度問答方向經過多年打磨,積累了問句理解、答案抽取、觀點分析與 聚合等方面的一整套技術方案,目前已經在搜索、度秘等多個產品中實現應用。篇章理解通過篇章結構分析、主體分析、內容標籤、情感分析等關鍵技術實現對文本內容的理解,目前, 篇章理解的關鍵技術已經在搜索、資訊流、糯米等產品中實現應用。百度翻譯目前支持全球28 種語言,覆蓋 756 個翻譯方向,支持文本、語音、圖像等翻譯功能,並提供精準人工翻 譯服務,滿足不同場景下的翻譯需求,在多項翻譯技術取得重大突破,發佈了世界上首個線 上神經網絡翻譯系統,並獲得 2015 年度國家科技進步獎。

對百度自然語言處理部做出重要貢獻的人物不可不提王海峰、吳華等人。王海峰是百度 現任副總裁,負責百度搜索引擎、手機百度、百度信息流、百度新聞、百度手機瀏覽器、百 度翻譯、自然語言處理、語音搜索、圖像搜索、互聯網數據挖掘、知識圖譜、小度機器人等 業務。是 ACL 50 多年曆史上唯一出任過主席(President)的華人,也是迄今為止最年輕的ACL Fellow。同時,王海峰博士還在多個國際學術組織、國際會議、國際期刊兼任各類職務。 吳華是百度自然語言處理部技術負責人,她所領導的團隊在自然語言處理和機器翻譯方面取 得重大突破,同時她主持研發的多項 NLP 核心技術應用於搜索、Feed、Duer OS 等百度產 品。吳華署名的專利達 40 餘件、重要學術論文 50 餘篇,在 IJCAI、ACL 等國際會議上多次 發聲。

 阿里巴巴

阿里自然語言處理為其產品服務,在電商平臺中構建知識圖譜實現智能導購,同時進行 全網用戶興趣挖掘,在客服場景中也運用自然語言處理技術打造機器人客服,例如螞蟻金融 智能小寶、淘寶賣家的輔助工具千牛插件等,同時進行語音識別以及後續分析。阿里的機器 翻譯主要與其國家化電商的規劃相聯繫,可以進行商品信息翻譯、廣告關鍵詞翻譯、買家採 購需求以及即時通信翻譯等,語種覆蓋中文、荷蘭語、希伯來語等語種,2017 年初阿里正式 上線了自主開發的神經網絡翻譯系統,進一步提升了其翻譯質量。

 騰訊

AI Lab 是騰訊的人工智能實驗室,研究領域包括計算機視覺、語音識別、自然語言處 理、機器學習等。其研發的騰訊文智自然語言處理基於並行計算、分佈式爬蟲系統,結合獨 特的語義分析技術,可滿足自然語言處理、轉碼、抽取、數據抓取等需求,同時,基於文智API 還可以實現搜索、推薦、輿情、挖掘等功能。在機器翻譯方面,2017 年騰訊宣佈翻譯君 上線“同聲傳譯”新功能,用戶邊說邊翻的需求得到滿足,語音識別+NMT 等技術的應用保 證了邊說邊翻的速度與精準性。

 京東

京東在人工智能的浪潮中也不甘落後。京東 AI 開放平臺基本上由模型定製化平臺和在 線服務模塊構成,其中在線服務模塊包括計算機視覺、語音交互、自然語言處理和機器學習 等。京東 AI 開放平臺計劃通過建立算法技術、應用場景、數據鏈間的連接,構建京東 AI 發 展全價值鏈,實現 AI 能力平臺化。

按照京東的規劃,NeuHub 平臺將作為普惠性開放平臺,不同角色均可找到適合自己的 場景,例如用簡單代碼即可實現對圖像質量的分析評估。從業務上說,平臺可以支撐科研人 員、算法工程師不斷設計新的 AI 能力以滿足用戶需求,並深耕電商、供應鏈、物流、金融、 廣告等多個領域應用,探索試驗醫療、扶貧、政務、養老、教育、文化、體育等多領域應用,聚焦於新技術和行業趨勢研究,孵化行業最新落地項目。同時,京東人工智能研究院與南京 大學、斯坦福大學等院校均有合作。

 科大訊飛

科大訊飛股份有限公司成立於 1999 年,是一家專業從事智能語音及語言技術、人工智 能技術研究、軟件及芯片產品開發、語音信息服務及電子政務系統集成的國家級骨幹軟件企 業。科大訊飛作為中國智能語音與人工智能產業領導者,在語音合成、語音識別、口語評測、 自然語言處理等多項技術上擁有國際領先的成果。是我國以語音技術為產業化方向的“國家863 計劃成果產業化基地”、“國家規劃佈局內重點軟件企業”、“國家高技術產業化示範工程”, 並被原信息產業部確定為中文語音交互技術標準工作組組長單位,牽頭制定中文語音技術標 準。

科大訊飛成立之時就開始在語言和翻譯領域佈局項目。基於深度神經網絡算法上的創新 和突破,科大訊飛在 2014 年國際口語翻譯大賽 IWSLT 上獲得中英和英中兩個翻譯方向的 全球第一名;2015 年在由美國國家標準技術研究院組織的機器翻譯大賽中取得全球第一的 成績。2017 年科大訊飛還推出了多款硬件翻譯產品,其中曉譯翻譯機 1.0plus 將神經網絡翻 譯系統由在線系統轉化為離線系統,實現在沒有網絡的情況下提供基本的翻譯服務。

分享:2018自然語言處理研究報告!(附完整版下載)

分享:2018自然語言處理研究報告!(附完整版下載)

分享:2018自然語言處理研究報告!(附完整版下載)

分享:2018自然語言處理研究報告!(附完整版下載)

分享:2018自然語言處理研究報告!(附完整版下載)

分享:2018自然語言處理研究報告!(附完整版下載)

分享:2018自然語言處理研究報告!(附完整版下載)

分享:2018自然語言處理研究報告!(附完整版下載)

分享:2018自然語言處理研究報告!(附完整版下載)

分享:2018自然語言處理研究報告!(附完整版下載)

分享:2018自然語言處理研究報告!(附完整版下載)

分享:2018自然語言處理研究報告!(附完整版下載)

分享:2018自然語言處理研究報告!(附完整版下載)


分享到:


相關文章: