“NLP”與“語言學家”的那些事兒


乾貨 |“NLP”與“語言學家”的那些事兒


乾貨 |“NLP”與“語言學家”的那些事兒


想象一下,假設時光倒流回十年前,或者二十年前,能否想象突然之間沒有了手機,沒有無線網,沒有所有電子設備的生活嗎?

這可能會很困難。

其實在不知不覺中,我們已經被裹挾在信息浪潮中,已經處在一個知識,傳播更新迭代非常快速的時代。所以“AI”,它不是一個追求,一種新鮮或一時的刺激,而是真正未來的方向,一個剛需。

同樣,“語言”是非常重要的,在所有的生物中,只有人類是真正意義上具有語言能力的,所以人工智能最重要的一個關口,就是可以感覺到它應該像一個人類。如果連最核心的語言關都沒有辦法攻破的話,怎麼樣去實現所謂真正的智能,顯然這是不可能做到的。而如今許多“NLP”的研究者都在引入一些語言學的知識來幫助他們提取更多的訓練特徵,提供更靠譜的思維角度。

接下來這一點,其實是學科上的一個空白,如果平時我們積極關注科技領域,會發現,主要力量是計算機專業或者相關學科背景的人,在為科技發展做貢獻,而語言學學科背景的人士,更多去專注於翻譯和教育這兩個方向,把語言當作工具使用。所以在未來,

我們或許需要一個跨學科的合作。

而且自然語言分析有兩個方向,一是理解,首先機器要能夠懂得人類的語言。另外一個方面,就是機器要能夠自己去表達思想。

而這兩個方面,都是很困難的,如果沒有投入極大的精力,還有專業的支撐,可能就是閉門造車。如果這個行業只有計算機相關的人員在參與在內,他們大概只能夠做到不斷的去優化和提升技術,但是對於真正需要應用的,尤其是語言領域等核心問題,大部分人是沒有涉獵的。所以這是作為文科背景的同學們也是可以選擇AI行業的重要原因。

乾貨 |“NLP”與“語言學家”的那些事兒


以智能客服為例,如圖所示,首先左邊是用戶的輸入,當用戶輸入接進來了之後,需要通過“naturAI language understanding”,也就是“自然語言理解”形式去對它進行初步的處理,經過這樣的一個步驟,把分析好的信息,交接到下一個“diAIog manager”,就是“對話管理模塊”,由模塊去判斷我們對話的狀態,以及調用“knowledge graph”知識庫的這些知識。

從這個裡面正確的得到了一個非常簡單初步的信息,但是簡單初步的信息,顯然是沒有辦法直接拿給用戶的,那麼也就到了下面一個關鍵的節點,就是“NLG”。

“NLG”,自然語言生成。

到達這一步後,把非常粗糙的方面,處理成為易懂並且自然流暢的語言,最後再進行輸出。在這整個流程中間,最關鍵的是“NLU” “DM”還有“NLG”,這三個模塊,也就是我們自然語言分析處理,應用的最核心的幾個板塊。

逐步介紹。首先第一個板塊是“NLU”,自然語言理解。顧名思義,首先應該有理解,理解之後才可以分析,才有輸出,這是要邁出的第一步。


乾貨 |“NLP”與“語言學家”的那些事兒


如圖所示,右邊有三個例句,“預約一下週日上午的小時保潔。”“可以幫我叫家政阿姨來我家嗎?”“應該找個鐘點工來打掃衛生。”

大部分人會產生誤解,會覺得機器的理解是不是和機器翻譯一樣,看一下這個詞,然後組合去進行理解?其實不是的,機器理解,它每個詞的確切含義,對它來說並不重要,重要的是這整一句話的意思。為了使機器能夠進行處理,首先是通過語義分析,然後再進行轉換。

回顧一下這三句話。經過思考之後,會發現這三句話想表達的是同一件事情。在這時候,“NLU”要做的事情是什麼?

首先第一步“領域識別”。舉個例子,假設我們現在是淘寶的客服,這個時候,用戶進來直接說“宇宙會不會爆炸?”那麼馬上就會進行判斷,這是一個領域外的問題,可以用其它系統進行篩選攔截之類的,不會讓它進入到後面的流程中去。

第二步是“意圖的抽取”,理解分析用戶到底是什麼意圖。

當前兩個步驟順利完成了之後,第三點就是槽位的填充。再次回顧一下之前的三句話,其實信息最完整的是第一句話,因為下面兩句話,雖然也表達出了,要預約一個保潔來家裡的信息,但是並沒有說清楚時間。當我們對下面兩句話進行分析的時候,走到槽位抽取的步驟,會發現槽為空。而第一個就不一樣,第一個首先可以抽到一個槽位,是服務類型,還有服務的時間,這樣的槽位是滿的,接下來就可以直接做處理。


乾貨 |“NLP”與“語言學家”的那些事兒



“NLU”現在有兩種方法,如圖所示,它非常簡單,在答案非常單一,場景同樣單一的情況下,用簡單粗暴的一些規則形式,去進行一個匹配。但是右邊模型的處理方式卻不太一樣,模型是非常依賴前期大量的數據標註的。這兩種方法各有利弊。

如圖所示,假如現在有非常迫切的需求,比較緊急,那麼首先可以考慮用左圖規則,因為它並不需要前期準備數據之類的步驟,但是它的容錯率會非常低,靈活性也很差,而且一旦出現更新之類的過程,維護迭代同樣非常困難。

右邊模型的形式,雖然在前期可能會耗費大量的精力,去進行標註,還有分析,但是相對於左邊就會非常靈活,覆蓋度廣,非常準確,而且它的針對的場景,也可以更復雜一些。

接下來,“DM對話管理”,它是對話系統的一個大腦,維護更新對話的狀態,基於對話狀態,選擇接下來最合適的一種動作。

舉一個例子,某位用戶說“幫我叫一個車回家”,在這種情況下,系統的動作可能向用戶詢問“幾點出發”,或者“您的出發地和目的地分別是什麼”。

假如用戶說的很清楚明白,例如“明天早上8點,幫我叫一輛從家裡出發到公司的車”,那麼這個時候DM的處理方式,就是直接為用戶叫車。


乾貨 |“NLP”與“語言學家”的那些事兒


最後,“NLP對話生成”。

舉個例子,之前有一則社會新聞,講述機器可以自動寫小說,雖然很驚訝,但是隨後發現機器用了一些非常稀奇古怪,甚至不能稱之為句子的語言拼湊了字數組合在一起。

當然這些都是噱頭,機器目前並不能做到人類真正意義上想要看到的文章。

機器學會自己去表達,是需要非常多的準備,比如今的理解認知還要更復雜一些,首先要將知識比較完整的收集整理,然後選一個合適的形式,存到計算機系統裡,並且還要有效的,去利用它們,如果個別環節出錯,可能會導致前功盡棄。這一部分,需要語言學的應用非常多,一個文本一個字符串,是有很多含義的,一對多,多對一既是自然語言最大的魅力,也是現在進行分析處理最主要的障礙。

在自然語言生成的過程中,“應該表達什麼”和“應該怎麼樣去表達”這兩種方面是非常重要的,但是卻普遍忽略了另外一個問題,就是“為什麼要用這種方式去表達”這同樣是非常具有價值的一個角度。

到底有什麼機遇和挑戰?首先在NLU之前,有一個非常必要的,同樣關鍵的流程,就是標註。假設某位用戶,輸入是“燈泡不亮”,四個字,現在要根據這個現象進行標註,應該怎麼標呢?可能有人會標停電了,或者標燈絲燒斷了等,大概率的人都會以這個思路去走。


乾貨 |“NLP”與“語言學家”的那些事兒


如圖所示,左邊這一圈白字,其實都是有可能造成燈泡不亮的原因,既然這麼多原因都能對應到燈泡不亮,那麼就不能在一開始,就預判他一定是其中哪一種,把範圍定位的太窄,就會造成很多的錯誤。


乾貨 |“NLP”與“語言學家”的那些事兒



如圖所示,右邊板塊,我們需要做一些預判和優化,在對話系統中,我們要及時的發現用戶是否偏離,狀態是否異常,如果存在異常,就可以考慮是否主動結束話題或者轉換話題。

在未來,機器人如果學習了這樣一種處理機制的話,對話才是比較智能的,甚至可以預判客戶的真實的需求,我們也可以更好的引導。

在做自然語言處理的時候,需要面對三個問題,一個是體系的建立,一個是數據,還有一個是算法,這是對話機器人痛點。

這裡存在一個很有意思的現象,語言學科背景的語言學家們在此領域是無處不在的,並且可以參與到各個環節當中,例如智能音箱,語音助手等,它是把語音轉化為文字,然後再輸出,再把文字轉回語音,等於在大框架裡,接入了一些語音技術,變成了一個語音助手的形式。很多人覺得就只能處理語言,就只能文本,是不是範圍太窄了,其實並不是,我們現在能夠看到的,背後真正的核心就是“NLU”,“DM”,還有“NLG”三個模塊。


乾貨 |“NLP”與“語言學家”的那些事兒


其次是“檢索”,通過“命名實體識別”,就可以找句子裡我們所需要的最關鍵的信息,例如做售前售後工作的人士,可能比較關心是設備型號,再例如智能音箱,大家用的最多的功能比如播放歌曲,或者城市溫度等,這些都是可以通過檢索的形式實現的。

所有的產品,其核心都是以用戶需求出發,如果把握住這一點,很多問題都會簡單化。

至於對話機器人,它承載了一個全新的交互形式。雖然道路有些漫長,但是我們已經在路上。有大部分人不是專業計算機專業出身,加入智能領域,會極其不自信,“是不是會沒有幫助?”“專家根本會不會看不起我,不讓我入行”,這些顧慮都是沒有必要的,首先一定要去進行了解,很多恐懼,都是因為未知而產生的,如果認真的進行了解,就清楚自身能力能發揮哪些作用,平時學會多思考,這個,才是最重要的。


乾貨 |“NLP”與“語言學家”的那些事兒


如果把“AI”,比作“飛機”的話,它處在“引擎”很關鍵的位置,我們的目標,就是用我們對語言天然的敏感,用語言學相關的知識讓機器去理解和學習人類的語言,同時這些文本可以發揮最大的價值,只有做到了這一點,真正的“智能”才會變為“可能”。

乾貨 |“NLP”與“語言學家”的那些事兒


乾貨 |“NLP”與“語言學家”的那些事兒


【講師介紹】


沈澤希


語言文學研究學士,人工智能從業者,擔任AI Language Analyst及Algorithm Researcher。兼具理科思維的非典型文科生,輸出快樂、創意、趣味等人體必需的多種氨基酸維生素,與不同背景、不同語言、不同部門的合作且痛且笑,在數據與文字的海洋中乘風破浪。


乾貨 |“NLP”與“語言學家”的那些事兒


乾貨 | 一語點破中文NLU、智能客服、多倫對話、多模態交互實操難點。

你會和 “AI機器人” 結婚嗎?”

deepfake“ 全民換臉背後的狂歡

當你離開這個世界後,“AI” 會延續你的故事。

《三體》編審花12萬美金冷凍大腦,能求得“永生”嗎?

被“垃圾分類”逼瘋?不如讓AI來幫你。

李彥宏被潑水,百度內部留言:誰讓你講無人駕駛的......


乾貨 |“NLP”與“語言學家”的那些事兒


分享到:


相關文章: