自然語言處理到底在“處理”些什麼?

人工智能離我們越來越近,隨著自然語言處理技術的發展,計算器對文字對處理能力也達到了一個新的層次,那麼自然語言處理究竟擁有什麼“能力”,結合具體應用場景能做哪些事兒?技術邊界在哪?


自然語言處理到底在“處理”些什麼?



1:詞法分析

基於大數據和用戶行為的分詞後、對詞性進行標註、命名實體識別,消除歧義 。識別文本中具有特定意義的實體,主要包括人名、地名、職位名、產品名詞等。實體識別是信息提取、問答系統、句法分析、機器翻譯等應用領域的重要基礎工具,作為結構化信息提取的重要步驟。


應用場景:

各大手機廠商語音助手

以分詞和詞性標註為基礎,分析語音命令中的關鍵名詞、動詞、數量、時間等,快速理解用戶命令的含義,迅速反饋提高用戶體驗

自然語言處理到底在“處理”些什麼?

2:文本分類

對文章按照內容類型(體育/教育/財經/社會/軍事....等等)進行自動分類,為文章聚類、文本內容分析等應用提供基礎支持,文章分類對文章內容進行深度分析,輸出文章的主題一級分類、主題二級分類,在個性化推薦、文章聚合、文本內容分析等場景具有廣泛的應用價值

自然語言處理到底在“處理”些什麼?


3:文本糾錯

識別文本中有錯誤的片段,進行錯誤提示並給出正確的建議文本內容,在搜索引擎、語音識別、內容審查等功能更好運行的基礎模塊之一,文本糾錯能顯著提高這些場景下的語義準確性和用戶體驗。

自然語言處理到底在“處理”些什麼?

應用場景:

寫作類平臺

在內容寫作平臺上內嵌糾錯模塊,可在作者寫作時自動檢查並提示錯別字情況。從而降低因疏忽導致的錯誤表述,有效提升作者的文章寫作質量,同時給用戶更好的閱讀體驗。


4:獲取摘要

實現文本內容精簡提煉,從長篇的文章中自動提取關鍵句和關鍵段落,構成摘要內容。進而生成指定長度的新聞摘要。

自然語言處理到底在“處理”些什麼?

自然語言處理到底在“處理”些什麼?


自然語言處理到底在“處理”些什麼?

應用場景


a智能寫作

通過對大量的新聞文本進行語義分析和快速摘要,可以快速形成熱點彙總類、新聞聚合類、事件盤點類的新聞稿件,進行自動寫作和輔助寫作,提升新聞生產效率

b語音播報

語音播報場景往往有嚴格的字數要求,新聞摘要能夠自動生成符合字數規範且表達通順的信息,在提升用戶體驗的同時,也提升了播報效率


5:情感分析

能夠對文本信息進行“情感”上的正向、負向及中性進行評價。情感分析一般根據不同行業語料進行標註,根據不同的模型獲得最佳的情感判斷準確率

自然語言處理到底在“處理”些什麼?

應用場景


a評論分析與決策

通過對產品多維度評論觀點進行傾向性分析,可幫助商家進行產品分析,輔助用戶進行消費決策

自然語言處理到底在“處理”些什麼?


b評論分類

通過對評論進行情感傾向性分析,將不同用戶對同一事件或對象的評論內容按情感極性予以分類展示

自然語言處理到底在“處理”些什麼?

自然語言處理到底在“處理”些什麼?

c輿情監控

通過對需要輿情監控的實時文字數據流進行情感傾向性分析,把握用戶對熱點信息的情感傾向性變化


6:關鍵詞提取

對文本信息進行核心關鍵詞分析,是內容推薦算法的核心,實施手段之一是根據分詞後某個詞在文章中的出現次數越多,權重越高,但是,在每篇文章中,往往出現次數最多的是“的”“是”“在”等等,這些詞稱為“停用詞”,表示對結果毫無用處,必須過濾掉的詞。

另外,在其他有實際意義的詞中,又會遇到一些問題。比如在《中國蜜蜂養殖》這篇文章中,“中國”“蜜蜂”“養殖”三個詞出現的次數一樣多,但很顯然,我們更想要的標籤是後面兩個詞

自然語言處理到底在“處理”些什麼?

自然語言處理到底在“處理”些什麼?

應用場景

a各大內容分發平臺 - 基於內容推薦算法

通過對文章的關鍵詞計算再結合用戶行為特徵兩者之間就能進行匹配和推薦,進而實現精準內容推薦


b話題聚合

根據文章計算的關鍵詞權重,聚合相同標籤的文章,便於用戶對同一話題的文章進行全方位的信息閱讀。


7:文本審核

判斷一段文本內容是否符合網絡發文規範,識別文本中是否包含違禁類型裡面的關鍵字/詞,能夠實現自動化、智能化的文本審核,大幅節省內容審核的人力成本。


應用場景

a用戶信息審核

對網站的註冊信息進行檢測,過濾篩查用戶提交註冊的用戶名或網名暱稱,避免通過用戶名的方式惡意推廣


b用戶評論監控

對網站用戶的評論信息檢測,一旦發現用戶提交惡意垃圾內容,可以做到文本的自動審核與過濾,保證產品良好用戶體驗


c文章內容審核

媒體文章的文本內容審核,自動識別文章中可能存在的推廣、反動、色情信息,避免已發佈文章的線上風險


結語:人與人工智能

“我們把香蕉給猴子,因為它們餓了”和“我們把香蕉給猴子,因為它們熟透了”有同樣的結構。但是代詞“它們”在第一句中指的是“猴子”,在第二句中指的是“香蕉”。如果不瞭解猴子和香蕉的屬性,無法區分,這就是電腦只能處理“字符串”,而人可以解決“意義”。


分享到:


相關文章: