如今,深度學習和自然語言處理發展十分迅速,盤點一下自然語言處理領域有哪些內容。以便對整個領域的發展有一個把握。
整個分類框架可以為人工智能的基礎研究、自然語言處理的基礎研究、自然語言處理的應用
一、基礎性研究
- 網絡架構
提出一些比較好的網絡結構,如圖像領域的resNet、殘差網絡等。
- 優化理論
對優化算法的研究
- 對抗訓練
對人工智能的結果進行一些安全的檢測,防止出現一些應用風險。如deepface這種東西。
- 數據增強
跟圖像領域一樣,涉及到文本數據的增強。
- 半監督學習
- 域遷移
- Meta Learning
也稱Meta Learning / Learning to Learn / One Shot Learning / Few Shot Learning。就是學習了很多任務後,然後對一個新任務能很好地學習。如我們訓練了100個機器翻譯模型,現在要訓練一個語料很少的語種的模型。如何在以前的基礎上進行一個很好的訓練,這是元學習研究的重點。
- Auto ML
自動機器學習,讓計算機自動實驗整個機器學習流程,找出最優的數據處理、參數、模型等,而不用人工去設計網絡、調參。
- 多任務學習
- 集成學習
融合多個模型,分為bagging和boost
- 圖網絡
圖神經網絡,通過使用使用圖狀網絡來進行一些領域的建模。
- 知識圖譜
抽取三元組(實體,關係,實體)就成了知識圖譜,最近研究的熱門是如何將知識圖譜融入到模型的學習中
- 多模態學習
學習多個領域的東西,比如有視頻和文本的數據的處理
- 機器推理
通過數理邏輯的方法實現人工智能,這種方法在一些自然語言處理問題中表現非常突出
NLP研究
- 文本分類
將文本分類,比如給定一篇文章,判斷真新聞還是假新聞。
- 序列標註
包括詞性標註、命名實體識別這些任務
- 關係提取
知識圖譜中,從文本中抽取三元組
- Dependency Parsing
依存句法分析,學習詞與詞之間的依賴關係
- Semantic Parsing
語義解析,將文本數據轉化成sql,比如“查找學生的平均成績”,將這句話轉化成sQL語句。
- 文本生成
自動生成文本,比如自動寫作
- 翻譯
-實體鏈指
當實體有歧義時,需要解決消除歧義,比如一句話中同時出現李娜,這個任務就要識別出李娜是哪個李娜,是打球的還是唱歌的那個。
- 指代消解
將上下文中指代類型的詞消去,比如“特朗普發表了一個重要演講,奧巴馬錶示讚賞,他接下來將要採取行動證明他的觀點”。這個任務是需要把文本中的“他”指代的實體找出來。
NLP綜合性研究
- 對話機器人
先進自然語言處理領域落地最多的場景,也是創業公司主攻的領域。這裡面涉及了非常多的自然語言處理應用,包括了上面自然語言處理研究的很多點,比如詞性標註、命名實體、句法分析、指代消解、對話管理等等。
- 文本校對
- 自動寫作系統
閱讀更多 代碼人老周 的文章