我以前雖然在研究中用過一些NLP相關方法,但是都僅限於最基礎的應用,最近開始系統性地自學NLP。將學習過程進度以及遇到問題的解決方案記錄於此,不求踩出一條路,只求為其他自學的朋友踩掉一些坑。
NLP基本大綱
首先,我依據以前的瞭解和收集的各處教程、網課,整理了NLP主要的學習大綱。因為一些方法我並沒有用過也不瞭解,所以可能邏輯上會存在問題,以後理解深刻會逐漸更正。
算法模型
概率圖模型、馬爾科夫過程、隱馬爾科夫過程、馬爾科夫網、最大熵模型、條件隨機場(CRF)
深度學習
支持向量機、LSTM、BERT
詞彙級
語法分析:中文分詞、詞性標註、命名實體識別(人名、地名、機構名、日期)、新詞發現
語義分析:語義表示、語義消歧
語義關係:語義關係建模、語義關係抽取、語義關係計算
句子級
語句變換:近義詞替換、語義歸一化、省略糾錯
語句解析:句法結構分析、依存結構分析
語句表示:語義表示、文本分類、句子相似度
語義分析:關鍵詞提取(TF-IDF、TextRank)、特徵提取(特徵提取與權重計算)、句意理解、意圖識別、情感分析、語境分析
語句生成:規則模板、知識圖譜、機器翻譯
段落/篇章級
單文本分析:文本摘要、文本主題、文本分析、文檔結構分析、文本語義分析、情感分析
多文本分析:文本主題、文本分類、文本排重、文本聚類、詞向量、文檔相似度、主題模型(LDA)、PLSA
綜合性任務
問答系統(問題分析、信息檢索、答案抽取)、自動摘要(自動文摘)、機器翻譯、信息檢索(布爾模型、向量空間模型、概率模型)、文檔分類、信息過濾、信息提取、文本挖掘、輿情分析、機器寫作、語音識別
閱讀更多 數據藝術家 的文章