機器學習中的NLP文本相似性,它是如何工作的以及它背後的數學?

楊楣


最常用的方法是將文本轉成

嵌入(embedding)之後,計算其餘弦相似度(cosine similarity)

詞嵌入最常用的方法是word2vecGlove

word2vec,顧名思義,就是將單詞轉換為向量:

(圖片來源:adventuresinmachinelearning.com)

具體的轉換方法,是用基於線性激活和softmax的神經網絡模型:

(圖片來源:adventuresinmachinelearning.com)

簡單來說,word2vec是通過模型基於上下文“預測”目標單詞。Glove則是基於上下文進行“降維”,將高維數據(原文本)轉換為低維數據(向量),並最小化重建誤差。

得到文本的向量表示後,就可以很方便地計算餘弦相似度了。


分享到:


相關文章: