楊楣
最常用的方法是將文本轉成
嵌入(embedding)之後,計算其餘弦相似度(cosine similarity)。詞嵌入最常用的方法是word2vec和Glove。
word2vec,顧名思義,就是將單詞轉換為向量:
(圖片來源:adventuresinmachinelearning.com)
具體的轉換方法,是用基於線性激活和softmax的神經網絡模型:
(圖片來源:adventuresinmachinelearning.com)
簡單來說,word2vec是通過模型基於上下文“預測”目標單詞。Glove則是基於上下文進行“降維”,將高維數據(原文本)轉換為低維數據(向量),並最小化重建誤差。
得到文本的向量表示後,就可以很方便地計算餘弦相似度了。