餘弦相似度與 歐幾里得度量的區別

兩者都是評定個體間差異大小。歐幾里得距離度量會受指標不同單位刻度(如秒、毫秒)的影響,所以一般需要先進行標準化。空間向量餘弦夾角的相似度度量不會受指標刻度的影響,餘弦值區間位[-1,1]。

定義上的區別

歐式距離(Euclidean Distance

歐氏距離就是我們平常所說的兩點直線距離,即n維空間中兩個點之間的實際距離,歐式距離越小相似度越大。

餘弦相似度與 歐幾里得度量的區別

餘弦相似度

餘弦相似度用向量空間中兩個向量夾角的餘弦值作為衡量兩個個體間差異的大小。更加註重兩個向量在方向上的差異,而非距離或長度上。兩個向量越相似夾角越小,餘弦值越大。

餘弦相似度與 歐幾里得度量的區別

從下面三維座標系圖可以看出,歐氏距離dis(A,B)衡量的是空間各點的絕對距離,跟各個點的絕對座標相關,體現的是距離上的差異。而餘弦距離(Cosθ)衡量的是空間向量的夾角,體現在方向(維度)上的差異,而不是距離或數值。

餘弦相似度與 歐幾里得度量的區別

應用上的區別

如某A股票(400,800)從400塊漲到了800塊,某B股票(4,8)從4塊漲到了8塊B(4,8),同樣都是漲了50%,如果想要衡量股票的漲勢,則可以通過餘弦相似度度量,發現A/B股票漲勢相似度高(相同)。如果想要衡量股票價值,顯然需要使用歐氏距離來衡量,發現A股票價值明顯高於B股票,A/B股票相似度低。


分享到:


相關文章: