機器學習之---降維

//本文為作者原創,在同名公眾號和CSDN賬號同步發佈,歡迎大家關注//

用於機器學習的數據集往往會包含很多特徵變量,有時候會存在特徵變量重複和相關的問題,這樣會導致計算量增加甚至會過擬合,這時候需要將高維冗雜的數據進行降維,常用的降維算法是主成分分析法(PCA)。


機器學習之---降維

PCA算法原理:PCA算法是將存在相互關係的特徵變量經過變換後形成一組新的特徵變量,這組特徵變量之間是相互獨立線性無關。如果一組二維數據在座標系中滿足線性關係,那麼通過擬合法擬合一條直線,使二維數據上的點到直線的垂直距離最小。然後將二維點投影到所擬合的直線上,形成新的一維數據。三維數據選擇某個面,將數據點投影到面上形成二維數據。以此類推將高維數據降成低維數據。

準備工作:PCA算法需要將數值均值化處理,具體原理與其他學習算法中特徵算法縮放類似,目的是解決數據數值大小差異問題。其基本方法是計算數據均值,然後將每個數據減去均值然後除以該數據的偏差標準。

降維標準:數據維度的壓縮程度是數據能保持原先數據方差的百分比衡量的,通過約束百分比來確定數據壓縮到的維數。

常見問題解答:

1、整個數據集都需要將為操作嗎?數據壓縮降維只能應用在訓練集,對於驗證集和測試集的特徵向量使用數據對應關係進行轉換,轉換後在輸入到算法中計算。

2、可以使用降維的方法來解決過擬合問題嗎? 不可以!數據壓縮後會失去部分特徵的本質,所以儘量不要採取數據壓縮的方式解決過擬合問題,一些樣本對原始特徵依賴程度很高,有時降維後新的特徵並不具有良好的分類效果。

3、數據壓縮降維後還能解壓嗎?能,壓縮後的數據還能通過關係式逆運算來解壓縮。

4、什麼樣的數據集需要降維?隨著維度增加分類器性能逐漸提升,但到達一定某點後會下降,造成維數災難。即一些並不是很重要的特徵使維數上升,這時就需要降維。

//若有不足歡迎大家交流指正指正//


分享到:


相關文章: