流形學習:背後的理論

流形學習:背後的理論

流形學習已經成為幾何學的一個激動人心的應用,特別是微分幾何學在機器學習中的應用。理解算法背後的理論將有利於更有效地應用算法。

我們將闡述什麼是流行學習方式,以及它在機器學習中的應用。流形學習使用高維數據的幾何屬性來實現以下內容:

  1. 聚類:查找類似點的組。給定{X1,...,Xn},構建函數f:X到{1,...,k}。兩個“close”點應該在同一個聚類中。
  2. 降維:Project points指向較低維空間,同時保留結構。給定R ^ D中的{X1,...,Xn},構建函數f:R ^ D到R ^ d,其中d
  3. 半監督,監督:給定標記和未標記點,建立標記函數。給定{(X1,Y1),...,(Xn,Yn)},構建f:X到Y.兩個“close”點應該具有相同的標籤。

使用數據分佈進一步細化“closeness”的概念。有一些框架可通過以下方式實現:

  1. 概率觀點:密度縮短了距離
  2. 聚類視點:連接區域中的點共享相同的屬性
  3. 流形觀點:距離應該“沿著”數據流形測量
  4. 混合版本:兩個“close”點是通過高密度區域的短路徑連接的點

我們將要討論的第一個想法是拉普拉斯正則化,它可以用作機器學習中監督和半監督學習中的正則化器,以及可以通過投影到Laplaican最後一個特徵向量來降低維度。

讓我們理解拉普拉斯在這種情況下的含義。拉普拉斯算子僅僅是度矩陣(這是對每個頂點入射的邊數的度量)減去鄰接矩陣(這是衡量各個頂點如何相互連接的度量)。現在我們準備開始理解第一種方法:拉普拉斯正則化

拉普拉斯正則化

正則化在減少過度擬合和確保機器學習模型不會過於複雜方面非常有用。使用laplacian進行規範化擴展了Tikhonov正則化中首次使用的思想,該理論應用於再生核希爾伯特空間(RKHS)。

我們不需要深入研究RKHS,但是我們必須要理解的主要結果是在RKHS中,對於函數空間X中的每個函數x,在kernel中存在一個允許的唯一元素K_x,它允許我們定義一個範數|| f || 對於代表RKHS中函數複雜性的每個函數(在機器學習的情況下學習的映射函數),我們可以使用它來規範算法。所以問題就會變成

流形學習:背後的理論

這個regulariser 被稱為extrinsic regulariser。現在laplacian正則化增加了另一個稱為intrinsic regulariser的regulariser ,它考慮了流形(manifold)的內在幾何,並用它來規範算法。如何定義regulariser 有多種選擇,但大多數定義都圍繞著manifold上的梯度。我們希望regulariser在不需要時(當數據密集時)懲罰複雜的函數。換句話說,當數據密集時,我們希望函數是平滑的,這也意味著當數據的邊際概率密度很大時,函數manifold 上的梯度必須很小。這被形式化為

流形學習:背後的理論

如果我們能直接計算這個積分,那就太棒了,但就像大多數機器學習概念一樣,實現它需要使用可用數據進行某種形式的估計。在這種情況下,我們需要將數據點看作是圖上的點,並基於某種距離的概念將它們連接起來。這通常是通過實現某個函數和設置一個條件來實現的,如果距離(使用函數導出)小於一個特定的值,那麼這兩個點與一條邊相連。其中一個函數是標準高斯函數:

流形學習:背後的理論

現在我們需要一種估計積分的方法。遍歷完整的推導過程會使這篇文章太長,因此我將概述所涉及的主要思想:使用Stokes定理和Laplacian approximates Laplace-Beltrami算子的事實,我們可以得到大量數據點的近似積分。因此,可以估計該regulariser 的性能

流形學習:背後的理論

其中f是數據函數的向量值,n是數據點的數量(標記和未標記)。所以現在要解決的最後一個問題就變成了

流形學習:背後的理論

與其他內核方法一樣,主要缺點是Hilbert空間可能是無限維的,如果無法明確地找到正則化,則無法在空間中搜索解。因此,在正則化上強加某些條件(嚴格單調遞增實值函數)並使用著名的表達式定理,我們可以將所需函數分解為權重α的有限維空間,這樣

流形學習:背後的理論

現在我們只需要搜索alpha的有限維空間來解決我們想要的函數。

與L1或L2正則化相比,這是一個更復雜的正則化,但它與數據的幾何結構密切相關,並且在確保機器學習模型不過度擬合方面似乎有所回報。

拉普拉斯特徵映射

Laplacian特徵映射使用了與上述正則化相似的推理,只是它被應用於降維而不是正則化。我們首先生成一個以頂點為數據點的圖,並將具有特定距離(確切地說是歐幾里得)且間隔更小的點連接起來。然後根據Heat kernel加入權重。最後計算特徵值和特徵向量,利用最小特徵向量將數據空間嵌入到m維空間中。在形式上,

流形學習:背後的理論

解決這個特徵向量問題

流形學習:背後的理論

現在我們可以將數據投影到第一個m特徵向量f1 ... fm上,有效地減少了數據的維數。

結論

回顧一下,我們介紹了流形學習的內容,利用數據的幾何形狀來提高機器學習算法的效率(通過減少過度擬合或維度)。接下來,我們討論了兩個程序,特別是拉普拉斯正則化和拉普拉斯特徵映射。它們都建立在圖論和微分幾何上,理解它們背後的理論將有助於知道何時部署哪個程序以及某些數據結構如何影響這些程序的效率。


分享到:


相關文章: