機器學習數學—總結關於線性代數

關於機器學習數學的基礎,我們正在討論線性代數的一些基本概念。我們從向量開始,討論了矩陣,基本矩陣,它們的轉換,特徵向量,特徵值,最重要的是試圖建立將這些概念應用於機器學習的直覺。

在這裡,我們將最後總結關於線性代數的討論,這將有助於理解機器學習。

在機器學習數學的上一部分中,我們討論了特徵值和特徵向量。現在我們知道如何計算它們。我們談到了變更基礎的概念。讓我們結合這兩種學習,看看會發生什麼。

合併特徵向量並更改基礎會發生什麼?我們得到一種稱為對角化的有效執行矩陣運算的方法。如果必須多次執行矩陣乘法會怎樣?讓我們看一下,從一個步驟開始。

機器學習數學—總結關於線性代數

考慮向量v0乘以變換矩陣T,將其位置更改為v1。為了在兩步之後找到v0的位置,我們可以將v1乘以T或將v0乘以T兩次。

機器學習數學—總結關於線性代數

但是您還記得3D空間中矩陣乘法的技巧。如果步數達到數百萬該怎麼辦?假設您需要在兩週後找到v0在太空中的位置!

現在,讓我們觸摸另一個概念。除前導對角線外,所有位置均為0的矩陣稱為對角線矩陣。這個對角矩陣將幫助我們進行更高維度的乘法。

看一看。

機器學習數學—總結關於線性代數

這似乎很容易。但是,如果矩陣不是對角線呢?

如果您從本徵分析中猜到什麼,那是對的!

我們將更改變換矩陣T將成為對角矩陣的基礎。這種變化的基礎就是我們所謂的本徵基礎。

我們已經看到對角矩陣很容易求解。我們可以將其轉換回為n的冪的變換矩陣T。這使工作變得更加容易。

現在讓我們回想一下,轉換矩陣中的每一列實際上都是轉換後的單位矢量的新位置。因此,通過在各列中插入特徵向量,我們可以獲得特徵基改變矩陣。

考慮數學形式的3D空間,它們顯示如下。

機器學習數學—總結關於線性代數

在最後一步之前,請全部修改。應用變換T實際上是轉換為本徵基,應用對角化矩陣,然後再次將其轉換回T。

機器學習數學—總結關於線性代數

在中間,我們看到矩陣乘以它的逆,這根本不起作用。因此,我們可以簡化表達方式。

機器學習數學—總結關於線性代數

最後,我們現在有了一個方程,該方程將幫助我們將T乘以n的冪,而無需花費大的計算成本。

通過幾何解釋,我們總是會更好地理解這個想法。因此,我們來看一個相對簡單的2D示例,並以圖形方式查看該過程。

機器學習數學—總結關於線性代數

考慮變換矩陣T並將其應用於空間中的向量。

機器學習數學—總結關於線性代數

由於第一列是1、0,我們可以看到綠色矢量或i矢量將保持不變。但是,第二個向量j或粉紅色向量將移動到點1 2。此外,考慮點1 1處的橙色向量或對角向量。

機器學習數學—總結關於線性代數

機器學習數學—總結關於線性代數

我們可以將這個特定的轉換分解為兩個轉換。1是垂直縮放比例為2,然後是水平剪切比例的一半。

您認為特徵向量和值是什麼?

這些是

機器學習數學—總結關於線性代數

現在,我們可以使用特徵根方法再次遍歷整個方法。

機器學習數學—總結關於線性代數

我們已經有了具有特徵向量的轉換矩陣C(請參見上文)

機器學習數學—總結關於線性代數

但是,我們需要它的逆函數。當我們選擇了一個更簡單的問題時,我們可以輕鬆地計算出逆。由於C只是向右邁出一步的水平方向。C逆必須在水平方向上位於左側。

機器學習數學—總結關於線性代數

這是我們上面發現的相同結果。

在處理機器學習時,您可能不會手動進行任何操作。但這是目標。瞭解足夠好的概念,計算機可以為您做到!

Google Page排名算法。以1998年Google Larry Page的創建者及其同事的名字命名。此算法旨在確定搜索後網站的顯示順序。現在,請記住,這是在很久以前開發的,當時互聯網上的流量和內容與今天相比並不多。該算法經過多年發展,但核心概念保持不變。

機器學習數學—總結關於線性代數

要考慮的主要點是,網站的重要性取決於其與其他網站之間的鏈接。這正是本徵理論出現的地方。

考慮下圖。假設它是一個微型Internet,其中每個節點都是一個網頁,箭頭是這些網頁之間的鏈接。

機器學習數學—總結關於線性代數

我們有興趣找到與搜索人最相關的網頁。

通過映射所有鏈接,我們可以以某種方式確定用戶在每個網頁上花費的時間。鏈接可以描述為向量,如果有鏈接,則為0;如果沒有鏈接,則為1。我們可以進一步標準化鏈接以獲得該頁面的概率。

例如,來自網頁A的鏈接向量將具有值0、1、1、1、1。然後我們將使用向量3進行歸一化,因為頁面A總共有3個鏈接。通過這種方式,我們的概率總和為1。

機器學習數學—總結關於線性代數

我們現在可以使用這些鏈接向量作為列向量來形成鏈接矩陣。此矩陣將幫助我們找出在每個頁面上著陸的可能性。

機器學習數學—總結關於線性代數

就像到達A的唯一方法是通過B。到達B的概率只能通過A和D來確定。這表明所有頁面上的排名取決於其他頁面。

現在嘗試在表達式中進行總結。

考慮向量r來存儲所有頁面的等級。要計算說出頁面A的等級,我們應該知道三件事。

你的等級是多少?

您是否鏈接到A頁?

您總共有多少個傳出鏈接?

機器學習數學—總結關於線性代數

其中n是與頁面A和位置j相關的鏈接矩陣的網頁總數,乘以位置j的等級。這將滾動瀏覽我們所有的網頁。

因此,頁面A的等級是所有鏈接到頁面A的頁面的等級的總和,以它們從矩陣L中獲得的鏈接概率加權。我們可以為所有頁​​面編寫這樣的表達式,然後同時求解。修改線性代數,我們可以通過矩陣乘法來實現。

r = Lr

對於r,請考慮所有頁面均等排名,然後以本例中4的頁面總數對其進行標準化。

機器學習數學—總結關於線性代數

重複應用此表達式意味著我們正在迭代計算它。r的值不斷更新,並最終停止更改。r現在是特徵值為1的特徵向量。

您可能會認為,使用對角線化方法可以迭代地求解L。但是請記住,要應用對角線化,我們必須首先知道特徵向量,這就是我們正在嘗試做的事情。

現在,我們可以將上述方程式提供給計算機,以迭代地求解直到達到秩向量。

機器學習數學—總結關於線性代數

上圖顯示,某人可能將其40%的時間花在D頁上,12%在A頁上以及24%在B和C頁上。

這樣,我們獲得了4頁的排名,其中D頁位於頂部,A頁位於最後。

有多種方法可以有效地計算特徵向量,但是將隨機選擇的初始向量與矩陣重複乘以冪(稱為冪法)對於頁面秩問題最有效。主要由於2個原因。

首先,冪法給您一個特徵向量。我們已經構造了鏈接矩陣,以使其給出的向量始終是我們想要找到的特徵值為1的向量。

其次,在現實世界中,Internet鏈接矩陣會將大多數值設置為0。因為並非所有網頁都相互鏈接。這種稱為稀疏矩陣的矩陣可以通過可輕鬆實現乘法的算法輕鬆解決。

今天的互聯網擁有超過10億個網頁,而1998年只有幾百萬個。為了提高效率,已經對排名和搜索算法進行了改進,但是核心概念保持不變。

我們已經非常淺層地討論了頁面排名算法的工作原理。但是希望我們對工作原理有了基本的瞭解,可以自己將其應用於某些機器學習網絡。

結論:

這就是我們對理解機器學習很重要的線性代數概念的結尾。在這個機器學習的數學中,我們總結了特徵向量和特徵值的主題。我們還研究了谷歌頁面排名問題的實際應用。

希望能幫助你更好地理解線性代數的一個重要主題,即特徵分析。在機器學習數學系列的其餘部分中,我們將研究更多的數學概念,以更好地實現和理解機器學習。


分享到:


相關文章: