爲什麼說統計學在機器學習中占有重要作用

統計是一組工具,你可以使用這些工具來探求數據方面的重要問題。

你可以使用描述性統計方法將原始觀測數據轉換為你可以理解和共享的信息,也可以使用推斷統計方法,通過數據的小樣本對整個域進行推理。

在這篇文章中,你將明晰為什麼統計對於通用應用和機器學習如此重要,並大致瞭解各種可用的方法。

本文中你將瞭解到:

  • 統計通常被認為是應用機器學習領域的先決條件。
  • 我們需要利用統計將觀測結果轉化為信息,並回答有關觀測樣本的問題。
  • 統計是數百年來開發的一組工具,用於彙總數據和量化給定觀測樣本的域的屬性。
為什麼說統計學在機器學習中佔有重要作用

統計是必備的先決條件

機器學習和統計是兩個密切相關的研究領域,統計學家把機器學習稱為“應用統計”或“統計學習”,而不是以計算機科學為主來命名。

對於初學者而言,機器學習的前提是他應具備一定的統計學背景。我們可以用挑選櫻桃的例子來做個解釋。

請先看一本流行的實用機器學習書《應用預測建模》中的一句話:

”讀者應掌握一些基本統計知識,包括方差、相關、簡單線性迴歸和基本假設檢驗(如p值和檢驗統計)“

——《應用預測建模》

2013年 第7頁

流行書籍《統計學習入門》中也有這樣的例子:

”我們期望讀者至少有一門統計學基礎課程。“

——《統計學習介紹及其在R語言中的應用》

2013年 第9頁

即使統計學不是先決條件,但還是需要一些簡單的先導知識,正如廣為人知的《編程集體智慧》一書的引語所言:

“這本書並不認為你事先就知道[…]或統計學[…] 但是,掌握一些三角學和基本統計知識將有助於你理解算法。”

——《編程集體智慧:構建智能Web 2.0應用程序》

2007年 第13頁

為了能夠更好地理解機器學習,需要對統計學有一些基本的概念。

欲知其中緣由,我們首先必須明白為何要了解統計學領域的知識。

為什麼要學統計學?

單獨的原始觀察數據只是數據,它們還不是信息或知識。

有了原始數據,那麼接下來的問題是:

  • 什麼是最常見或可預期的觀測?
  • 觀測的限制條件是什麼?
  • 數據是什麼樣子的?

雖然這些問題看起來很簡單,但必須回答這些問題,才能將原始觀察的數據轉化為我們可以使用和分享的信息。

除了原始數據,我們還可以設計實驗來採集觀測數據。根據這些實驗結果,我們可能獲得更為複雜的問題,例如:

  • 哪些變量是最相關的?
  • 兩個實驗的結果有什麼不同?
  • 數據中的差異是真實的還是噪聲的結果?

這類問題很重要,其結果對項目、利益相關者和有效決策都很重要。

我們需要用統計方法來找到數據問題的答案。

這樣看來,我們需要利用統計方法,不但用它來了解用於訓練機器學習模型的數據,而且用它來解釋測試不同機器學習模型的結果。

這只是冰山一角,因為預測建模項目的每一步都需要用到統計方法。

什麼是統計學?

統計學是數學的一個子領域。

它指的是處理數據和使用數據回答問題的方法集合。

統計學是對疑難問題進行數值猜想的藝術。[…]這些方法是幾百年來由那些為自己的問題尋找答案的人開發出來的。

——《統計》第四版

2007年 第13頁

由於該領域採用抓鬥袋的方法來處理數據,對於初學者來說,它可能看起來大而無形。統計方法和其他研究領域的方法之間很難區分開來。通常,一種技術既可以是一種經典的統計方法,也可以是一種用於特徵選擇或建模的現代算法。

雖然統計知識並非沒有深奧的理論知識,但從統計與概率的關係中得出的一些重要、容易理解的定理,可以提供有價值的理論基礎。

舉兩個例子:大數定律和中心極限定理。

第一個可以幫助我們理解為什麼較大的樣本往往更好,第二個定理為我們比較樣本之間的期望值(例如:平均值)提供基礎。

當涉及我們在實踐中使用的統計工具時,可以將統計領域分為兩大類:

  • 描述性統計用於總結數據
  • 推理統計用於從數據樣本中得出結論

"統計數據使研究人員能夠從大量的採集到的信息或數據,從中總結出典型的經驗。[…]統計數據也用導出關於群體間普遍差異的結論。[…]統計數據也可以用來判斷兩個變量的得分是否相關,並進行預測。"

——《統計概述》 第三版

2010年 第9—10頁

描述統計(學)

描述性統計是指將觀察到的原始數據彙總成我們可以理解和共享的信息的方法。

通常,我們認為描述性統計是對數據樣本統計值的計算,以便總結數據樣本的屬性,例如共同的期望值(例如平均值或中值)和數據的價差(例如方差或標準偏差)。

描述性統計還涵蓋利用圖形方法對數據樣本進行可視化。圖表和圖形可以提供對觀測的形狀或分佈以及變量的相關做出定性理解。

推斷統計

推斷統計是一個有意思的名稱,它是通過從一組較小的被稱為樣本的觀察數據進行量化從而提煉出域或總體屬性的方法。

通常,我們認為推斷統計是從總體分佈中估計出特徵值,如期望值或價差的估計等等。

可以利用複雜的統計推斷工具來量化給定觀測數據樣本的概率。這些工具通常被稱為統計假設檢驗工具,其中檢驗的基本假設稱為零假設。

有許多推斷統計方法的例子,為增加測試數據的正確性,我們可以對假設的範圍做出限定。

延展閱讀

如果你想深入研究,本節將提供更多關於該主題的資源。

書籍

  • 《應用預測建模》,2013年
  • 《R語言應用程序統計學習導論》,2013年
  • 《編程集智能:構建智能Web 2.0應用程序》,2007年
  • 《統計》,第四版,2007年
  • 《統計:統計推斷的簡明課程》,2004年
  • 《簡明統計》,第三版,2010年。

文章

  • 維基百科上的統計
  • 門戶:維基百科上的統計
  • 維基百科上的統計文章列表
  • 維基百科上的數理統計
  • 維基百科上的統計歷史
  • 維基百科的描述性統計
  • 對維基百科的統計推斷

總結

在這篇文章中,你已明晰為什麼統計在機器學習中如此重要,對於機器學習,統計提供了許多通用且可行的方法。

具體而言,總結如下:

  • 統計通常被認為是機器學習領域的先決條件。
  • 我們需要統計數據來將觀測結果轉化為信息,並回答有關觀測樣本的問題。
  • 統計是數百年來開發的一組工具,用於彙總數據和量化給定觀測樣本的域的屬性。

來自大數據文摘


分享到:


相關文章: