數據分析師需要掌握的10個統計方法(下)

數據分析師需要掌握的10個統計方法(下)

在上篇文章中,我們介紹了線性迴歸、分類、重採樣方法、子集選擇、特徵縮減技術5種統計方法。接下來我們繼續介紹其他的5種。

6、維數縮減(DimensionReduction)

維數縮減將估計p + 1個係數的問題簡化為M +1個係數的簡單問題,其中M

數據分析師需要掌握的10個統計方法(下)

  • 可以將主成分迴歸描述為從大量變量中導出低維特徵集合的方法。數據的第一主成分方向是觀測值變化最大的。換句話說,第一臺PC是儘可能接近數據的一條線。人們可以適應不同的主要組成部分。第二個PC是與第一個PC不相關的變量的線性組合,並且受這個約束的變化最大。這個想法是,主要組件在隨後的正交方向上使用數據的線性組合捕獲數據中最大的方差。通過這種方式,我們也可以結合相關變量的效果,從可用數據中獲取更多信息,而在正則最小二乘中,我們將不得不放棄其中一個相關變量。

  • 我們上面描述的PCR方法包括確定最能代表預測因子的X的線性組合。這些組合(方向)以無監督的方式被識別,因為響應Y不用於幫助確定主要組件方向。也就是說,響應Y不監督主成分的識別,因此不能保證最能解釋預測因子的方向對於預測響應(即使經常假設)也是最好的。偏最小二乘法(PLS)是PCR的監督替代方法。與PCR一樣,PLS是一種降維方法,它首先識別一組新的較小的特徵,這些特徵是原始特徵的線性組合,然後通過最小二乘法擬合一個線性模型到新的M特徵。然而,與PCR不同的是,PLS利用響應變量來識別新的特徵。

7、非線性模型(NonlinearModels)

在統計學中,非線性迴歸是迴歸分析的一種形式,其中觀測數據是由一個函數建模的,該函數是模型參數的非線性組合,並取決於一個或多個自變量。數據通過逐次逼近的方法進行擬合。以下是一些處理非線性模型的重要技巧:

數據分析師需要掌握的10個統計方法(下)

  • 一個實數函數被稱為階段函數(或者階梯函數),則它可以被寫作:有限的間隔指標函數的線性組合。不正規的說法是,一個階段函數就是一個分段常值函數,只是含有的階段很多但是有限。

  • 分段函數是對於自變量x的不同的取值範圍,有著不同的對應法則,這樣的函數通常叫做分段函數。它是一個函數,而不是幾個函數。分段函數的定義域是各段函數定義域的並集,值域也是各段函數值域的並集。例如,分段多項式函數是在其每個子域上是多項式的函數,但是每個子域上可能是不同的。

  • 樣條函數是由多項式分段定義的特殊函數。在計算機圖形學中,樣條是指分段多項式參數曲線。由於其結構簡單,評估方便和準確,以及通過曲線擬合和交互式曲線設計逼近複雜形狀的能力,樣條曲線非常流行。

  • 廣義加性模型是線性預測器線性依賴於某些預測變量的未知光滑函數的廣義線性模型,側重於這些光滑函數的推理。

8、基於樹的方法(Tree-BasedMethods)

基於樹的方法可以用於迴歸和分類問題。這些涉及將預測空間分層或分割成若干簡單區域。由於用於分割預測變量空間的分裂規則集合可以在樹中進行概括,所以這些類型的方法被稱為決策樹方法。下面的方法生成多個樹,然後結合在一起產生一個單一的共識預測。

數據分析師需要掌握的10個統計方法(下)

  • 套袋(Bagging)是減少預測方差的方法,通過使用重複組合來生成原始數據集中的訓練數據,從而生成與原始數據相同的多樣性。通過增加你的訓練集的大小,你不能提高模型的預測力,但只是減少方差,狹義地調整預測到預期的結果。

  • 提升(Boosting)是一種使用幾種不同的模型計算產出的方法,然後使用加權平均方法對結果進行平均。通過改變你的加權公式,結合這些方法的優點和缺陷,你可以使用不同的狹義調整模型,為更廣泛的輸入數據提供一個很好的預測力。

  • 隨機森林算法(randomforest)是用隨機的方式建立一個森林,森林裡面有很多的決策樹組成,隨機森林的每一棵決策樹之間是沒有關聯的。在得到森林之後,當有一個新的輸入樣本進入的時候,就讓森林中的每一棵決策樹分別進行一下判斷,看看這個樣本應該屬於哪一類(對於分類算法),然後看看哪一類被選擇最多,就預測這個樣本為那一類。

9、支持向量機(Support VectorMachines)

SVM是常見的一種判別方法。在機器學習領域,是一個有監督的學習模型,通常用來進行模式識別、分類以及迴歸分析。通俗地說,它包括找到超平面(2D中的線,3D中的平面和更高維中的超平面),更正式地說,超平面是n維空間中的n維空間)最大保證金從本質上講,它是一個約束優化問題,其邊界被最大化,受限於它對數據進行了完美的分類(硬邊緣)。

數據分析師需要掌握的10個統計方法(下)

這種“支持”這個超平面的數據點被稱為“支持向量”。在上圖中,填充的藍色圓圈和兩個實心方塊是支持向量。對於兩類數據不能線性分離的情況,這些點被投影到可能線性分離的分解(高維)空間。涉及多個類的問題可以分解為多個一對一或者一對二的分類問題。

10、無監督學習(UnsupervisedLearning)

到目前為止,我們只討論了監督學習技術,其中組是已知的,提供給算法的經驗是實際實體和它們所屬的組之間的關係。當數據的組(類別)未知時,可以使用另一組技術。它們被稱為無監督的,因為它留在學習算法中以找出所提供的數據中的模式。聚類是無監督學習的一個例子,其中不同的數據集被聚類為密切相關的項目組。下面是最廣泛使用的無監督學習算法的列表:

數據分析師需要掌握的10個統計方法(下)

  • 主成分分析通過識別一組具有最大方差和相互不相關的特徵的線性組合來幫助產生數據集的低維表示。這種線性維度技術有助於理解變量在無監督環境下的潛在相互作用。

  • k-Means聚類:根據到群集質心的距離將數據分為k個不同的聚類。

  • 分層集群:通過創建集群樹來構建集群的多級分層結構。

以上10種方法是基本的統計方法,可以幫助數據科學項目的管理人員更好地理解他們的團隊底層正在運行的是什麼。實際上,一些數據科學小組純粹通過python和R運行算法。他們中的大多數甚至不必考慮潛在的數學問題。

但是,能夠理解統計分析的基礎知識可以為您的團隊提供更好的方法。深入瞭解最底層的原理可以更輕鬆地進行操作和抽象。希望這個基礎的數據科學統計指南給您帶來更深層次的理解!

使用“壹看板”,大數據可視化分析,人人可做數據分析師!


分享到:


相關文章: