2020-01-14 13:08:14 聞數起舞

尋找統計上的統一範式

序幕

我的記憶力很差。

在大學裡，我的初戀是生物學，但由於他們對記憶的重視，最終我的班級向我關上了大門。我被數學吸引了，因為我不需要記住任何東西。在數學上，重點是我們如何瞭解某些知識。如果您自己無法證明結果，那麼您將無法理解。

由於某些原因，仍然經常通過列出適用於各種情況的測試來教授統計數據。複雜的流程圖以及更具體的統計測試。

A statistical flow chart for testing hypothesis about the mean.

這導致統計測試的混亂和誤用。沒關係，因為我有一些好消息。基本統計信息可以分為三個部分：

採樣
置信區間
迴歸

對於具有數據科學和/或機器學習背景的人來說，這是個好消息。由於迴歸是大多數機器學習研究的起點，因此它意味著您已經在進行統計假設檢驗（也許不知道）。在本文中，我將通過一些示例說明如何從迴歸角度考慮常見的統計檢驗，從而著重於此的最後一步。

線性迴歸快速回顧

在線性迴歸中，我們為特徵x和響應變量y之間的關係建立了線性模型。

該模型是統計模型，因為假設ε是隨機的。

The noise term, assumed to be normally distributed in ordinary least squares (OLS)

這是一個數學模型。這是我們精確指定數據集假設的一種方法。每當我們構建模型時，記住著名的引用都是很有用的：

所有模型都是錯誤的，但有些模型很有用。 —喬治·沃克斯

模型是對現實世界複雜性的抽象和簡化。由於它們是一種簡化，因此它們始終是錯誤的，但是它們可能會捕獲一些重要的想法。

舉例來說，我們考慮一下1991年至2018年間帶有NBA選秀權的數據集（您可以從我的網站下載該數據集）。我們可能會看選秀次數和平均每場職業得分之間的關係。在下面的散點圖中顯示了這一點，同時顯示了與數據的最佳擬合迴歸線。

Linear Regression on the NBA draft picks and their career PPG average for 737 draft picks from 1991–2018. Note the points have been randomly jittered to avoid overlaps on the scatter plots

最佳擬合迴歸線如下：

Best fit linear regression model

通常通過最小化殘差平方來找到最適合線性迴歸的方法。

LS cost function for N data points.

在這裡，我將不討論成本函數的實際最小化。可以說，我們可以使用線性代數的一些技巧，很快找到此成本函數的全局最小值。這為我們提供了一些最佳的坡度和截距擬合參數。

分類變量的迴歸

我們還可以對本質上屬於分類的特徵執行迴歸。這裡的竅門是對分類變量進行所謂的熱編碼。想法是將分類級別轉換為指標變量（δ）。如果輸入屬於其指定級別，則這些δ將為1，否則為零。

例如，對於" NBA選秀"數據，讓我們將"簽到號碼"列分為"彩票籤"（≤14）和"非彩票籤"（NL）。

然後，我們可以尋找這兩組玩家的平均每局得分差異。

Encoded regression model. δ is zero if not a lottery pick and one otherwise.

這是此數據的圖，其中顯示了迴歸線。

現在，斜率項β給出了非彩票選擇（x = 0）和彩票選擇（x = 1）之間每場比賽的平均得分之差。這裡的輕微上升趨勢表明，我們有一些證據表明，樂透彩票在他們的職業生涯中趨向於平均得分更高。

當然，這種趨勢是基於對玩家的隨機抽樣得出的，因此，如果我們收集新的樣本，這種上升趨勢可能會消失。為了解決由於隨機採樣而引起的這種變化，我們可以形成斜率的置信區間。

對於上面的彩票選擇示例，我們為參數找到以下95％的置信區間：

β∈（3.48，4.78）

α∈（6.65,7.57）

這告訴我們，職業生涯PPG彩票簽到非彩票籤的平均差很可能在3.48和4.78之間。這使我們對效果的方向（正）和效果的大小（3.5-4.8點）都有一個瞭解。

我們可以看到該斜率的間隔不包含零。這告訴我們，如果我們重新採樣數據，我們不太可能看到這種趨勢的逆轉。如果我們將置信度從95％提高到說99％，我們將看到間隔寬度將增加。為了減少錯誤，我們需要更大範圍的值。

現在，我們可以玩增加（100-p）％置信區間的遊戲，直到該區間在左側剛剛達到0為止。該值稱為p值。

The p-value for the null hypothesis that the slope is zero can be found by steadily increasing the width of the CI until it touches the null hypothesis region.

如果Null假設為真（即H（：β= 0），則P值賦予P（D |H₀）觀察數據的可能性。

兩次樣本t檢驗

在某些情況下，我們可能只關心效果的方向，而不關心效果的大小。這屬於統計檢驗的範疇，稱為二樣本t檢驗。在基礎統計學課程中，我們被教導使用兩個樣本的t檢驗來評估在兩種條件下收集的數據，以證明平均值存在差異。這是經典的對照組與實驗組。

為了在R中執行此測試，我首先要從相當大的草稿數據集中製作一個較小的數據集。下面的命令只是生成100個玩家的隨機子集供我們比較。我還為數據集創建了一個彩票欄，以供參考。

Setting up our two groups for a two sample t test. Use the seed so you could get the same values as me.

現在我們準備在R中運行t檢驗。

We ran a two sample t-test to look for a difference in the mean career points per game average between Lottery and Non Lottery picks in the NBA.

現在注意結果中的p值。在此，相對較小的值表示在給出零假設的情況下不太可能獲得數據。

現在，將其作為具有分類特徵的線性迴歸進行。

在這裡，我將為簡單的線性迴歸顯示R中的summary命令的結果。

我強調了重要的一面。將此與我們使用兩個樣本t檢驗發現的結果進行比較。 t值（直到符號）和p值相同！

另外，在查看R中的迴歸摘要時，請注意，摘要的最後一行重複了相同的p值。這是在整個迴歸模型上進行F檢驗的結果。

該測試告訴我們模型中的任何特徵是否以統計上顯著的方式偏離零。當然，在這種簡單情況下，我們只有一個功能，因此模型上的F檢驗和彩票功能上的t檢驗是完全一樣的。在多元迴歸（一個以上的特徵）中，這些將有所不同。

方差分析和多元迴歸

假設我們要評估球員排名對其職業平均得分的影響。首先，我們應該清理數據集中的位置列的級別。

Using the forcats package in R to clean up the levels of the Position(Pos) column. Here we merge some categories together to get just C,F,G as the positions.

然後，我們可以按職位繪製職位職業得分的圖：

Box plot of the effect of position on career scoring numbers for our sample of nba players.

我們可能想知道這些組的均值是否真的不同，或者觀察到的差異是否也可以通過抽樣誤差來解釋。在經典統計中，我們會說我們要進行單向方差分析（方差分析）。這可以在R中輕鬆完成：

ANOVA in R, notice the p-value is given on the far right p=0.0813.

現在我們也可以將此作為迴歸。我們的迴歸模型具有以下形式：

現在，alpha截距值告訴我們中心的平均值，兩個斜率告訴我們相對於中心值的點。

這一切都在R的後臺完成。這是輸出：

將回歸輸出中的最後一行（F檢驗）與ANOVA輸出進行比較。我們再次看到相同的結果！

這告訴我們一種方法，方差分析只是具有分類特徵的線性迴歸模型，具有兩個以上的層次。所使用的檢驗具有零假設，即所有斜率均為零。

兩向方差分析

通過兩種方差分析，我們使用兩個分類特徵來預測連續響應變量。

讓我們使用Tm（起草小組）和Pos（位置）列處理草稿數據集。雙向方差分析需要更多數據來擬合模型，因此我們將使用完整數據集而不是精簡數據集。首先，我運行下面的兩個命令來清理兩個分類功能級別。

Clean-up the team and position columns for the entire draft data set. These are using the forcats package

在這種情況下，我們的線性模型採用以下形式：

第一個總和是虛擬編碼的團隊變量，第二個是職位類別。所有這些都很好地在R中完成。要執行分析，我們可以使用以下方法建立線性模型：

Build a two-way ANOVA linear model

唯一的變化是我們應該在模型上使用anova（）命令，而不是通常的summary（）。這將顯示以下結果：

這兩行告訴我們，我們有證據表明職位對職業分數很重要，但是我們沒有足夠的證據得出團隊重要的結論。您現在可能會看到如何使用多元迴歸執行N向ANOVA。

ANCOVA分析

如果我們在迴歸中添加連續特徵，則現在會使用另一個名稱（ANCOVA =協方差分析）。這樣做的動機可能是因為我們已經看到位置對NBA球員來說至關重要，但這可能僅僅是因為某些位置上的上場時間比其他位置上的要多。

通過將其作為模型中的一項功能，我們可以控制上場時間的效果。首先，我將重新縮放分鐘數列（MP），以使平均值為零且標準差設置為1。這樣做的動機是，否則我們在線性模型中的截取實際上是無用的，因為這會給平均每場0分鐘的中鋒提供職業PPG。現在，截距將解釋一個平均每場比賽上場時間的中鋒的平均PPG。也許是一口，但更有意義。

Scale the minutes played column

這是繪製的分鐘數與每場比賽的積分之間的關係圖，位置以顏色顯示。

現在，我們建立線性模型：

這將產生以下結果：

第一行告訴我們，即使控制了上場時間，該職位對職業PPG也有統計學上的顯著影響。

比例和GLM

我們還可以將其他基本統計程序表述為迴歸。但是，我們將需要利用所謂的廣義線性模型（GLM）進行更深入的研究。

首先，我將生成一個供我們使用的偽數據集。下面的命令創建一個R數據框，用於存儲一個假想比賽的罰球結果和球員姓名，其中，運動員A和B均獲得100次罰球。

玩家B的投籃命中率僅為77％，而玩家A的投籃率則為80％，儘管這有抽樣誤差。我們可以在R中使用table命令查看隨機繪製的結果：

在這裡，我們可能要執行兩個樣本的比例檢驗，以檢驗兩個參與者之間百分比不同的假設。

可以使用prop.test命令在R中完成。

Results of running a two-tailed prop test in R. Here we simply test using the null hypothesis that the two proportions are equal. This could also be done as a χ² test with the same p-value.

現在使用迴歸方法。如上所述，由於我們的響應變量不再是連續的，因此我們需要調整迴歸以處理二進制輸出。確實，我們希望我們的模型產生概率pᵢ

這可以使用邏輯迴歸完成。我們通常的迴歸採用以下形式：