2020-01-14 13:08:14 聞數起舞

寻找统计上的统一范式

序幕

我的记忆力很差。

在大学里，我的初恋是生物学，但由于他们对记忆的重视，最终我的班级向我关上了大门。我被数学吸引了，因为我不需要记住任何东西。在数学上，重点是我们如何了解某些知识。如果您自己无法证明结果，那么您将无法理解。

由于某些原因，仍然经常通过列出适用于各种情况的测试来教授统计数据。复杂的流程图以及更具体的统计测试。

A statistical flow chart for testing hypothesis about the mean.

这导致统计测试的混乱和误用。没关系，因为我有一些好消息。基本统计信息可以分为三个部分：

采样
置信区间
回归

对于具有数据科学和/或机器学习背景的人来说，这是个好消息。由于回归是大多数机器学习研究的起点，因此它意味着您已经在进行统计假设检验（也许不知道）。在本文中，我将通过一些示例说明如何从回归角度考虑常见的统计检验，从而着重于此的最后一步。

线性回归快速回顾

在线性回归中，我们为特征x和响应变量y之间的关系建立了线性模型。

该模型是统计模型，因为假设ε是随机的。

The noise term, assumed to be normally distributed in ordinary least squares (OLS)

这是一个数学模型。这是我们精确指定数据集假设的一种方法。每当我们构建模型时，记住著名的引用都是很有用的：

所有模型都是错误的，但有些模型很有用。 —乔治·沃克斯

模型是对现实世界复杂性的抽象和简化。由于它们是一种简化，因此它们始终是错误的，但是它们可能会捕获一些重要的想法。

举例来说，我们考虑一下1991年至2018年间带有NBA选秀权的数据集（您可以从我的网站下载该数据集）。我们可能会看选秀次数和平均每场职业得分之间的关系。在下面的散点图中显示了这一点，同时显示了与数据的最佳拟合回归线。

Linear Regression on the NBA draft picks and their career PPG average for 737 draft picks from 1991–2018. Note the points have been randomly jittered to avoid overlaps on the scatter plots

最佳拟合回归线如下：

Best fit linear regression model

通常通过最小化残差平方来找到最适合线性回归的方法。

LS cost function for N data points.

在这里，我将不讨论成本函数的实际最小化。可以说，我们可以使用线性代数的一些技巧，很快找到此成本函数的全局最小值。这为我们提供了一些最佳的坡度和截距拟合参数。

分类变量的回归

我们还可以对本质上属于分类的特征执行回归。这里的窍门是对分类变量进行所谓的热编码。想法是将分类级别转换为指标变量（δ）。如果输入属于其指定级别，则这些δ将为1，否则为零。

例如，对于" NBA选秀"数据，让我们将"签到号码"列分为"彩票签"（≤14）和"非彩票签"（NL）。

然后，我们可以寻找这两组玩家的平均每局得分差异。

Encoded regression model. δ is zero if not a lottery pick and one otherwise.

这是此数据的图，其中显示了回归线。

现在，斜率项β给出了非彩票选择（x = 0）和彩票选择（x = 1）之间每场比赛的平均得分之差。这里的轻微上升趋势表明，我们有一些证据表明，乐透彩票在他们的职业生涯中趋向于平均得分更高。

当然，这种趋势是基于对玩家的随机抽样得出的，因此，如果我们收集新的样本，这种上升趋势可能会消失。为了解决由于随机采样而引起的这种变化，我们可以形成斜率的置信区间。

对于上面的彩票选择示例，我们为参数找到以下95％的置信区间：

β∈（3.48，4.78）

α∈（6.65,7.57）

这告诉我们，职业生涯PPG彩票签到非彩票签的平均差很可能在3.48和4.78之间。这使我们对效果的方向（正）和效果的大小（3.5-4.8点）都有一个了解。

我们可以看到该斜率的间隔不包含零。这告诉我们，如果我们重新采样数据，我们不太可能看到这种趋势的逆转。如果我们将置信度从95％提高到说99％，我们将看到间隔宽度将增加。为了减少错误，我们需要更大范围的值。

现在，我们可以玩增加（100-p）％置信区间的游戏，直到该区间在左侧刚刚达到0为止。该值称为p值。

The p-value for the null hypothesis that the slope is zero can be found by steadily increasing the width of the CI until it touches the null hypothesis region.

如果Null假设为真（即H（：β= 0），则P值赋予P（D |H₀）观察数据的可能性。

两次样本t检验

在某些情况下，我们可能只关心效果的方向，而不关心效果的大小。这属于统计检验的范畴，称为二样本t检验。在基础统计学课程中，我们被教导使用两个样本的t检验来评估在两种条件下收集的数据，以证明平均值存在差异。这是经典的对照组与实验组。

为了在R中执行此测试，我首先要从相当大的草稿数据集中制作一个较小的数据集。下面的命令只是生成100个玩家的随机子集供我们比较。我还为数据集创建了一个彩票栏，以供参考。

Setting up our two groups for a two sample t test. Use the seed so you could get the same values as me.

现在我们准备在R中运行t检验。

We ran a two sample t-test to look for a difference in the mean career points per game average between Lottery and Non Lottery picks in the NBA.

现在注意结果中的p值。在此，相对较小的值表示在给出零假设的情况下不太可能获得数据。

现在，将其作为具有分类特征的线性回归进行。

在这里，我将为简单的线性回归显示R中的summary命令的结果。

我强调了重要的一面。将此与我们使用两个样本t检验发现的结果进行比较。 t值（直到符号）和p值相同！

另外，在查看R中的回归摘要时，请注意，摘要的最后一行重复了相同的p值。这是在整个回归模型上进行F检验的结果。

该测试告诉我们模型中的任何特征是否以统计上显着的方式偏离零。当然，在这种简单情况下，我们只有一个功能，因此模型上的F检验和彩票功能上的t检验是完全一样的。在多元回归（一个以上的特征）中，这些将有所不同。

方差分析和多元回归

假设我们要评估球员排名对其职业平均得分的影响。首先，我们应该清理数据集中的位置列的级别。

Using the forcats package in R to clean up the levels of the Position(Pos) column. Here we merge some categories together to get just C,F,G as the positions.

然后，我们可以按职位绘制职位职业得分的图：

Box plot of the effect of position on career scoring numbers for our sample of nba players.

我们可能想知道这些组的均值是否真的不同，或者观察到的差异是否也可以通过抽样误差来解释。在经典统计中，我们会说我们要进行单向方差分析（方差分析）。这可以在R中轻松完成：

ANOVA in R, notice the p-value is given on the far right p=0.0813.

现在我们也可以将此作为回归。我们的回归模型具有以下形式：

现在，alpha截距值告诉我们中心的平均值，两个斜率告诉我们相对于中心值的点。

这一切都在R的后台完成。这是输出：

将回归输出中的最后一行（F检验）与ANOVA输出进行比较。我们再次看到相同的结果！

这告诉我们一种方法，方差分析只是具有分类特征的线性回归模型，具有两个以上的层次。所使用的检验具有零假设，即所有斜率均为零。

两向方差分析

通过两种方差分析，我们使用两个分类特征来预测连续响应变量。

让我们使用Tm（起草小组）和Pos（位置）列处理草稿数据集。双向方差分析需要更多数据来拟合模型，因此我们将使用完整数据集而不是精简数据集。首先，我运行下面的两个命令来清理两个分类功能级别。

Clean-up the team and position columns for the entire draft data set. These are using the forcats package

在这种情况下，我们的线性模型采用以下形式：

第一个总和是虚拟编码的团队变量，第二个是职位类别。所有这些都很好地在R中完成。要执行分析，我们可以使用以下方法建立线性模型：

Build a two-way ANOVA linear model

唯一的变化是我们应该在模型上使用anova（）命令，而不是通常的summary（）。这将显示以下结果：

这两行告诉我们，我们有证据表明职位对职业分数很重要，但是我们没有足够的证据得出团队重要的结论。您现在可能会看到如何使用多元回归执行N向ANOVA。

ANCOVA分析

如果我们在回归中添加连续特征，则现在会使用另一个名称（ANCOVA =协方差分析）。这样做的动机可能是因为我们已经看到位置对NBA球员来说至关重要，但这可能仅仅是因为某些位置上的上场时间比其他位置上的要多。

通过将其作为模型中的一项功能，我们可以控制上场时间的效果。首先，我将重新缩放分钟数列（MP），以使平均值为零且标准差设置为1。这样做的动机是，否则我们在线性模型中的截取实际上是无用的，因为这会给平均每场0分钟的中锋提供职业PPG。现在，截距将解释一个平均每场比赛上场时间的中锋的平均PPG。也许是一口，但更有意义。

Scale the minutes played column

这是绘制的分钟数与每场比赛的积分之间的关系图，位置以颜色显示。

现在，我们建立线性模型：

这将产生以下结果：

第一行告诉我们，即使控制了上场时间，该职位对职业PPG也有统计学上的显着影响。

比例和GLM

我们还可以将其他基本统计程序表述为回归。但是，我们将需要利用所谓的广义线性模型（GLM）进行更深入的研究。

首先，我将生成一个供我们使用的伪数据集。下面的命令创建一个R数据框，用于存储一个假想比赛的罚球结果和球员姓名，其中，运动员A和B均获得100次罚球。

玩家B的投篮命中率仅为77％，而玩家A的投篮率则为80％，尽管这有抽样误差。我们可以在R中使用table命令查看随机绘制的结果：

在这里，我们可能要执行两个样本的比例检验，以检验两个参与者之间百分比不同的假设。

可以使用prop.test命令在R中完成。

Results of running a two-tailed prop test in R. Here we simply test using the null hypothesis that the two proportions are equal. This could also be done as a χ² test with the same p-value.

现在使用回归方法。如上所述，由于我们的响应变量不再是连续的，因此我们需要调整回归以处理二进制输出。确实，我们希望我们的模型产生概率pᵢ

这可以使用逻辑回归完成。我们通常的回归采用以下形式：