你知道极大似然估计和最大后验估计的区别和联系吗?

你知道极大似然估计和最大后验估计的区别和联系吗?

机器学习中,一般只得到业务产生的数据集D,机器学习目的是通过数据D了解该项业务的过去(建模)和未来(预测和分类)。但你手头上只有数据集D,没有其他任何辅助信息,那么如何建模?

1.概率假设合理吗?

我们总是假设数据集D由某种概率分布生成(数据生成模型),甚至假设数据集D由高斯分布生成,一旦确定了高斯分布的参数,相当于我们掌握了数据的生成机制,这样就能预测业务的未来。但是,这种假设总是让人看起来不放心,这种假设合理吗?幸运的是,概率论里的中心极限定理保证了这种假设的合理性,中心极限定理表明,只要数据集D足够大,就可认为它由高斯分布生成。下图充分说明了这一点。

你知道极大似然估计和最大后验估计的区别和联系吗?

样本足够大时服从高斯分布

因此,即使数据集D的样本不够大,我们也会假设数据集D服从高斯分布,这时没有人会怀疑假设的合理性。高斯分布由期望和方差两个参数决定,但我们手头上只有数据集D和数据集D服从高斯分布这两条信息,并不知道高斯分布的参数的有关信息。因此估计高斯分布的参数成为我们首要任务,因为参数一旦确定下来,数据集D的生成模型也就确定下来,预测未来成为可能。关于高斯分布,我想进一步解释,不难看出,概率密度函数在期望值处取最大值,这说明了随机变量落在期望值周围的概率最大(通俗点来说就是我们大多数人生活在平均水平之中),这是密度函数名称的来源。

你知道极大似然估计和最大后验估计的区别和联系吗?

一维高斯分布及参数

你知道极大似然估计和最大后验估计的区别和联系吗?

高斯分布

2.极大似然然估计

从线性回归模型谈起,给定数据集[X,y],参数W,误差r服从高斯分布

N(0,α^2),线性回归模型表示为:

你知道极大似然估计和最大后验估计的区别和联系吗?

线性回归模型

利用最小二乘法求参数W,即

你知道极大似然估计和最大后验估计的区别和联系吗?

最小二乘法求参数

这是一个解析解,让人满意的结果。但问题是当X中含有线性相关的特征时(特征重叠),矩阵不可逆,这时解不存在,需要选择正则化方法处理,如岭回归和lasso回归。大家应该发现这样的问题,最小二乘法与假设“误差r服从高斯分布N(0,α^2)”没有任何关系。但这个假设是合理的,只要有足够多的样本和好模型,误差自然大部分集中在0附近,并服从高斯分布。通过这个假设也可以倒逼训练出一个好模型。极大似然估计从假设“误差r服从高斯分布N(0,α^2)”开始,利用样本的独立性,有效估计参数。

首先考虑极大似然估计的通用模型,假设数据集D服从一个参数为W的概率分布f(x)=p

(D=x|W)(含义为在知道W的条件下,数据集D取样本x的概率密度函数值),这里f(x)=p(D=x|W)是概率密度函数(对于连续型随机变量用概率密度函数代替概率),p(D|W)为数据集D的联合概率分布,根据样本的独立性,p(D|W)为所有样本的概率密度函数值f(x)的乘积。我们称p(D|W)为参数W似然函数,log(p(D|W))为参数W对数似然函数,记为L(W|D)=log(p(D|W
))。现在首要任务是估计W。既然样本数据集D已经出现,概率直觉告诉我们,D出现的概率比所有其他样本数据集D'出现的概率都要大,即L(W|D)>L(W|D')。极大似然估计就是求一个参数W使得

你知道极大似然估计和最大后验估计的区别和联系吗?

下面用极大似然估计求解线性回归模型。

线性回归属于监督学习,X是特征,y是对应的值(即数据集D),应把X看成已知的参数,W为待估计的参数。假设误差r服从高斯分布N(0,α^2)这推出p(y|W)=N(W^TX,α^2)。根据极大似然估计

你知道极大似然估计和最大后验估计的区别和联系吗?

这说明了最小二乘法极大似然估计在假设“误差r服从高斯分布N(0,α^2)”下是等价的。

极大似然估计基于朴素的概率直觉,有时得到的结果与实际情况有所偏差。从下图可以看出,不同的取样导致与实际情况偏差较大,因此使用极大似然估计应保持警惕。

你知道极大似然估计和最大后验估计的区别和联系吗?

  • 思考1:在线性回归模型中,假设误差r服从贝塔分布,用极大似然估计参数,结果如何?

  • 思考2:在线性回归模型中,假设误差r服从拉普拉斯分布,用极大似然估计参数,结果如何?

你知道极大似然估计和最大后验估计的区别和联系吗?

贝塔分布

你知道极大似然估计和最大后验估计的区别和联系吗?

拉普拉斯分布

3.最大后验估计

我在文章《贝叶斯定理》里详细介绍了贝叶斯定理以及先验(prior)、后验(posterior)、似然(likelihood)等概念。贝叶斯定理如下:

你知道极大似然估计和最大后验估计的区别和联系吗?

其中p(D)为标准化常数。贝叶斯定理可表述为:

你知道极大似然估计和最大后验估计的区别和联系吗?

目前,我们手头上有数据集D和数据集D服从高斯分布这两条信息,关于高斯分布的参数W,我们没有额外的信息,在这种情况下,我们只能用极大似然估计这些参数,这是我们能想到的方法。如果在建模之前能获知这些参数的额外信息,即先验

p(W),那么我们可以利用这个先验建立更加精准的模型。这就是我们下面要讲的最大后验估计。根据贝叶斯定理,最大后验估计就是求参数W使得

你知道极大似然估计和最大后验估计的区别和联系吗?

计算上述最大值是一个挑战,但在一些特殊情况下,比如先验p(W

)是一个高斯先验,我们是可以计算的。

现在我们可以讨论极大似然估计最大后验估计的关系了。在极大似然估计中,我们不知道p(W),这相当于p(W)是均匀分布(均匀分布是无聊的,参数服从均匀分布等于没有告诉你关于参数任何信息),不妨假设p(W)=1,这时我们有

你知道极大似然估计和最大后验估计的区别和联系吗?

因此,极大似然估计和先验为均匀分布下的最大后验估计是等价的。

4.线性回归模型的最大后验估计

在线性回归模型里,误差r服从高斯分布N(0,α^2),进一步我们假设系数W的先验p(W)=N(0,ß^2),利用最大后验估计参数W,使得后验p(W|y)最大,这里我省去推导过程,直接给出结论:

你知道极大似然估计和最大后验估计的区别和联系吗?

本质上,这是岭回归。因此充分利用先验信息,最大后验估计比极大似然估计更加鲁棒。

  • 思考:在线性回归模型中,假设先验p(W)服从拉普拉斯分布,用最大后验估计参数,结果如何?

5.总结

最后我们总结最小二乘法、极大似然估计和最大后验估计的关系。在线性回归模型中,假设误差r服从高斯分布N(0,α^2),最小二乘法和极大似然估计是等价的。在线性回归模型中,假设误差r服从高斯分布N(0,α^2)假设先验p(W)服从高斯分布N(0,

ß^2),最大后验估计结果是岭回归。在假设p(W)服从均匀分布下,极大似然估计和最大后验估计是等价的。总之,在充分利用先验的基础上,最大后验估计比极大似然估计更加鲁棒。

(作者:头条号AiMath,未经授权禁止转载!)

你知道极大似然估计和最大后验估计的区别和联系吗?


分享到:


相關文章: