机器学习 — 最大似然估计的应用

专栏 | 机器学习 — 最大似然估计的应用

之前我们已经介绍过最大似然估计的概念,这种估计法在机器学习领域有广泛的应用。本文将用线性回归举例,阐述最大似然估计在寻找模型最优参数方面的具体用途。


最大似然估计在线性回归中的应用

先来回顾一下线性回归的公式:

专栏 | 机器学习 — 最大似然估计的应用

假设共有 N 个样本,其中 x 是一个样本, y 是当前样本的已知输出,w 是模型的参数,是未知量,ϵ 是当前数据的噪声,假设它服从均值为 0,方差为 σ 平方的高斯分布,即:

专栏 | 机器学习 — 最大似然估计的应用

假设数据集中每一个样本发生的概率都是相互独立的,那么似然函数可以表示为如下公式:

专栏 | 机器学习 — 最大似然估计的应用

在最大似然估计中,我们要求的是当参数 w 为何种情况时,似然函数最大,即当前数据产生的可能性最大。概率 P(X) 无论在何种情况下都是一定的(且介于 0-1 之间),不会影响最终结果,因此上式可以简化成如下形式:

专栏 | 机器学习 — 最大似然估计的应用

为了方便计算,对上式采用 log 变化。

为什么可以采用对数似然函数呢?

因为自然对数是一个单调递增的函数,概率的最大对数值出现在与原始概率函数相同的点上,如下图所示。

专栏 | 机器学习 — 最大似然估计的应用

因此取对数不会影响 θ 的结果。

据此,我们可得到如下推导:

专栏 | 机器学习 — 最大似然估计的应用

这样连乘的问题就变成了连加的问题。

已知噪声服从均值为 0 ,方差为 σ 平方的高斯分布,根据线性回归公式,可以得出下式:

专栏 | 机器学习 — 最大似然估计的应用

根据高斯分布的概率密度公式,我们可以得出:

专栏 | 机器学习 — 最大似然估计的应用

将上式带入到似然函数中,得:

专栏 | 机器学习 — 最大似然估计的应用

有一些参数我们是不关心的,最后得到的公式的第一项和第二项的常数项,因为他们并不影响 w 取何值时 L(w) 最大,或者可以从这个角度理解:求最优解的时候,求对 w 的偏导数时,第一项和第二项的常数项最终都会被消去。

据此,我们可以得到最后的公式:

专栏 | 机器学习 — 最大似然估计的应用

我们得到的损失函数(cost function)和通过最小二乘法得到的损失函数是完全一致的。在线性回归中,对于同一个损失函数,既可以通过最小二乘法从线性代数的视角解释,也能通过最大似然估计以统计估计的角度解读。

本文中我介绍了最大似然估计在线性回归中的应用。对于逻辑回归的损失函数,同样可以用最大似然估计以统计学的视角解读,你可以尝试推导一下,具体的推理过程将在逻辑回归的章节阐述。

互动话题:机器学习专栏已经开播第三期啦!小伙伴有想要学习的有关机器学习的内容都可以留言,力扣会选取点赞最高的留言作为专栏之后的主题内容。


分享到:


相關文章: