机器学习笔记:L2正则化的新视角

点击上方关注,All in AI中国

机器学习笔记:L2正则化的新视角

深度神经网络已被证明易受对抗性样本的影响:到目前为止所有测试的模型都可以通过小的图像扰动显著改变其分类。以下预测是由最先进的网络训练来识别名人:

机器学习笔记:L2正则化的新视角

这个结果令人费解,原因有两个。首先,它挑战了一种共同的信念,即对新颖数据的良好推广和对小扰动的鲁棒性是齐头并进的。其次,它构成了对现实世界应用的潜在威胁。例如,麻省理工学院的研究人员最近构建了三维物体,这些物体在广泛的角度和视点分布下容易被错误分类。因此,理解这种现象并提高深度神经网络的鲁棒性已成为一个重要的研究目标。

作者已经探索了几种方法,详细描述了这种现象,并提供了一些理论分析。比如尝试设计更强大的架构或者在评估期间检测对抗性样本,对抗性训练也被引入作为一种惩罚对抗方向的新的正则化技术。不幸的是,这个问题基本上没有得到解决。面对这一困难,我们建议从基本面出发:首先关注线性分类,然后逐步提高复杂度。

玩具问题

在线性分类中,对抗性扰动通常被理解为高维度的点积的性质。一种普遍的直觉是:“对于高维度问题,我们可以对输入进行许多无穷小的更改,从而使输出产生一个大的变化”。在这里,我们挑战这种直觉,并争辩表示,当分类边界靠近数据流形时,存在独立于图像空间维度的对抗性的例子。

设置

让我们从一个最小的玩具问题开始:一个二维图像空间,其中每个图像都是a和b的函数。

机器学习笔记:L2正则化的新视角

在这个简单的图像空间中,我们定义了两类图像......

机器学习笔记:L2正则化的新视角

...可以用无数个线性分类器分开。考虑例如线Lθ

机器学习笔记:L2正则化的新视角

这就带来了第一个问题:如果所有线性分类器Lθ都可以很好地分离I和J,那么它们是否都有强大的图像干扰。

投影和镜像

考虑类I中的图像x。在相反类中分类的最接近的图像是在Lθ上的x的投影图像:

机器学习笔记:L2正则化的新视角

通过构造,x和xm与边界处于相同的距离并且以相同的置信水平分类。

机器学习笔记:L2正则化的新视角

回到我们的玩具问题,我们现在可以绘制图像x及其镜像xm作为θ的函数。

机器学习笔记:L2正则化的新视角

我们看到x和xm之间的距离取决于角度θ。 这两个临界案例特别令人感兴趣。

机器学习笔记:L2正则化的新视角

这就带来了第二个问题:如果Lθ强烈倾斜时存在对抗性的例子,那么Lθ在实践中是什么倾斜?

过度拟合和L2正则化

我们的工作假设是由标准线性学习算法(例如支持向量机(SVM)或逻辑回归)定义的分类边界通过过度拟合训练集中的噪声数据点而倾斜。 Xu等人的理论结果支持了这一假设,将鲁棒性与SVM中的正则化相关联。它也可以通过实验进行测试:旨在减少过度拟合(如L2正则化)的技术,从而减轻对抗性的样本现象。

例如,考虑包含一个噪声数据点p的训练集。

机器学习笔记:L2正则化的新视角

如果我们在此训练集上训练SVM或逻辑回归模型,我们会观察到两种可能的行为。

机器学习笔记:L2正则化的新视角

在这一点上,人们可能会合理地想知道,位于二维图像空间中的一维数据流形与高维自然图像有什么关系?

线性分类中的对抗性例子

在下面,我们证明了前一个玩具问题中引入的两个主要思想在一般情况下仍然有效:当分类边界靠近数据流形时存在对抗性的例子,而L2正则化控制了边界的倾斜角度。

扩展的损失函数

让我们从一个简单的观察开始:在训练期间,权重向量的规范作为损失函数的缩放参数。

设置

设I和J是两类图像,C是在Rd中定义线性分类器的超平面边界。C是由一个法向权向量w和一个偏压向量b指定的,对于一个图像x在Rd中,我们将x的原始分数通过C表示为:

机器学习笔记:L2正则化的新视角

原始分数可以看作是x与由C定义的分类边界之间的符号距离。特别是:

机器学习笔记:L2正则化的新视角

现在,考虑n对(x,y)的训练集T,其中x是图像,如果x∈I| 1,则x = { - 1,如果x∈J}是其标签。 我们对以下数量在T上的分布感兴趣:

机器学习笔记:L2正则化的新视角

这导致分类器C的经验风险R(w,b)的概念被定义为训练集T上的平均罚分:

机器学习笔记:L2正则化的新视角

通常,学习线性分类器包括找到权重向量w和最小化R(w,b)的偏差,用于良好选择的损失函数f。

在二进制分类中,三个值得注意的损失函数是:

机器学习笔记:L2正则化的新视角

对于0-1指标函数,经验风险就是T上的误差率。从某种意义上说,这是最优损失函数,因为最小化误差率通常是实践中的期望目标。不幸的是,它与梯度下降不相容(没有梯度下降:导数在任何地方都为零)。

通过用严格减少的惩罚替换错误分类数据上的单位罚分,在铰链损失(在SVM中使用)和softplus损(在逻辑回归中使用)中克服了这种限制。 请注意,铰链损失和softplus损失也会损害边界附近的一些正确分类的数据,从而有效地实施安全边际。

缩放参数∥w∥之前忽略的一个重点是符号距离s(x)按权重向量的范数缩放。 如果d(x)是x和C之间的实际有符号欧几里德距离,我们有:

机器学习笔记:L2正则化的新视角

因此,范数∥w∥可以解释为经验风险表达中损失函数的缩放参数:

机器学习笔记:L2正则化的新视角

让我们定义缩放损失函数f∥w∥:z→f(∥w∥×z)。我们观察到0-1指标函数对重新缩放是不变的,而铰链损失和softplus损失受到强烈影响。

机器学习笔记:L2正则化的新视角

值得注意的是,对于缩放参数的极值,铰链损耗和softplus损失表现相同。

机器学习笔记:L2正则化的新视角

更准确地说,两种损失都满足:

机器学习笔记:L2正则化的新视角

为方便起见,我们将错误分类的数据命名为:

机器学习笔记:L2正则化的新视角

然后我们可以将经验风险写成:

机器学习笔记:L2正则化的新视角

该表达式包含一个我们称之为误差距离的术语:

机器学习笔记:L2正则化的新视角

它是正的,可以解释为每个训练样本被C错误分类的平均距离(对正确分类的数据的贡献为零)。 它与训练误差有关,尽管不完全等同

最后我们有:

机器学习笔记:L2正则化的新视角

换句话说,当∥w∥很大时,最小化铰链损失或softplus损失的经验风险等同于最小化误差距离,这类似于最小化训练集上的误差率。

机器学习笔记:L2正则化的新视角

更确切地说,两种损失都满足:

机器学习笔记:L2正则化的新视角

对于某些正值α和β。

然后我们可以将经验风险写为:

机器学习笔记:L2正则化的新视角

该表达式包含一个我们称之为对抗性距离的术语:

机器学习笔记:L2正则化的新视角

它是T中的图像与分类边界C之间的平均距离(对于错误分类的图像具有负贡献)。它可以被视为对抗性扰动的鲁棒性的度量:当dadv高时,错误分类的图像的数量是有限的,并且正确分类的图像与C相差甚远。

最后我们有:

机器学习笔记:L2正则化的新视角

换句话说,当∥w∥较小时,最小化铰链损失或软件损失的经验风险等同于最大化对抗距离,这可以解释为最小化对抗性示例的现象。

结束语

在实践中,可以通过在经验风险中加入正则化项来控制∥w∥的值,从而产生正则化损失:

机器学习笔记:L2正则化的新视角

一个小的正则化参数λ让∥w∥不受限制地增长,而较大的λ则鼓励∥w∥收缩。

对抗距离和倾斜角度

上一节中出现了对抗性距离,作为对抗性扰动的鲁棒性的度量。 相当方便地,它可以表示为单个参数的函数:分类边界和最近的质心分类器之间的角度。

如果TI和TJ分别对I和J中的元素有T的限制,我们可以写:

机器学习笔记:L2正则化的新视角

如果TI和TJ是平衡的(n = 2nI = 2nJ)

机器学习笔记:L2正则化的新视角

如果i和j分别是TI和TJ的质心:

机器学习笔记:L2正则化的新视角

我们现在介绍最近的质心分类器,它具有单位法向量z ^ =(j-i)/∥j-i∥

机器学习笔记:L2正则化的新视角

最后,我们将包含w ^和z ^的平面称为C的倾斜平面,我们称之为w ^和z ^之间的角度θ为C的倾斜角度:

机器学习笔记:L2正则化的新视角

该等式可以在倾斜平面中几何解释:

机器学习笔记:L2正则化的新视角

在给定的训练集T上,两个质心∥j-i∥之间的距离是固定的,dadv仅取决于倾斜角θ。 以下两点意见:

·最近的质心分类器使对抗性示例现象最小化。

·当θ→π/ 2时,对抗性示例可以是任意强的(如玩具问题部分中的分类器Lθ的情况)。

示例:MNIST上的SVM

我们现在说明先前对MNIST数字的二进制分类的考虑。 对于每对可能的数字类,我们使用每类3000个图像的训练集训练多个SVM模型(w,b)用于正则化参数λ∈[10-1,107]。

我们首先绘制训练数据和边界之间的距离yd(x)的分布作为正则化参数λ(灰色直方图)的函数。 在每个模型的收敛(蓝线)之后,我们将损失函数f∥w∥叠加。

机器学习笔记:L2正则化的新视角

我们看到铰链损失的缩放对获得的模型有明显的影响。 不幸的是,最小化训练误差和最大化对抗距离是相互矛盾的目标:当λ很小时,errtrain最小化,而当λ很大时,dadv最大化。 注意,对于中等水平的正规化λoptimal,测试误差最小化。 当λλoptimal时,分类器未装配。

为了更好地理解两个目标是如何平衡的,我们可以在不同的视角下查看训练数据。我们首先计算最近的质心分类器的单位权重向量z ^。 然后对于每个SVM模型(w,b),我们计算单位向量n ^,使得(z ^,n ^)是w.7的倾斜平面的标准正交基础。最后,我们将训练数据投影到(z^, n^):

机器学习笔记:L2正则化的新视角

水平方向穿过两个质心,并且选择垂直方向使得属于平面(超平面边界然后显示为线)。另请注意,由于(z ^,n ^)是标准正交基础,因此该平面中的距离是实际像素距离。为了理解当λ变化时数据点似乎在四处移动的原因,需要想象倾斜平面旋转z ^ 784 -维输入空间(因此显示784 -维训练数据的不同部分的每个值)。

对于高正则化水平,模型与最近的质心分类器平行,并且最大化对抗距离。随着λ减小,分类边界通过向低方差方向倾斜来改善训练数据的拟合。最终,少量错误分类的训练样本被过度拟合,导致非常小的对抗性距离和难以解释的权重向量。

最后,我们可以看到每个模型的两个代表性图像x,y(每个类一个)和它们的镜像xm,ym。它们在w的倾斜平面上的投影给出了线性分类中对抗性示例现象的非常直观的图像:

机器学习笔记:L2正则化的新视角

当倾斜角接近π/ 2时,该模型对强对抗性实例(|| xm-x ||→0和|| ym-y ||→0)敏感。这是强过度拟合的症状,是否发生取决于将两个类别分开的难度(比较例如7s与9s的分类以及0s和1s的分类)。

神经网络中的对抗性例子

由于对抗距离和倾斜角度之间的等效性,线性情况足够简单,可以在平面中显示。然而,在神经网络中,类边界不是平坦的,并且对抗距离不能简化为单个参数。尽管如此,与线性案例仍有一些相似之处。

第一步:双层二进制网络

令N为具有单个输出的2层网络,其在Rd中定义非线性二进制分类器。第一层N由权重矩阵W1和偏置矢量b1指定,第二层N由权重向量W2和偏置b2指定。我们假设两个层由整流线性单元的层φ分开,应用函数z→max(0,z)元素。对于Rd中的图像x,我们将x到N的原始分数称为:

机器学习笔记:L2正则化的新视角

与线性情况类似,可以写出损失函数f对T的经验风险:

机器学习笔记:L2正则化的新视角

并且训练N在于找到W1,b1,W2和b2,其针对精心选择的f最小化R.

φ是分段线性的并且在每个图像x周围存在局部线性区域Lx,其中:

机器学习笔记:L2正则化的新视角

其中Wx1和bx1是通过将W1和b1中的某些行归零来获得的.8在Lx中,原始分数可以写成:

机器学习笔记:L2正则化的新视角

这可以看作是局部线性分类器Cx的原始分数,然后我们对线性情况的分析几乎不需要修改就适用。首先,我们观察到s(x) 是一个缩放的距离。如果d(x)是x和Cx之间的实际有符号欧几里德距离,那么:

机器学习笔记:L2正则化的新视角

然后可以将范数∥W2Wx1∥解释为损失函数的缩放参数(缩放现在是局部的,取决于x)。同时控制所有局部缩放的一种简单方法是将L2正则项添加到独立地作用于规范∥W1∥和∥W2∥的经验风险中(记住Wx1中的权重是W1中权重的子集)。对于梯度下降,这相当于在每次迭代时衰减权重W1和W2。更准确地说,对于学习率η和衰减因子λ,权重衰减更新是:

机器学习笔记:L2正则化的新视角

·利用小的衰减因子λ,允许缩放参数∥W2Wx1∥不受限制地增长,并且损失仅惩罚错误分类的数据。最小化经验风险等同于最小化训练集上的误差。

·随着衰减因子λ的增加,缩放参数∥W2Wx1∥减小,并且损失开始惩罚越来越多正确分类的数据,使其进一步远离边界。在这种情况下,L2权重衰减可被视为对抗训练的一种形式。

第二步:一般案例

先前的分析可以推广到更多层甚至非分段线性激活函数:

机器学习笔记:L2正则化的新视角

其中∇xs是x上原始分数的梯度,d(x)是x与网络定义的边界之间的距离的线性近似。 规范∥∇xs∥

然后构成损失函数的缩放参数,其可以通过权重衰减来控制。

这个想法也可以扩展到二进制分类之外。 在多类情况下,原始分数变为向量,其元素称为logits。 每个logit si(x),然后通过应用softmax函数将其转换为概率pi(x):

机器学习笔记:L2正则化的新视角

对于图像/标签对(x,y),与正确类相关联的概率是py(x)。 对数似然丢失函数通过将以下惩罚归因于(x,y)来鼓励它接近1:

机器学习笔记:L2正则化的新视角

现在,不同的权重衰减会影响logits的缩放,有效地充当softmax函数的温度参数。当权重衰减非常低时,生成的概率分布接近于单热编码(py(x)≈0或1)并且只有错误分类的数据产生非零罚分。然而,随着权重衰减的增加,产生的概率分布变得更平滑并且正确分类的数据开始参与训练,从而防止过度拟合。

在实践中,许多观察结果表明现代深度网络规范不足:

它们通常校准不良并产生过度自信的预测。

它们通常会收敛到零训练误差,即使是随机标记数据。

它们通常容易受到小幅度的线性攻击。

示例:MNIST上的LeNet

是否有可能通过仅使用权重衰减来规范神经网络以抵抗对抗性的例子?这个想法很简单,之前已经考虑过了:Goodfellow等。观察到线性情况下对抗训练“有点类似于L1正则化”。然而,作者报告说,当训练MNIST上的maxout网络时,L1权重衰减系数为0.0025“太大,导致模型在训练集上遇到超过5%的误差。较小的权重衰减系数允许成功的训练,但没有给予正则化的好处。“我们再次对这个想法进行测试,我们的观察结果更加微妙。如果使用高权重衰减显然不是灵丹妙药,我们发现它确实有助于减少对抗性的例子现象,至少在简单的设置中如此。

在MNIST上考虑LeNet(10级问题)。我们使用以下架构的基线MatConvNet实现:

机器学习笔记:L2正则化的新视角

我们训练该网络的一个版本具有10-4的低权重衰减和一个具有10-1的高权重衰减的版本(我们分别称为LeNetlow和LeNethigh两个版本)。 我们保留所有其他参数:我们训练50时期,使用批量大小为300,学习率为0.0005,动量为0.9。

我们可以做几点观察。 首先,让我们绘制两个网络的训练和测试误差。

机器学习笔记:L2正则化的新视角

我们看到LeNethig表现略好于LeNetlow(最终测试误差为1.2%对1.6%)。

我们还可以检查已经学过的权重。 下面,我们计算它们的均方根值(RMS)并显示每个卷积层的随机滤波器选择。

机器学习笔记:L2正则化的新视角

正如预期的那样,通过较高权重衰减学习的权重具有低得多的RMS。 LeNethigh的滤波器也比LeNetlow的滤波器更平滑(参见Conv1和Conv2中存在的干净边缘检测器),并且它们的幅度在每个卷积层内变化更大(参见均匀灰色滤波器的存在)

最后,让我们将两个网络提交给相同的视觉评估:对于每个数字的随机实例,我们生成一个高置信度的对抗性示例,目标是执行标签的循环置换0→1,1→2 ...,9→0。 具体来说,每个对抗性的例子都是通过对所需标签的概率进行梯度上升来生成的,直到达到0.95的中值.10我们在10个原始图像下面显示OI及其对应的对抗性示例AE和两个网络的对抗性扰动Pert。

机器学习笔记:L2正则化的新视角

我们看到LeNethigh比LeNetlow更不容易受到对抗性的影响:对抗性扰动具有更高的L2准则,对人类观察者来说更有意义。

“前进”的想法

尽管它已经产生了多年的广泛兴趣,尽管它在理论和实践中都对机器学习领域具有重要意义,但迄今为止,对抗性的例子现象仍然保留了很多其中的吸引力。我们的主要目标是在线性情况下提供清晰直观的现象图,希望能够成为向前发展的坚实基础。顺便提一下,我们发现L2权重衰减比先前在MNIST上的小神经网络中所怀疑的更重要。

不幸的是,随着更复杂数据集的更深层次模型,故事变得更加复杂。根据我们的经验,模型的非线性越多,权重衰减似乎就越有帮助。这种限制可能是肤浅的,也许值得探讨这里介绍的想法(例如,我们应该更多地关注在训练期间缩放logits)。或者,深度网络的高度非线性可能构成L2正则化实现的一阶对抗训练类型的基本障碍。我们的感觉是,一个真正令人满意的问题解决方案可能需要在深度学习中有深刻的新想法。

原文链接:https://thomas-tanay.github.io/post--L2-regularization/

机器学习笔记:L2正则化的新视角


分享到:


相關文章: