一文弄懂Resnet 技术頭條網

2020-04-05 23:04:38 休柏樹

解读

作为在2015年ImageNet比赛分类任务中的冠军，Resnet在目标分割，检测，识别等大展拳脚，更是直接影响了学术界和工业界发展方向。如此厉害的论文，那就站在巨人的肩膀上研究其好在哪里吧。

核心：提出残差块思想（去掉相同主体部分，突出微小变化）

图上弯曲的线是跳层连接(shortcut connection)，也就是论文说的identity mapping,曲线之外部分叫residual mapping。输出结果 H(x)=F(x) +x，x是输入shortcut连接，H是输出，F(x)就是残差部分(当然在论文中具体使用比这复杂)。

在详细说残差之前，先说下深度对网络的影响，也就是残差出现的由来。

我们都知道，当网络的层数较少时，卷积并不能很好的提取出特征向量，top错误率也就下不来。很自然的，大家都想到了加深网络，当网络的层数越多，能提取到的特征也就越丰富，语义信息越好。

然而简单增加深度，会导致梯度消失/爆炸问题，尽管使用了例如

归一化，dropout等弥补措施，可也导致了网络的退化，深度越深准确率却在下降，看下图：

可以明显看到随着网络层数增加，error反而更大。为了解决这个问题，作者提出了残差思想并通过实验去验证它。

残差的本质是随着网络层度增加，我们要让网络不会变坏，作者认为残差让网络获得了更好性能(实际上残差有没有获得更好性能，这个真不好说，也可能是网络更深得到了更好的特征信息，但至少可以确定残差使网络不在退化)。

♂ 我们来先来看下残差网络的原理(此图来源于网络)

嗯……原理部分推导估计大家也并不想细看，总结一下就是在求导时多加1，➕1好处就是梯度不会消失(求导不为0)，这样残差就可以更容易学习，下面举个栗子F(x)残差到底怎么做。

F是求和前网络映射，H是从输入到求和后的网络映射(输出)。
比如把10映射到10.1，
引入残差前是F'(10)=10.1，
引入残差后是H(10)=10.1, H(10)=F(10)+10, F(10)=0.1。
F'和F都表示网络参数映射，引入残差后的映射对输出的变化更敏感。比如原来是从10.1到10.2，映射F'的输出增加了1/101=1%，而对于残差结构从10.1到10.2，映射F是从0.1到0.2，增加了100%。后者输出变化对权重的调整作用更大，自然效果更好。

♀ 在看下残差实际效果，也就是实验部分。

从这这两幅图可以清楚看到，更深的网络错误率越低。

论文中实际使用的残差结构

实验证明残差块需要两层以上才能起到提升。左图一般用于resnet-34以下，右图用在50，101这种深度。

目的一目了然，就是为了降低参数的数目，第一个1x1的卷积把256维channel降到64维，然后在最后通过1x1卷积恢复，参数数目：1x1x256x64 + 3x3x64x64 + 1x1x64x256 = 69632，不使用(左图)就是两个3x3x256的卷积，参数数目: 3x3x256x256x2 = 1179648，差了16.94倍。

还有一个问题，论文中在做残差时会遇到通道数不一致问题，如下图。