(ICIP2019)图像语义分割自适应连接神经网络(ACNet) 技术頭條網

(ICIP2019)图像语义分割自适应连接神经网络(ACNet)

2020-01-07 14:34:56 Shawnl111

注：文章来自于我的博客shawnluo.com，欢迎访问~！

作者：Xiaohan Ding ，Yuchen Guo， Guiguang Ding， Jungong Han

发表信息：IEEE International Conference on Computer Vision (2019)

一、问题动机

卷积神经网络在计算机视觉方面取得了巨大的成功，使得其可以用于各种应用，如可穿戴设备、安全系统、移动电话等。但是，由于这些前端设备通常在计算资源上有一定的限制，同时也需要实时推理，所以这就需要卷积神经网络在一定的计算资源限制下保持高精度。因此通过简单的增加训练参数和连接来实现网络模型的性能增强是不现实的。因此，我们需要考虑是否能够在不增加额外的推理时间消耗、内存占用以及资源消耗的情况下来提升网络模型的性能。

另一方面，由于目前对于卷积神经网络结构设计的研究获得了较大的进步，一些现成的模型的性能已经大大提升，但是它们并不能直接套用到我们的特定应用上。而由于我们在对特定的应用设计合适的卷积神经网络结构时，又通常需要耗费大量的人工工作或者GPU资源。因此，我们希望找出一种中性网络结构（architecture-neutral CNN structures，即与网络无关的结构），如SE blocks、andquasi-hexagonal kernels等，用来直接插入其他的成熟的网络结构，从而提升其性能以用于实际的应用中。

本文即提出一种中性网络结构：非对称卷积块（ACB ，Asymmetric Convolution Block）,即将网络中原始的d x d卷积核替换为三个并行的d x d、1 x d、d x 1卷积核，不引入任何超参数、在推理过程中不需额外的参数和计算。通过使用ACB对原始网络的平方核进行替换，构造Asymmetric Convolutional Network（ACNet），从而解决上述问题。

（在网络训练结束后，可等价地将ACNet转换为相同的原始架构，因此将不需要额外的计算。）

二、解决思路：

1、对于一个尺寸为H x W，通道数为D的卷积核，以通道数为C的特征图作为输入，我们使用F∈RHxWxC表示卷积核，M∈RUxVxC表示输入，这是一个尺寸为UxV，通道数为C的特征图，O∈RRxTxD代表输出特征图。对于这个层的第j个卷积核，相应的输出特征图通道是：

*代表二维卷积操作，M:,:,k 是M的第k个通道的尺寸为UxV的特征图。F:,:,k (j) 表示F(j) 的第k个通道的尺寸为HxW的特征图。按照惯例，batch normalization层后通常跟一个线性尺度变换操作来增强表示能力。与上公式（1）相比，输入改为：

其中µj和σj是batch normalization的通道平均值和标准差，γj和βj是缩放系数和偏移量。

2、注意到卷积的一个有用的性质：如果几个大小兼容的二维核，在相同的输入上以相同的步幅操作，产生相同分辨率的输出，并且它们的输出被求和，那么我们可以将这些核在相应的位置相加，得到一个产生相同输出的等效核。也即，二维卷积的可加性可以成立，即使核大小不同：

这里，I是一个矩阵，K(1) 和K(2) 是两个尺寸兼容的2维核。⊕是在对应的位置进行相加。这里I有可能会被裁减或者填补。

这里的“兼容”，是指我们可以将较小的核“补”到较大的核上。

如3×1和1×3是和3×3兼容的。

3、我们主要将网络中原始的d x d卷积核替换为三个并行的d x d、1 x d、d x 1卷积核。这里主要讨论3 x 3卷积核。将其转化为3 x 3、1 x 3、3 x 1三个并行的卷积核后，在每个后面都进行batch normalization，然后将三个分支的输出作为ACB的综合输出。这里需要经过两个步骤:BN融合与分支融合。

（1）BN融合

卷积的同质性使得后续的BN和线性变换可以等价的融合到具有附加偏置的卷积层中。从公式（2）可以看出，对于每个分支，如果我们构造一个新的内核