深度学习 | SpongeBob's Blog

CNN-Attention网络

Attention机制就是加权，目前实现形式主要包括三个方面：CNN-Attention(图像)、RNN-Attention(NLP)、self-Attention(机器翻译）。

注意模块的开发大致可以分为两个方向:

(1)增强特征聚合;

(2)通道与空间注意相结合

记录常用的CNN-Attention主要包括以下：
SEnet（Squeeze-and-Excitation Network）在特征通道之间加入注意力机制，[论文][https://arxiv.org/abs/1709.01507]
CBAM(Convolutional Block Attention Module) 在特征通道和特征空间两个维度上加入注意力机制，[论文][https://arxiv.org/abs/1807.06521]
GSOP-Net(Global Second-order Pooling Convolutional Networks) 在特征通道之间加入注意力机制，[论文][https://arxiv.org/pdf/1811.12006.pdf]
AA-Net(Attention-Augmented-Conv2d Network) 在空间和特征子空间中同时加入注意机制，[论文][https://arxiv.org/pdf/1904.09925.pdf]
ECA-Net(Efficient Channel Attention Network) 在局部特征通道之间加入注意力机制，[论文][https://arxiv.org/abs/1910.03151]

SEnet

SEnet通过学习的方式自动获取每个特征通道的重要程度，目的是自动提升有用特征并抑制不重要的特征。SEnet通过Squeeze模块和Exciation模块实现所述功能。

squeeze操作：对空间维度进行压缩，直白的说就是对每个特征图做全局池化，平均成一个实数值。该实数从某种程度上来说具有全局感受野。

excitaton操作：由于经过squeeze操作后，网络输出了11C大小的特征图，作者利用权重w来学习C个通道直接的相关性。在实际应用时有的框架使用全连接，有的框架使用11的卷积实现。推荐使用11的卷积，先对通道进行降维然后在升维到Ｃ，好处就是一方面降低了网络计算量，一方面增加了网络的非线性能力。

最后一个操作时将exciation的输出看作是经过特征选择后的每个通道的重要性，通过乘法加权的方式将excitaton的输出乘到先前的特征上，从事实现提升重要特征，抑制不重要特征这个功能。

拉格朗日对偶问题

可以使用正则化的方法来避免过拟合，正则化有L1正则化和L2正则化；而这两个正则化的本质就是拉格朗日函数。