深度学习
CNN-Attention网络
Attention机制就是加权,目前实现形式主要包括三个方面:CNN-Attention(图像)、RNN-Attention(NLP)、self-Attention(机器翻译)。
注意模块的开发大致可以分为两个方向:
(1)增强特征聚合;
(2)通道与空间注意相结合
记录常用的CNN-Attention主要包括以下:
SEnet(Squeeze-and-Excitation Network) 在特征通道之间加入注意力机制,[论文][https://arxiv.org/abs/1709.01507]
CBAM(Convolutional Block Attention Module) 在特征通道和特征空间两个维度上加入注意力机制,[论文][https://arxiv.org/abs/1807.06521]
GSOP-Net(Global Second-order Pooling Convolutional Networks) 在特征通道之间加入注意力机制,[论文][https://arxiv.org/pdf/1811.12006.pdf]
AA-Net(Attention-Augmented-Conv2d Network) 在空间和特征子空间中同时加入注意机制,[论文][https://arxiv.org/pdf/1904.09925.pdf]
ECA-Net(Efficient Channel Attention Network) 在局部特征通道之间加入注意力机制,[论文][https://arxiv.org/abs/1910.03151]
SEnet
SEnet通过学习的方式自动获取每个特征通道的重要程度,目的是自动提升有用特征并抑制不重要的特征。SEnet通过Squeeze模块和Exciation模块实现所述功能。
squeeze操作:对空间维度进行压缩,直白的说就是对每个特征图做全局池化,平均成一个实数值。该实数从某种程度上来说具有全局感受野。
excitaton操作:由于经过squeeze操作后,网络输出了11C大小的特征图,作者利用权重w来学习C个通道直接的相关性。在实际应用时有的框架使用全连接,有的框架使用11的卷积实现。推荐使用11的卷积,先对通道进行降维然后在升维到C,好处就是一方面降低了网络计算量,一方面增加了网络的非线性能力。
最后一个操作时将exciation的输出看作是经过特征选择后的每个通道的重要性,通过乘法加权的方式将excitaton的输出乘到先前的特征上,从事实现提升重要特征,抑制不重要特征这个功能。
拉格朗日对偶问题
可以使用正则化的方法来避免过拟合,正则化有L1正则化和L2正则化;而这两个正则化的本质就是拉格朗日函数。