目标检测|YOLOV4 -- SE注意力机制目标检测--小细节问题|深度学

YOLOV4 – SE注意力机制在YOLOV4与YOLOV3的区别主要介绍了V3和V4之间的区别，但是仔细研究代码Tensorflow2.0—YOLO V4-tiny网络原理及代码解析（一）- 特征提取网络会发现其实在V4中还多出一个trick，那就是注意力机制！
一、概念 YOLOv4中引入注意力机制，就是希望网络能够自动学出来图片需要注意的地方。比如人眼在看一幅画的时候，不会将注意力平等地分配给画中的所有像素，而是将更多注意力分配给人们关注的地方。从实现的角度来讲，注意力机制就是通过神经网络的操作生成一个掩码mask，mask上的值一个打分，重点评价当前需要关注的点。
注意力机制可以分为：

通道注意力机制：对通道生成掩码mask，进行打分，代表是senet, Channel Attention Module。
空间注意力机制：对空间进行掩码的生成，进行打分，代表是Spatial Attention Module 。
混合域注意力机制：同时对通道注意力和空间注意力进行评价打分，代表的有BAM, CBAM。

在V4源代码中，是使用了SE注意力机制，下面主要介绍该机制原理和实现代码~
二、原理 【目标检测|YOLOV4 -- SE注意力机制】

文章图片

在上述图片中可以看到，左边是没有进行SE注意力机制操作的，而右侧是进行SE注意力机制操作的。
这里的X通常是使用经过yolo网络最终得到的predict head（tiny版本有两个，非tiny版本有三个），以416x416为输入图片为例，tiny版本最后会生成两个predict head，以第二个低分辨率predict head为例（shape：13,13,512）
首先，先进行一次GlobalAveragePooling2D（全局池化），输入shape为13x13x512，经过GAP转换后，变成了大小为 1 × 1 × 512 的输出值，也就是每一层 h × w 会被平均化成一个值。
然后会进行一次FC层，后接一个relu激活函数，但是channels会变成（channel / ratio）
接着，会再一次接一个FC层，后接一个sigmoid激活函数，channels会回到C。
最后一步，会将输入predict head（13x13x512）与上述得到的（1x1x512）进行矩阵全乘，之所以是全乘不是矩阵相乘，那是因为这样可以得到不同通道重要性不一样的 feature map。
三、实现代码以Tensorflow2.0—YOLO V4-tiny网络原理及代码解析（一）- 特征提取网络中代码为例：

def se_block(input_feature, ratio=16, name=""): channel = input_feature._keras_shape[-1] # input_feature的shape为13, 13, 512 se_feature = GlobalAveragePooling2D()(input_feature) #1,1,512 se_feature = Reshape((1, 1, channel))(se_feature) se_feature = Dense(channel // ratio, activation='relu', kernel_initializer='he_normal', use_bias=False, name = "se_block_one_"+str(name))(se_feature) # 1,1,32 se_feature = Dense(channel, kernel_initializer='he_normal', use_bias=False, name = "se_block_two_"+str(name))(se_feature) # 1,1,512 se_feature = Activation('sigmoid')(se_feature) se_feature = multiply([input_feature, se_feature]) #13,13,512 return se_feature