YOLOV4 – SE注意力机制 在YOLOV4与YOLOV3的区别主要介绍了V3和V4之间的区别,但是仔细研究代码Tensorflow2.0—YOLO V4-tiny网络原理及代码解析(一)- 特征提取网络会发现其实在V4中还多出一个trick,那就是注意力机制!
一、概念 YOLOv4中引入注意力机制,就是希望网络能够自动学出来图片需要注意的地方。比如人眼在看一幅画的时候,不会将注意力平等地分配给画中的所有像素,而是将更多注意力分配给人们关注的地方。从实现的角度来讲,注意力机制就是通过神经网络的操作生成一个掩码mask,mask上的值一个打分,重点评价当前需要关注的点。
注意力机制可以分为:
- 通道注意力机制:对通道生成掩码mask,进行打分,代表是senet, Channel Attention Module。
- 空间注意力机制:对空间进行掩码的生成,进行打分,代表是Spatial Attention Module 。
- 混合域注意力机制:同时对通道注意力和空间注意力进行评价打分,代表的有BAM, CBAM。
二、原理 【目标检测|YOLOV4 -- SE注意力机制】
文章图片
在上述图片中可以看到,左边是没有进行SE注意力机制操作的,而右侧是进行SE注意力机制操作的。
这里的X通常是使用经过yolo网络最终得到的predict head(tiny版本有两个,非tiny版本有三个),以416x416为输入图片为例,tiny版本最后会生成两个predict head,以第二个低分辨率predict head为例(shape:13,13,512)
首先,先进行一次GlobalAveragePooling2D(全局池化),输入shape为13x13x512,经过GAP转换后,变成了大小为 1 × 1 × 512 的输出值,也就是每一层 h × w 会被平均化成一个值。
然后会进行一次FC层,后接一个relu激活函数,但是channels会变成(channel / ratio)
接着,会再一次接一个FC层,后接一个sigmoid激活函数,channels会回到C。
最后一步,会将输入predict head(13x13x512)与上述得到的(1x1x512)进行矩阵全乘,之所以是全乘不是矩阵相乘,那是因为这样可以得到不同通道重要性不一样的 feature map。
三、实现代码 以Tensorflow2.0—YOLO V4-tiny网络原理及代码解析(一)- 特征提取网络中代码为例:
def se_block(input_feature, ratio=16, name=""):
channel = input_feature._keras_shape[-1]
# input_feature的shape为13, 13, 512
se_feature = GlobalAveragePooling2D()(input_feature) #1,1,512
se_feature = Reshape((1, 1, channel))(se_feature) se_feature = Dense(channel // ratio,
activation='relu',
kernel_initializer='he_normal',
use_bias=False,
name = "se_block_one_"+str(name))(se_feature) # 1,1,32 se_feature = Dense(channel,
kernel_initializer='he_normal',
use_bias=False,
name = "se_block_two_"+str(name))(se_feature) # 1,1,512
se_feature = Activation('sigmoid')(se_feature) se_feature = multiply([input_feature, se_feature]) #13,13,512
return se_feature
https://www.pianshen.com/article/85201717942/
https://blog.csdn.net/qq_41736617/article/details/118424585
推荐阅读
- 目标检测|Yolov5 v6.1网络结构
- 深度学习|YOLOv5-Lite(更轻更快易于部署的YOLOv5)
- Yolo|在yolov5的网络结构中添加注意力机制模块
- 深度学习|yolov5-6.0/6.1加入SE、CBAM、CA注意力机制(理论及代码)
- 深度学习|深度学习综述(译)
- #|归一化(Layer Normalization、Batch Normalization)
- 计算机视觉|OpenAI新研究(扩散模型在图像合成质量上击败BigGAN,多样性还更佳)
- Unbox|C++ 调用 Mask R-CNN Detectron2
- python|从零开始用 Python 构建一个简单的神经网络