【深度学习|Attention机制】
参考:
浅谈Attention注意力机制及其实现 - 知乎
一文看懂 Attention(本质原理+3大优点+5大类型) - 简书
【论文阅读】深入理解Attention机制_一的千分之一的博客-CSDN博客_attention机制
什么是Attention(注意力机制)?_小ai同学1号的博客-CSDN博客_什么是attention
【深度学习】Attention的理解_littlemichelle的博客-CSDN博客_如何理解attention
Attention机制概念整理 - 简书
概念:
Atention它可以从复杂的信息中找出对当前输出最重要的部分。即学习权重分布:输入数据或特征图上的不同部分对应的专注度不同。
Attention 原理:
给定很多组key和value,以及一个目标向量query,通过计算query与每一组key的相似性,得到每个key的权重系数,然后将权重和 value 进行加权求和,得到最终的attention数值。图和公式如下:
文章图片
第一步: query 和 key 进行相似度计算,得到权值
第二步:将权值进行归一化,得到直接可用的权重
第三步:将权重和 value 进行加权求和
文章图片
文章图片
Attention的计算过程:
1. 根据Query和key计算权重系数;
① 根据Query和Key计算相似性:相似度的计算可用点积、cosine相似性、MLP网络等计算
② 对①的原始分值进行归一化处理:如SoftMax
文章图片
2.根据权重系数对value就行加权求和
文章图片
整个计算过程可表示成下图:
文章图片
Attention进化形式
Attention有许多进化形式,例如self--attention,自注意力机制,它只关注输入序列元素之间的关系,通过将输入序列,直接转化为Q\K\V,再内部进行Attention计算,就能很好的捕捉文本的内在联系,对其做出再表示。
另一种进化形式就是Multi-Head Attention,多头注意力机制,是在自注意力的基础上,使用多种变换,生成Q、k、v进行计算,再将它们对相关性的结论综合起来,进一步增强self--attention的效果,借助transformer、bert等形式,attention在自然语言处理领域大放异彩。
事实上,Attention最开始诞生于机器视觉领域,无论是图片分类、图片描述还是视频描述,它都能在输出结论时指出它所注意到的图像,可解释性好。
推荐阅读
- 深度学习|【原创】深度学习学习笔记(四)-信息处理单元(神经元)
- 深度学习|【原创】libtorch安装和踩坑(一)windows10下libtorch环境的安装
- 机器学习|5、注意力机制和Transformer模型
- 深度学习——torch学习笔记|n-grams语言模型——【torch学习笔记】
- 自学机器学习探索路|模型评估与选择
- 深度学习|基于图卷积网络(GCN)的表面缺陷识别方法(上)
- 深度学习|#萌新日志#3.使用pix2pix CycleGAN和3d CycleGAN实现T1和T2加权模态的互转
- 人工智能|机器学习——从0开始构建自己的GAN网络
- 深度学习优化算法总结与实验