Self-attention计算方法 BERT

文章图片

三个矩阵首先，Inputs为x1~x4，是一个sequence，每一个Input先通过一个Embedding，乘上一个Matrix得到(a1,a4)，然后放入self-attention
在self-attention当中，每一个Input都分别乘上3个不同的Matrix产生3个不同的Vector，分别命名为q，k，v

文章图片

q代表query，to match others，每一个Input都乘上一个Matrix Wq，就得到q1~q4，叫做query
k代表key，to be matched计算同上
v就是要被抽取出来的information，计算同上

文章图片

现在，每一个a都有qkv3个不同的Vector，接下来，拿每一个query q，去对每一个key k去做attention
attention简单来说就是输入2个向量，out一个分数先看q1，对k1做attention，得到α1,1

文章图片

同理得到α1,2，α1,3，α1,4，至此得到了q1对k1,2,3,4的attention，d为q与k的Dimension(维度)，因为q与k做点乘，所以维度越大，算出来的值越大。
前面说过attention是输入2个Vector，输出1个out分值，不能让分值随向量维度的增大而增大，softmax之后会导致梯度消失，所以要先进行一个缩放。
也可以尝试用其他的attention，不一定要用Dot-Product Attention

文章图片

接下来将得到的α1,1~α1,4通过一个softmax层得到 α ^ \hat α α^

文章图片

然后拿 α ^ \hat α α^去和每一个v相乘，得到的Vector加起来，就得到了一个Vector，这个Vector就是b1
self-attention输入是一个sequence，输出也是一个sequence，现在得到了输出的seq的第一个Vector b1，此时可以知道，产生b1的时候，已经看到了a1~a4的词序
如果产生b1的时候不想考虑整个句子的词序，只想考虑local的information，只需要让 α ^ \hat α α^234产生出来的值变为0，就可以只考虑local的information
而如果要考虑最远的x4产生的影响，只需要让 α ^ \hat α α^4有值就可以了

文章图片

刚刚算出来了b1，在同时也可以算b2，b3，b4

文章图片

现在得到b1~b4，且他们可以平行的被计算出来，可以被加速。
文章图片

平行化那么self-attention是怎么做平行化的？
刚刚讲
a1乘上一个Wq得到q1
a2乘上一个Wq得到q2
所以可以把a1到a4拼起来变成一个Matrix，用I表示，用I乘上Wq就可以得到Q，Q中每一个col(q)代表一个query

文章图片

文章图片

文章图片

同理得到KV

文章图片

刚刚讲到，用q1，对每一个做attention，其实就是做Dot-Product，省略了 d \sqrt d d ?更简洁一点，这里将k1转置，得到α1,1 ，同理得到α1,2，α1,3，α1,4，其实都是q1与不同的k做Dot-Product，所以可以将所有的k集合在一起，将所有的k当做一个Matrix 的row(行)，这个Matrix 乘上q1得到的结果就是一个向量即α1,1~α1,4
所以 α 1 , 1 α_{1,1} α1,1?~ α 1 , 4 α_{1,4} α1,4?的计算是可以平行的

文章图片

q 2 q_2 q2?也是一样的

文章图片

同理可得 q 3 q_3 q3?， q 4 q_4 q4?

文章图片

所以计算出整个attention的过程，就等于是我们得到的K做一个转置直接乘上Q就得到attention A，Input为4，A为4x4，如果Input为N，则A为NxN，接下来做softmax得到 A ^ \hat A A^

文章图片

b的计算同上

文章图片

V和 A ^ \hat A A^相乘就得到了O

文章图片

整体流程Attention(Q,K,V)=softmax( Q K T d k {QK^T\over \sqrt {d_k}} dk? ?QKT?)V
文章图片

Multi-headed 作用，如同卷积网络中的多个filter一样

文章图片

原文给出的是8个head

文章图片

举例2个head的计算方法：要做 q i , 1 q^{i,1} qi,1与别的词做attention，要先与 k i , 1 k^{i,1} ki,1 k j , 1 k^{j,1} kj,1做Dot-Product最后计算出 b i , 1 b^{i,1} bi,1

文章图片

q i , 2 q^{i,2} qi,2也是一样，最后得到 b i , 2 b^{i,2} bi,2

文章图片

然后做个降维得到 b i b^i bi

文章图片

Multi-head总体架构 【Self-attention计算方法】Q,K,V都是有多个(默认8个)，最终通过一个全连接层合为一个特征。

文章图片

Self-attention计算方法

推荐阅读

政策性银行员工是事业编吗政策性银行有哪些

为什么喝茶容易失眠晚上喝黑茶会失眠吗

塔莱辛魔像在哪里塔莱辛魔像位置分享

hp25r|全新升级，照亮前方！Fenix HP25R V2.0头灯体验

茶叶泡久了变红为什么

小米|iPhone13再见！没有快充高刷也配称为旗舰华为小米不香吗！

丰年虾孵化后能活多久丰年虾孵化后能活多久

激萌如何变老，faceu激萌变老功能怎么玩

ntko控件下载,NTKO大文件上传控件

胃痛推拿有效果吗

香菇胡萝卜肉馅要不要炒

用ps制作个性签名我来分享PS制作粉色个性签名的详细操作

foxmail如何设置阅读收条 Foxmail设置阅读收条的相关操作步骤

不用实名认证的5v5游戏，腾讯哪些游戏不需要实名认证的

鸡电压力锅如何用电压锅煲鸡，用电压力锅做鸡的做法

电热水器漏电开关安装示意图如何防止电热水器漏电，热水器漏电会电死人吗

新型冠状病手抄报怎么画

荣耀80 GT取消8G版本售价3299元支持24期免息分期

05|05 | 行为金融学（你能真正了解一家公司吗（信息收集阶段的认知偏差））

怎么去除杯盖的异味怎么去除杯盖的胶味