自然语言处理|【RNN架构解析】GRU 模型 & 注意力机制


【NLP】GRU 模型

  • 1. GRU 模型
    • 1.1 GRU的内部结构图和计算公式
    • 1.2 Pytorch中GRU工具的使用
    • 1.3 GRU的优缺点
  • 2. 注意力机制
    • 2.1 什么是注意力机制
    • 2.2 注意力机制的作用
    • 2.3 注意力机制实现步骤

1. GRU 模型 学习目标
  • 了解GRU内部结构及计算公式.
  • 掌握Pytorch中GRU工具的使用.
  • 了解GRU的优势与缺点.
GRU(Gated Recurrent Unit)也称门控循环单元结构, 它也是传统RNN的变体**, 同LSTM一样能够有效捕捉长序列之间的语义关联, 缓解梯度消失或爆炸现象**. 同时它的结构和计算要比LSTM更简单, 它的核心结构可以分为两个部分去解析:
  • 更新门
  • 重置门
1.1 GRU的内部结构图和计算公式 自然语言处理|【RNN架构解析】GRU 模型 & 注意力机制
文章图片

结构解释图:
自然语言处理|【RNN架构解析】GRU 模型 & 注意力机制
文章图片

GRU的更新门和重置门结构图:
自然语言处理|【RNN架构解析】GRU 模型 & 注意力机制
文章图片
内部结构分析:
和之前分析过的LSTM中的门控一样, 首先计算更新门和重置门的门值, 分别是z(t)和r(t), 计算方法就是使用X(t)与h(t-1)拼接进行线性变换,
再经过sigmoid激活. 之后重置门门值作用在了h(t-1)上, 代表控制上一时间步传来的信息有多少可以被利用.
接着就是使用这个重置后的h(t-1)进行基本的RNN计算, 即与x(t)拼接进行线性变化, 经过tanh激活, 得到新的h(t).
最后更新门的门值会作用在新的h(t),而1-门值会作用在h(t-1)上, 随后将两者的结果相加, 得到最终的隐含状态输出h(t),
这个过程意味着更新门有能力保留之前的结果, 当门值趋于1时, 输出就是新的h(t), 而当门值趋于0时, 输出就是上一时间步的h(t-1).
Bi-GRU与Bi-LSTM的逻辑相同, 都是不改变其内部结构, 而是将模型应用两次且方向不同, 再将两次得到的LSTM结果进行拼接作为最终输出. 具体参见上小节中的Bi-LSTM.
1.2 Pytorch中GRU工具的使用 Pytorch中GRU工具的使用:
  • 位置: 在torch.nn工具包之中, 通过torch.nn.GRU可调用.
nn.GRU类初始化主要参数解释:
  • input_size: 输入张量x中特征维度的大小.
  • hidden_size: 隐层张量h中特征维度的大小.
  • num_layers: 隐含层的数量.
  • bidirectional: 是否选择使用双向LSTM, 如果为True, 则使用; 默认不使用.
【自然语言处理|【RNN架构解析】GRU 模型 & 注意力机制】nn.GRU类实例化对象主要参数解释:
  • input: 输入张量x.
  • h0: 初始化的隐层张量h.
nn.GRU使用示例:
>>> import torch >>> import torch.nn as nn >>> rnn = nn.GRU(5, 6, 2) >>> input = torch.randn(1, 3, 5) >>> h0 = torch.randn(2, 3, 6) >>> output, hn = rnn(input, h0) >>> output tensor([[[-0.2097, -2.2225,0.6204, -0.1745, -0.1749, -0.0460], [-0.3820,0.0465, -0.4798,0.6837, -0.7894,0.5173], [-0.0184, -0.2758,1.2482,0.5514, -0.9165, -0.6667]]], grad_fn=>) >>> hn tensor([[[ 0.6578, -0.4226, -0.2129, -0.3785,0.5070,0.4338], [-0.5072,0.5948,0.8083,0.4618,0.1629, -0.1591], [ 0.2430, -0.4981,0.3846, -0.4252,0.7191,0.5420]],[[-0.2097, -2.2225,0.6204, -0.1745, -0.1749, -0.0460], [-0.3820,0.0465, -0.4798,0.6837, -0.7894,0.5173], [-0.0184, -0.2758,1.2482,0.5514, -0.9165, -0.6667]]], grad_fn=>)

1.3 GRU的优缺点 GRU的优势:
  • GRU和LSTM作用相同, 在捕捉长序列语义关联时, 能有效抑制梯度消失或爆炸, 效果都优于传统RNN且计算复杂度相比LSTM要小.
GRU的缺点:
GRU仍然不能完全解决梯度消失问题, 同时其作用RNN的变体, 有着RNN结构本身的一大弊端, 即不可并行计算, 这在数据量和模型体量逐步增大的未来, 是RNN发展的关键瓶颈.
2. 注意力机制 学习目标
  • 了解什么是注意力计算规则以及常见的计算规则.
  • 了解什么是注意力机制及其作用.
  • 掌握注意力机制的实现步骤.
什么是注意力:
我们观察事物时,之所以能够快速判断一种事物(当然允许判断是错误的), 是因为我们大脑能够很快把注意力放在事物最具有辨识度的部分从而作出判断,而并非是从头到尾的观察一遍事物后,才能有判断结果. 正是基于这样的理论,就产生了注意力机制.
什么是注意力计算规则:
它需要三个指定的输入Q(query), K(key), V(value), 然后通过计算公式得到注意力的结果, 这个结果代表query在key和value作用下的注意力表示. 当输入的Q=K=V时, 称作自注意力计算规则.
常见的注意力计算规则:
自然语言处理|【RNN架构解析】GRU 模型 & 注意力机制
文章图片

说明:当注意力权重矩阵和V都是三维张量且第一维代表为batch条数时, 则做bmm运算.bmm是一种特殊的张量乘法运算.
bmm运算演示:
# 如果参数1形状是(b × n × m), 参数2形状是(b × m × p), 则输出为(b × n × p) >>> input = torch.randn(10, 3, 4) >>> mat2 = torch.randn(10, 4, 5) >>> res = torch.bmm(input, mat2) >>> res.size() torch.Size([10, 3, 5])

类似矩阵连乘!
2.1 什么是注意力机制 注意力机制是注意力计算规则能够应用的深度学习网络的载体, 同时包括一些必要的全连接层以及相关张量处理, 使其与应用网络融为一体. 使用自注意力计算规则的注意力机制称为自注意力机制.
说明: NLP领域中, 当前的注意力机制大多数应用于seq2seq架构, 即编码器和解码器模型.
2.2 注意力机制的作用
  • 在解码器端的注意力机制: 能够根据模型目标有效的聚焦编码器的输出结果, 当其作为解码器的输入时提升效果. 改善以往编码器输出是单一定长张量, 无法存储过多信息的情况.
  • 在编码器端的注意力机制: 主要解决表征问题, 相当于特征提取过程, 得到输入的注意力表示. 一般使用自注意力(self-attention).
2.3 注意力机制实现步骤
  • 第一步: 根据注意力计算规则, 对Q,K,V进行相应的计算.
  • 第二步: 根据第一步采用的计算方法, 如果是拼接方法,则需要将Q与第二步的计算结果再进行拼接, 如果是转置点积, 一般是自注意力, Q与V相同, 则不需要进行与Q的拼接.
  • 第三步: 最后为了使整个attention机制按照指定尺寸输出, 使用线性层作用在第二步的结果上做一个线性变换, 得到最终对Q的注意力表示.
代码展示:
常见注意力机制的代码分析:
import torch import torch.nn as nn import torch.nn.functional as Fclass Attn(nn.Module): def __init__(self, query_size, key_size, value_size1, value_size2, output_size): """初始化函数中的参数有5个, query_size代表query的最后一维大小 key_size代表key的最后一维大小, value_size1代表value的导数第二维大小, value = https://www.it610.com/article/(1, value_size1, value_size2) value_size2代表value的倒数第一维大小, output_size输出的最后一维大小""" super(Attn, self).__init__() # 将以下参数传入类中 self.query_size = query_size self.key_size = key_size self.value_size1 = value_size1 self.value_size2 = value_size2 self.output_size = output_size# 初始化注意力机制实现第一步中需要的线性层. self.attn = nn.Linear(self.query_size + self.key_size, value_size1)# 初始化注意力机制实现第三步中需要的线性层. self.attn_combine = nn.Linear(self.query_size + value_size2, output_size)def forward(self, Q, K, V): """forward函数的输入参数有三个, 分别是Q, K, V, 根据模型训练常识, 输入给Attion机制的 张量一般情况都是三维张量, 因此这里也假设Q, K, V都是三维张量"""# 第一步, 按照计算规则进行计算, # 我们采用常见的第一种计算规则 # 将Q,K进行纵轴拼接, 做一次线性变化, 最后使用softmax处理获得结果 attn_weights = F.softmax( self.attn(torch.cat((Q[0], K[0]), 1)), dim=1)# 然后进行第一步的后半部分, 将得到的权重矩阵与V做矩阵乘法计算, # 当二者都是三维张量且第一维代表为batch条数时, 则做bmm运算 attn_applied = torch.bmm(attn_weights.unsqueeze(0), V)# 之后进行第二步, 通过取[0]是用来降维, 根据第一步采用的计算方法, # 需要将Q与第一步的计算结果再进行拼接 output = torch.cat((Q[0], attn_applied[0]), 1)# 最后是第三步, 使用线性层作用在第三步的结果上做一个线性变换并扩展维度,得到输出 # 因为要保证输出也是三维张量, 因此使用unsqueeze(0)扩展维度 output = self.attn_combine(output).unsqueeze(0) return output, attn_weights

调用:
query_size = 32 key_size = 32 value_size1 = 32 value_size2 = 64 output_size = 64 attn = Attn(query_size, key_size, value_size1, value_size2, output_size) Q = torch.randn(1,1,32) K = torch.randn(1,1,32) V = torch.randn(1,32,64) out = attn(Q, K ,V) print(out[0]) print(out[1])

输出效果:
tensor([[[ 0.4477, -0.0500, -0.2277, -0.3168, -0.4096, -0.5982,0.1548, -0.0771, -0.0951,0.1833,0.3128,0.1260,0.4420,0.0495, -0.7774, -0.0995,0.2629,0.4957,1.0922,0.1428,0.3024, -0.2646, -0.0265,0.0632,0.3951,0.1583,0.1130,0.5500, -0.1887, -0.2816, -0.3800, -0.5741,0.1342,0.0244, -0.2217, 0.1544,0.1865, -0.2019,0.4090, -0.4762,0.3677, -0.2553, -0.5199,0.2290, -0.4407,0.0663, -0.0182, -0.2168,0.0913, -0.2340,0.1924, -0.3687,0.1508,0.3618, -0.0113,0.2864, -0.1929, -0.6821,0.0951,0.1335,0.3560, -0.3215,0.6461, 0.1532]]], grad_fn=)tensor([[0.0395, 0.0342, 0.0200, 0.0471, 0.0177, 0.0209, 0.0244, 0.0465, 0.0346, 0.0378, 0.0282, 0.0214, 0.0135, 0.0419, 0.0926, 0.0123, 0.0177, 0.0187, 0.0166, 0.0225, 0.0234, 0.0284, 0.0151, 0.0239, 0.0132, 0.0439, 0.0507, 0.0419, 0.0352, 0.0392, 0.0546, 0.0224]], grad_fn=>)

更多有关注意力机制的应用我们将在案例中进行详尽的理解分析.
加油!
感谢!
努力!

    推荐阅读