解读RE2《Simple|解读RE2《Simple and Effective Text Matching with Richer Alignment Features》
Paper: https://www.aclweb.org/anthology/P19-1465
【解读RE2《Simple|解读RE2《Simple and Effective Text Matching with Richer Alignment Features》】Code: https://github.com/hitvoice/RE2
文章摘要
????文中提出了一种快速、强悍神经网络方法来用于通用文本的匹配。我们研究了构建一个快速且性能良好的文本匹配模型的足够条件,并建议保持三个用于序列间对齐的关键特性:原始点对齐特性、先前对齐特性和上下文特性,同时简化所有剩余组件。我们在自然语言推理、意图识别和答案选择等任务中,对4个研究良好的基准数据集进行了实验。我们的模型性能与最先进的模型相当,并且使用的参数更少,除此之外,在推理速度方面与类似模型的相比,至少要快6倍。
本文模型算法RE2
下图给出了总体架构的说明,两个文本序列在预测层前对称处理,除预测层中参数外的所有参数在两个序列之间共享。
文章图片
其中,对齐融合层的输入分为三个部分:原始点态特征(嵌入向量,用空白矩形表示)、先前对齐特征(剩余向量,用对角线矩形表示)和上下文特征(编码向量,用实矩形表示)。右边的架构与左边的架构相同,所以为了简洁起见省略了它。
Augmented Residual Connections(增强剩余链接)
????为了给对齐过程提供更丰富的特性,RE2采用了增强版的剩余连接来连接连续块。在增强剩余连接的情况下,对齐和融合层的输入分为三个部分,即原始的点方向特征(嵌入向量)、先前对齐特征(残差向量)和后编码层上下文特征(编码向量)。这三个部分在文本匹配过程中都起到了互补的作用。
对于长度为l的序列,我们将第n个块的输入和输出表示为
文章图片
和
文章图片
。 令
文章图片
为零向量序列。 如前所述,第一块
文章图片
的输入是嵌入层的输出(在图1中用空白矩形表示)。 第n个块
文章图片
(n≥2)的输入是第一个块
文章图片
的输入和前两个块的输出的总和(由具有斜条纹的矩形表示)的串联 图1):
文章图片
AlignmentLayer(对齐层)
对齐层(如上面架构图所示)将来自两个序列的特性作为输入,并计算对齐后的表示形式作为输出。
如图1所示,将两个序列的特征作为输入,并将对齐的表示作为输出进行计算。 从第一个序列输入长度
文章图片
的长度表示为
文章图片
并从第二个长度为lb的序列输入表示为
文章图片
。 相似之处ai和bj之间的得分eij被计算为点投影向量的乘积:
文章图片
Fusion Layer(融合层)
????融合层比较三个透视图中的局部表示和对齐表示,然后将它们融合在一起。
Prediction Layer(预测层)
????预测层以池层中v1和v2两个序列的向量表示作为输入,预测最终目标。
推荐阅读
- 慢慢的美丽
- 《真与假的困惑》???|《真与假的困惑》??? ——致良知是一种伟大的力量
- 《跨界歌手》:亲情永远比爱情更有泪点
- 诗歌:|诗歌: 《让我们举起世界杯,干了!》
- 期刊|期刊 | 国内核心期刊之(北大核心)
- 《魔法科高中的劣等生》第26卷(Invasion篇)发售
- 人间词话的智慧
- 《一代诗人》37期,生活,江南j,拨动心潭的一泓秋水
- 广角叙述|广角叙述 展众生群像——试析鲁迅《示众》的展示艺术
- 书评——《小行星》