推荐五篇论文|推荐五篇论文| 轻量级的Transformer; 对比学习；ResNeSt；Shortcut Learning等推荐五篇论文|轻量级的Transf

本文介绍了最近比较有意思的五篇文章：

轻量级的transformer
监督式的对比学习
shortcur learning
ResNeSt
Attention模块的分析

Lite Transformer with Long-Short Range Attention https://arxiv.org/abs/2004.11886v1
Transform已经在自然语言处理（例如机器翻译，问题解答）中无处不在；但是，要实现高性能，它需要大量的计算，这使其不适合受硬件资源和电池严格限制的移动应用程序。本文，提出了一种有效的轻量级的Transformer，以便部署mobil NLP应用程序。轻量级的transform的关键关键Long-Short Range Attention（LSRA），其中有一group负责局部上下文建模（通过卷积），而另一组负责距离关系建模（通过注意力）。
https://github.com/mit-han-lab/lite-transformer
Supervised Contrastive Learning https://arxiv.org/abs/2004.11362v1
交叉熵是广泛使用的损失函数。在本文中，作者提出了一种新的训练方法，该方法在不同模型架构和数据增广的监督学习任务上始终超过交叉熵。具体地说，作者改进了最近提出的批处理对比损失(batch contrastive loss)，可以证明该方法在自监督的情况下能够学习到更强大的表示。对比损失能够比交叉熵更有效地利用标签信息：也就是说属于同一类别的点集能够聚在一起，不同类别的样本集能够被推开。在ResNet-50和ResNet-200上，本文方法比交叉熵均高1个点，在使用AutoAugment数据增强的方法下，performance达到了78.8％。对比损失有更好的鲁棒性，与交叉熵相比，对比损失更稳定。
Shortcut Learning in Deep Neural Networks
【推荐五篇论文|推荐五篇论文| 轻量级的Transformer; 对比学习；ResNeSt；Shortcut Learning等】https://arxiv.org/abs/2004.07780v1
本文试图探究有多少深度学习问题可以看作是同一根本问题，也就是shortcut learning。shortcut learning是在标准基准上表现良好的决策规则，但无法转移到更具挑战性的测试条件（例如实际场景）中。相关问题在比较心理学，教育学和语言学领域是已知的，这表明shortcut learning可能是生物学和人工学习系统的共同特征。基于这些观察，本文针对模型解释和基准测试提出了一系列建议，重点介绍了机器学习的最新进展，以提高从实验室到实际应用的鲁棒性和可移植性。
ResNeSt: Split-Attention Networks https://arxiv.org/abs/2004.08955v1
尽管图像分类模型最近不断发展，但是由于ResNet其简单而模块化的结构，大多数下游应用程序（例如目标检测和语义分割）仍将ResNet变体用作backbone。本文提出了一个简单的模块化Split-Attention块，该块可实现跨功能图组的关注。
通过以ResNet的方式堆叠这些Split-Attention块，获得了一个称为ResNeSt的新ResNet变体。该网络保留了完整的ResNet结构，可直接用于下游任务，而不会引起额外的计算成本。ResNeSt模型的复杂度优于其他网络。举个例子，ResNeSt-50使用224x224的单个作物尺寸在ImageNet上实现了81.13％的top-1精度，比以前最好的ResNet变种高出1％以上。此改进还有助于下游任务，包括目标检测，实例分割和语义分割。再比如，通过简单地用ResNeSt-50替换ResNet-50，本文将MS-COCO上的Faster-RCNN的mAP从39.3％提高到42.3％，并将ADE20K上的DeeplabV3的mIoU从42.1％提高到45.1％。
Attention Module is Not Only a Weight: Analyzing Transformers with Vector Norms 注意力模块是Transformer模型的核心组件，这些模块最近在自然语言处理中获得了相当大的成功。关于注意力机制的分析，以前的研究主要分析注意力权重，以查看注意力模块从每个输入中收集多少信息以产生输出。
在这项研究中，作者指出注意力权重只是决定self-attention模块输出的两个因素之一,其实还有另一个向量：transformed input vectors。本文测量了加权向量范数作为输入对输出的贡献。对BERT和基于Transformer的神经机器翻译系统中的自注意模块进行了分析，发现（1）BERT的注意力模块对特殊tokens的关注度不高，（2）Transformer的注意模块很好地捕获了单词对齐。