本文介绍了一种新的语言表征模型 BERT——来自 Transformer 的双向编码器表征 。与最近的语言表征模型不同 。BERT 旨在基于所有层的左、右语境来预训练深度双向表征 。BERT 是首个在大批句子层面和 token 层面任务中取得当前最优性能的基于微调的表征模型 。其性能超越许多使用任务特定架构的系统 。刷新了 11 项 NLP 任务的当前最优性能记录 。
近日 。谷歌 AI 的一篇NLP论文引起了社区极大的关注与讨论 。被认为是 NLP 领域的极大突破 。如谷歌大脑研究科学家 Thang Luong Twitter 表示这是 NLP 领域的新时代 。
文章插图
Twitter 上也有众多研究者参与讨论、转发了这篇论文:
文章插图
这篇刷新了 11 项 NLP 任务的论文不久之前已经上线 。让我们一睹为快:
研究证明语言模型预训练可以有效改进许多自然语言处理任务 。包括自然语言推断、复述(paraphrasing)等句子层面的任务 。以及命名实体识别、SQuAD 问答等 token 层面的任务 。前者通过对句子进行整体分析来预测句子之间的关系 。后者则要生成 token 级别的细粒度输出 。
目前将预训练语言表征应用于下游任务存在两种策略:基于特征的策略和微调策略(fine-tuning) 。基于特征的策略(如 ELMo)使用将预训练表征作为额外特征的任务专用架构 。微调策略(如生成预训练 Transformer (OpenAI GPT))引入了任务特定最小参数 。通过简单地微调预训练参数在下游任务中进行训练 。在之前的研究中 。两种策略在预训练期间使用相同的目标函数 。利用单向语言模型来学习通用语言表征 。
本论文作者(即 Google AI Language 团队的研究人员)认为现有的技术严重制约了预训练表征的能力 。微调策略尤其如此 。其主要局限在于标准语言模型是单向的 。这限制了可以在预训练期间使用的架构类型 。例如 。OpenAI GPT 使用的是从左到右的架构 。其中每个 token 只能注意 Transformer 自注意力层中的先前 token 。这些局限对于句子层面的任务而言不是最佳选择 。对于 token 级任务(如 SQuAD 问答)则可能是毁灭性的 。因为在这种任务中 。结合两个方向的语境至关重要 。
本文通过 BERT(Bidirectional Encoder Representations from Transformers)改进了基于微调的策略 。BERT 提出一种新的预训练目标——遮蔽语言模型(masked language model 。MLM) 。来克服上文提到的单向局限 。MLM 的灵感来自 Cloze 任务(Taylor, 1953) 。MLM 随机遮蔽输入中的一些 token 。。目标在于仅基于遮蔽词的语境来预测其原始词汇 id 。与从左到右的语言模型预训练不同 。MLM 目标允许表征融合左右两侧的语境 。从而预训练一个深度双向 Transformer 。除了 MLM 。我们还引入了一个「下一句预测」(next sentence prediction)任务 。该任务联合预训练文本对表征 。
本文贡献如下:
展示了双向预训练语言表征的重要性 。不同于 Radford 等人(2018)使用单向语言模型进行预训练 。BERT 使用 MLM 预训练深度双向表征 。本研究与 Peters 等人(2018)的研究也不同 。后者使用的是独立训练的从左到右和从右到左 LM 的浅层级联 。
证明了预训练表征可以消除对许多精心设计的任务特定架构的需求 。BERT 是首个在大批句子层面和 token 层面任务中取得当前最优性能的基于微调的表征模型 。其性能超越许多使用任务特定架构的系统 。
BERT 刷新了 11 项 NLP 任务的当前最优性能记录 。本论文还报告了 BERT 的模型简化测试(ablation study) 。证明该模型的双向特性是最重要的一项新贡献 。代码和预训练模型将发布在 goo.gl/language/bert 。
论文:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
文章插图
论文地址:https://arxiv.org/pdf/1810.04805.pdf
摘要:本文介绍了一种新的语言表征模型 BERT 。意为来自 Transformer 的双向编码器表征(Bidirectional Encoder Representations from Transformers) 。与最近的语言表征模型(Peters et al., 2018; Radford et al., 2018)不同 。BERT 旨在基于所有层的左、右语境来预训练深度双向表征 。因此 。预训练的 BERT 表征可以仅用一个额外的输出层进行微调 。进而为很多任务(如问答和语言推断任务)创建当前最优模型 。无需对任务特定架构做出大量修改 。
BERT 的概念很简单 。但实验效果很强大 。它刷新了 11 个 NLP 任务的当前最优结果 。包括将 GLUE 基准提升至 80.4%(7.6% 的绝对改进)、将 MultiNLI 的准确率提高到 86.7%(5.6% 的绝对改进) 。以及将 SQuAD v1.1 的问答测试 F1 得分提高至 93.2 分(提高 1.5 分)——比人类表现还高出 2 分 。
推荐阅读
- 如果你没有钱还不想上班,但是想创业,该怎么做?
- 如此详细的澳大利亚技术移民流程一定要看完
- 土猪是什么意思,土猪和普通猪有什么区别
- 如何在没有资金没有人脉的情况下创业做老板?
- 如何推进农业绿色发展,农业绿色发展包括哪些
- 网络时代该如何保障不受侵权和避免被骗被盗事件发生?
- 农业绿色发展包括哪些,农业绿色发展的理论基础
- 普拉多霸道4000有手动挡吗多少钱 普拉多霸道4000有手动挡吗?
- 多米尼克在哪 这个国家怎么样