Summarization 文本摘要进展自然语言处理

文本摘要一直都是机器学习领域一个重要的热点，但是却有很大的难度。例如，给单篇文章起标题/摘要的时候，很难有词频作保证，而是需要模型可以理解内容，甚至做一些推理。在很多地方，摘要生成和机器翻译有类似之处。然而，和机器翻译不同的是，自动文本摘要的输入和输出很不平衡，此外机器翻译任务的输入输出序的列通常有一些词义层面上的直接对应，这种对应在摘要任务中却没那么明显。
目前，自动文档摘要技术主要分为抽取式（extractive）和摘要式（又叫生成式）（abstractive）两种。
抽取式摘要相对较为成熟。这种方法利用如 text rank 这样的排序算法，对处理后的文章语句进行排序。不过抽取式摘要在语义理解方面考虑较少，无法建立文本段落中的完整的语义信息。
相较而言，生成式技术需要让模型理解文章语义后总结出摘要，更类似人类的做法。不过这种技术需要使用机器学习技术，长期以来并不成熟。转折点出现在 2014 年。这一年，Bengio 等人发表论文 Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation，正式引入了 sequence-to-sequence 模型。这一模型通过两个循环神经网络，分别把输入文本转化成向量，再把向量转成输出序列。这种模型在论文中主要用来完成机器翻译任务，并且后来被应用在谷歌翻译中，但后续在文摘生成任务中也产生了广泛的应用。此后，这种利用深度学习的 sequence-to-sequence 方法不断被改进，在一些标准的评测数据集（如 DUC-2004）上，已经超过了传统的抽取式方法。
例如，2016 年，Facebook AI 实验室（FAIR）的学者发表论文 A Convolutional Encoder Model for Neural Machine Translation，在编码的时候用 CNN 取代 RNN，获得不错的效果。Salesforce 的研究人员 2017 年发表的论文 A Deep Reinforced Model for Abstractive Summarization 中，使用了增强学习，在 CNN/Daily Mail 数据集上的 ROUGE-1 分数达到 41.16 分。同年，又是 FAIR 发表了论文 Convolutional Sequence to Sequence Learning，引入 attention 机制，不仅提高了评测分数，还极大地提升了速度。
2016 年，来自 IBM 沃森的研究人员发表论文 Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond，和之前的论文不同，这篇论文把机器翻译和文本摘要任务完全分开，专门针对文本摘要提出了更合适的模型，除此之外，文章还发布了两个新的数据集。
【Summarization 文本摘要进展】中国也有许多学者在从事相关工作，例如北大的万小军老师。他和姚金戈的综述《自动文摘研究进展与趋势》把摘要技术框架总结成 4 个步骤：内容表示 → 权重计算 → 内容选择 → 内容组织，并对每个步骤都作了介绍。

Summarization 文本摘要进展

推荐阅读

政策性银行员工是事业编吗政策性银行有哪些

为什么喝茶容易失眠晚上喝黑茶会失眠吗

塔莱辛魔像在哪里塔莱辛魔像位置分享

hp25r|全新升级，照亮前方！Fenix HP25R V2.0头灯体验

茶叶泡久了变红为什么

小米|iPhone13再见！没有快充高刷也配称为旗舰华为小米不香吗！

丰年虾孵化后能活多久丰年虾孵化后能活多久

激萌如何变老，faceu激萌变老功能怎么玩

ntko控件下载,NTKO大文件上传控件

胃痛推拿有效果吗

香菇胡萝卜肉馅要不要炒

用ps制作个性签名我来分享PS制作粉色个性签名的详细操作

foxmail如何设置阅读收条 Foxmail设置阅读收条的相关操作步骤

不用实名认证的5v5游戏，腾讯哪些游戏不需要实名认证的

鸡电压力锅如何用电压锅煲鸡，用电压力锅做鸡的做法

电热水器漏电开关安装示意图如何防止电热水器漏电，热水器漏电会电死人吗

新型冠状病手抄报怎么画

荣耀80 GT取消8G版本售价3299元支持24期免息分期

05|05 | 行为金融学（你能真正了解一家公司吗（信息收集阶段的认知偏差））

怎么去除杯盖的异味怎么去除杯盖的胶味