Summarization 文本摘要进展

文本摘要一直都是机器学习领域一个重要的热点,但是却有很大的难度。例如,给单篇文章起标题/摘要的时候,很难有词频作保证,而是需要模型可以理解内容,甚至做一些推理。在很多地方,摘要生成和机器翻译有类似之处。然而,和机器翻译不同的是,自动文本摘要的输入和输出很不平衡,此外机器翻译任务的输入输出序的列通常有一些词义层面上的直接对应,这种对应在摘要任务中却没那么明显。
目前,自动文档摘要技术主要分为抽取式(extractive)和摘要式(又叫生成式)(abstractive)两种。
抽取式摘要相对较为成熟。这种方法利用如 text rank 这样的排序算法,对处理后的文章语句进行排序。不过抽取式摘要在语义理解方面考虑较少,无法建立文本段落中的完整的语义信息。
相较而言,生成式技术需要让模型理解文章语义后总结出摘要,更类似人类的做法。不过这种技术需要使用机器学习技术,长期以来并不成熟。转折点出现在 2014 年。这一年,Bengio 等人发表论文 Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation,正式引入了 sequence-to-sequence 模型。这一模型通过两个循环神经网络,分别把输入文本转化成向量,再把向量转成输出序列。这种模型在论文中主要用来完成机器翻译任务,并且后来被应用在谷歌翻译中,但后续在文摘生成任务中也产生了广泛的应用。此后,这种利用深度学习的 sequence-to-sequence 方法不断被改进,在一些标准的评测数据集(如 DUC-2004)上,已经超过了传统的抽取式方法。
例如,2016 年,Facebook AI 实验室(FAIR)的学者发表论文 A Convolutional Encoder Model for Neural Machine Translation,在编码的时候用 CNN 取代 RNN,获得不错的效果。Salesforce 的研究人员 2017 年发表的论文 A Deep Reinforced Model for Abstractive Summarization 中,使用了增强学习,在 CNN/Daily Mail 数据集上的 ROUGE-1 分数达到 41.16 分。同年,又是 FAIR 发表了论文 Convolutional Sequence to Sequence Learning,引入 attention 机制,不仅提高了评测分数,还极大地提升了速度。
2016 年,来自 IBM 沃森的研究人员发表论文 Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond,和之前的论文不同,这篇论文把机器翻译和文本摘要任务完全分开,专门针对文本摘要提出了更合适的模型,除此之外,文章还发布了两个新的数据集。
【Summarization 文本摘要进展】中国也有许多学者在从事相关工作,例如北大的万小军老师。他和姚金戈的综述《自动文摘研究进展与趋势》把摘要技术框架总结成 4 个步骤:内容表示 → 权重计算 → 内容选择 → 内容组织,并对每个步骤都作了介绍。

    推荐阅读