2018年1月27日 所读论文《基于超图的文本摘要与关键词协同抽取研究》
Part 1 新概念:
1、超图(hypergraph),简单来说,就是将简单图中只能连接两个顶点的边扩展为可连接任意个数顶点,e1边可连接v1,v2,v3顶点,同样的可以为边赋权值weight。同样可对超图进行相对应的数据结构存储方式,即用邻接矩阵存储,如此以来,第i列即为ei边连接了哪些顶点,第j行即为包含vi点有哪些边。
文章图片
而超图的邻接矩阵即为
文章图片
2、共指(corefer):对于现实生活中的具体事物,人类语言中有着多种表达方式。然而机器处理时,需要将不同的表述指向同一个主体。而处理的方式名称为共指消解,在共指消解中有两种词汇定义和一种关系。
第一种为实体(entity),指现实中的具体唯一的个体,在语料库中完整定义且唯一存在。
第二种为指陈(mention),指表示此实体的各种表述方式,可以是名词或者代词。
而存在着一种共指关系(corefer relation),顾名思义即为当两个表述均指向同一实体时,二者便存在共指关系。
共指关系在文本摘要中存在的意义为:通过共指关系拉成的共指链,判断共指链的长度,从而确定指向的同一实体在文章中的重要性。
Part 2 论文信息理解
基于超图的处理方式:将句子作为超边,以词作为节点
优势:不需要知识库或者背景资料的支持
【little|【车车日常之—文本摘要论文记录】】文本摘要方式:抽取式单文本摘要(即抽取文中评价最高的一个句子作为摘要,且摘要来源文本为单一文本)
疑惑点:如何得出每个句子的主题信息比率,随机游走所起到的算法效果。
评价系统:这种基于超图的文本摘要方式考虑了ROUGE评测标准,展示了ROUGE-1,2,3,4,L五种评价方式中相较于其他文本摘要方式的得分。
其他重要文本摘要信息:本文除了介绍基于超图的文本摘要方式,同时提到了几项较为普遍的文本摘要方式
HBR(基于超边的句子排序方式)
GBIR(基于图的迭代强化方法)
理论基础:两个假设(词与句子的重要性判断假设),则句子与词语的重要性互相影响,迭代计算出句子和词的重要性得分
LogLikelihood(此种方法按照句子主题词密度为句子排序)
可以看出,基于超图的文本摘要方式准确率较高的原因在于其不需要繁杂的语料库,同时考虑了句子与词语之间的相互关系。
Part 3 想法:
目前学术界的文本摘要主要是抽取式文本摘要,而生成式文本摘要极少出现,但是希望从抽取式中找到启发。认为既然要使得机器生成
流畅的连贯的摘要,则要对计算机进行机器学习(学习各种简单语句拼凑的方式等等),这样以来可以在每个段落间找到一个中心句子,将他
们简单地筛选、拼凑而生成一段较为丰富的摘要。