问题生成(question-generation)论文汇总
1、综述:Recent Advances in Neural Question Generation-2019地址
2、其他论文:
论文1
题目:Paragraph-level Neural Question Generation with Maxout Pointer and Gated Self-attention Networks-2018
论文地址
GIT代码实现
任务为输入段落和答案,输出生成问题
文章图片
主要处理了在问题生成(Question Generation,QG)中,长文本(多为段落)在seq2seq模型中表现不佳的问题。长文本在生成高质量问题方面不可或缺。
【问题生成(question-generation)论文汇总】问题:在问题生成(Question Generation,QG)中,长文本(多为段落)在seq2seq模型中表现不佳。段落和答案编码 双向RNN来进行encode,
针对文章级的问题生成效果一直不佳,本文基于Seq2Seq设计了gated self-attention和Maxout Pointer两个机制来提升文章级的问题生成效果,并首次超越了句子级的问题生成。
方法:本文主要提出了一个改进的seq2seq模型,加入了maxout pointer机制和gated self-attention encoder。在之后的研究中可以通过加入更多feature或者policy gradient等强化学习的方式提升模型性能。
编码阶段:
将词向量和这个词是否在answer中两个向量拼接起来作为答案标记。
门控自注意力机制主要解决以下问题:聚合段落信息嵌入(embed)段落内部的依赖关系,在每一时间步中优化P和A的嵌入表示。
段落和答案编码双向RNN来进行encode。用300维glove词向量+answer tag。输入双向LSTM 编码
2、解码阶段
用Attention得到一个新的decoder state;
Copy/pointer+ maxout指针机制在所有指标上都优于基本复制机制。
文章图片
效果:
段落及首次高于句子集;
文章图片
生成问题中重复单词输明显减少
文章图片
相比于其他模型有明显提升。
实验部分:
torch和相关包下载:https://download.pytorch.org/whl/torch_stable.html
用开源的训练方法训练,测试squad数据生成效果不错。
用中文数据集CMRC和中文词向量进行模型训练,测试生成问题,效果不好。具体原因分析为,CMRC没有squad数据量大和全面,中文词向量文件没有英文词更全面;中英文在语法和结构处理上存在差异。如何提升效果,后续更新。
推荐阅读
- parallels|parallels desktop 解决网络初始化失败问题
- jhipster|jhipster 升级无效问题
- “精神病患者”的角度问题
- 解决SpringBoot引用别的模块无法注入的问题
- Hive常见问题汇总
- 姚老师互动问答会|姚老师互动问答会 # 问题001(如何更有智慧的和身边人分享金刚智慧())
- 【Hadoop踩雷】Mac下安装Hadoop3以及Java版本问题
- 【教育故事】|【教育故事】 一个“问题学生”的蜕变
- 蓝桥杯试题
- 记录iOS生成分享图片的一些问题,根据UIView生成固定尺寸的分享图片