一次关于关系抽取(RE)综述调研的交流心得
本文来自于一次交流的的记录,{}内的为个人体会。
基本概念
- 实事知识:实体-关系-实体的三元组。比如,
- 知识图谱:大量实时知识组织在一起,可以构建成知识图谱。
- 关系抽取:由于文本中蕴含大量事实知识,需要从非结构化文本中自动地抽取出事实知识
- 完整的关系抽取抽取系统包括以下,其中,关系分类最核心
- 命名实体识别 (Named Entity Recongnition, NER)
- 实体链接 (Entity Linking)
- 关系分类 (Relation Classification)
- 如何处理句子的结构信息
- 在复杂句,长难句的实体关系如何
- 如何更好的利用实体信息
- 实体的位置信息
- 实体的类型信息
- 如何更好地建立关系语义
- 对于隐晦的表达,如何抽取出真实关系
- 引入dependecy parsing 信息, 将pasing信息建模成feature 2004
- 基于最短依存路径的 (Xu Yan, et al. Classifying relations via long short tem memory netwworks along shortest dependency paths EMNLP 2015) 简化实体关系,抽取核心的关系
- 使用GCN建模依存关系:使用图网络,在最短依存路径基础上,对关系的关注更高效,更全面: Zhang Yuhao, et al. Graph convolution over pruned dependency tress imporoves relation extraction. arXiv:1809.10185(2018)
- position embendding: Zeng,Daojan, et al. Relation classfication via convolutional deep neural network.2014
- 进一步利用positional embendding指导attention: Zhang et al. Position-aware Attention and Supervised Data ...
- BERT 等与训练模型,在fintue时引入位置信息:Soares et al. Matching the Blanks: Distributional Similarity for Relation Learning. 2019
- 在feature-based方法中,将类型作为feature:在与训练模型出现以前,SOTA关系 抽取模型(LSTM-ATT, GCN, AGGCN)在预处理时直接将实体替换成实体类型。 {相当于简化实体的复杂度}这类方法的鲁棒性不行,在实体名字改变之后,往往效果下降的很厉害。
- 预训练模型可以更好地建模实体信息
- 实体信息和上下文信息都很重要。实体的类型信息在关系抽取时的表现比实体本身更好{换句话说,过于关注实体信息本身,而减弱对类型、上下文信息的关注,会降低关系抽取效果}。:Peng, Hao, et al. Learning from context ofr names? an empirical study on neural realation extraction. EMNLP2020 —— 本文采用随机Mask实体,减少模型对实体信息的依赖。
预训练语言模型建模关系语义的问题
- 预训练表示中包含复杂的语义,并非针对关系抽取设计
- 关系类别是人工定义的,很难隐式地学习
当前,大量的工作已经投入在了预训练模型上
面向关系表示的预训练 Soares, Livio Baldini, et al. Mathcing the blanks:Distributional Similarity for Relation Learning. 2019
同时,传统关系抽取任务已经的sota已经92%了。
- 封闭世界假设 : 远程监督关系抽取,开放域关系抽取
- 大数据假设:少样本关系抽取
- 单句关系假设:文档级关系抽取
动机:
- 大规模人工标注很贵
- 通过远程监督(distant supervision) 得到大量标注数据
于是假设:包含一堆实体的多个句子中,至少有一句表达该实体的关系,因此可以使用 multi-instance learning,即使用包级别的算法抽取关系
基于Multi-instance learning的降噪方法:
- soft denoise methods
- PCNN+ATT Lin, Yankai, et al. Neural relation extraction with selective attention over instances. ACL2015
- hard denoise methods
RL-based noise selection: Qin, Pengda. Robust distant supervision relation extraction via deep ...
该方案问题: 由于使用包级别的关系抽取,无法获得句子级别的标签预测
SENT:Sentence-level Distant Realation Extraction via Negative Training. ACL 2021
开放域关系抽取 (Open RE)
Openset(开集)
开放域关系抽取:不对关系类型做约束,旨在从开放域的无监督文本中自动发现新的关系
基于聚类的开放域关系发现:Wu Ruidong, et al. Open relation extraction : Relational knowledge transfer from supervised data to unsupervised data. EMNLP2019
- 使用Relation Siamese Network判断两个句子是否表达同一种关系
- 用作聚类算中的距离度量
通过领域外经验和少量目标高效学习
- 基于原型网络的少样本关系抽取:
Snell Prototypical networks for few-shot learning. Advances in neural information processing system 30(2017)
Large Margin Prototypical Network for Few-shot Relation Classification with Fine-grained Features. CIKM 2019 - Prompt-tuning:在低资源场景下如何更好地利用预训练网络,通过贴近预训练形式,能够减少预训练模型和下游人物的gap,通常更多地复用预训练模型的参数,这样对样本的数量依赖更小。
- 将下游任务重构为何预训练任务相似的形式
Han, Xu et al. Ptr: Prompt tuning with rules for text classification. arXiv:2105.11259 2021
- 将下游任务重构为何预训练任务相似的形式
传统关系抽取的假设:实体关系的表达局限在一个单句中,而实际情况下,很多信息也存在在更大的范围外,级文档级关系抽取
文档级关系抽取的挑战:
- 文档中存在大量的实体和关系
- 、
- 、
- 基于层级网络的文档级关系抽取,通过不同层级的网络实现token level-> sentence level -> document level的层次化特征抽取. Tang, et al. Hin: Hierarchical inference network for document-level relation extraction
- 基于图神经网络的文档级抽取,通过两层mention-实体图构建更好的表示. Double Graph Based Reasoning for Document-level Relation Extraction. EMNLP2020
比如,噪声问题、少样本问题,这些也都指向机器学习更普遍的问题,即样本与标签越来越成为模型瓶颈,也越来越受到研究者的关注。
推荐阅读
- 一次Mysql|一次Mysql update sql不当引起的生产故障记录
- ios|ios 请在设置中打开相机权限_iOS关于相机相册权限设置
- 关于k8s|关于k8s 使用 Service 控制器对外暴露服务的问题
- 关于elementUI如何在表格循环列表里分别新增Tag的设计使用
- Mybatis-Plus|Mybatis-Plus 如何实现一对多关系 举例 用户与角色
- CRM客户关系管理系统的价值体现在那些方面()
- 关于C#版Nebula客户端编译的问题
- 记一次|记一次 Nuxt 3 在 Windows 下的打包问题
- 关于开发中的版本问题的一点小建议
- 和事故斗智斗勇的这些天|关于 error: invalid types ‘int[int]‘ for array subscript 的解决