最近一直在做序列标注的工作,记录一下在工作中读的一些论文,今天记录这两篇,分别是《Morphosyntactic Tagging with a Meta-BiLSTM Model over Context Sensitive Token Encodings》和《Hierarchically-Refined Label Attention Network for Sequence Labeling》,分别来自Google和浙大。
Morphosyntactic Tagging with a Meta-BiLSTM Model over Context Sensitive Token Encodings
这篇文章基于字+词做pos tagging,但这里的做法和寻常的有些不一样,一般做法是将word做padding到和char一样长,然后concat扔到bilstm中去训练,最后接CRF得到每一个token的词性输出。这篇文章是分别基于char和word去训练一个model,各自进入一个bilstm,计算loss,char model和wordmodel的mlp输出,进入一个meta bilstm,最后再过一个mlp得到输出。
文章图片
作者基于WSJ和UD的数据集,针对多种语言进行了词法、句法实验,并分析了这种model各个module对最后结果的影响,具体不赘述了。在我看来,这种对char和word分别循环建模,然后融合结果再过一层bilstm的做法,简单粗暴,用来做实验具有一定的意义,但如果要满足实际的线上使用,估计会慢成狗吧。
Hierarchically-Refined Label Attention Network for Sequence Labeling
这篇文章干的事这么一件事,提出了一个BiLSTM-LAN的架构,以往的序列标注都是在BiLSTM后面接一层CRF,得到token的label输出,但是这篇文章,是在BiLSTM层后面接一层注意力推断层,基于BiLSTM得到的隐态,计算推断得到的label,然后将隐态和得到的label融合,输入下一个类似结构中,继续推断,见下图:
文章图片
【sequence labeling笔记(一)】同样实验也是在WSJ和UD上做的,但从论文给出的实验结果来看,确实提升有限,当然文章没有细看,有时间再推敲。
推荐阅读
- 人工智能|hugginface-introduction 案例介绍
- 深度学习|论文阅读(《Deep Interest Evolution Network for Click-Through Rate Prediction》)
- nlp|Keras(十一)梯度带(GradientTape)的基本使用方法,与tf.keras结合使用
- NER|[论文阅读笔记01]Neural Architectures for Nested NER through Linearization
- 深度学习|2019年CS224N课程笔记-Lecture 17:Multitask Learning
- 深度学习|[深度学习] 一篇文章理解 word2vec
- 论文|预训练模型综述2020年三月《Pre-trained Models for Natural Language Processing: A Survey》
- NLP|NLP预训练模型综述
- NLP之文本表示——二值文本表示
- 隐马尔科夫HMM应用于中文分词