sequence labeling笔记(一)

最近一直在做序列标注的工作,记录一下在工作中读的一些论文,今天记录这两篇,分别是《Morphosyntactic Tagging with a Meta-BiLSTM Model over Context Sensitive Token Encodings》和《Hierarchically-Refined Label Attention Network for Sequence Labeling》,分别来自Google和浙大。
Morphosyntactic Tagging with a Meta-BiLSTM Model over Context Sensitive Token Encodings
这篇文章基于字+词做pos tagging,但这里的做法和寻常的有些不一样,一般做法是将word做padding到和char一样长,然后concat扔到bilstm中去训练,最后接CRF得到每一个token的词性输出。这篇文章是分别基于char和word去训练一个model,各自进入一个bilstm,计算loss,char model和wordmodel的mlp输出,进入一个meta bilstm,最后再过一个mlp得到输出。
sequence labeling笔记(一)
文章图片

作者基于WSJ和UD的数据集,针对多种语言进行了词法、句法实验,并分析了这种model各个module对最后结果的影响,具体不赘述了。在我看来,这种对char和word分别循环建模,然后融合结果再过一层bilstm的做法,简单粗暴,用来做实验具有一定的意义,但如果要满足实际的线上使用,估计会慢成狗吧。
Hierarchically-Refined Label Attention Network for Sequence Labeling
这篇文章干的事这么一件事,提出了一个BiLSTM-LAN的架构,以往的序列标注都是在BiLSTM后面接一层CRF,得到token的label输出,但是这篇文章,是在BiLSTM层后面接一层注意力推断层,基于BiLSTM得到的隐态,计算推断得到的label,然后将隐态和得到的label融合,输入下一个类似结构中,继续推断,见下图:
sequence labeling笔记(一)
文章图片

【sequence labeling笔记(一)】同样实验也是在WSJ和UD上做的,但从论文给出的实验结果来看,确实提升有限,当然文章没有细看,有时间再推敲。

    推荐阅读