语言模型的预训练

参考自:https://zhuanlan.zhihu.com/p/49271699

ELMO:得到WE后过BiLSTM调整WE的表达 优点:一词多义
缺点:LSTM特征提取不好
GPT:预训练+调参 优点:采用transformer来提取特征
缺点:变成双向的话会更好吧
Bert:双向的transformer 优点; 一点是特征抽取器采用Transformer;第二点是预训练的时候采用双向语言模型。
【语言模型的预训练】

    推荐阅读