语言模型的预训练
参考自:https://zhuanlan.zhihu.com/p/49271699
ELMO:得到WE后过BiLSTM调整WE的表达 优点:一词多义
缺点:LSTM特征提取不好
GPT:预训练+调参 优点:采用transformer来提取特征
缺点:变成双向的话会更好吧
Bert:双向的transformer 优点;
一点是特征抽取器采用Transformer;第二点是预训练的时候采用双向语言模型。
【语言模型的预训练】
推荐阅读
- 热闹中的孤独
- JAVA(抽象类与接口的区别&重载与重写&内存泄漏)
- 放屁有这三个特征的,请注意啦!这说明你的身体毒素太多
- 一个人的旅行,三亚
- 布丽吉特,人生绝对的赢家
- 慢慢的美丽
- 尽力
- 一个小故事,我的思考。
- 家乡的那条小河
- 《真与假的困惑》???|《真与假的困惑》??? ——致良知是一种伟大的力量