1.word2vec与Elmo模型在语义学习上差异是什么?
word2vec就是nlp中预训练的一种方式。但是word2vec有一个缺点就是无法解决多义词,因为每一个词只有用一个向量表示。
ELMO是“Embedding from Language Models"简称。在此之前word embedding本质是个静态方式,静态的意思就是说单词训练好之后就固定了,在以后使用时,单词不会跟着上下文场景变化而变化。
ELMO的本质思想是:事先用一个语言模型去学习单词的word embedding, 当我在使用时,单词已经具备了特定的上下文,这时候可以根据上下文的语义去调整单词的word embedding, 这样经过调整的word embedding更能表达这个上下文中具体的含义,也就解决了一词多义问题,故ELMO本质就是根据当前上下文对Word Embedding进行动态调整的过程。
https://www.cnblogs.com/zhaopAC/p/11219600.html
https://zhuanlan.zhihu.com/p/75391062
https://zhuanlan.zhihu.com/p/56382372
2.Batch Normalization与Layer Normalization区别?bert中为什么用后者?
当一个batch的数据输入模型的时候,大小为(batch_size, max_len, embedding),其中batch_size为batch的批数,max_len为每一批数据的序列最大长度,embedding则为每一个单词或者字的embedding维度大小。而Batch Normalization是对每个Batch的每一列做normalization,相当于是对batch里相同位置的字或者单词embedding做归一化,Layer Normalization是Batch的每一行做normalization,相当于是对每句话的embedding做归一化。显然,LN更加符合我们处理文本的直觉。
https://zhuanlan.zhihu.com/p/101570806
https://zhuanlan.zhihu.com/p/74516930
3.熟悉GELU激活函数,与RELU差异。
文章图片
文章图片
x=0 到 x=1 的区间,这时曲线更偏向于 y 轴,且在x=-3到x=0的区间,函数值在0到-0.2之间。
https://zhuanlan.zhihu.com/p/98863801
4.Semi-Supervised DA方法
文章图片
https://www.cnblogs.com/lookfor404/
5.模型融合的相关方法
文章图片
文章图片
https://www.cnblogs.com/libin47/p/11169994.html
【迁移学习与模型融合问题若干】
推荐阅读
- 人工智能|hugginface-introduction 案例介绍
- 深度学习|论文阅读(《Deep Interest Evolution Network for Click-Through Rate Prediction》)
- nlp|Keras(十一)梯度带(GradientTape)的基本使用方法,与tf.keras结合使用
- NER|[论文阅读笔记01]Neural Architectures for Nested NER through Linearization
- 深度学习|2019年CS224N课程笔记-Lecture 17:Multitask Learning
- 深度学习|[深度学习] 一篇文章理解 word2vec
- 论文|预训练模型综述2020年三月《Pre-trained Models for Natural Language Processing: A Survey》
- NLP|NLP预训练模型综述
- NLP之文本表示——二值文本表示
- 隐马尔科夫HMM应用于中文分词