迁移学习与模型融合问题若干

1.word2vec与Elmo模型在语义学习上差异是什么?
word2vec就是nlp中预训练的一种方式。但是word2vec有一个缺点就是无法解决多义词,因为每一个词只有用一个向量表示。
ELMO是“Embedding from Language Models"简称。在此之前word embedding本质是个静态方式,静态的意思就是说单词训练好之后就固定了,在以后使用时,单词不会跟着上下文场景变化而变化。
ELMO的本质思想是:事先用一个语言模型去学习单词的word embedding, 当我在使用时,单词已经具备了特定的上下文,这时候可以根据上下文的语义去调整单词的word embedding, 这样经过调整的word embedding更能表达这个上下文中具体的含义,也就解决了一词多义问题,故ELMO本质就是根据当前上下文对Word Embedding进行动态调整的过程。
https://www.cnblogs.com/zhaopAC/p/11219600.html
https://zhuanlan.zhihu.com/p/75391062
https://zhuanlan.zhihu.com/p/56382372
2.Batch Normalization与Layer Normalization区别?bert中为什么用后者?
当一个batch的数据输入模型的时候,大小为(batch_size, max_len, embedding),其中batch_size为batch的批数,max_len为每一批数据的序列最大长度,embedding则为每一个单词或者字的embedding维度大小。而Batch Normalization是对每个Batch的每一列做normalization,相当于是对batch里相同位置的字或者单词embedding做归一化,Layer Normalization是Batch的每一行做normalization,相当于是对每句话的embedding做归一化。显然,LN更加符合我们处理文本的直觉。
https://zhuanlan.zhihu.com/p/101570806
https://zhuanlan.zhihu.com/p/74516930
3.熟悉GELU激活函数,与RELU差异。
迁移学习与模型融合问题若干
文章图片

迁移学习与模型融合问题若干
文章图片

x=0 到 x=1 的区间,这时曲线更偏向于 y 轴,且在x=-3到x=0的区间,函数值在0到-0.2之间。
https://zhuanlan.zhihu.com/p/98863801
4.Semi-Supervised DA方法
迁移学习与模型融合问题若干
文章图片

https://www.cnblogs.com/lookfor404/
5.模型融合的相关方法
迁移学习与模型融合问题若干
文章图片

迁移学习与模型融合问题若干
文章图片

https://www.cnblogs.com/libin47/p/11169994.html
【迁移学习与模型融合问题若干】

    推荐阅读