迁移学习与模型融合问题若干 NLP

1.word2vec与Elmo模型在语义学习上差异是什么？
word2vec就是nlp中预训练的一种方式。但是word2vec有一个缺点就是无法解决多义词，因为每一个词只有用一个向量表示。
ELMO是“Embedding from Language Models"简称。在此之前word embedding本质是个静态方式，静态的意思就是说单词训练好之后就固定了，在以后使用时，单词不会跟着上下文场景变化而变化。
ELMO的本质思想是：事先用一个语言模型去学习单词的word embedding, 当我在使用时，单词已经具备了特定的上下文，这时候可以根据上下文的语义去调整单词的word embedding, 这样经过调整的word embedding更能表达这个上下文中具体的含义，也就解决了一词多义问题，故ELMO本质就是根据当前上下文对Word Embedding进行动态调整的过程。
https://www.cnblogs.com/zhaopAC/p/11219600.html
https://zhuanlan.zhihu.com/p/75391062
https://zhuanlan.zhihu.com/p/56382372
2.Batch Normalization与Layer Normalization区别？bert中为什么用后者？
当一个batch的数据输入模型的时候，大小为(batch_size, max_len, embedding)，其中batch_size为batch的批数，max_len为每一批数据的序列最大长度，embedding则为每一个单词或者字的embedding维度大小。而Batch Normalization是对每个Batch的每一列做normalization，相当于是对batch里相同位置的字或者单词embedding做归一化，Layer Normalization是Batch的每一行做normalization，相当于是对每句话的embedding做归一化。显然，LN更加符合我们处理文本的直觉。
https://zhuanlan.zhihu.com/p/101570806
https://zhuanlan.zhihu.com/p/74516930
3.熟悉GELU激活函数，与RELU差异。

文章图片

文章图片

x=0 到 x=1 的区间，这时曲线更偏向于 y 轴，且在x=-3到x=0的区间，函数值在0到-0.2之间。
https://zhuanlan.zhihu.com/p/98863801
4.Semi-Supervised DA方法

文章图片

https://www.cnblogs.com/lookfor404/
5.模型融合的相关方法

文章图片

文章图片

https://www.cnblogs.com/libin47/p/11169994.html
【迁移学习与模型融合问题若干】

迁移学习与模型融合问题若干

推荐阅读

婕珞芙晨露蔷薇面膜怎么样婕路芙晨露蔷薇面膜可以分两次用吗

猪肉各部位的区别猪肉哪个部位是一等肉

最早指南车发明人指南车发明者

银天下行情分析系统软件下载

redis跳跃表查找数据的过程 redis哪块用到跳表

华为荣耀play3有没有指纹解锁（华为荣耀play3有指纹解锁吗）

amdk15支持什么cpu，amdk15主板支持的cpu

女性揉地筋的好处主要有这些好处

汽车原厂互联映射什么意思

常年不在家冰箱怎么办？如何维护和保养？

怎样识别变频空调和定频空调空调开一天多少钱

七绝（云水一梦惹东风）

新办企业个税申报密码申报个税在哪个软件，企业个税能用手机申报吗

运动会通讯稿300字

美的SC861A吸尘器不充电的解决方法

刘海屏|iPhone 14强势曝光：是不是后悔手里的iPhone 13买早了？

iphone|从12999元跌至10488元，12G+512G，华为顶级旗舰现货供应不用抢购

绝地求生刺激战场国际服绝地求生刺激战场国际服下载方法有哪些

无症状感染者会一直不发病吗

泰顺云雾茶是什么茶泰顺雾云农庄