目录 1.神经概率语言模型
2.模型的表示
3.模型的求解
1.神经概率语言模型 One-hot方式的word表示能够简单的将词进行向量化表示,但是随着词汇表(Vocabulary)的增大表示一个词的向量成为一个高维的超稀疏向量(只有一个维度为1,其他维值都为0)。这样的词表示方法不仅占用大量内存,而且不能对词之间的想似关系进行度量。分布式表示方法能够应对这样的维度灾难(curse of dimensionality),不仅可以将词映射到低维的词向量空间,而且向量间的夹角代表了词之间的相似性。论文中所提到的模型形式化如下公式,在模型中
文章图片
:
模型表示求在
文章图片
文章图片
文章图片
文章图片
的上下文(context)情况下
文章图片
出现的条件概率。约束条件有两个:
- 在
文章图片
上下文情况下,词汇表中所有词出现的条件概率之和为1。 - 由于
文章图片
表示的是条件概率,所以必须大于0。
文章图片
Figure 1. 模型图示 模型分为5层:
- 输入层为1:输入上下文
文章图片
的索引,比如可以为词的one-hot表示。 - 使用映射函数(Mapping Function)C,将第1层的输入--词的索引映射为词的word feature vector(即为需要的词的分布式表示)得到第2层,即上下文
文章图片
的word feature vector组成的输入
文章图片
。映射函数C可以简单的直接是词汇表中每个词的word feature vector组成的矩阵即
文章图片
,
文章图片
为词汇表中词的数量,
文章图片
表示设定的word feature vector 的维数。映射函数C的第
文章图片
行代表索引为
文章图片
的词的word feature vector。 - 第3层为一个简单的隐藏层。
- 第4层为非归一化概率
文章图片
,它由加和第二层全连接与第三层双曲正切操作得到。 - 第5层由第四层经
文章图片
操作后得到条件概率。
将上下文
文章图片
文章图片
映射为其word feature vector的组合,
文章图片
代表第二层。
表示模型从2-->4的操作,
文章图片
文章图片
表示从2-->3,
文章图片
表示第2层直接与非归一化概率层y的连接。整个公式表示y由第二层的直接连接再加上第三层的双却正切操作后的连接。
将非归一化概率y使用softmax变为条件概率。
文章图片
3.模型的求解 使用正则化对数似然函数作为模型的损失函数:
Loss function:其中
文章图片
文章图片
表示条件概率,损失函数中参数
文章图片
,
文章图片
即表示需要的词汇表中词的分布式表示。使用随机梯度下降就可求解该模型:
在参数求解中,
文章图片
文章图片
中所有行并不是都会改变,之后改变输入的
文章图片
对应的行。
【"A Neural Probabilistic Language Model"--论文模型解释】**个人理解,欢迎讨论**
推荐阅读
- AI比赛教程|人工智能之自然语言处理技术总结与展望
- transformer|Transformer模型结构详解
- 人工智能|hugginface-introduction 案例介绍
- 深度学习|论文阅读(《Deep Interest Evolution Network for Click-Through Rate Prediction》)
- nlp|Keras(十一)梯度带(GradientTape)的基本使用方法,与tf.keras结合使用
- NER|[论文阅读笔记01]Neural Architectures for Nested NER through Linearization
- 深度学习|2019年CS224N课程笔记-Lecture 17:Multitask Learning
- 深度学习|[深度学习] 一篇文章理解 word2vec
- 论文|预训练模型综述2020年三月《Pre-trained Models for Natural Language Processing: A Survey》