"A Neural Probabilistic Language Model"--论文模型解释

目录 1.神经概率语言模型
2.模型的表示
3.模型的求解
1.神经概率语言模型 One-hot方式的word表示能够简单的将词进行向量化表示,但是随着词汇表(Vocabulary)的增大表示一个词的向量成为一个高维的超稀疏向量(只有一个维度为1,其他维值都为0)。这样的词表示方法不仅占用大量内存,而且不能对词之间的想似关系进行度量。分布式表示方法能够应对这样的维度灾难(curse of dimensionality),不仅可以将词映射到低维的词向量空间,而且向量间的夹角代表了词之间的相似性。论文中所提到的模型形式化如下公式,在模型中"A Neural Probabilistic Language Model"--论文模型解释
文章图片

"A Neural Probabilistic Language Model"--论文模型解释
文章图片

"A Neural Probabilistic Language Model"--论文模型解释
文章图片

"A Neural Probabilistic Language Model"--论文模型解释
文章图片

模型表示求在"A Neural Probabilistic Language Model"--论文模型解释
文章图片
的上下文(context)情况下"A Neural Probabilistic Language Model"--论文模型解释
文章图片
出现的条件概率。约束条件有两个:
  1. "A Neural Probabilistic Language Model"--论文模型解释
    文章图片
    上下文情况下,词汇表中所有词出现的条件概率之和为1。
  2. 由于"A Neural Probabilistic Language Model"--论文模型解释
    文章图片
    表示的是条件概率,所以必须大于0。
2.模型的表示 "A Neural Probabilistic Language Model"--论文模型解释
文章图片
Figure 1. 模型图示 模型分为5层:
  1. 输入层为1:输入上下文"A Neural Probabilistic Language Model"--论文模型解释
    文章图片
    的索引,比如可以为词的one-hot表示。
  2. 使用映射函数(Mapping Function)C,将第1层的输入--词的索引映射为词的word feature vector(即为需要的词的分布式表示)得到第2层,即上下文"A Neural Probabilistic Language Model"--论文模型解释
    文章图片
    的word feature vector组成的输入"A Neural Probabilistic Language Model"--论文模型解释
    文章图片
    。映射函数C可以简单的直接是词汇表中每个词的word feature vector组成的矩阵即"A Neural Probabilistic Language Model"--论文模型解释
    文章图片
    , "A Neural Probabilistic Language Model"--论文模型解释
    文章图片
    为词汇表中词的数量,"A Neural Probabilistic Language Model"--论文模型解释
    文章图片
    表示设定的word feature vector 的维数。映射函数C的第"A Neural Probabilistic Language Model"--论文模型解释
    文章图片
    行代表索引为"A Neural Probabilistic Language Model"--论文模型解释
    文章图片
    的词的word feature vector。
  3. 第3层为一个简单的隐藏层。
  4. 第4层为非归一化概率"A Neural Probabilistic Language Model"--论文模型解释
    文章图片
    ,它由加和第二层全连接与第三层双曲正切操作得到。
  5. 第5层由第四层经"A Neural Probabilistic Language Model"--论文模型解释
    文章图片
    操作后得到条件概率。
将模型形式化可表示为:
"A Neural Probabilistic Language Model"--论文模型解释
文章图片

将上下文"A Neural Probabilistic Language Model"--论文模型解释
文章图片
映射为其word feature vector的组合,"A Neural Probabilistic Language Model"--论文模型解释
文章图片
代表第二层。
"A Neural Probabilistic Language Model"--论文模型解释
文章图片

表示模型从2-->4的操作,"A Neural Probabilistic Language Model"--论文模型解释
文章图片
表示从2-->3,"A Neural Probabilistic Language Model"--论文模型解释
文章图片
表示第2层直接与非归一化概率层y的连接。整个公式表示y由第二层的直接连接再加上第三层的双却正切操作后的连接。
"A Neural Probabilistic Language Model"--论文模型解释
文章图片

将非归一化概率y使用softmax变为条件概率。
3.模型的求解 使用正则化对数似然函数作为模型的损失函数:
Loss function:"A Neural Probabilistic Language Model"--论文模型解释
文章图片

其中"A Neural Probabilistic Language Model"--论文模型解释
文章图片
表示条件概率,损失函数中参数"A Neural Probabilistic Language Model"--论文模型解释
文章图片
,"A Neural Probabilistic Language Model"--论文模型解释
文章图片
即表示需要的词汇表中词的分布式表示。使用随机梯度下降就可求解该模型:
"A Neural Probabilistic Language Model"--论文模型解释
文章图片

在参数求解中,"A Neural Probabilistic Language Model"--论文模型解释
文章图片
中所有行并不是都会改变,之后改变输入的"A Neural Probabilistic Language Model"--论文模型解释
文章图片
对应的行。

【"A Neural Probabilistic Language Model"--论文模型解释】**个人理解,欢迎讨论**

    推荐阅读