NLP修炼之旅(Day9)

文本表示:从one-hot到word2vec。
1.词袋模型:离散、高维、稀疏。
1.分布式表示:连续、低维、稠密。word2vec词向量原理并实践,用来表示文本
  1. 词袋模型
    文本表示分为离散表示与分布式表示,其中词袋模型BoW(Bag-of-words)是n-gram语法模型的特例1元模型,该模型忽略掉文本的语法和语序等要素,将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的。BoW使用一组无序的单词(words)来表达一段文字或一个文档
【NLP修炼之旅(Day9)】词袋模型的实现方式:
  • One-Hot Encoding
    只要在词典中出现的词,无论出现多少次,在BOW向量中都只算成1次,未出现的词算0次,然后根据词典构造只有0/1的向量
  • 词频向量 TF
    只要在词典中出现的词,出现多少次就算成多少次,未出现的词算0次,然后根据词典构造向量
  • TF-IDF
    各文档中每个单词的出现次数除以该文档中所有单词的总数,也可以对词频进行归一化来降低这种影响
  1. 分布式表示
    2.1 word2vec
    如果是用一个词语作为输入,来预测它周围的上下文,那这个模型叫做『Skip-gram 模型』
    而如果是拿一个词语的上下文作为输入,来预测这个词语本身,则是 『CBOW 模型』
    2.1.1CBOW
    CBOW 是 Continuous Bag-of-Words 的缩写,与神经网络语言模型不同的是,CBOW去掉了最耗时的非线性隐藏层
    2.1.2Skip-gram
    Skip-Gram的模型图与CBOW恰好相反
    NLP修炼之旅(Day9)
    文章图片

    推荐阅读