NLP修炼之旅（Day9）

2021-12-30

文本表示：从one-hot到word2vec。
1.词袋模型：离散、高维、稀疏。
1.分布式表示：连续、低维、稠密。word2vec词向量原理并实践，用来表示文本

词袋模型
文本表示分为离散表示与分布式表示，其中词袋模型BoW(Bag-of-words)是n-gram语法模型的特例1元模型，该模型忽略掉文本的语法和语序等要素，将其仅仅看作是若干个词汇的集合，文档中每个单词的出现都是独立的。BoW使用一组无序的单词(words)来表达一段文字或一个文档

【NLP修炼之旅（Day9）】词袋模型的实现方式：

One-Hot Encoding
只要在词典中出现的词，无论出现多少次，在BOW向量中都只算成1次，未出现的词算0次,然后根据词典构造只有0/1的向量
词频向量 TF
只要在词典中出现的词，出现多少次就算成多少次，未出现的词算0次，然后根据词典构造向量
TF-IDF
各文档中每个单词的出现次数除以该文档中所有单词的总数，也可以对词频进行归一化来降低这种影响

分布式表示
2.1 word2vec
如果是用一个词语作为输入，来预测它周围的上下文，那这个模型叫做『Skip-gram 模型』
而如果是拿一个词语的上下文作为输入，来预测这个词语本身，则是『CBOW 模型』
2.1.1CBOW
CBOW 是 Continuous Bag-of-Words 的缩写，与神经网络语言模型不同的是，CBOW去掉了最耗时的非线性隐藏层
2.1.2Skip-gram
Skip-Gram的模型图与CBOW恰好相反

文章图片

推荐阅读

上一篇：【LeetCode1114】按序打印————多线程

下一篇：线程-----多线程循环打印ABC10次