文本原始结构为非结构化的字符串,大部分的模型和算法都不能处理非结构化的数据。因此,我们需要将非结构化的数据结构化。方法:将文本映射到特定的特征空间上,将文本表示为能够刻画其信息的特征向量,使得我们可以利用各种算法模型来处理这些文本数据。
什么样的特征能刻画文本信息呢?
将特征选为文本中出现的词,通过定义词在文本中的重要度得到文本的向量表示。
在主流的文本表示方法中,大致可以将文本表示方法分为非神经网络方法和神经网络方法。
接下来介绍一种方法——二值文本表示
【NLP之文本表示——二值文本表示】二值文本表示:即使用1和0来表示文本,1表示这个词出现在文本中,0表示这个词没有出现在这个文档中。假设一共有m篇文档,其中不重复的词共有n个,那么所有文档可以表示为m*n的一个矩阵。
文章图片
这里n为维度大小,可以是文本中不重复词的个数,也可以是去除停用词后的总词数。
只要是在这个词的范围内的所有类型文档都可以表示为向量,这个方法可以表示为一篇文章,一次查询,一个句子等。
如:
文档一:汤姆追杰瑞
文档二:汤姆杰瑞
文档三:杰瑞汤姆
文章图片
由此可以看出二值表示的缺点:
(1)无法表示词出现的频率;
(2)无法表示词与词之间的顺序关系;
(3)无法表示词序等。
推荐阅读
- 人工智能|hugginface-introduction 案例介绍
- 深度学习|论文阅读(《Deep Interest Evolution Network for Click-Through Rate Prediction》)
- nlp|Keras(十一)梯度带(GradientTape)的基本使用方法,与tf.keras结合使用
- NER|[论文阅读笔记01]Neural Architectures for Nested NER through Linearization
- 深度学习|2019年CS224N课程笔记-Lecture 17:Multitask Learning
- 深度学习|[深度学习] 一篇文章理解 word2vec
- 论文|预训练模型综述2020年三月《Pre-trained Models for Natural Language Processing: A Survey》
- NLP|NLP预训练模型综述
- 隐马尔科夫HMM应用于中文分词