NLP之文本表示——二值文本表示 NLP

文本原始结构为非结构化的字符串，大部分的模型和算法都不能处理非结构化的数据。因此，我们需要将非结构化的数据结构化。

方法：将文本映射到特定的特征空间上，将文本表示为能够刻画其信息的特征向量，使得我们可以利用各种算法模型来处理这些文本数据。
什么样的特征能刻画文本信息呢？
将特征选为文本中出现的词，通过定义词在文本中的重要度得到文本的向量表示。
在主流的文本表示方法中，大致可以将文本表示方法分为非神经网络方法和神经网络方法。
接下来介绍一种方法——二值文本表示
【NLP之文本表示——二值文本表示】二值文本表示：即使用1和0来表示文本，1表示这个词出现在文本中，0表示这个词没有出现在这个文档中。假设一共有m篇文档，其中不重复的词共有n个，那么所有文档可以表示为m*n的一个矩阵。