处理文本数据(上):词袋

我们讨论过表示数据属性的两种类型的特征:连续特征与分类特征,前者用于描述数量,后者是固定列表中的元素。 第三种类型的特征:文本 文本数据通常被表示为由字符组成的字符串。 1、用字符串表示的数据类型 文本通常只是数据集中的字符串,但并非所有的字符串特征都应该被当作文本来处理。 字符串特征有时可以表示分

    推荐阅读