Python机器学习NLP自然语言处理基本操作词袋模型
概述
从今天开始我们将开启一段自然语言处理 (NLP) 的旅程. 自然语言处理可以让来处理, 理解, 以及运用人类的语言, 实现机器语言和人类语言之间的沟通桥梁.
词袋模型
词袋模型 (Bag of Words Model) 能帮助我们把一个句子转换为向量表示. 词袋模型把文本看作是无序的词汇集合, 把每一单词都进行统计.
文章图片
向量化
词袋模型首先会进行分词, 在分词之后. 通过通过统计在每个词在文本中出现的次数. 我们就可以得到该文本基于词语的特征, 如果将各个文本样本的这些词与对应的词频放在一起, 就是我们常说的向量化.
文章图片
例子:
import jiebafrom gensim import corpora# 定义标点符号punctuation = [",", "。", ":", ";", "?", "!"]# 定义语料content = ["今天天气真不错!","明天要下雨?","后天要打雷。"]# 分词seg = [jieba.lcut(con) for con in content]print("语料:", seg)# 去除标点符号tokenized = seg.copy()for s in tokenized:for p in punctuation:if p in s:s.remove(p)print("去除标点:", tokenized)# tokenized是去标点之后的dictionary = corpora.Dictionary(seg)print("词袋模型:", dictionary)# 保存词典dictionary.save('deerwester.dict')# 查看字典和下标id的映射print("编号:", dictionary.token2id)
输出结果:
Building prefix dict from the default dictionary ...Loading model from cache C:\Users\Windows\AppData\Local\Temp\jieba.cacheLoading model cost 1.140 seconds.Prefix dict has been built successfully.语料: [['今天天气', '真不错', '!'], ['明天', '要', '下雨', '?'], ['后天', '要', '打雷', '。']]去除标点: [['今天天气', '真不错'], ['明天', '要', '下雨'], ['后天', '要', '打雷']]词袋模型: Dictionary(7 unique tokens: ['今天天气', '真不错', '下雨', '明天', '要']...)编号: {'今天天气': 0, '真不错': 1, '下雨': 2, '明天': 3, '要': 4, '后天': 5, '打雷': 6}
【Python机器学习NLP自然语言处理基本操作词袋模型】以上就是Python机器学习NLP自然语言处理基本操作词袋模型的详细内容,更多关于Python机器学习NLP自然语言处理的资料请关注脚本之家其它相关文章!
推荐阅读
- 由浅入深理解AOP
- 继续努力,自主学习家庭Day135(20181015)
- python学习之|python学习之 实现QQ自动发送消息
- 逻辑回归的理解与python示例
- 一起来学习C语言的字符串转换函数
- python自定义封装带颜色的logging模块
- 【Leetcode/Python】001-Two|【Leetcode/Python】001-Two Sum
- 定制一套英文学习方案
- 漫画初学者如何学习漫画背景的透视画法(这篇教程请收藏好了!)
- 《深度倾听》第5天──「RIA学习力」便签输出第16期