下面我们需要做一件重要工作——分词 。这是因为我们需要提取每篇文章的关键词 。而中文本身并不使用空格在单词间划分 。
我们首先调用jieba分词包 。
import jieba
我们此次需要处理的,不是单一文本数据,而是1000多条文本数据 , 因此我们需要把这项工作并行化 。这就需要首先编写一个函数 , 处理单一文本的分词 。
def chinese_word_cut(mytext):
return " ".join(jieba.cut(mytext))
有了这个函数之后 , 我们就可以不断调用它来批量处理数据框里面的全部文本(正文)信息了 。你当然可以自己写个循环来做这项工作 。
下面这一段代码执行起来,可能需要一小段时间 。请耐心等候 。
df["content_cutted"] = df.content.apply(chinese_word_cut)
执行过程中可能会出现如下提示 。没关系,忽略就好 。
Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/8s/k8yr4zy52q1dh107gjx280mw0000gn/T/jieba.cache
Loading model cost 0.406 seconds.
Prefix dict has been built succesfully.
执行完毕之后,我们需要查看一下,文本是否已经被正确分词 。
df.content_cutted.head()
【lcut函数python pythonljust函数】lcut函数python的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于pythonljust函数、lcut函数python的信息别忘了在本站进行查找喔 。
推荐阅读
- 五郎角色扮演游戏视频,五郎技能爆料
- linux管道符命令,linux管道符怎么输入
- 包含fgo棋牌游戏的词条
- 3月份网红直播收入,网红年收入三亿
- go语言并发输出 go语言printf
- 宝宝美发直播视频教程,宝宝美发直播视频教程下载
- php查看数据库内容吗 php数据库查询系统
- js中怎么获取当前服务器时间,js获取当前服务器地址
- thinkphp判断数据存在,php判断数据表记录是否存在