python数据处理详情 python数据处理详情

一，前言
二，python模块

2.1，增加停用词表
2.2，顺序读取
2.3，lambda函数

三，运行

3.1，存入文件

一，前言我们现在拿到了一个十分庞大的数据集。是json文件，里面存储了将近十万个数据，现在要对其中的数据进行清洗处理。

文章图片

二，python模块

import jsonimport jieba

我们需要用json模块来处理json文件，和使用jieba库来分析词性，这样可以实现我们的需求。

2.1，增加停用词表
停用词表.txt，把停用词表存入stopwords，原因是：我们的目标分析json里有一些标点符号。

stopwords = [line.strip() for line in open("停用词表.txt",encoding="utf-8").readlines()]

基本如图所示：

文章图片

a+str(b)+c这是文件名称，a+b+c=./json/poet.song.0.json b递增，实现动态取值

with open(a+str(b)+c,'r',encoding='utf8')as fp:

因为有将近500个json文件。每个文件里有好几千组数据，我现在尽力的优化代码，现在提取一次，把需要的数据存入文件里面差不多需要五分钟。

2.2，顺序读取

定义一个空的字符串，将json对象转换为python对象。定义一个空的list存放诗句。
循环json_data i为里面的每一个元素。
新的追加到list_paragraphs列表
循环 j为里面的每一句。

代码如图所示：

文章图片

使用jieba库，分析str内容的词性【注意是名称，动词。。。。】排行输出都是俩个字是巧合，没有字数限制

words = jieba.lcut(str_s)

现在words为分析完毕的词性列表，遍历。
排除特殊符号

for word in words:if word not in stopwords:if len(word) == 1:continueelse:counts[word] = counts.get(word,0) + 1

出现频率加一。

2.3，lambda函数
使用lambda函数，sort快速排序，遍历输出频率前50的词性。

items.sort(key=lambda x:x[1], reverse=True)

之后赋值word, count。

word, count = items[i]print ("{:<10}{:>7}".format(word, count))

三，运行

文章图片

3.1，存入文件

f=open('towa.txt',"a",encoding='gb18030')f.writelines("题目:"+textxxx)f.writelines(word_ping)

文章图片

【python数据处理详情】到此这篇关于python数据处理详情的文章就介绍到这了,更多相关python数据处理内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

python数据处理详情

推荐阅读

最近感觉得了外阴瘙痒，请问一下这个症状是怎么形成的！

抗原自测盒使用方法

详细教程及注意事项佳能ts6080清零废墨

表分析影响insert,SWOT分析表

重庆蛋糕烘焙培训哪里好烘焙培训培训哪里好

脊髓型颈椎病怎么治脊髓型颈椎病是什么意思

烤红薯需要什么配方吗

松下FZ平板电脑电池续航短的原因是什么

中大型材塑钢窗多少一平普通塑钢窗一平方价格

比115更高的投诉电话怎么投诉联通公司

复旦大学的校训是什么意思复旦大学的校训是什么

小白windows7系统32位旗舰版最新推荐

海尔冰箱质保期及维修指南：了解海尔冰箱质保期、常见故障及维修方法

阿里巴巴采购津贴是什么意思

佳能g2810怎么轻松更换墨盒，让你的打印机焕发新生

南昌第六医院进口2价宫颈癌疫苗专场预约

西瓜糖分高吗西瓜的糖分含量高吗

中年人怎么饮食才能够防止早衰

结婚倒茶的四言八句

数据库筛选 mysql数据库筛选