用Python写了一个汉字词频统计程序,针对已经分好词的文本。
#python 3.4.3
#功能:统计文本中的词频。
#缺陷:标点符号的频数也会计算在内。
with open('test.txt', mode='r', encoding='utf-8') as inFile:
dict={}# 创建一个空字典
word=''# 空字符串以便于连接字符
for char in inFile.read():
if char != ' ':
word += char# 连接字符
else:
if word in dict:
dict[word]+=1
word=''# 将word置为空,否则,word值无限增大
else:
dict.setdefault(word, 1)
word=''
with open('WordFreq.xls', mode='w', encoding='gbk') as outFile:for word, freq in dict.items():
s = '{0}\t{1}\n'.format(word, freq)
outFile.write(s)
【nlp|汉字字频统计程序(Python版)】功能并不完善,期待解决。
推荐阅读
- 推荐系统论文进阶|CTR预估 论文精读(十一)--Deep Interest Evolution Network(DIEN)
- Python专栏|数据分析的常规流程
- Python|Win10下 Python开发环境搭建(PyCharm + Anaconda) && 环境变量配置 && 常用工具安装配置
- Python绘制小红花
- Pytorch学习|sklearn-SVM 模型保存、交叉验证与网格搜索
- OpenCV|OpenCV-Python实战(18)——深度学习简介与入门示例
- python|8. 文件系统——文件的删除、移动、复制过程以及链接文件
- 爬虫|若想拿下爬虫大单,怎能不会逆向爬虫,价值过万的逆向爬虫教程限时分享
- 分布式|《Python3网络爬虫开发实战(第二版)》内容介绍
- java|微软认真聆听了开源 .NET 开发社区的炮轰( 通过CLI 支持 Hot Reload 功能)