Python爬取百度春节祝福语并生成心形词云
目录
- 前言
- 环境
- 思路
- 源代码
文章图片
前言 最近刚好在看爬虫,就爬取一下春节祝福语,生成个词云玩一玩,大家有兴趣可以试试,会奉上源代码,很简单。效果图如下:
文章图片
环境 环境:windows,
语言:python,python版本是3.7
所依赖的第三方包:
selenium----爬取网站,收集祝福语,这个库做UI自动化测试的估计会比较常见,我这里没采用使用requests库去爬取,用这个库的好处是爬取的过程中页面是实时可见的
wordcloud---用来生成词云
PIL---使词云生成想要的轮廓, 这里注意python3.7安装的时候应该使用pip install pillow
numpy---生成那种有轮廓的词云,还需要安装这个包,这个包将给出形状的图片表示为一个大型矩阵
jieba---词云生成的词默认是英文,因我们爬取的祝福语是中文,需要用这个库能识别中文,防止中文乱码
思路 (1)我爬取百度,搜索到关于春节祝福语,然后把这些祝福语存放到一个文件中。详细如下:
这里用到了selenium的webdriver, 使用的浏览器是firefox, 创建了一个firefox浏览器对象,然后firefox打开百度,定位到百度输入框,输入搜索词--新春祝福2022,浏览器页面显示如下
文章图片
在这个页面,我模拟人工点击这第一个搜索出来的结果,跳到其他网址页面,如图
文章图片
把这个页面的所有祝福语获取到,存到wishes.txt文件中
(2)然后用生成词云的相关库,来解析这个文件,生成词云 这里注意一点的是,生成词云使用的中文字体, font_path使用的是windows的字体库,这里你可以换成其他的字体
word_cloud = WordCloud(mask=mask, font_path='C:\Windows\Fonts\STXINGKA.TTF').generate(text)
windows 字体库
文章图片
源代码
文章图片
注
可以修改背景颜色和字题颜色,例如
word_cloud = WordCloud(mask=mask, background_color='white',contour_color='red', colormap='brg',max_words=600,font_path='C:\Windows\Fonts\STXINGKA.TTF').generate(text)
重新运行之后,如图
文章图片
支持的colormap字体颜色集,可参考以下链接
【Python爬取百度春节祝福语并生成心形词云】到此这篇关于Python爬取百度春节祝福语并生成心形词云的文章就介绍到这了,更多相关Python爬取祝福语内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!
推荐阅读
- Python采集电视剧《开端》弹幕做成词云图
- 用python实现词云效果实例介绍
- Python超简单分析评论提取关键词制作精美词云流程
- python|正则表达式在python中的简单使用(附带例子(正则表达式匹配+数据清洗))
- python|一文看懂正则表达式?:和?=的区别
- python|正则表达式
- 教你如何使用|教你如何使用 Python 向手机发送通知!
- python发送消息到微信_通过python登录微信发送消息
- python|python wordcloud安装_利用python制作词云,wordcloud神器你值得拥有
- python发信息给微信群_利用Python转发微信群通知信息