用python写爬虫--4.5pandas存入excel
从什么值得买爬取下来的信息存入excel,可以用xlwt库,存入,但是要一行一行的存,有些麻烦,鉴于pandas优秀的数据处理能力,感觉把数据转成dataframe,再存成excel或者csv都是比较方便的。
还是先上代码
import feedparser
import pandas as pddef rss():
file = feedparser.parse('http://faxian.smzdm.com/feed')
title =[item.title for item in file.entries]
link = [item.link for item in file.entries]
description = [item.description for item in file.entries]
pubDate =[item.published for item in file.entries]
df = pd.DataFrame(data=https://www.it610.com/article/[title,link,description,pubDate]).T
df.columns = ['title','link','description','pubDate']
df.to_excel('smzdm.xls')
在解析过程中发现网页中这一项直接写成[item.pubDate for item in file.entries]说是没有这个属性,上stackoverflow上说是这个属性归属于published,详见http://pythonhosted.org/feedparser/reference-entry-published.html?highlight=pubdate
可以在其文档上查询相关属性。
【用python写爬虫--4.5pandas存入excel】其他的是将'title','link','description','pubDate'几个list组合成多维数组。
因title,link,description,pubDate直接组合,默认是一个30列,4行的dataframe,即列数为title的项数,行数为爬取的几种类型,即title,link,description,pubDate共4种。
最后.T用于转置,把它变成4列30行的dataframe。
df.columns重新命名列名。
df.to_excel('smzdm.xls') 存成Excel表格。
推荐阅读
- JAVA(抽象类与接口的区别&重载与重写&内存泄漏)
- Docker应用:容器间通信与Mariadb数据库主从复制
- JS中的各种宽高度定义及其应用
- 由浅入深理解AOP
- 【译】20个更有效地使用谷歌搜索的技巧
- 今天写一些什么
- 涉毒患者(新诗)
- 参保人员因患病来不及到指定的医疗机构就医,能否报销医疗费用()
- mybatisplus如何在xml的连表查询中使用queryWrapper
- MybatisPlus|MybatisPlus LambdaQueryWrapper使用int默认值的坑及解决