网络爬虫主要分3个大的版块:抓取,分析,存储
爬虫豆瓣读书:https://github.com/lanbing510/DouBanSpider
其中注意要点:xlrd/xlwt与openpyxl的读写效率比较
两种包对小文件的读写速度差别不大,而面对较大文件,xlrd/xlwt速度明显优于openpyxl,但因为xlwt无法生成xlsx是个硬伤,所以想要尽量提高效率又不影响结果时,可以考虑用xlrd读取,用openpyxl写入
使用方法如下:
import openpyxl
wb = openpyxl.load_workbook(r'E:\ORACLE笔记\表数据\exl01.xlsx')#打excel开文件
print(wb.sheetnames)#获取工作簿所有sheet名#或者 print(wb.get_sheet_names())
sheet=wb["人员"]#获取工作表#或者sheet=wb.get_sheet_by_name("人员")
print(sheet.title) #打印工作表名
sheet01=wb.active #获取活动的工作表
print(sheet01.title)
'''操作单元格'''
print(sheet["A1"].value) #获取单元格A1的第一行值
print(sheet["A1"].column) #获取单元格的列值
print(sheet["A1"].row) #获取单元格的行数
print(sheet.cell(row=2,column=1).value)#打印第二行第一列的值
print(sheet.max_row) #打印excel的总行数
print(sheet.max_column) #打印excel的总列数
for i in range(1,sheet.max_row+1):
for j in range(1,sheet.max_column+1):
print(sheet.cell(row=i, column=j).value,end="\t")
print("")
import openpyxl
excel=open(r"E:\ORACLE笔记\表数据\SBB.xls","w")
exl=openpyxl.Workbook("SBB.xls") #建立Workbook对象
print("*"*300)
print("测试Workbook部分属性")
exl_active=exl.active#获取当前活跃的Worksheet
exl_sheet=exl.worksheets #以列表的形式返回所有的Worksheet(表格)
exl_rd_mode=exl.read_only #判断是否以read_only模式打开Excel文档,
exl_enconding=exl.encoding #获取文档的字符集编码
exl_properties=exl.properties #获取文档的元数据,如标题,创建者,创建日期等
exl_sheetname=exl.sheetnames #获取工作簿中的表(列表)
print("以列表的形式返回所有的Worksheet(表格):",exl_sheet)
print("判断是否以read_only模式打开Excel文档:",exl_rd_mode)
print("获取文档的字符集编码:",exl_enconding)
print("获取文档的元数据:",exl_properties)
print("获取工作簿中的表(列表):",exl_sheetname)
print("*"*300)
print("测试Workbook部分方法")
excel.close()
【第一个爬虫程序总结】
推荐阅读
- 推荐系统论文进阶|CTR预估 论文精读(十一)--Deep Interest Evolution Network(DIEN)
- Python专栏|数据分析的常规流程
- Python|Win10下 Python开发环境搭建(PyCharm + Anaconda) && 环境变量配置 && 常用工具安装配置
- Python绘制小红花
- Pytorch学习|sklearn-SVM 模型保存、交叉验证与网格搜索
- OpenCV|OpenCV-Python实战(18)——深度学习简介与入门示例
- python|8. 文件系统——文件的删除、移动、复制过程以及链接文件
- 爬虫|若想拿下爬虫大单,怎能不会逆向爬虫,价值过万的逆向爬虫教程限时分享
- 分布式|《Python3网络爬虫开发实战(第二版)》内容介绍
- java|微软认真聆听了开源 .NET 开发社区的炮轰( 通过CLI 支持 Hot Reload 功能)