第一个爬虫程序总结

网络爬虫主要分3个大的版块:抓取,分析,存储
爬虫豆瓣读书:https://github.com/lanbing510/DouBanSpider
其中注意要点:xlrd/xlwt与openpyxl的读写效率比较
两种包对小文件的读写速度差别不大,而面对较大文件,xlrd/xlwt速度明显优于openpyxl,但因为xlwt无法生成xlsx是个硬伤,所以想要尽量提高效率又不影响结果时,可以考虑用xlrd读取,用openpyxl写入
使用方法如下:

import openpyxl wb = openpyxl.load_workbook(r'E:\ORACLE笔记\表数据\exl01.xlsx')#打excel开文件 print(wb.sheetnames)#获取工作簿所有sheet名#或者 print(wb.get_sheet_names()) sheet=wb["人员"]#获取工作表#或者sheet=wb.get_sheet_by_name("人员") print(sheet.title) #打印工作表名 sheet01=wb.active #获取活动的工作表 print(sheet01.title) '''操作单元格''' print(sheet["A1"].value) #获取单元格A1的第一行值 print(sheet["A1"].column) #获取单元格的列值 print(sheet["A1"].row) #获取单元格的行数 print(sheet.cell(row=2,column=1).value)#打印第二行第一列的值 print(sheet.max_row) #打印excel的总行数 print(sheet.max_column) #打印excel的总列数 for i in range(1,sheet.max_row+1): for j in range(1,sheet.max_column+1): print(sheet.cell(row=i, column=j).value,end="\t") print("")

import openpyxl excel=open(r"E:\ORACLE笔记\表数据\SBB.xls","w") exl=openpyxl.Workbook("SBB.xls") #建立Workbook对象 print("*"*300) print("测试Workbook部分属性") exl_active=exl.active#获取当前活跃的Worksheet exl_sheet=exl.worksheets #以列表的形式返回所有的Worksheet(表格) exl_rd_mode=exl.read_only #判断是否以read_only模式打开Excel文档, exl_enconding=exl.encoding #获取文档的字符集编码 exl_properties=exl.properties #获取文档的元数据,如标题,创建者,创建日期等 exl_sheetname=exl.sheetnames #获取工作簿中的表(列表) print("以列表的形式返回所有的Worksheet(表格):",exl_sheet) print("判断是否以read_only模式打开Excel文档:",exl_rd_mode) print("获取文档的字符集编码:",exl_enconding) print("获取文档的元数据:",exl_properties) print("获取工作簿中的表(列表):",exl_sheetname) print("*"*300) print("测试Workbook部分方法") excel.close()

【第一个爬虫程序总结】

    推荐阅读