资源下载地址:https://download.csdn.net/download/sheziqiong/85673772
实验目的 使用Python爬虫技术获取小说信息,包括小说名称、小说作者以及小说简介等作品信息!在实验中掌握Python的第三方库requests和lxml
实验内容
- 明确实验需求——获取小说页面的相关小说信息
- 使用Python的requests库获取响应信息
- 使用python的lxml库进行必要信息的提取
- 保存信息到txt文件中!
- 进行多页信息提取,找到规律
- python编译器Pycharm
- Chrome浏览器F12进行网页的分析
- 确定网页URL链接:http://www.ijjxsw.com/txt/Xuanhuan/index_1.html
- 确定爬取的信息:小说名称、作者以及简介
文章图片
- 进行网页的分析,在Chrome浏览器打开网页之后,按快捷键F12开始分析网页,得到要爬取得信息的标签和属性信息!
文章图片
- 编写代码,逐步实现需求!
运行截图如下:
文章图片
得到的txt文件截图:
文章图片
实验分析:
本次实验通过编写爬虫代码,从网页中之间抓取信息,保存到本地文件中!较好的达到了实验前的需求!
讨论、心得
- Python爬虫技术能大大方便人们的生活,很多手工操作需要大量时间,但是通过编写python爬虫代码很快就能从网页中获取信息
- Txt文件保存信息有缺陷,格式方面很不美观,建议用excel替代
- 爬虫能获取大量数据,因此了解到了有反爬的相关内容
推荐阅读
- javascript|基于HTML5+JavaScript实现的网页录屏器设计
- python|基于Python的决策树判断是否降雪
- Python|【Python】常用基本库与第三方库概述
- Python|【算法】python有向图中的最优路径
- 【算法】python实现最短(长)路径Bellman-Ford算法
- leetcode刷题|LeetCode 第63场双周赛复盘
- 毕业设计|SpringBoot+Vue项目旅游信息推荐系统【源码开源】
- Python爬虫从基础到实战|如何优雅的统计Python代码耗时(Python统计代码耗时的几种方法)
- Python包安装|解决安装matplotlib时的超时问题