第一课|第一课 Python初识爬虫与网络请求
1.非结构化数据:如图的网页资料/文章,因此我们需要挖掘有价值的数据,那么这个时候我们需要通过ETL(Extract,Transformation,Loading)工具才能将数据转化为结构化数据之后,数据才可以的有效的利用。
文章图片
2.ETL:原始资料->ETL脚本->结构化数据
食材->厨师->美食
3.如何处理非结构化数据将新闻列表的标题、摘要、图片抓取下来。
4.网络爬虫:比如百度、Google等搜索引擎的各种爬虫,无数的爬虫自动的去获取网络上的最新资讯。
用途:1.比如开发一个爬虫自动获取用户的需求数据===挖掘价值数据,降低人工成本,提升效益!
新浪新闻主页
文章图片
5.网络请求:浏览器F12打开控制台,看到有186个请求
(这里我使用的是360极速浏览器)
文章图片
随便打开一个
文章图片
很容易理解!这是我们的概览请求
【第一课|第一课 Python初识爬虫与网络请求】然后我们看看网站服务器给我们的回应:
文章图片
打开网址:http://news.sina.com.cn/china/国内新闻:
文章图片
按下F12打开开发者工具,刷新后选择DOC(如图):
文章图片
文章图片
需要的环境相信大家都配置好了!
Python3.x
Request
Beautifulsoup4
对于环境的配置和安装,百度一下就会有很多详细的资料,此处不详细讲解!
至此,第一课结束!
QQ:1099718640
更多精彩内容请访问个人主页:http://blog.csdn.net/dyboy2017
原文地址:http://blog.csdn.net/dyboy2017/article/details/77865822
推荐阅读
- 第六章|第六章 离去
- 让Python更优雅更易读(第二集)
- 改变来自经历
- 张彩玲20190717焦点解决网络初级第17期|张彩玲20190717焦点解决网络初级第17期 坚持分享第20天 2019年08月05日星期一
- 35号小九第一次作业#Judy训练营#
- 第03天C语言(18):石头剪子布
- 一分钟系列|笑傲江湖|一分钟系列|笑傲江湖 第八章 面壁
- {调取该文章的TAG关键词}|靠补助和减持保持盈利,CT设备巨头东软医疗第四次递表丨IPO速递
- Python实现K-近邻算法的示例代码
- 商学院——《沙漠风云》之第一回|商学院——《沙漠风云》之第一回 大小穿越、商战前传,各路精英、蓄势待发