我们往往需要采集大量的数据来进行分析,这些信息可以来源于网上,我们可以用爬虫的方法来获取到这些数据。
这里我们创建了一段代码,用我们的百度搜索引擎来搜索我们想要的词条
#这里我们导入request模块
import requests
if __name__=="__main__":
#这里我们指定我们的url,也就是我们的百度网址
url='https://www.baidu.com'
#这里我们使用input获取我们输入的内容
kw=input('enter a word:')
#这里定义我们的请求头,使用请求头可以方式反爬程序识别出我们的爬虫程序。
#因为请求头可以让我们的代码伪装成使用浏览器的正常访问,在文章的后面会介绍怎么查看自己的请求头
headers={
'User-Agent':'Mozilla/5.0 (Macintosh;
Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36'
}
#这里我们使用一个字典类型来将我们要搜索的对象传入。
param={
'query':kw
}
#这里我们使用response来接收我们request获得的网页数据,同时将我们的搜索参数和请求头传入
response=requests.get(url=url,params=param,headers=headers)
#使用我们的page_text将我们返回文件中的text保存下来
page_text=response.text
#将我们的存储的文件命名为我们的搜索的对html,
fileName=kw+'.html'
#将我们获取到的网页进行永久化存储
//创建我们已经命好名的文件,并以写入的方式打开,并且设置我们的编码集为utf-8
with open(fileName,'w',encoding='utf-8') as fp:
fp.write(page_text)
print(fileName,'保存成功')
接下来,我们就会发现在我们的python文件的同级目录下多了一个文件
文章图片
文章图片
然后打开我们的文件就能够获取到我们搜索夜阑配队的网页原码了。
接下来我们介绍怎么才能查看到我们自己电脑的请求头。
首先打开我们的谷歌浏览器,在我们的浏览器的输入网址的地方输入about:version
文章图片
然后咱敲一下回车,就会看到我们电脑浏览器的信息
文章图片
其中的用户代理这一栏就是我们的请求头
【Python爬虫|爬虫-从入门到入狱(level1)】OK,如果你能将上述的代码完成,那么我们的爬虫就已经到了level1的水平。
推荐阅读
- Python爬虫|爬虫从入门到入狱(5)——多线程爬虫与常见搜索算法
- 11个初学者学习Python的资源
- 来看看基于Kite的Python自动补全工具吧
- 如何使用JSON Web Token保护Flask REST API()
- Python数据分析的友好介绍
- Python脚本定期删除文件
- 每个开发人员都应了解的11个Python库和模块
- 9种构建小型企业应用程序的最佳Python框架
- Python字典深入理解教程