Python爬虫|爬虫-从入门到入狱（level1） python|数据挖掘|爬虫

我们往往需要采集大量的数据来进行分析，这些信息可以来源于网上，我们可以用爬虫的方法来获取到这些数据。
这里我们创建了一段代码，用我们的百度搜索引擎来搜索我们想要的词条

#这里我们导入request模块 import requests if __name__=="__main__": #这里我们指定我们的url，也就是我们的百度网址 url='https://www.baidu.com' #这里我们使用input获取我们输入的内容 kw=input('enter a word:') #这里定义我们的请求头，使用请求头可以方式反爬程序识别出我们的爬虫程序。 #因为请求头可以让我们的代码伪装成使用浏览器的正常访问，在文章的后面会介绍怎么查看自己的请求头 headers={ 'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36' } #这里我们使用一个字典类型来将我们要搜索的对象传入。 param={ 'query':kw } #这里我们使用response来接收我们request获得的网页数据，同时将我们的搜索参数和请求头传入 response=requests.get(url=url,params=param,headers=headers) #使用我们的page_text将我们返回文件中的text保存下来 page_text=response.text #将我们的存储的文件命名为我们的搜索的对html， fileName=kw+'.html' #将我们获取到的网页进行永久化存储 //创建我们已经命好名的文件，并以写入的方式打开，并且设置我们的编码集为utf-8 with open(fileName,'w',encoding='utf-8') as fp: fp.write(page_text) print(fileName,'保存成功')

接下来，我们就会发现在我们的python文件的同级目录下多了一个文件