python爬虫常用函数 python爬虫常用语句( 三 ) _方法

爬虫项目实战：
分布式爬虫+ Elasticsearch 打造搜索引擎
「python爬虫保姆级教学」urllib的使用以及页面解析使用urllib来获取百度首页的源码
get请求参数python爬虫常用函数，如果是中文python爬虫常用函数，需要对中文进行编码，如下面这样，如果不编码会报错。
urlencode应用场景：多个参数的时候。如下
为什么要学习handler？
为什么需要代理？因为有的网站是禁止爬虫的，如果用真实的ip去爬虫，容易被封掉。
2.解析技术
1.安装lxml库
2.导入lxml.etree
3.etree.parse() 解析本地文件
4.etree.HTML() 服务器响应文件
5.解析获取DOM元素
1.路径查询
2.谓词查询
3.属性查询
4.模糊查询
5.内容查询
6.逻辑运算
示例：
JsonPath只能解析本地文件。
pip安装：
jsonpath的使用：
示例：
解析上面的json数据
缺点：效率没有lxml的效率高
优点：接口设计人性化，使用方便
pip install bs4 -i
from bs4 import BeautifulSoup
1.根据标签名查找节点
soup.a.attrs
2.函数
find(‘a’)：只找到第一个a标签
find(‘a’, title=‘名字’)
find(‘a’, class_=‘名字’)
find_all(‘a’) ：查找到所有的a
find_all([‘a’, ‘span’]) 返回所有的a和span
find_all(‘a’, limit=2) 只找前两个a
obj.string
obj.get_text()【推荐】
tag.name：获取标签名
tag.attrs：将属性值作为一个字典返回
obj.attrs.get(‘title’)【常用】
obj.get(‘title’)
obj[‘title’]
示例：
使用BeautifulSoup解析上面的html
python爬虫---爬取LOL云顶之弈数据本来是想爬取之后作最佳羁绊组合推算python爬虫常用函数，但是遇到知识点无法消化（知识图谱）python爬虫常用函数，所以暂时先不组合了，实力有限
库python爬虫常用函数的安装
1.requests#爬取棋子数据
2.json#棋子数据为js动态，需使用json解析
3.BeautifulSoup
实战前先新建个lol文件夹作为工作目录，并创建子目录data，用于存放数据。
1.爬取数据，新建个py文件，用于爬取云顶数据，命名为data.py
1.1定义个req函数，方便读取。//需设定编码格式，否则会出现乱码
def Re_data(url):
re = requests.get(url)
re.encoding = 'gbk'
data = https://www.04ip.com/post/json.loads(re.text)
return data['data']
1.2定义个Get函数，用于读取数据并使用保存函数进行保存数据，保存格式为json 。
def Get_data():
# 获取数据并保存至data目录
base_url = ''
chess = Re_data(base_url + 'chess.js')
race = Re_data(base_url + 'race.js')
job = Re_data(base_url + 'job.js')
equip = Re_data(base_url + 'equip.js')
Save_data(chess,race,job,equip)
【python爬虫常用函数 python爬虫常用语句】1.3定义save函数实现读取的数据进行文件保存，保存目录为工作目录下的data文件夹。
def Save_data(t_chess,t_race,t_job,t_equip):
with open('./data/chess.json','w') as f:
json.dump(t_chess,f,indent='\t')
with open('./data/race.json','w') as f:
json.dump(t_race,f,indent='\t')
with open('./data/job.json','w') as f:
json.dump(t_job,f,indent='\t')
with open('./data/equip.json','w') as f:
json.dump(t_equip,f,indent='\t')
1.4定义主函数main跑起来
if __name__ == '__main__':
start = time.time()
Get_data()
print('运行时间python爬虫常用函数：' + str(time.time() - start) + '秒')

python爬虫常用函数 python爬虫常用语句( 三 )

推荐阅读

月季花怎么能长更多花苞呢月季花怎么能长更多花苞

中介有义务先查贷款吗

东风580值得入手吗东风580口碑评价

什么时候直播的人最多了，什么时候直播的人最多了呢

脚臭|天天洗脚，脚还是臭烘烘，用好这5招，摆脱脚臭的尴尬！

去美国什么东西不能带如何去美国?，去美国的费用

教你克服恐惧症的五大招术

宫颈癌晚期|1个月3次月经，18岁女孩查出宫颈癌晚期，5个原因难脱干系

idea有手机版吗，itoos有手机版吗

redis事务实现原理 redis事务和集群

美的空调显示48是什么意思美的空调不制冷总显示24

小孩发烧物理降温擦拭哪些部位小孩发烧物理降温

中西医|河南省中西医结合髋关节中心联盟成立，聚焦骨健康共话关节问题

奥迪rs6为什么叫最强买菜车奥迪rs6为什么叫买菜车

我国刑法中串通投标罪的刑事量刑标准是什么

ct|X光、CT、B超、MRI，还在傻傻分不清吗？其实它们不一样

吃剩下的海鲜怎么保存剩海鲜的保存方法

英雄联盟客户端调窗口大小英雄联盟客户端怎么设置窗口大小

redis适合存储大文件吗 Redis适合存储

大汉废后之娇未成殇阿娇皇后