python爬取常用函数 python爬取常用的模块 _函数

python常用列表函数1
len(list)
列表元素个数
2
max(list)
返回列表元素最大值
3
min(list)
返回列表元素最小值
4
list(seq)
将元组转换为列表
序号
方法
1
list.append(obj)
在列表末尾添加新的对象
2
list.count(obj)
统计某个元素在列表中出现的次数
3
list.extend(seq)
在列表末尾一次性追加另一个序列中的多个值（用新列表扩展原来的列表）
4
list.index(obj)
从列表中找出某个值第一个匹配项的索引位置
5
list.insert(index, obj)
将对象插入列表
6
list.pop([index=-1])
移除列表中的一个元素（默认最后一个元素），并且返回该元素的值
7
list.remove(obj)
移除列表中某个值的第一个匹配项
8
list.reverse()
反向列表中元素
9
list.sort( key=None, reverse=False)
对原列表进行排序
10
list.clear()
清空列表
11
list.copy()
复制列表
python常用函数1、complex()
返回一个形如 a bj 的复数，传入参数分为三种情况：
参数为空时，返回0j；参数为字符串时，将字符串表达式解释为复数形式并返回；参数为两个整数(a,b)时，返回 a bj；参数只有一个整数 a 时，虚部 b 默认为0，函数返回 a 0j 。
2、dir()
不提供参数时，返回当前本地范围内的名称列表；提供一个参数时，返回该对象包含的全部属性。
3、divmod(a,b)
a -- 代表被除数，整数或浮点数；b -- 代表除数，整数或浮点数；根据除法运算计算 a,b 之间的商和余数，函数返回一个元组(p,q) ， p 代表商 a//b，q 代表余数 a%b 。
4、enumerate(iterable,start=0)
iterable -- 一个可迭代对象，列表、元组序列等；start -- 计数索引值，默认初始为0‘该函数返回枚举对象是个迭代器，利用 next() 方法依次返回元素值，每个元素以元组形式存在，包含一个计数元素(起始为 start )和 iterable 中对应的元素值。
python爬虫---爬取LOL云顶之弈数据本来是想爬取之后作最佳羁绊组合推算，但是遇到知识点无法消化（知识图谱），所以暂时先不组合了，实力有限
库的安装
1.requests#爬取棋子数据
2.json#棋子数据为js动态，需使用json解析
3.BeautifulSoup
实战前先新建个lol文件夹作为工作目录，并创建子目录data，用于存放数据。
1.爬取数据，新建个py文件，用于爬取云顶数据，命名为data.py
1.1定义个req函数，方便读取。//需设定编码格式，否则会出现乱码
def Re_data(url):
re = requests.get(url)
re.encoding = 'gbk'
data = https://www.04ip.com/post/json.loads(re.text)
return data['data']
1.2定义个Get函数，用于读取数据并使用保存函数进行保存数据，保存格式为json 。
def Get_data():
# 获取数据并保存至data目录
base_url = ''
chess = Re_data(base_url'chess.js')
race = Re_data(base_url'race.js')
job = Re_data(base_url'job.js')
equip = Re_data(base_url'equip.js')
Save_data(chess,race,job,equip)
1.3定义save函数实现读取的数据进行文件保存，保存目录为工作目录下的data文件夹。
def Save_data(t_chess,t_race,t_job,t_equip):
with open('./data/chess.json','w') as f:
json.dump(t_chess,f,indent='\t')
with open('./data/race.json','w') as f:
json.dump(t_race,f,indent='\t')
with open('./data/job.json','w') as f:
json.dump(t_job,f,indent='\t')
with open('./data/equip.json','w') as f:
json.dump(t_equip,f,indent='\t')
1.4定义主函数main跑起来
if __name__ == '__main__':
start = time.time()
Get_data()
print('运行时间：'str(time.time() - start)'秒')
至此，数据爬取完成。
2.种族和职业进行组合。
2.1未完成 //未完成，使用穷举方法进行组合会出现内存不够导致组合失败（for循环嵌套导致数组内存超限）
//待学习，使用知识图谱建立组合优选，可参考：
期间遇到的问题：
1.爬取棋子数据时为动态js加载，需通过json模块的loads方法获取
2.3层for循环嵌套数据量大，导致计算失败，需优化计算方法。
Python 几个重要的内置函数在学习Python的过程中，有几个比较重要的内置函数：help()函数、dir()函数、input()与raw_input()函数、print()函数、type()函数。
第一、help()函数
Help()函数的参数分为两种：如果传一个字符串做参数的话，它会自动搜索以这个字符串命名的模块、方法等;如果传入的是一个对象，就会显示这个对象的类型的帮助。比如输入help(‘print’)，它就会寻找以‘print’为名的模块、类等，找不到就会看到提示信息;而print在Python里是一个保留字，和pass、return同等，而非对象，所以help(print)也会报错。
第二、dir()函数
dir()函数返回任意对象的属性和方法列表，包含模块对象、函数对象、字符串对象、列表对象、字典对象等。尽管查找和导入模块相对容易，但是记住每个模块包含什么却不是这么简单，您并不希望总是必须查看源代码来找出答案。Python提供了一种方法，可以使用内置的dir()函数来检查模块的内容，当你为dir()提供一个模块名的时候，它返回模块定义的属性列表。dir()函数适用于所有对象的类型，包含字符串、整数、列表、元组、字典、函数、定制类、类实例和类方法。
第三、input与raw_input函数
都是用于读取用户输入的，不同的是input()函数期望用户输入的是一个有效的表达式，而raw_input()函数是将用户的输入包装成一个字符串。
第四、Print()函数
Print在Python3版本之间是作为Python语句使用的，在Python3里print是作为函数使用的。
第五、type()函数
Type()函数返回任意对象的数据类型。在types模块中列出了可能的数据类型，这对于处理多种数据类型的函数非常有用，它通过返回类型对象来做到这一点，可以将这个类型对象与types模块中定义类型相比较。
【python爬取常用函数 python爬取常用的模块】python爬取常用函数的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于python爬取常用的模块、python爬取常用函数的信息别忘了在本站进行查找喔。

python爬取常用函数 python爬取常用的模块

推荐阅读

网保

轻松解决打印机故障，省下大量维修费用佳能打印机3480清零软件下载指南

夏天米饭放电饭煲里放一夜会坏吗

LOJ#6511. 「雅礼集训 2018 Day8」B【线性规划对偶问题，费用流】

火龙果树种植方法和技术火龙果树的种植方法

图片提取文字软件，有什么可以把图片转化成字符的软件

纯梨膏好还是加了中药的好

霖怎么读音霖怎么读音正确

如何连接政务服务器？政务服务器怎么连接

广西中小学教育质量在全国处于什么水平？

mysql怎么run mysql弄好怎么用

秋葵要焯水多长时间

四川盐城在哪里盐城市在哪里

北京最低月工资标准2020最新 2022年北京市月最低工资标准表

redis 查询语句 redis快速查询姓名

新闻文本分析

老凤祥999纯银今日价银价格

噢噢噢噢噢是什么歌中文噢噢噢噢噢是什么歌

宝宝几个月添加辅食宝宝添加辅食注意事项

饺子沸腾还要煮多久才熟饺子沸腾还要煮多久才熟透