python爬取常用函数 python爬取常用的模块

python常用列表函数1
len(list)
列表元素个数
2
max(list)
返回列表元素最大值
3
min(list)
返回列表元素最小值
4
list(seq)
将元组转换为列表
序号
方法
1
list.append(obj)
在列表末尾添加新的对象
2
list.count(obj)
统计某个元素在列表中出现的次数
3
list.extend(seq)
在列表末尾一次性追加另一个序列中的多个值(用新列表扩展原来的列表)
4
list.index(obj)
从列表中找出某个值第一个匹配项的索引位置
5
list.insert(index, obj)
将对象插入列表
6
list.pop([index=-1])
移除列表中的一个元素(默认最后一个元素),并且返回该元素的值
7
list.remove(obj)
移除列表中某个值的第一个匹配项
8
list.reverse()
反向列表中元素
9
list.sort( key=None, reverse=False)
对原列表进行排序
10
list.clear()
清空列表
11
list.copy()
复制列表
python常用函数1、complex()
返回一个形如 a bj 的复数 , 传入参数分为三种情况:
参数为空时,返回0j;参数为字符串时,将字符串表达式解释为复数形式并返回;参数为两个整数(a,b)时,返回 a bj;参数只有一个整数 a 时,虚部 b 默认为0,函数返回 a 0j 。
2、dir()
不提供参数时,返回当前本地范围内的名称列表;提供一个参数时,返回该对象包含的全部属性 。
3、divmod(a,b)
a -- 代表被除数,整数或浮点数;b -- 代表除数 , 整数或浮点数;根据 除法运算 计算 a,b 之间的商和余数,函数返回一个元组(p,q) , p 代表商 a//b,q 代表余数 a%b 。
4、enumerate(iterable,start=0)
iterable -- 一个可迭代对象,列表、元组序列等;start -- 计数索引值 , 默认初始为0‘该函数返回枚举对象是个迭代器,利用 next() 方法依次返回元素值,每个元素以元组形式存在,包含一个计数元素(起始为 start )和 iterable 中对应的元素值 。
python爬虫---爬取LOL云顶之弈数据本来是想爬取之后作最佳羁绊组合推算,但是遇到知识点无法消化(知识图谱),所以暂时先不组合了,实力有限
库的安装
1.requests#爬取棋子数据
2.json#棋子数据为js动态,需使用json解析
3.BeautifulSoup
实战前先新建个lol文件夹作为工作目录 , 并创建子目录data,用于存放数据 。
1.爬取数据,新建个py文件 , 用于爬取云顶数据,命名为data.py
1.1定义个req函数 , 方便读取 。//需设定编码格式 , 否则会出现乱码
def Re_data(url):
re = requests.get(url)
re.encoding = 'gbk'
data = https://www.04ip.com/post/json.loads(re.text)
return data['data']
1.2定义个Get函数,用于读取数据并使用保存函数进行保存数据,保存格式为json 。
def Get_data():
# 获取数据并保存至data目录
base_url = ''
chess = Re_data(base_url'chess.js')
race = Re_data(base_url'race.js')
job = Re_data(base_url'job.js')
equip = Re_data(base_url'equip.js')
Save_data(chess,race,job,equip)
1.3定义save函数实现读取的数据进行文件保存,保存目录为工作目录下的data文件夹 。
def Save_data(t_chess,t_race,t_job,t_equip):
with open('./data/chess.json','w') as f:
json.dump(t_chess,f,indent='\t')
with open('./data/race.json','w') as f:
json.dump(t_race,f,indent='\t')
with open('./data/job.json','w') as f:
json.dump(t_job,f,indent='\t')
with open('./data/equip.json','w') as f:
json.dump(t_equip,f,indent='\t')
1.4定义主函数main跑起来
if __name__ == '__main__':
start = time.time()
Get_data()
print('运行时间:'str(time.time() - start)'秒')
至此 , 数据爬取完成 。
2.种族和职业进行组合 。
2.1未完成 //未完成,使用穷举方法进行组合会出现内存不够导致组合失败(for循环嵌套导致数组内存超限)
//待学习,使用知识图谱建立组合优选 , 可参考:
期间遇到的问题:
1.爬取棋子数据时为动态js加载,需通过json模块的loads方法获取
2.3层for循环嵌套数据量大,导致计算失败,需优化计算方法 。
Python 几个重要的内置函数在学习Python的过程中,有几个比较重要的内置函数:help()函数、dir()函数、input()与raw_input()函数、print()函数、type()函数 。
第一、help()函数
Help()函数的参数分为两种:如果传一个字符串做参数的话,它会自动搜索以这个字符串命名的模块、方法等;如果传入的是一个对象,就会显示这个对象的类型的帮助 。比如输入help(‘print’),它就会寻找以‘print’为名的模块、类等,找不到就会看到提示信息;而print在Python里是一个保留字,和pass、return同等,而非对象 , 所以help(print)也会报错 。
第二、dir()函数
dir()函数返回任意对象的属性和方法列表,包含模块对象、函数对象、字符串对象、列表对象、字典对象等 。尽管查找和导入模块相对容易,但是记住每个模块包含什么却不是这么简单,您并不希望总是必须查看源代码来找出答案 。Python提供了一种方法,可以使用内置的dir()函数来检查模块的内容 , 当你为dir()提供一个模块名的时候,它返回模块定义的属性列表 。dir()函数适用于所有对象的类型 , 包含字符串、整数、列表、元组、字典、函数、定制类、类实例和类方法 。
第三、input与raw_input函数
都是用于读取用户输入的,不同的是input()函数期望用户输入的是一个有效的表达式 , 而raw_input()函数是将用户的输入包装成一个字符串 。
第四、Print()函数
Print在Python3版本之间是作为Python语句使用的,在Python3里print是作为函数使用的 。
第五、type()函数
Type()函数返回任意对象的数据类型 。在types模块中列出了可能的数据类型,这对于处理多种数据类型的函数非常有用 , 它通过返回类型对象来做到这一点,可以将这个类型对象与types模块中定义类型相比较 。
【python爬取常用函数 python爬取常用的模块】python爬取常用函数的介绍就聊到这里吧 , 感谢你花时间阅读本站内容,更多关于python爬取常用的模块、python爬取常用函数的信息别忘了在本站进行查找喔 。

    推荐阅读