主要目录如下:
Python代码规范
简明概述
注释
命名规范
第一个Python程序
Python 简介
Python 的安装
第一个 Python 程序
集成开发环境(IDE): PyCharm
基本数据类型和变量
Python 语法的简要说明
Python 的基本数据类型
基本数据类型转换
Python 中的变量
List 和 Tuple
List(列表)
tuple(元组)
Dict 和 Set
字典(Dictionary)
set
条件语句和循环语句
条件语句
循环语句
条件语句和循环语句综合实例
函数
Python 自定义函数的基本步骤
函数传值问题
函数返回值
【python爬虫怎么做?】函数的参数
匿名函数
迭代器和生成器
迭代
Python 迭代器
lsit 生成式(列表生成式)
生成器
迭代器和生成器综合例子
模块与包
Python 模块简介
模块的使用
主模块和非主模块
包
作用域
面向对象
面向对象的概念
类
类的属性
类的方法
类的继承
类的多态
Python 的 Magic Method
Python 的 Magic Method
构造()和初始化()
属性的访问控制
对象的描述器
自定义容器(Container)
运算符相关的魔术方法
枚举类
枚举类的使用
Enum 的源码
自定义类型的枚举
枚举的比较
元类
Python 中类也是对象
使用动态创建类
什么是元类
自定义元类
使用元类
线程与进程
线程与进程
多线程编程
进程
一步一步了解正则表达式
初识 Python 正则表达式
字符集
数量词
边界匹配符和组
re.sub
re.match 和 re.search
闭包
装饰器
知识点补漏
Python 关键字 yield
Python 进阶
使用Python虚拟环境
Mac中使用virtualenv和virtualenvwrapper
Django
Python 下有许多款不同的 Web 框架 。Django 是重量级选手中最有代表性的一位 。许多成功的网站和 APP 都基于 Django 。
如果对自己的基础有点信息的童鞋 。可以尝试通过国外进行入门 。这个教程讲的非常的详细 。而且还有很多有趣的配图 。不过可能因为墙的原因 。很多人会访问不到 。就算访问到了 。也因为是英语的 。不会进行耐心的阅读学习 。因此我打算翻译这个教程 。
一个完整的初学者指南Django-part1
一个完整的初学者指南Django-part2
后面经一个朋友说 。这个教程已经有人在翻译了 。因此我也不翻译了 。不过感觉我的翻译还是挺好的 。因为不是直译的 。是通过了解后 。用自己的语言再次表达出来 。
这里有上面这个教程翻译计划的 Github 以及 博客 。觉得哪个看得舒服 。就选哪个进行学习 。
其他观点:
文章插图
文章插图
从获取的html页面中 。或者api获取的json中 。得到自己所需要的数据 。然后存储到指定的数据库
文章插图
文章插图
用到的库主要为 :
http访问: requests模块、或urllib3库
多线程:Thread、threadpool线程池 。或者concurrent包里的ThreadPoolExecutor、或urllib3自带的PoolManager()
文档处理: re 正则表达式、json模块
数据存储:MySQL-python存储或者pymongomongodb存储等等
进一步的 。如果爬取量大 。可以进行些简单的封装 。让各个功能各司其职
文章插图
比较正式的爬虫系统 。可以用python框架ScrapyScrapy已经提供了一整套的机制 。来减少自己搭建爬虫系统的难度 。
文章插图
被封堵的网站网站封堵爬虫会有很多的不同的技术 。并且这些技术都是在不断调整和完善的 。网站有时也会修改界面或者接口 。我们会经常会发现今天能爬取的网页 。明天就不行了 。这就需要经常检查和修复 。
简单的js封堵 。可以通过代码分析 。模拟逻辑来绕过
复杂的验证码就需要用些图像识别库来进行识别了 。如pytesser 。然后填充和认证通过
如果需要登录的网站 。还可能需要用到selenium工具进行模拟输入的方式登录
推荐阅读
- 四川最好的茶叶品牌排行榜 四川茶叶企业排名
- 如果只玩精灵宝可梦的话。买NS还是NSL好?为什么?
- 一级警员和二级警员工资差多少?
- 福尔摩斯罪与罚凶手选错了怎么办_第一章卡住了解决方法
- 为什么会有玩家不看好《精灵宝可梦剑/盾》?
- 报考公安局科员好还是民警好?
- 《精灵宝可梦:剑/盾》的初始游玩体验如何?
- 公务员职位中法检系统中招录的法律类一级科员是什么?和四级检察官助理,法官助理有什么区别?
- 藏语扎西德勒是什么意思 扎西德勒意思介绍