大数据时代下,爬虫技术逐渐成为一套完整的系统性工程技术,涉及的知识面广,平台多,技术越来越多样化,对抗性也日益显著。
大家可以参考一下学习路线,看看自己需要对哪些知识进行补充。
爬虫逆向学习路线
-
- 学习路线总结
- 系统提高
-
- 加密算法特征和实现
- 传输协议和通讯协议
- 各种验证码识别方法
- 个人汇总专栏
- 爬虫逆向社区
学习路线总结 基础学习路线总结:
- 主语言基础语法
- 常用网络请求库、解析库
- 常用抓包工具
- 自动化工具库
- 流行采集框架
- 多进程、多线程、协程、分布式爬虫
- 采集器管理
- 浏览器构造、基础语法、作用域
- Bom、Dom属性和方法
- 调试工具
- 加密参数定位方法
- 常见混淆和加密
- 浏览器环境补充
- AST
- 小程序基础架构
- 小程序语法
- 反编译工具
- 代码修复
- hook方法
- 安卓逆向原理
- java、smali、arm语法
- 反编译工具
- 加密参数定位方法
- 调试和hook工具
- 反检测和反调试
- 加固和脱壳
需要掌握常见加密算法,MD5、AES、DES、RSA、HASH、ECC等在Js和java代码中的特征及我们的主语言实现方法。
python实现: https://blog.csdn.net/tongtongjing1765/article/details/106010143
java实现:https://blog.csdn.net/zl1zl2zl3/article/details/85331976
go实现:https://blog.csdn.net/weixin_42117918/article/details/82870809
传输协议和通讯协议
一些自定义的协议暂不列出了,总结一下常见的。
传输协议:json、xml、protobuf、tlv 等
通讯协议:http/https、tcp/udp、ws/wss、tls 等
各种验证码识别方法
验证码种类很多,各种验证方式也层出不穷,这里列出常见的验证。
具体解决方法可以到github查找开源识别库。
- 图文验证码:图文识别、逻辑计算
- 滑动验证码:缺口拼图、轨迹验证
- 点选验证码:文字点选、图标点选
- 逻辑验证码:语义识别、空间推理
- 短信验证码:接码平台、hook监听
网络爬虫基础 : 适合有python语法基础
web逆向基础 : Js逆向案例,有爬虫经验即可
安卓逆向基础 :工具介绍、逆向记录、案例分享
爬虫案例合集 :工作中的案例总结,持续更新
Github代码库
爬虫逆向社区 【爬虫|爬虫逆向学习进阶路线】爬虫逆向社区:https://bbs.csdn.net/forums/lx
文章图片
可在社区进行技术分享,有问题也可以问答交流,欢迎大家加入!
推荐阅读
- PythonKnowledge|Python之quote()使用
- SpiderCrawl|JS逆向-Protobuf逆向解析
- 爬虫总结|通过JS逆向ProtoBuf 反反爬思路分享
- java|工作log
- #|二进制粒子群算法的配电网故障定位(Python&Matlab实现)
- #|美团外卖——物流论文小笔记(Python实现)
- 算法|一个月读完6本书(这些烧脑神书,你能读完1本,就是学霸!)
- Python|爬虫学习日记第六篇(异步爬虫之多进程、线程池和实战项目爬取新发地价格行情)
- Python|爬虫学习日记第四篇(xpath解析)