摘自:【爬虫|学习|副业|牢饭系列】论零基础爬虫到二十年无忧无虑。 - 文档共建 - LINUX DO
1、基础学习
自己在下面或者自己在B站找找自己能看下去零基础
教程
B站-基础 104
B站-基础 60
2、框架
下面按需学习,建议优先研究DP(DrissionPage)毕竟舒服,爬取网页数据会很快,也能解决很多麻烦和坑,也会容易给自己带来满足感
、愉悦感
自动化框架
selenium
pyppeteer
playwright
splash
DrissionPage
appium
airtest
爬虫框架
scrapy
feapder
pyspider
接口编写
FastAPI
flask
express
3、爬虫案例(实战)
下面是一些实战案例,网页+app,一关一关过了以后,你基本就到金丹期
但是距离元婴期
还有一段距离,
Python爬虫案例 | Scrape Center 95
猿人学-第二届Web攻防大赛-注册 (yuanrenxue.cn) 30
4、中高级爬虫
小伙子,之前的学习很简单吧?别急,下面才是你真正踏入修仙界的真正要学的!
1、JS逆向采集
1 补环境框架通杀与实战
2 TLS 原理与指纹高并发伪造
3 内存爆破 控制台拦截 性能监测等对抗
4 中间人攻击流量拦截与篡改
5 核心参数定位技巧与 STACK 跟值密文锁定
6 JSVMP 原理及处理方案
7 代码插桩方式与日志分析
8 主流打包器原理及模块暴露技巧
9 混淆原理与痕迹定位
10 混淆代码还原与中间人替换
11 伪造代码执行环境与密文传递
12 RPC 远程调用与鼠标轨迹识别检测绕过
2、安卓 APP 逆向(FRIDA XPOSED RATEL)
1 APP全场景抓包&反检测对抗
2 FRIDA HOOK ALL及其衍生工具基操+技巧
3 FRIDA 检测原理&魔改对抗实现
4 SO分析IDA分析OLLVM汇编及算法还原思路
5 魔改增强版脱壳机 & 实战
6 XPOSED 基操及进阶技巧、HOOKSO
7 注入+HOOK+ HIDE 核心原理
8 MAGISK之原理、ZYGISK、模块开发、HOOK 集成
9 从LSPOSED 原理到打造定制版 XPOSED
1 RATEL免ROOT 插件植入目标 APP
11 一键新机设备指纹切换对抗
12 免ROOT HOOK&调试快速还原算法
3、机器学习验证码
1 滑块验证码识别
2 点选验证码识别
3 图片缺口 坐标 检测与识别
4 手写 定长 不定长 图片识别
5 神经网络模型训练&标注
6 图像识别 API接口搭建
4、高可用爬虫框架设计1 设计高可用异步爬虫
2 设计分布式爬虫,采集速度无上限
3 设计多下载器,直接绕过 TLS HTTP2
4 设计多层次管道,轻松处理数据清洗与数据转换
5 高融合页面解析器,大幅减轻业务代码
6 请求响应高度定制 轻松反反爬二次开发
5、尽量不吃牢饭系列
爬取数据须遵规_中华人民共和国最高人民检察院 (spp.gov.cn) 47
网络爬虫无处不在,侵权边界在哪_中华人民共和国最高人民检察院 (spp.gov.cn) 17
5、工具
工欲善其事,必先利与器!
SpiderAPI - 虫术 - 爬虫逆向常用 API 30
爬虫工具库-spidertools.cn 16
Ctool 11
爬虫工具-爬虫分析工具-猿人学爬虫工具 (yuanrenxue.cn) 18
6、总结
记住一句话:
兴趣是最大的老师,学习的路上要优先满足和愉悦自己,你才能走的下去,才能走得更远!
最后!最后!最后!再再啰嗦一句,看图。