kaikai
发布于 2024-11-04 / 11 阅读
0
0

【爬虫|学习|副业|牢饭系列】论零基础爬虫到二十年无忧无虑

摘自:【爬虫|学习|副业|牢饭系列】论零基础爬虫到二十年无忧无虑。 - 文档共建 - LINUX DO

1、基础学习

自己在下面或者自己在B站找找自己能看下去零基础教程
B站-基础 104
B站-基础 60

2、框架

下面按需学习,建议优先研究DP(DrissionPage)毕竟舒服,爬取网页数据会很快,也能解决很多麻烦和坑,也会容易给自己带来满足感愉悦感

  • 自动化框架

    • selenium

    • pyppeteer

    • playwright

    • splash

    • DrissionPage

    • appium

    • airtest

  • 爬虫框架

    • scrapy

    • feapder

    • pyspider

  • 接口编写

    • FastAPI

    • flask

    • express

3、爬虫案例(实战)

下面是一些实战案例,网页+app,一关一关过了以后,你基本就到金丹期但是距离元婴期还有一段距离,
Python爬虫案例 | Scrape Center 95

猿人学-第二届Web攻防大赛-注册 (yuanrenxue.cn) 30

4、中高级爬虫

小伙子,之前的学习很简单吧?别急,下面才是你真正踏入修仙界的真正要学的!

1、JS逆向采集

  • 1 补环境框架通杀与实战

  • 2 TLS 原理与指纹高并发伪造

  • 3 内存爆破 控制台拦截 性能监测等对抗

  • 4 中间人攻击流量拦截与篡改

  • 5 核心参数定位技巧与 STACK 跟值密文锁定

  • 6 JSVMP 原理及处理方案

  • 7 代码插桩方式与日志分析

  • 8 主流打包器原理及模块暴露技巧

  • 9 混淆原理与痕迹定位

  • 10 混淆代码还原与中间人替换

  • 11 伪造代码执行环境与密文传递

  • 12 RPC 远程调用与鼠标轨迹识别检测绕过

2、安卓 APP 逆向(FRIDA XPOSED RATEL)

  • 1 APP全场景抓包&反检测对抗

  • 2 FRIDA HOOK ALL及其衍生工具基操+技巧

  • 3 FRIDA 检测原理&魔改对抗实现

  • 4 SO分析IDA分析OLLVM汇编及算法还原思路

  • 5 魔改增强版脱壳机 & 实战

  • 6 XPOSED 基操及进阶技巧、HOOKSO

  • 7 注入+HOOK+ HIDE 核心原理

  • 8 MAGISK之原理、ZYGISK、模块开发、HOOK 集成

  • 9 从LSPOSED 原理到打造定制版 XPOSED

  • 1 RATEL免ROOT 插件植入目标 APP

  • 11 一键新机设备指纹切换对抗

  • 12 免ROOT HOOK&调试快速还原算法

3、机器学习验证码

  • 1 滑块验证码识别

  • 2 点选验证码识别

  • 3 图片缺口 坐标 检测与识别

  • 4 手写 定长 不定长 图片识别

  • 5 神经网络模型训练&标注

  • 6 图像识别 API接口搭建
    4、高可用爬虫框架设计

  • 1 设计高可用异步爬虫

  • 2 设计分布式爬虫,采集速度无上限

  • 3 设计多下载器,直接绕过 TLS HTTP2

  • 4 设计多层次管道,轻松处理数据清洗与数据转换

  • 5 高融合页面解析器,大幅减轻业务代码

  • 6 请求响应高度定制 轻松反反爬二次开发

5、尽量不吃牢饭系列

爬取数据须遵规_中华人民共和国最高人民检察院 (spp.gov.cn) 47

网络爬虫无处不在,侵权边界在哪_中华人民共和国最高人民检察院 (spp.gov.cn) 17

最高人民检察院 (spp.gov.cn) 7

5、工具

工欲善其事,必先利与器!
SpiderAPI - 虫术 - 爬虫逆向常用 API 30
爬虫工具库-spidertools.cn 16
Ctool 11
爬虫工具-爬虫分析工具-猿人学爬虫工具 (yuanrenxue.cn) 18

6、总结

记住一句话:

兴趣是最大的老师,学习的路上要优先满足和愉悦自己,你才能走的下去,才能走得更远!

最后!最后!最后!再再啰嗦一句,看图。


评论