网络爬虫的学习
每个文件内都有注释, 可供快速上手
本项目为学习的实战项目,仅供学习使用,不得用于商业用途
有部分项目未能完全实现,仅供参考
- 梨视频爬取
- 网易云音乐抓取评论, 热评和最新评论(已在逆向中重新进行逆向,直接扣代码实现逆向, 获取到各种数据)
- 17k小说网站抓取小说(项目在协程内)
- ip代理池 -> 抓取免费的ip组成代理池
- 逆向文件内案例
- 网易云
-> 实现功能:
- 网易云逆向解密(扣代码) -> decode.js, wy_decode.js
- 评论区内容抓取, 第一个回复的内容 -> comment.py
- 歌曲下载url获取, 通过url下载歌曲 -> song.py
- 网易有道词典(待完成)
-> 实现功能:
- 有道词典sign值得获取, 不确定是否正确
- 返回值不正确, 需要学会逆向之后进行重新逆向
- 全国招标投标平台返回数据加密(AES, MOOD_ECB)
-> 实现功能: 进行解密
- 通过返回的加密数据, 使用DES进行解密, 展示出原来的数据
- 长佩文学小说网(AES, MOOD_CBC)
-> 实现功能: 对进行加密的返回数据进行解密, 使其能够抓取下载小说
- 加密数据抓取
- 进行解密, 获取原来未加密的数据
- 长安网站登录加密模拟
-> 实现功能: 对登录的密文进行加密处理
- 网站: https://bqcm0.cavip1.com
- 微信公众号密码逆向
-> 实现功能: 对密码进行逆向, 后续模拟登陆
- 使用md5, 直接扣代码
- case文件加下案例(不需要逆向的, 可以直接对网站进行爬取的项目)
case文件下案例:
中信证券抓取数据
四大名著小说抓取
使用bs4爬取美女壁纸
猪八戒网数据爬取
电影天堂热播排行榜
腾牛网全站壁纸/头像抓取
91视频抓取
豆瓣影评抓取
鬼吹灯小说抓取
scrapy文件内有单独的md文件, 是scrapy使用教程