kingking888 / crawl-lagou Goto Github PK
View Code? Open in Web Editor NEWThis project forked from yanxueshan/crawl-lagou
通过Scrapy的CrawlSpider对拉钩网进行整站爬取并入库,通过selenium进行模拟登录,通过Scrapy自定义随机生成User-Agent/IP代理/集成Selenium的DownloaderMiddleware,通过Scrapy信号机制统计爬取成功的URL总数量,通过Scrapy数据收集机制获取爬取失败的failed_url并写入到json文件中,方便后期分析