程序文件说明:
(1)主程序是test1,运行它就可以,在处理子页面时调用Process_SubPage()函数。
(2)zcy_fun里主要是一个Process_SubPage()函数,处理子页面的函数,在下载图片时会调用download_single_image()函数。
(3)proxytest主要是一个download_single_image()函数,
为了完成对单张图片的下载,这里还有从'http://www.youdaili.net/Daili/http/19733.html\'获取免费IP,测试并筛选IP,获取随机Header,IP的函数。
download_single_image函数中使用了递归,有调用自己的操作,也很简单。
(4)1024核工厂的网址可能会变,但是百度‘1024’第一个就是它;获取免费IP我是从有代理IP上一个网页爬的,要改的话需要在proxytest中的get_IPlist中改网址和正则表达式筛选规则。
(5)最后还要在test1的URL_1024那里设置URL_1024='http://1024.91lulea.click/pw/thread.php?fid=22&page=4\',我在代码中去掉了这个URL
(6)需要的python环境为3.5+beautiful,在此强烈推荐一个Anaconda,这个安装包把常见的150多个python包全部集成在里面了,装上这个再也不用因为pip Install速度慢去搜镜像网站了
(7)身体最重要,务必节制;上传这个代码主要是为了分享学习;另外注意不要让自己的爬虫给他们服务器带来太大的负担
mundane799699 / download_1024 Goto Github PK
View Code? Open in Web Editor NEWThis project forked from daili0015/download_1024
Python project, to download resource from 1024.