利用python构建爬虫,爬取公众号历史文章及其内容,获取所有节日相关文章(类型可改)
。
- 完成基本构建流程,可以得到大部分文章数据,少量数据出现丢失,优化中。
- 完成数据清洗、整理、持久化存储,存储格式为
{时间,标题,url,文字内容}
- 完成节日相关文章的正则匹配,存储格式同上
- 优化操作步骤,一键完成信息的爬取与保存 [v]
不再使用翻页获取url的方式,开辟新途径,在短时间内拿到更多的数据,并且减少被封次数[ ]- 获取文章内容时,使用多线程,提升爬取文章文字内容的速度 [v]
- 独立
config
为文件 [ ] 自动获取[ ]cookie
,token
公众号[ ]fakeid
改为命令行输入形式
- 登录自己的微信公众号平台,获得、更新:
cookie
,公众号唯一fakeid
,token
,在getAllUrls.py
文件中修改 - 运行
run-spider.sh
, 根据提示输入正确内容,即可完成指定公众号历史文章爬取
· 王思哲 · [email protected]