Giter Club home page Giter Club logo

wechat_articles_spider's Introduction

微信公众号文章爬虫(微信文章阅读点赞的获取)

安装

pip install wechatarticles

展示地址:

数据展示(完整指标)

日更两次,获取公众号的最新文章链接,暂不支持实时获取阅读点赞

技术交流可以直接联系,微信二维码见末尾(微信;wnma3mz)。烦请进行备注,如wechat_spider

统一回复,项目可正常运行。若不能正常运行,该行会删除。

联系前请注意:

  1. 不(能)做自动登录微信公众号、微信

  2. 不(能)做实时获取参数

  3. 参数过期需要手动更新

  4. 换一个公众号需要手动更新

注:本项目仅供学习交流,严禁用于商业用途(该项目也没法直接使用),不能达到开箱即用的水平。使用本项目需要读文档+源码+动手实践,参考示例代码(test文件夹下)进行改写。

提示:另外,已经有很多朋友(大佬)通过直接看源码,已经基于这套项目,或者重写,用于各自的需求。

实现思路一:

  1. 从微信公众号平台获取微信公众所有文章的url
  2. 登录微信PC端或移动端获取文章的阅读数、点赞数、评论信息

完整思路可以参考我的博客: 记一次微信公众号爬虫的经历(微信文章阅读点赞的获取)

批量关注微信公众的方法见:自动批量关注微信公众号(非逆向)

实现思路二:

  1. 登陆微信PC端或移动端获取公众号所有文章的url,这种获取到的url数量大于500,具体数值暂未测试
  2. 同上种方法,获取文章阅读数、点赞数、评论信息

公开已爬取的公众号历史文章的永久链接,日期均截止commit时间,仅供测试与学习,欢迎各位关注这些优质公众号。

公众号列表
  • 科技美学
  • 共青团**
  • 南方周末
  • AppSo
  • Notes

    更新于2020年12月

    更新微信文章阅读点赞在看

    1. 爬取失败的时候,可能有以下原因
      1. 运行的时候需要关闭网络代理(抓包软件),或者添加相关参数
      2. 参数是否最新,获取微信相关参数(cookie、token)时,一定要保证是对应公众号的任意文章
      3. 检查代码
      4. 需要关注对应公众号(Maybe)
    2. 思路一获取url时,每页间隔可以设定久一点,比如3分钟,持续时间几小时(来自网友测试)
    3. 获取文章阅读点赞时,每篇文章可以设定在5-10s左右,过期时间为4小时;若被封,大约5-10分钟就可继续抓取。
    4. 思路二获取url时,如果被封,需要24小时整之后才能重新抓取

    python版本

    • python: 3.6.2、3.7.3

    功能实现

    功能
  • 获取某公众号信息
  • 获取某公众号所有文章数量
  • 获取某公众号文章的url信息
  • 获取某公众号所有文章信息(包含点赞数、阅读数、评论信息),需要手动更改循环
  • 获取某公众号指定文章的信息
  • 支持微信公众号cookie、token登录,手动复制cookie和token
  • 支持两种获取文章阅读数和点赞数的方式,下面方式选用其一即可
      利用抓包工具手动获取
  • 支持微信文章下载至本地转为md
  • 支持微信文章下载至本地转为html(图片可选是否保存)
  • 变量名的说明

    变量名 作用
    official_cookie 个人公众号的cookie
    token 个人公众号的token
    appmsg_token 个人微信号的appmsg_token
    wechat_cookie 个人微信号的cookie
    key 个人微信号的key
    uin 个人微信号的uin
    nickname 需要获取文章的公众号名称
    query 筛选公众号文章的关键词
    outfile mitmproxy抓包获取请求的保存文件
    begin 从第几篇文章开始爬取
    count 每次爬取的文章数(最大为5, 但是返回结果可能会大于5)

    API实例

    利用公众号网页版获取微信文章url

    此处有次数限制,不可一次获取太多url。解决方案多个账号同时爬取 test_WechatUrls.py

    登录微信PC端获取文章信息

    test_WechatInfo.py

    快速获取大量文章urls(利用历史文章获取链接)

    test_GetUrls.py

    利用公众号获取链接,并获取阅读点赞

    test_ArticlesAPI.py

    微信文章下载为离线HTML(含图片)

    test_Url2Html.py

    相关文档

    见博客与下方文档

    official_cookie和token手动获取方式见这篇文档

    wechat_cookie和appmsg_token手动获取的介绍,可以参考这篇文档

    wechat_cookie和appmsg_token自动获取的介绍(需要安装mitmproxy,已放弃),仅供参考这篇文档。默认开放端口为8080。

    打赏部分

    微信二维码

    wechat_articles_spider's People

    Contributors

    wnma3mz avatar

    Recommend Projects

    • React photo React

      A declarative, efficient, and flexible JavaScript library for building user interfaces.

    • Vue.js photo Vue.js

      🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

    • Typescript photo Typescript

      TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

    • TensorFlow photo TensorFlow

      An Open Source Machine Learning Framework for Everyone

    • Django photo Django

      The Web framework for perfectionists with deadlines.

    • D3 photo D3

      Bring data to life with SVG, Canvas and HTML. 📊📈🎉

    Recommend Topics

    • javascript

      JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

    • web

      Some thing interesting about web. New door for the world.

    • server

      A server is a program made to process requests and deliver data to clients.

    • Machine learning

      Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

    • Game

      Some thing interesting about game, make everyone happy.

    Recommend Org

    • Facebook photo Facebook

      We are working to build community through open source technology. NB: members must have two-factor auth.

    • Microsoft photo Microsoft

      Open source projects and samples from Microsoft.

    • Google photo Google

      Google ❤️ Open Source for everyone.

    • D3 photo D3

      Data-Driven Documents codes.