Giter Club home page Giter Club logo

bdindexspider's Introduction

BDIndexSpider

百度指数抓取工具

提供关键词、起始和结束日期,软件能够抓取多个关键词每天的百度指数

Feature

  • 支持按照省份、城市查询
  • 实测兼容MacWindows系统,理论上也支持Linux,但没测过

Requirement

  • 源码基于Java1.8
  • 使用Maven管理

使用说明

  • 如果没什么计算机基础,只是想要几个关键词长时间的数据的话,建议去淘宝购买更划算,淘宝按关键词个数收费,如果自己用工具抓可能会慢一点
  • 运行前,需要在左上角初始化中配置账户密码和导入要抓取的关键词
  • 需要安装Chrome浏览器,版本在64-66之间
  • 源码中的a.txt为输入文件格式要求,可以输入多行
  • 如果不想运行源码,可以到executable目录下直接下载可执行jar文件
  • 关于抓取频率限制问题可以看这里

常见问题

关于工具的问题反馈和建议,推荐大家在github上开issue进行详细说明

PS: 像如何运行jar在哪里下载这种问题建议自己网上查查,多翻翻文档

启动后总是初始化失败

  1. 使用管理员权限运行jar试一下
  2. 检查下账号密码和关键词是否已设置

图片抓取正常,但无法进行ocr识别

  1. 如果程序中途因为超时等原因停止,则不会进行ocr识别,该种情况可参考ocr工具是干什么用的
  2. 在Windows 10系统下,由于抓到的图片进行了放大导致无法识别。解决办法是,桌面->右键->显示设置->缩放与布局->更改文本、应用等项目的大小,改为100%

ocr工具是干什么用的

由于网络超时等因素,当要抓取的时间跨度很长时,可能中途失败,此时只是抓到了图片数据,却没有识别为数字。可以用该工具将这些图片转为数字文本文件

ChangeLog

  • 2018年05月11日 适配新的百度指数页面

  • 2018年04月22日 加入按照地区查询功能

  • 2018年04月13日 不再使用tesseract进行ocr,自己写了个ocr实现

  • 2018年04月08日 提高精确模式抓取效率

  • 2018年04月05日 添加可执行jar文件,添加用户可配置账户密码功能

  • 2018年04月01日 目前已经修复了精确模式,可以正常运行

  • 2018年03月27日 本代码写于2016年,首次开源,目前由于Webdriver驱动的问题,无法直接运行。后面会抽时间修复一下

bdindexspider's People

Contributors

songgeb avatar jiehui-xu avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.