###Sina Tweet Crawler (java) ####新浪微博爬虫 #####实现自定义输入关键词,指定要爬取的相关页面,根据关键词提取页面中的微博信息数据。
- 自定义搜索关键字
- 自动获取代理IP爬取
- 非登录,爬取当天微博信息数据存储于本地html文件
- 解析微博页面获取微博文本内容信息到txt和xml文件
- 基于代理IP获取数据,可以长时间连续爬取数据,可以防止某些反爬虫机制
实时爬取微博信息数据,数据源 http://s.weibo.com/wb/searchword
Learn more...