Giter Club home page Giter Club logo

killer11112's Projects

3y icon 3y

:notebook:从Java基础、JavaWeb基础到常用的框架再到面试题都有完整的教程,几乎涵盖了Java后端必备的知识点

interesting-python icon interesting-python

有趣的Python爬虫和Python数据分析小项目(Some interesting Python crawlers and data analysis projects)

php icon php

Docker Official Image packaging for PHP

php-1 icon php-1

为刚刚学习php语言以及web网站开发整理的一套资源,有视频,实战代码,学习路径等。会持续更新。。。

pku_distributed_spider icon pku_distributed_spider

你还在懊恼今年世界杯没有看懂么?你还在耿耿于怀别人的鄙视么?你还在搞不清哪个球员是哪个球队么?你还是一个伪球迷而不是懂球帝么?欧洲杯已悄悄走进,亚洲杯已就在眼前,欧冠正在开打,是时候行动了,“我们让你成为懂球帝”让你告别伪球迷,成为懂球帝。你还不知道梅西C罗,你还不懂DC天使,一直念叨的弟媳奉贤,一直想知道的莱万门卫,就连郜林斯曼你都不知道,太out了!亚洲杯**能走多远,欧洲杯谁能问鼎,欧冠哪家笑到最后,皆在“懂球帝”。当然我们也可以预测14年的金球奖到底花落谁家,谁是大家最喜欢的球星等等内容。 看完广告语,让我们来看看此项目到底是如何让你成为懂球帝的。 首先,我们从直播吧、新浪体育、网易体育等主流体育信息网站爬取关于足球的新闻信息以及用户的主要评论,从中根据需求提取主要信息,比如球队名称,球星,国家队等。然后进行数据的处理和分析,绘出曲线图等数据分析图,以此来预测欧冠冠军,金球奖得主,欧洲杯冠军,最喜欢球星等等内容。同时,对于选择出来的信息,比如球星,我们会对球星的主要信息进行深度搜索,让大家更加了解他的生活,比如卡卡为何离婚,C罗有几个女友等。 具体技术实现: 1.主要分为三个模块,一个爬虫抓取模块,一个是数据处理模块,一个是用户模块。 2.爬虫抓取模块主要是从直播吧、新浪体育、网易体育上爬取有关足球的新闻和用户关于足球的评论,利用集群HADOOP抓取网页,分析得出URL集,提取特征URL 3.网页linux脚本过滤得到原始网页,然后二次过滤得到文本,并使用分布式储存。 4.处理模块主要是根据训练集规则一和规则二,得到分词器,然后对文本进行操作,得出训练结果。 5.通过特征脚本得到训练结果的特征词分类,然后提取出球队模糊集和球星模糊集。 6.过滤得到球队精确集和球星精确集,并存入MYSQL数据库。 7.从数据库中提取球星和球队的信息进行图表分析,并动态显示WIKI信息,调入显示模块中和用户进行交换。

pyauto icon pyauto

《python自动化运维:技术与最佳实践》书中示例及案例源码

python icon python

python scripts written by hscheng

sayhello icon sayhello

A simple message board application build with Flask.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.