Giter Club home page Giter Club logo

webscraping's Introduction

Introduction

Voici le rapport mon projet Python de Web Scraping des journaux. Dans ce rapport, j’aborderai le fonctionnement du programme ainsi que les difficultés que j’ai rencontrées. Enfin, je me focaliserai sur les pistes d’améliorations de mon programme.

Mon projet

Mon objectif durant ce projet était de faire du scraping des journaux afin de récupérer ses articles pour en faire une synthèse de l’actualité. Pour ce faire, j’ai utilisé BeautifulSoup et request de façon à récupérer le corps du site que je voulais traiter : CNews. A l’aide de BeautifulSoup, je récupère l’ensemble des url des articles avant d’employer une méthode pour stocker tout le texte qu’ils contiennent. Pour la partie du traitement de texte, j’ai utilisé principalement NLTK pour la tokenization. J’ai ainsi récupéré une liste de mots souvent employés dans la langue française et qui n’ont donc pas d’interet en ce qui concerne l’analyse du sujet de l’article. A ces mots j’ai rajouté à la main la ponctuation que l’on peut trouver dans les articles de CNews ainsi que différentes lettres pouvant être considéré comme des stopwords mais qui n’était pas dans le module nltk. Au départ pour la tokenization j’ai utilisé word_tokenize et send_tokenize. En revanche, word_tokenize me posait des problèmes de dictionnaire car il découpait différemment les phrases en fonction de la méthode dans laquelle il était appelé, j’ai donc utilisé un autre module qui s’appelle RegexpTokenizer et qui m’a permis de résoudre le problème. Après la tokenization, je détermine le nombre de fois qu’un mot est employé dans l’article de façon à lui attribuer une valeur qui sera ensuite utilisée pour déterminer quelle phrase est importante. A l’aide de ce dictionnaire de valeur, je calcul la valeur de chaque phrase en fonction des mots qu’elles contiennent. Ainsi, j’obtiens un classement des phrases jugées par le programme comme étant les plus représentatives de l’article. J’utilise ensuite nlargest de la bibliothèque heapq pour me renvoyer un pourcentage défini à l’avance des phrases ayant la plus grande valeur, ce qui me permet de construire le résumé de l’article. Vous pourrez regarder le procéssus en détail en utilisant la méthode Print_detail_article() Enfin, j’ai décidé d’implémenter une analyse des sentiments dégagés par les articles de Cnews. Pour cela j’ai utilisé le module NLP textblob et sa variante qui m’intéressait : textblob_fr qui est un module d’analyse de sentiment en français. Je voulais initialement construire mon propre modèle sk_learn, mais je n’ai pas trouvé de dataset correspondant à ce que je recherchais pour l’entrainer.

webscraping's People

Contributors

liviator avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.