Giter Club home page Giter Club logo

python-scraping's Introduction

Script Python de scraping du site https://books.toscrape.com/

Description du projet

Il s'agit du premier projet réalisé dans le cadre de ma formation OpenClassrooms.
Il s'agit d'un script très basique. Le but du projet était de me remettre le pied à l'étrier en termes de Python, utilisation des environnements virtuels, ...
Avec le recul, assez intéressant de voir la manière dont j'avais développé ce projet à l'époque : sans POO, avec une fonction monolythique de 80 lignes.
M'a tout de même permis de découvrir le principe du scraping, l'utilisation de BeautifulSoup et de concurrent.futures.

Mise en place et exécution du script

  1. Téléchargez le projet depuis Github Pour cloner le projet en local sur votre machine, copiez l'URL de ce repo et lancez la commande suivante dans git bash :
git clone <URL du repo>
  1. Créez un environnement virtuel Python en exécutant la commande suivantes dans le Terminal de votre choix :
python -m venv <environment name>

Puis, toujours dans le terminal, activez votre environnement avec la commande suivante si vous êtes sous Linux :

source env/bin/activate

Ou bien celle-ci si vous êtes sous Windows

env/Scripts/activate.bat
  1. Téléchargez les packages Python nécessaires à la bonne exécution du script à l'aide de la commande suivante :
pip install -r requirements.txt
  1. Vous pouvez maintenant exécuter le script, soit à l'aide de l'IDE de votre choix, soit directement depuis le Terminal, à l'aide de la commande suivante :
python script.py

NB : Les fichiers seront générés dans un dossier results/ date du jour / au sein dossier dans lequel le script est exécuté.

python-scraping's People

Contributors

theosntt avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.