Giter Club home page Giter Club logo

scraper-libre's Introduction

Scraper-Libre

Este script permite scrapear información de productos de una página de MercadoLibre y guardar los datos en archivos JSON y XLSX. El script extrae información de productos, incluyendo el enlace, el nombre y el precio, desde una página de MercadoLibre proporcionada por el usuario. Los datos se ordenan por precio de menor a mayor y se guardan en dos formatos: JSON y XLSX.

Requisitos

  • Python 3.x
  • ScraperAPI
  • Librerías de Python:
    • requests
    • json
    • os
    • BeautifulSoup de bs4
    • openpyxl
    • pandas

Instalación de Librerías

Para instalar las librerías necesarias, puedes usar pip:

pip3 install -r requirements.txt

Configuración de ScraperAPI

Para utilizar el script, necesitas una API key de ScraperAPI. Puedes registrarte y obtener una en ScraperAPI.

Uso

  1. Clona este repositorio o descarga el archivo del script.

  2. Abre el archivo del script en tu editor de texto favorito.

  3. Encuentra la siguiente línea y reemplaza 'AQUÍ-VA-TU-API' con tu propia API key de ScraperAPI:

    api_key = 'AQUÍ-VA-TU-API'
  4. Guarda los cambios.

  5. Ejecuta el script:

    python3 tu_script.py
  6. Ingresa la URL de la página de MercadoLibre que deseas scrapear cuando se te solicite.

Estructura del Código

  • get_target_url(): Solicita la URL de la página de MercadoLibre al usuario.
  • scrape_data(target_url): Realiza la solicitud a ScraperAPI, parsea el contenido HTML y extrae la información de los productos.
  • load_previous_data(file_path): Carga los datos previos desde un archivo JSON si existe.
  • save_data(products, json_path, xlsx_path): Guarda los datos ordenados en archivos JSON y XLSX.
  • if __name__ == "__main__": Verifica si la carpeta resultados existe, carga datos previos, obtiene la URL objetivo, realiza el scraping y guarda los datos acumulados.

Notas

  • Verifica los selectores HTML utilizados en el script ('ui-search-layout__item', 'ui-search-link', 'ui-search-item__title', 'andes-money-amount__fraction') ya que pueden cambiar con el tiempo.
  • En caso de error en la extracción de datos, se mostrará un mensaje de error para depuración.

Contribución

Las contribuciones son bienvenidas. Si deseas mejorar el script o añadir nuevas funcionalidades, no dudes en enviar un pull request.

scraper-libre's People

Contributors

yextep avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.