Giter Club home page Giter Club logo

projeto-ceasa's Introduction

Projeto CEASA

Objetivo

Facilitar o acesso aos dados do Centrais de Abastecimento do Estado do Rio de Janeiro S.A (CEASA-RJ) por meio de um processo automatizado de coleta, transformação e análise de dados.

diagrama de fluxo do projeto: coleta, transformação, armazenamento e visualização

Motivação

A necessidade de disponibilizar informações do CEASA-RJ de maneira mais acessível, transformando dados presentes em PDFs em formatos utilizáveis para análise e insights mais rápidos.

Etapas do Projeto

1. Coleta de Dados

  • Acessar o site do CEASA-RJ
  • Utilizar BeautifulSoup para extrair links e informações dos PDFs.
  • Coletar PDFs de cotação.

Postagem 1:

🚀 **Automatização da Coleta de Dados no Projeto CEASA-RJ: Detalhando o Primeiro Passo!**

Olá pessoal! Estou empolgado para compartilhar o andamento do #ProjetoCEASARJ, que visa aprimorar o acesso às informações sobre os preços dos alimentos na Central de Abastecimento do Rio de Janeiro! 🌐📊

**1ª Etapa: Coleta de Dados 📥**
Nessa fase inicial de coleta, utilizei a técnica de web scraping para extrair URLs contendo documentos PDF do site da CEASA-RJ. Com a ajuda do BeautifulSoup, naveguei pelo DOM do HTML, identificando links e extraindo os arquivos desejados, que foram armazenados em uma lista. 🕵️‍♂️🔍

A identificação de novos PDFs foi seguida pelo download local para processamento posterior. A partir dos nomes dos arquivos, como 'Boletim%2017%2011%202023.pdf' para 'Boletim_17_11_2023.pdf', extrai os nomes e as datas dos documentos, registrando tudo em um arquivo Parquet para manter a organização na coleta de dados. 🗂️📆

**Principais Ferramentas:**
- Python (requests, BeautifulSoup)
- Parquet para persistência das informações

**Objetivo:**-
Proporcionar acesso às cotações da CEASA-RJ, automatizando os processos de coleta, transformação e análise para extrair insights de maneira eficiente. 🔄💡

Fiquem atentos para mais atualizações conforme avançamos na jornada do Projeto CEASA-RJ! Conectem-se ou comentem se tiverem dúvidas ou insights. Vamos impulsionar a inovação por meio dos dados! 🌐🔗

repositório do projeto: https://github.com/revalani/Projeto-CEASA

#ColetaDeDados #Automatização #ProjetoCEASARJ #CiênciaDeDados #WebScraping #Python #PostLinkedIn

2. Transformação de Dados

  • Converter os PDFs em planilhas, tornando os dados mais acessíveis e manipuláveis.
  • Utilizar Pandas para a manipulação eficiente desses dados.

3. Armazenamento

  • Salvar os dados de forma acessível, como em planilhas no Google Sheets.

4. Análise e Visualização

  • Criar dashboards e modelos para uma análise mais avançada dos dados.

Pendente

  • Implementação de embiente virtual (env) para replicação do ambiente.

Tecnologias Utilizadas

  • Python
  • BeautifulSoup
  • Pandas
  • Pdfplumber

Como Contribuir

Sinta-se à vontade para fazer sugestões, reportar problemas ou contribuir para o projeto. O seu feedback é valioso!


Observação: Este documento está em constante evolução. Fique à vontade para acompanhar as atualizações e contribuir para o crescimento do Projeto CEASA! 🚀

projeto-ceasa's People

Contributors

revalani avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.