Giter Club home page Giter Club logo

challange-dados's Introduction

Modelo de recomendação de imóveis com PySpark

Rápida descrição do objetivo de fazer esse projeto

🪧 Vitrine.Dev https://cursos.alura.com.br/vitrinedev/gabrielzuli22
✨ Nome Desafio Data Science Alura
🏷️ Tecnologias Python, PySpark, Aprendizado de Máquina
🚀 URL https://github.com/kennenvi/Challange-Dados
🔥 Desafio https://www.alura.com.br/challenges/data-science-2?host=https://cursos.alura.com.br

Detalhes do projeto

Esse projeto foi feito para o Alura Desafio dados, onde foi apresentado um conjunto de dados sobre imóveis que serão primeiramente, explorados e processados, após isso será construido um modelo de regressão para prever o valor de imóveis baseando-se em suas características e por último a elaboração de um sistema de recomendação utilizando um algoritmo de clusterização para recomendar imóveis. No projeto foi utilizada a linguagem Python no ambiente do google Colab em conjunto a ferramenta PySpark para o processamento de grandes quantidades de dados e com o módulo de aprendizado de máquina do próprio PySpark para a criação dos modelo.

Processamento do Conjunto de dados com PySpark

Nessa etapa foi realizada a exploração do conjunto de dados a fim de extrair informações e realizar transformações necessárias para as fases seguintes. Os passos realizados foram:

  • Importar dados em formatato JSON
  • Selecionar colunas desejadas em meio a colunas e subcolunas
  • Atribuir os tipos de dados certos para as colunas
  • Salvar os dados no formato parquet

Criando modelo de regressão para estimar preços de imóveis

Nessa etapa foram construídos diferentes modelos de regressão utilizando o módulo de aprendizado de máquina do PySpark. Os passos realizados foram:

  • Processar os dados faltandos do conjunto de dados
  • Analisar quais as melhores features para inserir no modelo
  • Preparar os dados para inserção no modelo, trasnformando-os em vetores
  • Criação dos modelos de regressão e avaliando-os com métricas como r2
  • Otimização dos hiperparâmetros
  • Validação cruzada

Construindo modelo de recomendação de imóveis

Nessa fase é proposto a criação de um modelo de recomendação de imóveis tendo como base o agrupamento dos dados com algoritmos de clusterização e a distância euclidiana. E os procedimentos realizados foram:

  • Seleção de features para o modelo
  • Transformar os dados em vetores
  • Normalizar os dados
  • Redução de dimensionalidade
  • Construção do modelo de clusterização
  • Contrução de uma pipeline
  • Otimização do modelo de clusterização
  • Criação de um recomendador de imóveis

challange-dados's People

Contributors

kennenvi avatar

Stargazers

 avatar

Watchers

 avatar  avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.