Rápida descrição do objetivo de fazer esse projeto
🪧 Vitrine.Dev | https://cursos.alura.com.br/vitrinedev/gabrielzuli22 |
---|---|
✨ Nome | Desafio Data Science Alura |
🏷️ Tecnologias | Python, PySpark, Aprendizado de Máquina |
🚀 URL | https://github.com/kennenvi/Challange-Dados |
🔥 Desafio | https://www.alura.com.br/challenges/data-science-2?host=https://cursos.alura.com.br |
Esse projeto foi feito para o Alura Desafio dados, onde foi apresentado um conjunto de dados sobre imóveis que serão primeiramente, explorados e processados, após isso será construido um modelo de regressão para prever o valor de imóveis baseando-se em suas características e por último a elaboração de um sistema de recomendação utilizando um algoritmo de clusterização para recomendar imóveis. No projeto foi utilizada a linguagem Python no ambiente do google Colab em conjunto a ferramenta PySpark para o processamento de grandes quantidades de dados e com o módulo de aprendizado de máquina do próprio PySpark para a criação dos modelo.
Nessa etapa foi realizada a exploração do conjunto de dados a fim de extrair informações e realizar transformações necessárias para as fases seguintes. Os passos realizados foram:
- Importar dados em formatato JSON
- Selecionar colunas desejadas em meio a colunas e subcolunas
- Atribuir os tipos de dados certos para as colunas
- Salvar os dados no formato parquet
Nessa etapa foram construídos diferentes modelos de regressão utilizando o módulo de aprendizado de máquina do PySpark. Os passos realizados foram:
- Processar os dados faltandos do conjunto de dados
- Analisar quais as melhores features para inserir no modelo
- Preparar os dados para inserção no modelo, trasnformando-os em vetores
- Criação dos modelos de regressão e avaliando-os com métricas como r2
- Otimização dos hiperparâmetros
- Validação cruzada
Nessa fase é proposto a criação de um modelo de recomendação de imóveis tendo como base o agrupamento dos dados com algoritmos de clusterização e a distância euclidiana. E os procedimentos realizados foram:
- Seleção de features para o modelo
- Transformar os dados em vetores
- Normalizar os dados
- Redução de dimensionalidade
- Construção do modelo de clusterização
- Contrução de uma pipeline
- Otimização do modelo de clusterização
- Criação de um recomendador de imóveis