Projeto para classificar estrelas, galáxias e quasares ( quasi-stellar radio source , quasi-stellar object ou um núcleo galáctico ativo).
- Oferecer uma contextualização do contexto do negócio e da necessidade da solução que seu grupo irá propor.
- Estabelecer claramente o objetivo do trabalho.
- Implementar o projeto.
- Analisar como a implementação atende ao objetivo proposto.
- Conclusão.
Composição dos grupos
Cada grupo deve ter entre 2 e 6 alun@s. Trabalhos individuais não são permitidos.
Os projetos devem utilizar as mesmas técnicas apresentadas durante o curso para cumprir os requisitos.
Machine Learning
- Utilizar um ou mais datasets (não pode ser toy) para o treinamento dos classificadores. O dataset deve conter múltiplas dimensőes e ter classes desbalanceadas.
- Realizar uma análise exploratória do dataset por meio de um caderno Jupyter. Utilize gráficos na análise.
- Treinar um classificador Naive Bayes (Multinomial, Bernoulli ou Gaussian).
- Treinar um classificador Support Vector Machine (SVM).
- Treinar um classificador de Árvore de Decisão ou Floresta Aleatória.
- Reduzir a dimensionalidade com Principal Component Analysis (PCA) e interpretar os resultados.
- Todos os classificadores devem ser avaliados com validação cruzada, utilizando as métricas Fβ, acurácia, revocação (recall), precisão. Além disso, utilizem a matriz de confusão para a visualização do desempenho.
- Todos os classificadores devem ser persisitidos (joblib, pickle) antes de serem entregues e publicados no GitHub.
- O projeto-final de contar com um modelo por integrante do grupo, possivelmente além dos modelos exigidos nesta especificação.
- Aplicar PySpark (opcional).