Giter Club home page Giter Club logo

dslr's Introduction

42-lyon

dslr

Description

Sujet proposé par l'association 42AI. Découvrez la Data Science à travers ce projet dans la reconstitution du Choixpeau Magique de Poudlard ! Attention, ceci n'est pas un sujet sur les appareils photos.

Project en collaboration avec Nemuel Page Léonie (nepage-l).

Partie Obligatoire

V.1 Data Analysis

Avant toutes choses, jetez un oeil aux données disponibles. Regardez sous quel formatelles sont enregistrées, s’il y a divers types de données, les différentes fourchettes, etc. Il est important de se faire une idée de votre matière première avant de commencer à travailler. Plus vous travaillerez sur des données et plus vous développerez une intuition sur comment vous allez pouvoir vous en servir.

Dans cette partie, le professeur McGonagall vous demande de produire un programme nommé describe.[extension]. Ce programme prendra un dataset en paramètre. Il devra ni plus ni moins afficher les informations sur toutes les features numériques comme l’exemple qui suit :

exemple 1

V.2 Data Visualization

La visualisation des données est un outil puissant pour le datascientist. Cela vous permet d’acquérir une intuition sur comment les données sont connectées les unes aux autres. Visualiser vos données vous permet aussi de déceler plusieurs défauts.

Dans cette section, il vous est demandé de répondre à une question en créant un script pour chacune des questions qui affichera une visualisation particulière. Il n’y a pas forcèment une seule réponse valable à la question.

V.2.1 Histogram

Faites un script nommé histogram.[extension] qui affiche un histogram répondant à la question suivante :

Quel cours de Poudlard a une répartition des notes homogènes entre les quatres maisons ?

V.2.2 Scatter plot

Faites un script nommé scatter_plot.[extension] qui affiche un scatter plot répondant à la question suivante :

Quelles sont les deux features qui sont semblables ?

V.2.3 Pair plot

Faites un script nommé pair_plot.[extension] qui affiche un pair plot ou scatter plot matrix (selon la librairie graphique que vous utiliserez).

À partir de cette visualisation, quelles caractéristiques allez-vous utiliser pour entraîner votre prochaine régression logistique ?

V.3 Logistic Regression

Vous arrivez à la dernière partie : coder votre Choixpeau magique. Pour ce faire, il vous est demandé de réaliser un multi-classifieur en utilisant une régression logistique en one-vs-all.

Vous devrez rendre deux programmes :

  • un premier qui va train vos modèles, il se nomme logreg_train.[extension]. Il prend en paramètre dataset_train.csv. Pour la partie obligatoire, vous devez utilisez la technique du gradient descent pour minimiser l’erreur. Le programme génère un fichier contenant les poids qui seront réutilisés pour la prédiction.

  • un second qui se nomme logreg_predict.[extension]. Il prend en paramètre dataset_test.csv et un fichier contenant les poids entraînés au préalable. Afin d’évaluer les performances de votre classifieur ce second programme devra génèrer un fichier de prédictions houses.csv formatté strictement de la manière suivante:

exemple 2

Partie bonus

Il est possible de faire plein de bonus pour ce sujet. Voici quelques suggestions :

  • implémenter plus de champs pour describe.[extension]
  • implémenter un stochastic gradient descent
  • implémenter une fonction d’optimisation autre
  • ...

Requirements

  • python3.10
  • lib:
    • pip3 install pandas
    • pip3 install matplotlib

doc

gd vs sgd

Results

Tools

python ./histogram.py DATA

histo

python ./scatter_plot.py DATA

scatter

scatter line

python ./pair_plot.py DATA

pair

IA

python ./logreg_train.py DATA

Sigmoid function (Logistic Function)

pair

Cost function

pair

dslr's People

Contributors

acensjj avatar nemu69 avatar

Watchers

 avatar  avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.