Giter Club home page Giter Club logo

apprentissage's Introduction

Science des Données, Apprentissage Statistique & IA

Un buzz word: big data, data science, machine learning en chasse un autre et les battages médiatiques se succèdent jusqu'au dernier en date: intelligence artificielle (IA). Appellation ancienne remise au premier plan par les succès d'AlphaGo, des véhicules autonomes et aussi, surtout, de la rencontre de la croissance exponentielle des masses de données avec les algorihtmes d'apprentissage statistique, dont le deep learning, pour les exploiter, les valoriser, notamment en reconnaissance d'images.

Schématiquement, la Science des Données est définie autour d'une agrégation de compétences en Informatique (langage comme R et Python , gestion des données, calcul parallèle...), Statistique (exploration, estimation test, modélisation, prévision) Apprentissage Machine (prévision), Mathématiques (probabilités, optimisation, analyse fonctionnelle, graphes...).

Son apprentissage est acquis par l'intermédiaire de scénarios d'analyse de données réelles, ou tutoriel, présentés sous forme de calepins (jupyter notebooks) en R ou Python. Voir à ce sujet le livre de référence du cours Fondations of Data Science de l'UC Berkley.

Cette pratique est indispensable mais masque les aspects théoriques (mathématiques, statistiques): une formule est remplacée par un commande ou fonction en Python ou R, une démonstration par l'exécution d'exemples dans un calepin.

Pour offrir de la profondeur, plus de compréhension, à cette (auto)-formation, les calepins renvoient (liens hypertextes) systématiquement à des vignettes "théoriques" du site wikistat.fr exposant en détail (cours) les méthodes et algorithmes concernés.

Il ne s'agit pas simplement de pouvoir exécuter une méthode, un algorithme, il est important d'en comprendre les propriétés, conditions d'utilisation et limites.

Saison 3 Apprentissage Automatique / Statistique

Objectifs

Cette saison est consacrée à l'apprentissage des principales méthodes et algorihtmes d'apprentissage (supervisé) automatique ou statistique listés dans les épisodes successifs.

Prérequis

Avoir acquis les compétences des épisodes précédents ou revenir à leur saison:

Déroulement de l'UF Apprentissage Automatique (ML, Machine Learning)

  • Consulter le document (README) pour installer le noyau IRkernel afin de pouvoir utiliser R dans Jupyter.
  • Lors de chaque séance / épisode, exécuter les calepins "fil rouge" (prévision des pics d'ozone) en R et Python3 en se référant, si nécessaire aux vignettes, (liens hypertextes) à chaque étape.
  • Projet: Rendre par binome pour le 21/12/2019 18H le calepin Python commenté du projet et un résumé substanciel (pdf de 2/3 pages) de la démarche et des principaux résultats obtenus. Contenu: compléter le calepin en python de prévision de la variable "niveau de revenu" à partir des données adult census de l'UCI.
    • Ajouter d'autres algorithmes d'apprentissage en concurrence et surtout XGBoost dans sa version pour carte GPU afin d'optimiser finement les valeurs des nombreux hyper-paramètres.
    • Transposer en python les outils de détection et correction élémentaire de biais donc de discrimination développés dans le calepin R.
    • Evaluer le comportement des algorithmes (temps d'exécution, précision) en fonction de la taille de l'échantillon d'apprentisage.
    • Conclusion: trouver l'algorithme, entraîné sur une taille raisonnable d'échantillon et assurant le meilleur comprommis entre temps d'exécution, qualité de prévision et contrôle élémentaire du biais pour éviter de discriminer.
  • Examen le 19/12/2019 8h45 par QCM couvrant tous les algorihtmes vus en cours comme en TP.
  • Remarques:
    • les calepins de GRC Visa de calcul du score d'appétence d'une carte Visa Premier traitent un exemple typique de marketing quantitatif ou Gestion de la Relation client à réaliser par celles-ceux à la recherche d'un stage dans ce domaine.
    • Les exemples jouets servent aussi de bac à sable pour expérimenter chaque méthode.
    • D'autres scénarios (exemples et cas d'usage ci-dessous), basés sur des jeux de données complets / complexes sont disponibles dans ce même dépôt.

Pour aller plus loin

Consulter, étudier, les saisons suivantes:

Épisodes

Les calepins python et R "fil rouge", sont découpés en 5 épisodes listés ci-dessous.

Pour chaque épisode, suivre le cours ou consulter les vignettes et exécuter les parties correspondantes des calepins.

Épisode 1

Épisode 2

Épisode 3

Épisode 4

Épisode 5

Cas d'usage (sujets d'examen)

  • ExemplesJouet illustratifs sur données simulées:
    • Discrimination binaire en dimension 2: Nuages gaussiens en R ou Blobs de Scikit-learn. Dessiner les frontières des classes selon les méthodes utilisées, rôle du paramètre de compexité;
    • Régression polynomiale en R, optimisation de la complexité (degré) par Cp de Mallows, régularisation ridge ou lasso.
  • Pic d'ozone Prévision de la concentration (régression) ou de dépassementdu seuil (discrimination binaire) légal d'ozone par la plupart des méthodes d'apprentissage. En R et en Python.
  • AdultCensus Données de sondage de 32561 citoyens américains. Prévision de la variable dépassement d'un seuil de revenu à partir de variables socio économiques.
  • Diagnostic coronarien Prévision du risque de coronopathie (discrimination binaire) par les principales méthodes d'apprentissage en R. Optimisation avec la librairie caret, introduction à l'implémentation de xgboost en R.
  • GRC-carte_Visa. Exemple de Gestion de la Relation Client (GRC). Prévision du score d'appétance de la carte visa premier; comparaison des méthodes.
  • Patrimoine INSEE La gestion de la relation client appliquée à des données d'enquête INSEE. Recherche d'un score d'appétence pour l'assurance vie.
  • Pourriels détection de pourriels dans une base de courriers électroniques.
  • NIR Approches utilisées en chimiométrie: modélisation et prévision à partir de mesures spectrométriques dans le proche infra-rouge: taux de sucre dans une pâte à gâteaux et taux de graisse dans des échantillons de viande.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.