| Mathématiques Appliquées, `Science des Données`

Science des Données & Statistique

Lire plus...

Schématiquement, la Science des Données est définie autour d'une agrégation de compétences en Informatique (langage comme R et Python , gestion des données, calcul parallèle...), Statistique (exploration, estimation test, modélisation, prévision) Apprentissage Machine (prévision), Mathématiques (probabilités, optimisation, analyse fonctionnelle, graphes...).

Son apprentissage est acquis par l'intermédiaire de scénarios d'analyse de données réelles, ou tutoriel, présentés sous forme de calepins (jupyter notebooks) en R ou Python. Voir à ce sujet le livre de référence du cours Fondations of Data Science de l'UC Berkley.

Cette pratique est indispensable mais masque les aspects théoriques (mathématiques, statistiques): une formule est remplacée par un commande ou fonction en Python ou R, une démonstration par l'exécution d'exemples dans un calepin.

Pour offrir de la profondeur, plus de compréhension, à cette (auto)-formation, les calepins renvoient (liens hypertextes) systématiquement à des vignettes "théoriques" du site wikistat.fr exposant en détail (cours) les méthodes et algorithmes concernés.

Il ne s'agit pas simplement de pouvoir exécuter une méthode, un algorithme, il est important d'en comprendre les propriétés, conditions d'utilisation et limites.

Saison 3 Apprentissage Machine / Statistique

Introduction plus détaillée...

Objectifs

Cette saison est consacrée à l'apprentissage des principales méthodes et algorihtmes d'apprentissage (supervisé) machine ou statistique listées dans les épisodes successifs.

Prérequis

Avoir acquis les compétences des épisodes précédents ou revenir à leur saison:

Initiation à R
Initiation à Python
Formation aux outils statistiques de base
Exploration Statistique pour la Science des Données. Cette saison intègre les algorithmes de classification non-supervisée (clustering).

Déroulement de l'UF Apprentissage Machine

Consulter le document (README) pour installer le noyau IRkernel afin de pouvoir utiliser R dans Jupyter.
Lors de chaque séance / épisode, exécuter les calepins "fil rouge" (prévision des pics d'ozone) en R et Python3 en se référant, si nécessaire aux vignettes, (liens hypertextes) à chaque étape.
Traiter également le projet commun entre les UFs.
Rendre par binome et pour le 22/12/2017 18H le calepin Python commenté du projet avec un résumé substanciel de la démarche et des résultats obtenus.
Examen le 10/01/2018 9h30 sur un thème analogue aux autres calepins disponibles.
Remarques
- le calepin patrimoine INSEE de calcul du score d'appétence de l'assurance vie est un exemple typique de marketing quantitatif ou Gestion de la Relation client à réaliser par celles-ceux à la recherche d'un stage dans ce domaine.
- Les exemples jouets servent aussi de bac à sable pour expérimenter chaque méthode.
- D'autres scénarios (exemples et cas d'usage ci-dessous), basés sur des jeux de données complets / complexes sont et seront disponibles dans ce même dépôt.

Pour aller plus loin

Aborder la Science des Données avec les

Technologies des grosses data (Hadoop Spark, XGBoost, Keras...)

Épisodes

Les calepins python et R "fil rouge", sont découpés en 5 épisodes listés ci-dessous.

Pour chaque épisode, suivre le cours ou consulter les vignettes et exécuter les parties correspondantes des calepins.

Pic d'ozone: calepin en R
Pic d'ozone: calepin en Python

Épisode 1

Introduction: Apprentissage Machine pour la Science des données
Qualité de prévision, risque
Rappels sur le modèle linéaire général (modèles gaussien et binomial)

Épisode 2

Épisode 3

Réseaux de neurones, introduction au deep learning
Agrégation de modèles: boosting, random forest

Épisode 4

Épisode 5

Imputation de données manquantes
Détection de défaillances (One class Classification, noveltry detection)

Cas d'usage (sujets d'examen)

ExemplesJouet illustratifs sur données simulées:
- Discrimination binaire en dimension 2: Nuages gaussiens en R ou Blobs de Scikit-learn. Dessiner les frontières des classes selon les méthodes utilisées, rôle du paramètre de compexité;
- Régression polynomiale en R, optimisation de la complexité (degré) par Cp de Mallows, régularisation ridge ou lasso.
Pic d'ozone Prévision de la concentration (régression) ou de dépassementdu seuil (discrimination binaire) légal d'ozone par la plupart des méthodes d'apprentissage. En R et en Python.
AdultCensus Données de sondage de 32561 citoyens américains. Prévision de la variable dépassement d'un seuil de revenu à partir de variables socio économiques.
Diagnostic coronarien Prévision du risque de coronopathie (discrimination binaire) par les principales méthodes d'apprentissage en R. Optimisation avec la librairie caret, introduction à l'implémentation de xgboost en R.
GRC-carte_Visa. Exemple de Gestion de la Relation Client (GRC). Prévision du score d'appétance de la carte visa premier; comparaison des méthodes.
Patrimoine INSEE La gestion de la relation client appliquée à des données d'enquête INSEE. Recherche d'un score d'appétence pour l'assurance vie.
Pourriels détection de pourriels dans une base de courriers électroniques.
NIR Approches utilisées en chimiométrie: modélisation et prévision à partir de mesures spectrométriques dans le proche infra-rouge: taux de sucre dans une pâte à gâteaux et taux de graisse dans des échantillons de viande.

rauhofse / apprentissage Goto Github PK

apprentissage's Introduction

| Mathématiques Appliquées, Science des Données