Statistiques multivariées et initiation au ‘machine learning’ (6h CM / 8h TP)

Le plan


Introduction

Approches supervisées et non supervisées

Analyse en composantes principales
Le problème
Rappels
Vecteurs propres et valeurs propres
Le screeplot
Projection des individus / projection des variables
Qualité de représentation: le cos2
Le biplot de Gabriel
Rotation Varimax
Projection d’un individu supplémentaire
Projection d’une variable supplémentaire
Problèmes des données compositionnelles
L’ACP en pratique sur R

Évaluation de la performance d’un modèle de classification
Overfitting et split train / validation / test
Validation croisée
Matrice de confusion
Les métriques

Analyse discriminante linéaire
Idée générale et but
Calcul des axes discriminants
Fonction objectif de Fisher
Un exemple: les iris de Fisher
Approche probabiliste
LDA vs QDA
La LDA en pratique sur R

Les k-Nearest Neighbours
Idée générale et but
Une distance, mais laquelle?
Principe de base
Des frontières non linéaires
Avantages et limites
Les k-NN en pratique sur R


Le matériel

Le cours en ppt

Les exercices de TP (légèrement modifié) ici, la solution ici

mtcars


Ressources et liens

Dès la première séance de TP, les logiciels R et RStudio seront installés (dans cet ordre) sur vos machines personnelles. La vidéo ci-dessous décrit brièvement les principales étapes de l’installation (en cas de besoin), mais aussi l’interface de RStudio .


Des packages pourront être installés (tuto ici en cas de problèmes).

Le logiciel R
Le logiciel RStudio

Rappels de statistiques élémentaires :

R pour les statophobes par Denis Poinsot (lien ou pdf).
Statistiques pour les statophobes par Denis Poinsot (lien ou pdf).
Aide-mémoire de statistiques appliquées à la biologie (lien ou pdf)

Statistiques avec R. Un site très bien fait sur l’utilisation de R, illustré par de nombreux exemples (ici).


Quelques vidéos courtes pour fixer les idées

PCA

LDA

k-NN


Bibliographie générale

Deux bons livres pour maîtriser le logiciel R (il existe des éditions des mêmes livres plus récentes):

Statistiques avec R, Pierre-André Cornillon, Relié: 276 pages,  Editeur : Presses Universitaires de Rennes,  Langue : Français

Analyse de données avec R, François Husson, Sébastien Lê et Jérôme Pagès, Relié: 226 pages,  Editeur : Presses Universitaires de Rennes,  Langue : Français

An Introduction to Applied Multivariate Analysis with R, Everitt, Brian, Hothorn, Torsten, Relié: 274 pp, Editeur: Springer, Langue: Anglais.

Un très bon livre sur les statistiques multivariées et leur mise en place sur le logiciel R. Un ouvrage (presque) indispensable.