Données Wine

Nous allons travailler sur des données concernant 3 types de vin. Elles sont disponibles sur cette page de l’UCI MLR. Il s’agit de 178 vins, réparties en 3 classes donc, et décrit par 13 variables quantitatives (lire la description dans le fichier wine.names pour plus d’informations).

Le code suivant permet de charger les données, et de nommer correctement les variables.

library(readr)
library(DT)
wine = read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data", col_names = FALSE)
## Rows: 178 Columns: 14
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## dbl (14): X1, X2, X3, X4, X5, X6, X7, X8, X9, X10, X11, X12, X13, X14
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
names(wine) = c("class", "Alcohol", "Malic acid", "Ash", "Alcalinity of ash", "Magnesium", 
                "Total phenols", "Flavanoids", "Nonflavanoid phenols", "Proanthocyanins", 
                "Color intensity", "Hue", "OD280/OD315 of diluted wines", "Proline")
datatable(wine, options = list(scrollX = TRUE))

Comme pour le TP précédent, rédiger votre travail dans un fichier Rmarkdown.

A faire

Vous devez donc réaliser les étapes suivantes :

  1. Décrire les données
  2. Ne conserver que les variables quantitatives (donc mettre de côté la variable class)
  3. Réaliser une ACP centrée ou normée (choix à justifier)
    • Produire les graphiques nécessaires à l’interprétation
    • Identifier les classes sur le plan factoriel
    • Que peut-on dire globalement ?
  4. Chercher un nombre de classes intéressant, à l’aide de la CAH
    • Récupérer la partition ainsi obtenue
    • Caractériser celles-ci avec les centres des classes
  5. Faire de même avec \(k\)-means, en utilisant les critères \(R^2\) et \(PseudoF\)
    • Récupérer la partition ainsi obtenue
    • Caractériser celles-ci avec les centres des classes
  6. Comparer les 2 partitions ainsi obtenues
  7. Représenter celles-ci, chacune séparément, sur le plan factoriel de l’ACP