Décrire les données

Description très succincte

  • 3 types de vin présents, de façon quasi-équilibrée ;
  • 13 variables quantitatives, avec des distributions proches d’une loi normale, sauf pour Alcohol, Flavanoids, OD280/OD315 et Total phenols qui ont toutes les 4 une distribution dite bi-modale (à deux pics) ;
  • Deux variables semblent corrélées fortement (Flavanoids et Total.phenols).

Il faut noter que les échelles des variables sont différentes (ainsi que les unités d’ailleurs).

Pour la suite, on met de côté la variable class

wine2 = wine[,-1]

Application de l’ACP

Il est nécessaire de faire une ACP normée, car les variables ne sont pas de même unité, et surtout les échelles de valeurs sont très nettement différentes (par exemple de inférieur à 0.7 pour Nonflavanoids phenols et jusqu’à 1500 pour Proline).

Dans cette ACP, seulement 3 dimensions semblent intéressantes (avec une valeur propre supérieure à 1 et donc un % de variance expliquée supérieur à 100/13).

Dimension Valeur propre % variance % cumulé
comp 1 4.71 36.20 36.20
comp 2 2.50 19.21 55.41
comp 3 1.45 11.12 66.53
comp 4 0.92 7.07 73.60
comp 5 0.85 6.56 80.16
comp 6 0.64 4.94 85.10
comp 7 0.55 4.24 89.34
comp 8 0.35 2.68 92.02
comp 9 0.29 2.22 94.24
comp 10 0.25 1.93 96.17
comp 11 0.23 1.74 97.91
comp 12 0.17 1.30 99.20
comp 13 0.10 0.80 100.00

On observe une forme de V sur la représentation des vins

Avec la représentation des classes

On note les éléments suivants :

  • Classe 1 :
    • Valeurs élevées pour Alcohol, Total phenols, Flavanoids et Proline
    • Valeurs faibles pour Alcalinity of ash, Nonflavanoid phenols
  • Classe 2 :
    • Valeurs élevées pour aucune variable
    • Valeurs faibles pour Alcohol, Ash, Color intensity et Proline
  • Classe 3 :
    • Valeurs élevées pour Malic acid, Color intensity
    • Valeurs faibles pour Total phenols, Flavanoids, Hue, OD280/OD315 of diluted wines
class Alcohol Malic acid Ash Alcalinity of ash Magnesium Total phenols Flavanoids Nonflavanoid phenols Proanthocyanins Color intensity Hue OD280/OD315 of diluted wines Proline
1 13.74 2.01 2.46 17.04 106.34 2.84 2.98 0.29 1.90 5.53 1.06 3.16 1115.71
2 12.28 1.93 2.24 20.24 94.55 2.26 2.08 0.36 1.63 3.09 1.06 2.79 519.51
3 13.15 3.33 2.44 21.42 99.31 1.68 0.78 0.45 1.15 7.40 0.68 1.68 629.90

Application de la CAH

On remarque que le découpage en 3 classes semblent le plus intéressant. Pour autant, un découpage en 2 peut être envisagé.

Chaque classe de la CAH semble correspondre à un seul type de vin. Seuls des vins de type 2 sont mal classés et répartis dans les deux autres classes.

On remarque les mêmes éléments caractéristiques pour chaque classe que précédemment.

1 2 3
z_cah 1 59 5 0
z_cah 2 0 58 0
z_cah 3 0 8 48
z Alcohol Malic acid Ash Alcalinity of ash Magnesium Total phenols Flavanoids Nonflavanoid phenols Proanthocyanins Color intensity Hue OD280/OD315 of diluted wines Proline
1 13.67 1.97 2.46 17.53 106.16 2.85 3.01 0.29 1.91 5.45 1.07 3.16 1076.05
2 12.20 1.94 2.22 20.21 92.55 2.26 2.09 0.36 1.69 2.90 1.06 2.86 501.43
3 13.06 3.17 2.41 21.00 99.86 1.69 0.85 0.45 1.13 6.85 0.72 1.73 624.95

Application de \(k\)-means

Avec les deux critères de choix \(R^2\) et \(PseudoF\), on décide de choisir 3 classes.

z Alcohol Malic acid Ash Alcalinity of ash Magnesium Total phenols Flavanoids Nonflavanoid phenols Proanthocyanins Color intensity Hue OD280/OD315 of diluted wines Proline
1 12.25 1.90 2.23 20.06 92.74 2.25 2.05 0.36 1.62 2.97 1.06 2.80 510.17
2 13.68 2.00 2.47 17.46 107.97 2.85 3.00 0.29 1.92 5.45 1.07 3.16 1100.23
3 13.13 3.31 2.42 21.24 98.67 1.68 0.82 0.45 1.15 7.23 0.69 1.70 619.06

La partition obtenue par \(k\)-means est très proche des types de vin déjà présents dans les données (plus proche que la CAH). Et les différences avec celle obtenue par la CAH sont minimes.

1 2 3
z_km 1 0 65 0
z_km 2 59 3 0
z_km 3 0 3 48
z_cah 1 z_cah 2 z_cah 3
z_km 1 3 57 5
z_km 2 61 1 0
z_km 3 0 0 51

Représentation sur l’ACP

```