Extraction de connaissances à partir de données structurées et non structurées

Séance 4 : Classification

Utilisation de python

Librairies utilisées

Toujours dans le module sklearn, et particulièrement le sous-module cluster

Données utilisées

Données sur des iris disponibles ici

Suppression de la variable Species

Comme l'ACP, la classification avec la CAH et $k$-means ne se fait uniquement que sur des variables quantitatives

Classification Ascendante Hiérarchique (CAH)

Réalisation

Indiquer distance_threshold = 0 et n_clusters = None va nous permettre de récupérer l'arbre complet (le dendrogramme).

Réalisation du dendrogramme

Création d'une fonction en se basant sur cette page (avec quelques modifications)

Dendrogramme

Avec proposition du nombre de classes

La méthode propose une partition en un nombre de classes choisi via un algorithme interne.

Avec recherche du nombre de classes demandé

Mais on peut bien évidemment choisir notre propre nombre de classes.

Caractérisation des classes

Très généralement, pour comprendre les classes et les commenter, nous calculons les centres de celles-ci (valeurs moyennes pour chaque variable)

$k$-means

Réalisation

Ici, nous devons, bien évidemment, indiquer le nombre de classes que l'on souhaite.

Informations sur la partition

Centre des classes

On obtient les centres des classes automatiquement. Ayant utilisé les données centrées-réduites, leur analyse est simple par un lecteur avisé (valeur positive $\rightarrow$ supérieure à la moyenne, et inversement).

Mais pour présenter les classes, on va préférer recalculer ces centres sur les données originelles.

Choix du nombre de classes

Exercice - Wine

Nous reprenons les données sur le vin disponible sur cette page du site l'UCI MLR. Voici le code pour récupérer les données

Travail à faire