Extraction de connaissances à partir de données structurées et non structurées

Séance 3 : Analyse en Composantes Principales (ACP)

Utilisation de python

Librairies utilisées

Module sklearn (nommé scikit-learn) très utilisé dans le Machine Learning sous python

Données utilisées

Données sur des iris disponibles ici

Suppression de la variable Species

ACP uniquement sur des variables quantitatives

Réalisation de l'ACP

Ici, scale() permet donc de normaliser chaque variable

Calcul des valeurs propres

Choix du nombre de facteurs

Premier graphique : diagramme des variances expliquées

Choix du nombre de facteurs

Deuxième graphique : évolution de la variance expliquée et variance expliqu&e cumulée

Visualisation du nuage de points

Récupération des dimensions avec les espèces pour la représentation

Représentation des variables

Obligation de faire un calcul pour avoir les coordonnées des variables

Représentation simultanée

Analyse conjointe des deux nuages (individus et variables)

Visualisation des espèces sur le premier plan factoriel

Gros intérêt de l'ACP : représenter une variable qualitative sur le plan factoriel

Exercice - Wine

Nous allons travailler sur des données concernant 3 types de vin. Elles sont disponibles sur cette page de l'UCI MLR. Il s'agit de 178 vins, réparties en 3 classes donc, et décrit par 13 variables quantitatives (lire la description dans le fichier wine.names pour plus d'informations).

Le code suivant permet de charger les données, et de nommer correctement les variables.

Travail à faire

Vous devez donc réaliser les étapes suivantes :

Worldwide Governance Indicators

La banque mondiale fournit un grand nombre de données, dont des indicateurs de gouvernance au niveau mondial (voir ici). Le code ci-dessous importe les données 2019 présentes dans le fichier WGI_Data.csv (que vous pouvez donc télécharger). Les informations concernant la définition des indicateurs sont les suivantes :

Travail à faire

Vous devez donc réaliser les étapes suivantes :