Extraction de connaissances à partir de données structurées et non structurées¶

Séance 6 : TP noté 1¶

Déposer le fichier .ipynb produit (attention à indiquer votre nom de famille dans le nom de fichier) dans ce dépôt :

https://cloud.parisdescartes.fr/index.php/s/xaCcageRbQdgsse

Délai : A rendre avant la fin de la séance le jour même

Données¶

Ce jeu de données contient des informations sur des menus McDonald. Vous trouverez le détail des variables sur cette page. Vous devez l'importer comme ci-dessous.

In [1]:
import pandas

menus = pandas.read_csv("https://fxjollois.github.io/cours-2024-2025/ufr--m1-dci--ecd/menus_mcdonald.csv")
menus.head()
Out[1]:
Unnamed: 0 Category Item Serving Size Calories Calories from Fat Total Fat Total Fat (% Daily Value) Saturated Fat Saturated Fat (% Daily Value) ... Carbohydrates Carbohydrates (% Daily Value) Dietary Fiber Dietary Fiber (% Daily Value) Sugars Protein Vitamin A (% Daily Value) Vitamin C (% Daily Value) Calcium (% Daily Value) Iron (% Daily Value)
0 0 Breakfast Egg McMuffin 4.8 oz (136 g) 300 120 13.0 20 5.0 25 ... 31 10 4 17 3 17 10 0 25 15
1 1 Breakfast Egg White Delight 4.8 oz (135 g) 250 70 8.0 12 3.0 15 ... 30 10 4 17 3 18 6 0 25 8
2 2 Breakfast Sausage McMuffin 3.9 oz (111 g) 370 200 23.0 35 8.0 42 ... 29 10 4 17 2 14 8 0 25 10
3 3 Breakfast Sausage McMuffin with Egg 5.7 oz (161 g) 450 250 28.0 43 10.0 52 ... 30 10 4 17 2 21 15 0 30 15
4 4 Breakfast Sausage McMuffin with Egg Whites 5.7 oz (161 g) 400 210 23.0 35 8.0 42 ... 30 10 4 17 2 21 6 0 25 10

5 rows × 25 columns

A faire¶

Sous la forme d'un notebook le plus propre et le mieux organisé possible, vous devez :

  • Décrire les données (distribution des variables, données aberrantes)
  • Réperer les variables sur lesquelles se concentrer (il y en a plusieurs à supprimer)
  • Réaliser une ACP sur les données, en justifiant s'il faut ou non standardiser les variables au préalable
  • Représenter les menus sur le plan factoriel, en le commentant et en décrivant les axes en se basant sur le cercle des corrélations des variables