Extraction de connaissances à partir de données structurées et non structurées¶
Séance 6 : TP noté 1¶
Déposer le fichier .ipynb
produit (attention à indiquer votre nom de famille dans le nom de fichier) dans ce dépôt :
https://cloud.parisdescartes.fr/index.php/s/xaCcageRbQdgsse
Délai : A rendre avant la fin de la séance le jour même
Données¶
Ce jeu de données contient des informations sur des menus McDonald. Vous trouverez le détail des variables sur cette page. Vous devez l'importer comme ci-dessous.
In [1]:
import pandas
menus = pandas.read_csv("https://fxjollois.github.io/cours-2024-2025/ufr--m1-dci--ecd/menus_mcdonald.csv")
menus.head()
Out[1]:
Unnamed: 0 | Category | Item | Serving Size | Calories | Calories from Fat | Total Fat | Total Fat (% Daily Value) | Saturated Fat | Saturated Fat (% Daily Value) | ... | Carbohydrates | Carbohydrates (% Daily Value) | Dietary Fiber | Dietary Fiber (% Daily Value) | Sugars | Protein | Vitamin A (% Daily Value) | Vitamin C (% Daily Value) | Calcium (% Daily Value) | Iron (% Daily Value) | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 0 | Breakfast | Egg McMuffin | 4.8 oz (136 g) | 300 | 120 | 13.0 | 20 | 5.0 | 25 | ... | 31 | 10 | 4 | 17 | 3 | 17 | 10 | 0 | 25 | 15 |
1 | 1 | Breakfast | Egg White Delight | 4.8 oz (135 g) | 250 | 70 | 8.0 | 12 | 3.0 | 15 | ... | 30 | 10 | 4 | 17 | 3 | 18 | 6 | 0 | 25 | 8 |
2 | 2 | Breakfast | Sausage McMuffin | 3.9 oz (111 g) | 370 | 200 | 23.0 | 35 | 8.0 | 42 | ... | 29 | 10 | 4 | 17 | 2 | 14 | 8 | 0 | 25 | 10 |
3 | 3 | Breakfast | Sausage McMuffin with Egg | 5.7 oz (161 g) | 450 | 250 | 28.0 | 43 | 10.0 | 52 | ... | 30 | 10 | 4 | 17 | 2 | 21 | 15 | 0 | 30 | 15 |
4 | 4 | Breakfast | Sausage McMuffin with Egg Whites | 5.7 oz (161 g) | 400 | 210 | 23.0 | 35 | 8.0 | 42 | ... | 30 | 10 | 4 | 17 | 2 | 21 | 6 | 0 | 25 | 10 |
5 rows × 25 columns
A faire¶
Sous la forme d'un notebook le plus propre et le mieux organisé possible, vous devez :
- Décrire les données (distribution des variables, données aberrantes)
- Réperer les variables sur lesquelles se concentrer (il y en a plusieurs à supprimer)
- Réaliser une ACP sur les données, en justifiant s'il faut ou non standardiser les variables au préalable
- Représenter les menus sur le plan factoriel, en le commentant et en décrivant les axes en se basant sur le cercle des corrélations des variables