cours-2023-2024 | Documents de mes cours pour l'année 2023-2024 | FX Jollois

Statistiques descriptives sur tableur

Nous allons travailler sur les données contenu dans le fichier tips, dont vous devez télécharger une version selon votre logiciel :

Nota Bene : les noms des fonctions dans ce document sont valables dans Libre Office. Il est possible que certains soient différents dans les autres tableurs (me demander si cela ne fonctionne pas dans votre outil).

Analyse d’une variable quantitative

Préparation de la feuille

Ajout des calculs

Avec un peu de mise en page, nous avons un ensemble d’informations permettant déjà de mieux connaître la distribution du montant payé.

Graphique

Il n’existe pas de fonction permettant de réaliser un histogramme directement dans les tableurs. Pour une variable quantitative, nous allons réaliser un diagramme en barres de la transformation en variable ordinale.

Pour réaliser cela, nous allons créer un tableau. Ecrivez en cellule D3 à F3 les mots suivants : Seuil, Occurences, Etiquette

Première étape

Pour faire notre tableau, nous devons réaliser une première étape de création des valeurs seuils. Nous allons choisir comme seuils, à placer dans le tableau en D4 et en dessous, les valeurs 0, 10, 15, 20, 25, 30, 35 et “>35”.

Deuxième étape

Pour calculer le nombre de valeurs entre 2 seuils, nous allons utiliser la fonction FREQUENCE(). Elle prend en première paramètre les données (toujours tips.A:A) et en deuxième paramètre, la liste des seuils. Ecrivez la formule suivante en cellul E4 :

=FREQUENCE(tips.A:A;D4:D11)

Une fois cela fait, vous remarquerez que des valeurs se sont ajoutées sur les cellules en dessous. La valeur en E4 est 0 car aucune valeur n’est inférieure à 0 dans les données. Ensuite, la valeur dans la cellule E5 indique qu’il y a 17 valeurs entre 0 et 10. Et ainsi de suite. La somme des valeurs entre E4 et E11 est bien égale à 244 (i.e. le nombre de lignes du tableau).

Troisième étape

Nous allons créer automatiquement des étiquettes pour chaque modalité. Pour cela, écrivez en cellule F5 la formule suivante :

=CONCAT("Entre ";D4;" et ";D5)

Une fois cela fait, dupliquez à l’aide de la souris cette formule aux cellules situées en dessous (clic droit maintenu sur le coin inférieur droit à la cellule et déplacer vers le bas). Vous pouvez éventuellement changez le texte de la dernière étiquette pour mettre seulement “>35” par exemple.

Quatrième étape

Sélectionner les occurences (cellules E5 à E11) et cliquer dans le menu Insertion -> Diagramme (ou sur l’icône dédiée). On va garder comme type de diagramme celui en colonne. Dans la partie Séries de données, après avoir cliquer dans la zone Catégories, cliquez sur l’icône à droite pour sélectionner la plage F5:F11 (ou écrivez directement montant.F5:F11). Puis cliquez sur Terminer.

Nous avons la répartition des valeurs selon des intervalles dont nous avons choisi les seuils.

On peut améliorer ce graphique en modifiant les libellés des axes, en ajoutant un titre… N’héistez pas à tester.

A FAIRE

Reproduisez les mêmes opérations pour la variable tip (pourboire) dans une nouvelle feuille

Analyse d’une variable qualitative

On va faire ici une première versio à la main. Nous verrons plus tard comment faire autrement.

Partie numérique

Réalisation d’un diagramme en barres ou circulaire

De la même façon que précédemment, vous pouvez réaliser un diagramme en barres en sélectionnant soit la plage des occurences, soit celles de proportions.

Réaliser les deux types de graphiques

A FAIRE

Reproduisez ces opérations pour les variables sex et size dans une nouvelle feuille à chaque fois

Analyse du lien entre deux variables quantitatives

Partie numérique

Création du nuage de points

On obtient notre nuage de points

A FAIRE

Réaliser le nuage de points avec le nombre de convives à la table (size) en X et le montant payé en Y dans une nouvelle feuille

Analyse du lien entre deux variables qualitatives

Partie numérique

Nous pourrions faire comme précédemment, mais cela prendrait du temps et ne serait pas automatique (en cas d’ajout d’une modalité - un jour de la semaine par exemple). Nous allons utiliser une fonctionnalité très utile des tableurs, à savoir le Tableau Croisé Dynamique ou la Table Dynamique (dénomination différente selon le talbeur utilisé).

Dans une nouvelle feuille, nous avons maintenant la table de contingence entre le jour de la semaine et le sexe de la personne qui paie la note.

Dans ce tableau, on a même un filtre automatique sur chaque variable (en ligne et en colonne).

Renommez cette feuille en lui donnant le titre jour-sexe par exemple.

Création des profils lignes

Si nous souhaitons avoir les profils lignes, nous allons devoir à la main.

On remarque qu’ainsi, en général (ligne du bas), la répartition est 1/3 des notes payées par des femmes et 2/3 payées par des hommes. Par contre, on remarque de grosses différences entre les jours de la semaine : la semaine, c’est 50-50, alors que le week-end (particulièrement le dimanche) c’est 3 fois sur 4 un homme qui paie.

Création du diagramme en barres empilées

Vous avez un diagramme en barres empilées à 100% permettant de bien comparer les jours de la semaine entre eux.

A FAIRE

Faire les profils colonnes

Analyser le lien entre le jour de la semaine et l’heure (time) d’une part, et entre le sexe et la présence de fumeurs à la table d’autre part.

Analyse du lien entre une variable qualitative et une variable quantitative

Partie numérique

Si vous avez fait attention, la table dynamique nous laisse la possibilité de calculer une moyenne dans chaque cellule.

On a les moyennes des montants payés par jour de la semaine.

Renommez la feuille en jour-montant par exemple.

Partie graphique

Nous ne pouvons malheureusement pas faire de boîtes à moustaches. Toutefois, nous pouvons réaliser un diagramme en barres (plutôt horizontales) permettant de voir la différence entre les jours de la semaine.

Ce graphique n’est pas correct statistiquement, mais permet tout de même de représenter la différence des moyennes entre les jours de la semaine

A FAIRE

Analyser le lien entre le sex et le pourboire d’une part, et entre le jour de la semaine et le nombre de convives

Compléments

Compléter l’analyse à chaque variable pas encore analysée et regarder tous les liens possibles avec le montant d’une part, et avec le pourboire d’autre part.