Fichier Excel de base à télécharger : base

Réalisation d’intervalles de confiance dans un tableur

Dans la feuille Données du fichier, nous avons des données provenant d’une étude sur une enquête aux USA sur le salaire (inférieur ou supérieur à 50K$), dont nous avons gardé uniquement certaines variables (âge, niveau d’études, sexe, nombre d’heures par semaine, salaire).

Intervalles simples sur l’âge et le nombre d’heures

Nous allons déjà calculer les intervalles de confiance pour l’âge et le nombre d’heures au global. Pour cela, réalisez les étapes suivante :

  • En G3 et en dessous, écrire : “Moyenne”, “Variance”, “Nombre”, cellule vide, “Risque”, “U_alpha/2”, cellule vide, “Borne inférieure” et “Borne supérieur”
  • En H2, écrire Age et en I2, écrire Heures
  • En H3, écrire MOYENNE(A:A)
  • En H4, écrire VAR(A:A)
  • En H5, écrire NB(A:A)
    • cela calcule le nombre de valeurs numériques dans la colonne A
  • En H7, écrire la valeur \(5\)
  • En H8, écrire LOI.NORMALE.INVERSE.N(1-H7/2/100; 0; 1)
    • comme \(n\) est grand, nous allons approximer la loi de Student par la loi Normale
    • sans le .N pour les logiciels suivants : Libre Office, Google Spreadsheet, Apple Numbers
  • En H10, écrire la formule H3-H8*RACINE(H4/(H5-1))
  • En H11, écrire la formule H3+H8*RACINE(H4/(H5-1))

A FAIRE

Faire de même pour le nombre d’heures de travail par semaine

Intervalles simples sur le sexe et le salaire

Nous allons maintenant chercher à faire les intervalles de confiance de la proportion de femmes et des personnes ayant un salaire supérieur à 50K$. Réalisez les étapes suivantes :

  • En H14, écrire Sexe: Femme et en I14, écrire Salaire: >50K
  • En G15 et en dessous, écrire “Nombre”, “Proportion”, cellule vide, “Risque”, “U_alpha/2”, cellule vide, “Borne inf” et borne sup”
  • En H15, écrire NBVAL(C:C)-1
    • On retire un car NBVAL() compte le nombre de cellules non vides, en incluant celle de titre donc
  • En H16, écrire NB.SI(C:C; "Female")/H15
    • NB.SI() permet donc de compte le nombre de cellules respectant une condition d’égalité
  • En H18, écrire la valeur \(5\)
  • En H19, écrire LOI.NORMALE.INVERSE.N(1-H18/2/100; 0; 1)
    • sans le .N pour les logiciels suivants : Libre Office, Google Spreadsheet, Apple Numbers
  • En H21, écrire la formule H16-H19*RACINE(H16*(1-H16)/H15)
  • En H22, écrire la formule H16+H19*RACINE(H16*(1-H16)/H15)

A FAIRE

Faire de même pour la proportion de personnes ayant un salaire supérieur à 50K$ (modalité "More than 50K")

Comparaison basé sur le salaire

Nous cherchons maintenant à savoir s’il y a une différence entre ceux gagnant plus de 50K$ et ceux gagnant moins. Pour cela, nous allons calculer d’abord pour l’âge. Réalisez les étapes suivantes :

  • Fusionner les cellules K1 et L1, et écrire dedans Âge
  • Ecrire en K2 et L2 les modalités <=50K et >50K
  • En K3, écrire MOYENNE.SI(E:E;"Less than 50K";A:A) et en L3, écrire MOYENNE.SI(E:E;"More than 50K";A:A)
    • Comme NB.SI(), MOYENNE.SI() réalise une moyenne de certaines cellules (ici, celles de la colonne D dont la ligne a la valeur “Less than 50K” dans la colonne A)
  • En K4 et en L4, écrire H4
    • Il n’est pas possible de faire la même chose avec l’écart-type (en tout cas, aussi simplement). Nous allons donc considérer que la variance est la même dans les groupes qu’au global.
  • En K5 et en L5, écrire NB.SI(E:E;"Less than 50K) et NB.SI(E:E;"More than 50K")
  • Pour K7 et L7, on écrit la valeur \(5\)
  • Pour K8, on écrit LOI.NORMALE.INVERSE.N(1-K7/2/100; 0; 1) (idem pour L8 avec L7 au lieu de K7)
  • Pour K10, on écrit K3-K8*RACINE(K4/K5) (idem pour L10 avec des L au lieu des K)
  • Pour K11, on écrit K3+K8*RACINE(K4/K5) (idem pour L10 avec des L au lieu des K)

On voit donc que l’âge n’est pas le même selon le salaire.

A FAIRE

  • Faire de même pour le nombre d’heures
  • Faire de même pour les femmes (attention, ici, ce sont des proportions - on compare la proportion de femmes gagnant moins de 50K$ à celle de femmes gagnant plus de 50K$)