Analyses univariées

Variable cible class

On remarque qu’il y a 75% des interrogés qui gagnent moins de 50000$ par an. Il n’y a clairement pas équirépartition entre les deux groupes (p-value = < 2.22e-16 – donc largement inférieure à 5%).

Modalité Nb de personnes % du total
<=50K 24720 75.92
>50K 7841 24.08

Variable age

L’âge moyen est de 38,5 ans, alors que l’âge médian est de 37 ans. Il y a quelques individus avec un âge assez important (jusque 90 ans). La variable semble suivre une loi normale (test de Shapiro non réalisable car plus de 5000 individus).

Statistique Valeur
Min. 17.00
1st Qu. 28.00
Median 37.00
Mean 38.58
3rd Qu. 48.00
Max. 90.00
Variance 186.06
Ecart-type 13.64

Variable hours_per_week

Le temps de travail semble être de 40 heures légalement. Pour autant, un certain nombre de personnes travaillent plus (voire beaucoup plus – jusque presque 100 heures par semaine), et d’autres assez peu (1 heure au minimum). La variable ne suit pas du tout une loi normale.

Statistique Valeur
Min. 1.00
1st Qu. 40.00
Median 40.00
Mean 40.44
3rd Qu. 45.00
Max. 99.00
Variance 152.46
Ecart-type 12.35

Variables capital_gain et capital_loss

Beaucoup d’individus ont la valeur 0 pour ces deux variables. Elles ne suivent clairement pas une loi normale, et on peut envisager de les transformer en variable binaire :

  • 0 (FALSE) = les deux variables ont la valeur 0
  • 1 (TRUE) = une des deux variables est différente de 0

capital_gain

Statistique Valeur
Min. 0.00
1st Qu. 0.00
Median 0.00
Mean 1077.65
3rd Qu. 0.00
Max. 99999.00
Variance 54542539.18
Ecart-type 7385.29

capital_loss

Statistique Valeur
Min. 0.00
1st Qu. 0.00
Median 0.00
Mean 87.30
3rd Qu. 0.00
Max. 4356.00
Variance 162376.94
Ecart-type 402.96

Tranformation en variable binaire

Variable sex

Il y a deux fois plus d’hommes que de femmes dans l’échantillon. Il n’y a clairement pas équirépartition entre les deux groupes (p-value = < 2.22e-16 – donc largement inférieure à 5%).

Modalité Nb de personnes % du total
Female 10771 33.08
Male 21790 66.92

Variable race

Une très grande majorité de l’échantillon est considéré comme blanc. Il n’y a clairement pas équirépartition entre les deux groupes (p-value = < 2.22e-16 – donc largement inférieure à 5%).

Modalité Nb de personnes % du total
Amer-Indian-Eskimo 311 0.96
Asian-Pac-Islander 1039 3.19
Black 3124 9.59
Other 271 0.83
White 27816 85.43

Analyses bivariées

Âge et salaire

L’âge étant quantitatif, et le salaire binaire (donc qualitatif à 2 modalités), on va chercher à tester les différences entre deux échantillons à l’aide du t-test (ou test de Student) et du test de Wilcoxon.

Les personnes gagnant plus de 50000$ sont plus âgées que les autres, ce qui semble assez logique. Les deux tests (resp. t-test et Wilcoxon) confirment la nette différence d’âge entre les deux classes de salaire (avec les p-value respectives suivantes : < 2.22e-16 et < 2.22e-16).

class Age
<=50K 36.78
>50K 44.25

Nombre d’heures de travail par semaine et salaire

On se retrouve dans le même cas que précédemment.

Les personnes gagnant plus de 50000$ travaillent plus longtemps que les autres, ce qui semble aussi assez logique. Les deux tests (resp. t-test et Wilcoxon) confirment la nette différence d’âge entre les deux classes de salaire (avec les p-value respectives suivantes : < 2.22e-16 et < 2.22e-16).

class Age
<=50K 38.84
>50K 45.47

Sexe et salaire

Les deux variables étant qualitatives (binaires), nous allons chercher le lien avec le test du \(\chi^2\).

Sans surprise malheureusement, on remarque les femmes sont moins nombreuses à gagner plus de 50000$ par an. Ceci est confirmé par le test du \(\chi^2\), avec une p-value de < 2.22e-16.

<=50K >50K
Female 38.8 15.04
Male 61.2 84.96

Catégorie ethnique (variable race) et salaire

Même cas que précédemment.

Il y a bien un lien entre les deux variables. Ceci est confirmé par le test du \(\chi^2\), avec une p-value de < 2.22e-16. Les personnes dites blanches ou de provenance asiatique/pacifique sont plus fréquemment payées plus de 50000$, contrairement aux autres ethnies.

<=50K >50K
Amer-Indian-Eskimo 88.42 11.58
Asian-Pac-Islander 73.44 26.56
Black 87.61 12.39
Other 90.77 9.23
White 74.41 25.59

Âge et nombre d’heures de travail par semaine

Nous avons ici deux variables quantitatives, nous allons donc faire un test de corrélation (avec les trois méthodes : Pearson, Spearman et Kendall).

Bien que les p-values indiquent qu’il y a un lien entre les deux variables, les estimations du coefficient de corrélation sont proches de 0. On peut difficilement établir un lien clair entre les deux.

Dans ce cas, il serait nécessaire de transformer la variable hours_per_week en une varaible binaire (“moins de 40h” vs “plus de 40h” par exemple).

Méthode Estimation du coefficien de corrélation p-value
Pearson 0.0687557 < 2.22e-16
Spearman 0.1429068 < 2.22e-16
Kendall 0.1078910 < 2.22e-16