class
On remarque qu’il y a 75% des interrogés qui gagnent moins de 50000$ par an. Il n’y a clairement pas équirépartition entre les deux groupes (p-value = < 2.22e-16 – donc largement inférieure à 5%).
Modalité | Nb de personnes | % du total |
---|---|---|
<=50K | 24720 | 75.92 |
>50K | 7841 | 24.08 |
age
L’âge moyen est de 38,5 ans, alors que l’âge médian est de 37 ans. Il y a quelques individus avec un âge assez important (jusque 90 ans). La variable semble suivre une loi normale (test de Shapiro non réalisable car plus de 5000 individus).
Statistique | Valeur |
---|---|
Min. | 17.00 |
1st Qu. | 28.00 |
Median | 37.00 |
Mean | 38.58 |
3rd Qu. | 48.00 |
Max. | 90.00 |
Variance | 186.06 |
Ecart-type | 13.64 |
hours_per_week
Le temps de travail semble être de 40 heures légalement. Pour autant, un certain nombre de personnes travaillent plus (voire beaucoup plus – jusque presque 100 heures par semaine), et d’autres assez peu (1 heure au minimum). La variable ne suit pas du tout une loi normale.
Statistique | Valeur |
---|---|
Min. | 1.00 |
1st Qu. | 40.00 |
Median | 40.00 |
Mean | 40.44 |
3rd Qu. | 45.00 |
Max. | 99.00 |
Variance | 152.46 |
Ecart-type | 12.35 |
capital_gain
et
capital_loss
Beaucoup d’individus ont la valeur 0 pour ces deux variables. Elles ne suivent clairement pas une loi normale, et on peut envisager de les transformer en variable binaire :
FALSE
) = les deux variables ont la valeur 0TRUE
) = une des deux variables est différente de
0capital_gain
Statistique | Valeur |
---|---|
Min. | 0.00 |
1st Qu. | 0.00 |
Median | 0.00 |
Mean | 1077.65 |
3rd Qu. | 0.00 |
Max. | 99999.00 |
Variance | 54542539.18 |
Ecart-type | 7385.29 |
capital_loss
Statistique | Valeur |
---|---|
Min. | 0.00 |
1st Qu. | 0.00 |
Median | 0.00 |
Mean | 87.30 |
3rd Qu. | 0.00 |
Max. | 4356.00 |
Variance | 162376.94 |
Ecart-type | 402.96 |
sex
Il y a deux fois plus d’hommes que de femmes dans l’échantillon. Il n’y a clairement pas équirépartition entre les deux groupes (p-value = < 2.22e-16 – donc largement inférieure à 5%).
Modalité | Nb de personnes | % du total |
---|---|---|
Female | 10771 | 33.08 |
Male | 21790 | 66.92 |
race
Une très grande majorité de l’échantillon est considéré comme blanc. Il n’y a clairement pas équirépartition entre les deux groupes (p-value = < 2.22e-16 – donc largement inférieure à 5%).
Modalité | Nb de personnes | % du total |
---|---|---|
Amer-Indian-Eskimo | 311 | 0.96 |
Asian-Pac-Islander | 1039 | 3.19 |
Black | 3124 | 9.59 |
Other | 271 | 0.83 |
White | 27816 | 85.43 |
L’âge étant quantitatif, et le salaire binaire (donc qualitatif à 2 modalités), on va chercher à tester les différences entre deux échantillons à l’aide du t-test (ou test de Student) et du test de Wilcoxon.
Les personnes gagnant plus de 50000$ sont plus âgées que les autres, ce qui semble assez logique. Les deux tests (resp. t-test et Wilcoxon) confirment la nette différence d’âge entre les deux classes de salaire (avec les p-value respectives suivantes : < 2.22e-16 et < 2.22e-16).
class | Age |
---|---|
<=50K | 36.78 |
>50K | 44.25 |
On se retrouve dans le même cas que précédemment.
Les personnes gagnant plus de 50000$ travaillent plus longtemps que les autres, ce qui semble aussi assez logique. Les deux tests (resp. t-test et Wilcoxon) confirment la nette différence d’âge entre les deux classes de salaire (avec les p-value respectives suivantes : < 2.22e-16 et < 2.22e-16).
class | Age |
---|---|
<=50K | 38.84 |
>50K | 45.47 |
Les deux variables étant qualitatives (binaires), nous allons chercher le lien avec le test du \(\chi^2\).
Sans surprise malheureusement, on remarque les femmes sont moins nombreuses à gagner plus de 50000$ par an. Ceci est confirmé par le test du \(\chi^2\), avec une p-value de < 2.22e-16.
<=50K | >50K | |
---|---|---|
Female | 38.8 | 15.04 |
Male | 61.2 | 84.96 |
race
) et salaireMême cas que précédemment.
Il y a bien un lien entre les deux variables. Ceci est confirmé par le test du \(\chi^2\), avec une p-value de < 2.22e-16. Les personnes dites blanches ou de provenance asiatique/pacifique sont plus fréquemment payées plus de 50000$, contrairement aux autres ethnies.
<=50K | >50K | |
---|---|---|
Amer-Indian-Eskimo | 88.42 | 11.58 |
Asian-Pac-Islander | 73.44 | 26.56 |
Black | 87.61 | 12.39 |
Other | 90.77 | 9.23 |
White | 74.41 | 25.59 |
Nous avons ici deux variables quantitatives, nous allons donc faire un test de corrélation (avec les trois méthodes : Pearson, Spearman et Kendall).
Bien que les p-values indiquent qu’il y a un lien entre les deux variables, les estimations du coefficient de corrélation sont proches de 0. On peut difficilement établir un lien clair entre les deux.
Dans ce cas, il serait nécessaire de transformer la variable
hours_per_week
en une varaible binaire (“moins de 40h” vs
“plus de 40h” par exemple).
Méthode | Estimation du coefficien de corrélation | p-value |
---|---|---|
Pearson | 0.0687557 | < 2.22e-16 |
Spearman | 0.1429068 | < 2.22e-16 |
Kendall | 0.1078910 | < 2.22e-16 |