Données ADULT

Importation

Nous allons utiliser le jeu de données adult.csv, issu d’une enquête aux USA pour analyser le salaire (variable binaire : plus ou moins de 50k$) en fonction de certains critères (âge, sexe, éducation, nombre d’heures de travail par semaine…).

library(readr)
library(DT)
adult = read_csv("https://fxjollois.github.io/cours-2024-2025/intechmer-3a-add-tests/adult.csv")
## Rows: 32561 Columns: 15
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (9): workclass, education, marital_status, occupation, relationship, rac...
## dbl (6): age, fnlwgt, education_num, capital_gain, capital_loss, hours_per_week
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
datatable(adult, options = list(scrollX = TRUE))
## Warning in instance$preRenderHook(instance): It seems your data is too big for
## client-side DataTables. You may consider server-side processing:
## https://rstudio.github.io/DT/server.html

Détail sur ces données

La variable cible dans ce jeu de données est la colonne class, qui permet de savoir si une personne gagne plus (>50K) ou moins (<=50K) de 50000$ par an. Le but de l’enquête est de connaître les différentes variables permettant de déterminer le positionnement d’un adulte par rapport à ce seuil.

Les autres variables sont les suivantes (celles avec un nom explicite ne sont pas détaillées) :

  • age
  • workclass : statut
  • fnlwgt : poids de chaque individu permettant de redresser l’échantillon
    • On ne va pas prendre en coompte cette variable pour le moment
  • education : niveau d’éducation de la personne
    • education_num contient la même information, mais codée
  • marital_status
  • occupation : équivalent de nos CSP
  • relationship :
  • race : groupe ethnique d’appartenance
    • aux USA, il est courant d’utiliser ce terme et cette répartition
  • sex
  • capital_gain et capital_loss : résultat positif et/ou négatif des placements
  • hours_per_week
  • native_country

Conseil de rédaction

Rédiger le compte-rendu dans un fichier Rmarkdown. Quelques liens pour vous aider, si besoin :

Demandes

Pour chaque demande, produire les résultats numériques et le graphique utile (voire plusieurs si nécessaire) pour étayer votre analyse.

Analyses univariées

  1. Décrivez la variable cible class
    • en particulier, y-a-t’il équirépartition entre les modalités ?
  2. Décrivez la variable age
    • en particulier, celle-ci suit-elle une loi normale ?
  3. Faites de même avec la variable hours_per_week
  4. Idem avec les variables capital_gain et capital_loss
  5. Est-ce judicieux de conserver ces variables dans ce format ?
  6. Décrivez la variable sex
  7. Faites de même pour la variable race

Analyses bivariées

Identifier si les liens suivants sont réels :

  1. Âge et salaire
  2. Nombre d’heures de travail par semaine et salaire
  3. Sexe et salaire
  4. Catégorie ethnique (variable race) et salaire
  5. Âge et nombre d’heures de travail par semaine