ADULT
Nous allons utiliser le jeu de données adult.csv
,
issu d’une enquête aux USA pour analyser le salaire (variable binaire :
plus ou moins de 50k$) en fonction de certains critères (âge, sexe,
éducation, nombre d’heures de travail par semaine…).
library(readr)
library(DT)
adult = read_csv("https://fxjollois.github.io/cours-2024-2025/intechmer-3a-add-tests/adult.csv")
## Rows: 32561 Columns: 15
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (9): workclass, education, marital_status, occupation, relationship, rac...
## dbl (6): age, fnlwgt, education_num, capital_gain, capital_loss, hours_per_week
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
datatable(adult, options = list(scrollX = TRUE))
## Warning in instance$preRenderHook(instance): It seems your data is too big for
## client-side DataTables. You may consider server-side processing:
## https://rstudio.github.io/DT/server.html
La variable cible dans ce jeu de données est la colonne
class
, qui permet de savoir si une
personne gagne plus (>50K
) ou moins
(<=50K
) de 50000$ par an. Le but de l’enquête est de
connaître les différentes variables permettant de déterminer le
positionnement d’un adulte par rapport à ce seuil.
Les autres variables sont les suivantes (celles avec un nom explicite ne sont pas détaillées) :
age
workclass
: statutfnlwgt
: poids de chaque individu permettant de
redresser l’échantillon
education
: niveau d’éducation de la personne
education_num
contient la même information, mais
codéemarital_status
occupation
: équivalent de nos CSPrelationship
:race
: groupe ethnique d’appartenance
sex
capital_gain
et capital_loss
: résultat
positif et/ou négatif des placementshours_per_week
native_country
Rédiger le compte-rendu dans un fichier Rmarkdown. Quelques liens pour vous aider, si besoin :
Pour chaque demande, produire les résultats numériques et le graphique utile (voire plusieurs si nécessaire) pour étayer votre analyse.
class
age
hours_per_week
capital_gain
et
capital_loss
sex
race
Identifier si les liens suivants sont réels :
race
) et salaire