Applications sur données réelles - ADULT

Données `ADULT`

Importation

Nous allons utiliser le jeu de données adult.csv, issu d’une enquête aux USA pour analyser le salaire (variable binaire : plus ou moins de 50k$) en fonction de certains critères (âge, sexe, éducation, nombre d’heures de travail par semaine…).

library(readr)
library(DT)
adult = read_csv("https://fxjollois.github.io/cours-2024-2025/intechmer-3a-add-tests/adult.csv")

## Rows: 32561 Columns: 15
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (9): workclass, education, marital_status, occupation, relationship, rac...
## dbl (6): age, fnlwgt, education_num, capital_gain, capital_loss, hours_per_week
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

datatable(adult, options = list(scrollX = TRUE))

## Warning in instance$preRenderHook(instance): It seems your data is too big for
## client-side DataTables. You may consider server-side processing:
## https://rstudio.github.io/DT/server.html

Détail sur ces données

La variable cible dans ce jeu de données est la colonne class, qui permet de savoir si une personne gagne plus (>50K) ou moins (<=50K) de 50000$ par an. Le but de l’enquête est de connaître les différentes variables permettant de déterminer le positionnement d’un adulte par rapport à ce seuil.

Les autres variables sont les suivantes (celles avec un nom explicite ne sont pas détaillées) :

age
workclass : statut
fnlwgt : poids de chaque individu permettant de redresser l’échantillon
- On ne va pas prendre en coompte cette variable pour le moment
education : niveau d’éducation de la personne
- education_num contient la même information, mais codée
marital_status
occupation : équivalent de nos CSP
relationship :
race : groupe ethnique d’appartenance
- aux USA, il est courant d’utiliser ce terme et cette répartition
sex
capital_gain et capital_loss : résultat positif et/ou négatif des placements
hours_per_week
native_country

Conseil de rédaction

Rédiger le compte-rendu dans un fichier Rmarkdown. Quelques liens pour vous aider, si besoin :

La référence (en anglais bien évidemment) : https://rmarkdown.rstudio.com/docs/
Un document en français bien fait : https://lms.fun-mooc.fr/asset-v1:ParisSaclay+71007+session16+type@asset+block/RMarkdown.pdf
Autres liens :

Demandes

Pour chaque demande, produire les résultats numériques et le graphique utile (voire plusieurs si nécessaire) pour étayer votre analyse.

Analyses univariées

Décrivez la variable cible class
- en particulier, y-a-t’il équirépartition entre les modalités ?
Décrivez la variable age
- en particulier, celle-ci suit-elle une loi normale ?
Faites de même avec la variable hours_per_week
Idem avec les variables capital_gain et capital_loss
Est-ce judicieux de conserver ces variables dans ce format ?
Décrivez la variable sex
Faites de même pour la variable race

Analyses bivariées

Identifier si les liens suivants sont réels :

Âge et salaire
Nombre d’heures de travail par semaine et salaire
Sexe et salaire
Catégorie ethnique (variable race) et salaire
Âge et nombre d’heures de travail par semaine

Applications sur données réelles - ADULT - TP 1

Outils de surveillance et analyses statistiques

INTECHMER - CT3 GEM

Données `ADULT`

Importation

Détail sur ces données

Conseil de rédaction

Demandes

Analyses univariées

Analyses bivariées

Applications sur données réelles - ADULT - TP 1

Outils de surveillance et analyses statistiques

INTECHMER - CT3 GEM

Données ADULT

Importation

Détail sur ces données

Conseil de rédaction

Demandes

Analyses univariées

Analyses bivariées

Données `ADULT`