Apprentissage supervisé - Application

Nous allons travailler sur un jeu de données Adult, dont toutes les informations sont sur cette page. Celui-ci provient d'une enquête auprès d'états-uniens, sur leur salaire (binaire - plus ou moins de 50K$) et un certain nombres de critères (âge, sexe, CSP, niveau d'études, ...)

Pour l'importer, il vous faire les 2 opérations suivantes :

Informations sur la variable à prédire

On remarque qu'il semble y avoir un problème d'importation... Un "." étant présent sur certaines modalités.

Création de 2 jeux de données

Il est important, dans un cadre supervisé, de créer 2 jeux de données (un d'apprentissage et un de test) pour paramètrer les méthodes, dans un rapport 2 tiers / 1 tiers (voire jusque 80% - 20%). Cela permet d'éviter le sur-apprentissage particulièrement. On peut même envisager de découper en 3 jeux de données, le dernier étant de validation pour avir une estimation de la performance des modèles sur des données nouvelles.

On va donc créer un jeu d'apprentissage avec 75% des réponses, et un jeu de données test avec 25%.

A partir de maintenant, nous allons donc créer nos modèles sur le jeu train et chercher nos paramètres avec le jeu test.

A FAIRE