Apprentissage supervisé - Application¶

Nous allons travailler sur un jeu de données Adult, dont toutes les informations sont sur cette page. Celui-ci provient d'une enquête auprès d'états-uniens, sur leur salaire (binaire - plus ou moins de 50K$) et un certain nombres de critères (âge, sexe, CSP, niveau d'études, ...)

Pour l'importer, il vous faire les 2 opérations suivantes :

Installer le package ucimlrepo
Lancer le code ci-dessous

In [2]:

X.head()

Out[2]:

	age	workclass	fnlwgt	education	education-num	marital-status	occupation	relationship	race	sex	capital-gain	hours-per-week	native-country
0	39	State-gov	77516	Bachelors	13	Never-married	Adm-clerical	Not-in-family	White	Male	2174	40	United-States
1	50	Self-emp-not-inc	83311	Bachelors	13	Married-civ-spouse	Exec-managerial	Husband	White	Male	0	13	United-States
2	38	Private	215646	HS-grad	9	Divorced	Handlers-cleaners	Not-in-family	White	Male	0	40	United-States
3	53	Private	234721	11th	7	Married-civ-spouse	Handlers-cleaners	Husband	Black	Male	0	40	United-States
4	28	Private	338409	Bachelors	13	Married-civ-spouse	Prof-specialty	Wife	Black	Female	0	40	Cuba

	income
0	<=50K
1	<=50K
2	<=50K
3	<=50K
4	<=50K

Informations sur la variable à prédire¶

On remarque qu'il semble y avoir un problème d'importation... Un "." étant présent sur certaines modalités.

col_0	Nb
<=50K	24720
<=50K.	12435
>50K	7841
>50K.	3846

col_0	Nb
<=50K	37155
>50K	11687

Création de 2 jeux de données¶

Il est important, dans un cadre supervisé, de créer 2 jeux de données (un d'apprentissage et un de test) pour paramètrer les méthodes, dans un rapport 2 tiers / 1 tiers (voire jusque 80% - 20%). Cela permet d'éviter le sur-apprentissage particulièrement. On peut même envisager de découper en 3 jeux de données, le dernier étant de validation pour avir une estimation de la performance des modèles sur des données nouvelles.

On va donc créer un jeu d'apprentissage avec 75% des réponses, et un jeu de données test avec 25%.

In [8]:

X_train.head()

Out[8]:

	age	workclass	fnlwgt	education	education-num	marital-status	occupation	relationship	race	sex	capital-gain	hours-per-week	native-country
29451	32	Self-emp-not-inc	62272	HS-grad	9	Divorced	Exec-managerial	Unmarried	White	Female	0	40	United-States
43497	39	Self-emp-inc	172927	Assoc-acdm	12	Married-civ-spouse	Prof-specialty	Husband	White	Male	15024	50	United-States
8220	48	Private	125120	Some-college	10	Married-civ-spouse	Adm-clerical	Wife	White	Female	0	37	United-States
11381	56	State-gov	175057	Bachelors	13	Married-civ-spouse	Exec-managerial	Husband	White	Male	0	40	United-States
38963	81	Self-emp-inc	104443	HS-grad	9	Widowed	Sales	Not-in-family	White	Female	0	40	NaN

	income
29451	<=50K
43497	>50K
8220	<=50K
11381	<=50K
38963	<=50K

In [10]:

X_test.head()

Out[10]:

	age	workclass	fnlwgt	education	education-num	marital-status	occupation	relationship	race	sex	capital-gain	hours-per-week	native-country
2	38	Private	215646	HS-grad	9	Divorced	Handlers-cleaners	Not-in-family	White	Male	0	40	United-States
4	28	Private	338409	Bachelors	13	Married-civ-spouse	Prof-specialty	Wife	Black	Female	0	40	Cuba
8	31	Private	45781	Masters	14	Never-married	Prof-specialty	Not-in-family	White	Female	14084	50	United-States
9	42	Private	159449	Bachelors	13	Married-civ-spouse	Exec-managerial	Husband	White	Male	5178	40	United-States
16	25	Self-emp-not-inc	176756	HS-grad	9	Never-married	Farming-fishing	Own-child	White	Male	0	35	United-States

	income
2	<=50K
4	<=50K
8	>50K
9	>50K
16	<=50K

A partir de maintenant, nous allons donc créer nos modèles sur le jeu train et chercher nos paramètres avec le jeu test.

A FAIRE¶

Encoder les variables qualitatives en one-hot pour les utiliser dans les modèles
Réaliser le modèle de regression logistique complet
Chercher un nombre de voisins intéressants pour la méthode des $k$ plus proches voisins
- Jeu de données test à utiliser avec les fonctions predict() et predict_proba()
Chercher l'arbre CART élagué le plus intéressant
- Jeu de données test à utiliser pour l'élagage (fonction cost_complexity_pruning_path() à appliquer sur les 2 - train et test)
Chercher un MLP intéressant
- Jeu de données test à utiliser avec les fonctions predict() et predict_proba()
Comparer les modèles sur leurs résultats sur les 2 jeux de données (comparaison de courbes ROC et AUC)