Analyse Factorielle des Correspondances Multiples (AFCM ou ACM)

Mastère ESD - Introduction au Machine Learning

FX Jollois

Que veut-on faire ?

Problème et objectifs

Tableau disjonctif complet

Transformation de la table des modalités pour n’avoir que des indicatrices binaires

vars
a b c
3 1 2
3 2 3
1 2 1
2 2 2
1 1 4
1 1 4
3 2 3
3 1 1
1 2 1
2 1 2
a
b
c
a1 a2 a3 b1 b2 c1 c2 c3 c4
0 0 1 1 0 0 1 0 0
0 0 1 0 1 0 0 1 0
1 0 0 0 1 1 0 0 0
0 1 0 0 1 0 1 0 0
1 0 0 1 0 0 0 0 1
1 0 0 1 0 0 0 0 1
0 0 1 0 1 0 0 1 0
0 0 1 1 0 1 0 0 0
1 0 0 0 1 1 0 0 0
0 1 0 1 0 0 1 0 0

Tableau de Burt

Décompte des présences conjointes des modalités des variables

a
b
c
a1 a2 a3 b1 b2 c1 c2 c3 c4
0 0 1 1 0 0 1 0 0
0 0 1 0 1 0 0 1 0
1 0 0 0 1 1 0 0 0
0 1 0 0 1 0 1 0 0
1 0 0 1 0 0 0 0 1
1 0 0 1 0 0 0 0 1
0 0 1 0 1 0 0 1 0
0 0 1 1 0 1 0 0 0
1 0 0 0 1 1 0 0 0
0 1 0 1 0 0 1 0 0
a
b
c
a1 a2 a3 b1 b2 c1 c2 c3 c4
a a1 4 0 0 2 2 2 0 0 2
a2 0 2 0 1 1 0 2 0 0
a3 0 0 4 2 2 1 1 2 0
b b1 2 1 2 5 0 1 2 0 2
b2 2 1 2 0 5 2 1 2 0
c c1 2 0 1 1 2 3 0 0 0
c2 0 2 1 2 1 0 3 0 0
c3 0 0 2 0 2 0 0 2 0
c4 2 0 0 2 0 0 0 0 2

Principe

Utiliser le tableau disjonctif complet comme une table de contingence particulière

Utiliser le tableau de Burt

Dans tous les cas

Interprétation longue et délicate

Informations

Modalités rares

Modalités avec un effectif faible : \(< 2\%\) (par exemple)

Interprétation

Contributions

Qualité de représentation

Idem que pour l’ACP.

Variables supplémentaires

Possibilité d’ajouter des variables qualitatives et quantitatives illustratives

Exemple simple

Etude sur des enfants dans une école primaire, ayant subi une intoxication alimentaire.

Age Time Sick Sex Nausea Vomiting Abdominals Fever Diarrhae Potato Fish Mayo Courgette Cheese Icecream
9 22 y F y n y y y y y y y y y
5 0 n F n n n n n y y y y n y
6 16 y F n y y y y y y y y y y
9 0 n F n n n n n y y n y y y
7 14 y M n y y y y y y y y y y
72 9 y M n n y y y y n y y y y
5 16 y F n y y y y y y y y y y
10 8 y F y y y y y y y y y y y
5 20 y M y n y y y y y y y y y
11 12 y M n y n y y y y y y y y
7 17 y F y y y y y y y y y y y
10 16 y F n y y n n y y y y y y
36 19 y F n n y y y y y y y y y
9 0 n F n n n n n y y n y y y
8 0 n M n n n n n y y n y n y
6 6 y F n y y y y y y y y y y
7 10 y M n y y y y y y y y n y
5 15 y M y y y y y y y y y y y
11 14 y F n y y y y y y y y y y
11 0 n F n n n n n y y n y y y
10 18 y M n n y y y y y y y y y
8 14 y F n n y y y y y y y y n
8 21 y F n y y y y y y y n y y
11 13 y M n y y n y y y y y y y
45 10 y F n n y y y y y y y n y
9 0 n M n n n n n y y y y y y
5 12 y F n y y y n y y y y y y
85 9 y M n y y y y y y n n y y
88 0 n F n n n n n y y y y y y
79 17 y F y y y y y y y y y y y
9 9 y F n n y y y y y n y y y
6 0 n M n n n n n y y n y n y
8 0 n F n n n n n y y y y y y
8 0 n M n n n n n y y y y y y
7 15 y F y n y y y n y y y y y
9 19 y M y y y y y y y y y y y
9 11 y M y n y n y n y y y y y
6 0 n F n n n n n y y y n n y
5 17 y M n n y y y n y y y y y
6 16 y M y y y y y y y y y y y
4 12 y M y n y y y y y y y y y
7 0 n M n n n n n y y y y y y
82 20 y F n n y y y y y y y y y
5 4 y F y y y y y y y y n y n
5 20 y M n y y y y y y y n y y
6 16 y M n n y y y y y y y y y
10 0 n M n n n n n y y n y y n
83 0 n M n n n n n y y y y y y
8 0 n F n n n n n y y y y y y
7 22 y F n n y y y y y y y y y
10 0 n M n n n n n y y n y y y
11 17 y M n n y y y y y y y y y
6 0 n F n n n n n y y n y n n
10 19 y M n y y y n y y y y y y
7 14 y M n y y y y y y y y y y

Variables

##       Age             Time           Sick           Sex       Nausea         
##  Min.   : 4.00   Min.   : 0.00   Length:55          F:28   Length:55         
##  1st Qu.: 6.00   1st Qu.: 0.00   Class :character   M:27   Class :character  
##  Median : 8.00   Median :12.00   Mode  :character          Mode  :character  
##  Mean   :16.93   Mean   :10.16                                               
##  3rd Qu.:10.00   3rd Qu.:16.50                                               
##  Max.   :88.00   Max.   :22.00                                               
##    Vomiting          Abdominals           Fever             Diarrhae        
##  Length:55          Length:55          Length:55          Length:55         
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##     Potato              Fish               Mayo            Courgette        
##  Length:55          Length:55          Length:55          Length:55         
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##     Cheese            Icecream        
##  Length:55          Length:55         
##  Class :character   Class :character  
##  Mode  :character   Mode  :character  
##                                       
##                                       
## 

A noter : 1 modalité rare (Fish == "n")

Part de la variance expliquée

Valeur propre Variance (%) Cumulée (%)
dim 1 0.34 33.52 33.52
dim 2 0.13 12.91 46.44
dim 3 0.11 10.73 57.17
dim 4 0.10 9.59 66.76
dim 5 0.08 7.88 74.64
dim 6 0.07 7.11 81.75
dim 7 0.06 6.02 87.77
dim 8 0.06 5.58 93.35
dim 9 0.04 4.12 97.47
dim 10 0.01 1.30 98.77
dim 11 0.01 1.23 100.00

Part de la variance expliquée

Représentation graphique

## Warning: ggrepel: 26 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps

## Warning: ggrepel: 10 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps

Représentation conjointe

## Warning: ggrepel: 42 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps
## Warning: ggrepel: 10 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps

Représentation de chaque variable séparemment

Représentation des variables

En gardant 5 axes

Ce qui implique 20 graphiques…

Modalités importantes (contributions)

Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
Nausea_n 2 1 5 0 0
Nausea_y 5 3 17 0 2
Vomit_n 4 7 0 4 0
Vomit_y 6 11 1 6 0
Abdo_n 15 0 0 1 0
Abdo_y 8 0 0 0 0
Fever_n 14 1 0 1 0
Fever_y 8 0 0 1 0
Diarrhea_n 14 0 0 2 0
Diarrhea_y 8 0 0 1 0
Potato_n 1 26 21 1 12
Potato_y 0 2 1 0 1
Fish_n 0 2 21 53 0
Fish_y 0 0 0 1 0
Mayo_n 8 2 3 2 2
Mayo_y 2 0 1 1 0
Courg_n 0 29 4 1 13
Courg_y 0 3 0 0 1
Cheese_n 5 3 1 2 41
Cheese_y 1 0 0 0 6
Icecream_n 1 9 23 20 18
Icecream_y 0 1 2 2 1

Individus importants (contributions)

Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
1 1 0 0 0
4 0 0 0 6
1 0 1 0 0
4 0 0 0 1
1 0 1 0 0
1 3 25 56 0
1 0 1 0 0
2 0 0 1 1
1 1 0 0 0
0 0 1 1 0
2 0 0 1 1
0 0 1 2 0
0 0 0 0 0
4 0 0 0 1
6 0 0 0 4
1 0 1 0 0
0 1 0 0 8
2 0 0 1 1
1 0 1 0 0
4 0 0 0 1
0 0 0 0 0
0 1 3 7 6
1 7 0 0 3
0 0 1 1 0
0 0 0 1 9
2 1 0 1 0
0 0 1 1 0
0 10 0 0 1
2 1 0 1 0
2 0 0 1 1
0 0 0 1 0
6 0 0 0 4
2 1 0 1 0
2 1 0 1 0
2 13 11 0 3
2 0 0 1 1
0 15 12 0 3
3 4 0 0 20
1 10 4 1 5
2 0 0 1 1
1 1 0 0 0
2 1 0 1 0
0 0 0 0 0
2 13 14 4 2
1 7 0 0 3
0 0 0 0 0
5 1 5 4 13
2 1 0 1 0
2 1 0 1 0
0 0 0 0 0
4 0 0 0 1
0 0 0 0 0
8 3 7 7 0
0 0 1 1 0
1 0 1 0 0

Variables supplémentaires

Avec modalité rare

2 possibilités :

Dans notre cas, nous avons une modalité rare pour une variable à 2 modalités. L’exclure n’est pas utile, il est préférable de placer la variable Fish en illustrative.

Qu’est-ce que ca change ?

Part de la variance expliquée

Les 5 premiers axes

Variables supplémentaires