Analyse Factorielle des Correspondances

Ce jeu de données contient 18 lignes et 5 colonnes.

1. Observation d’individus extrêmes

La détection des individus extrêmes ne s’applique pas à l’AFC.

2. Distribution de l’inertie

L’inertie des axes factoriels indique d’une part si les variables sont structurées et suggère d’autre part le nombre judicieux de composantes principales à étudier.

Les 2 premiers axes de l’ AFC expriment 77.18% de l’inertie totale du jeu de données ; cela signifie que 77.18% de la variabilité totale du nuage des lignes (ou des colonnes) est représentée dans ce plan. L’inertie observée sur le premier plan factoriel est inférieure à la valeur référence de 78.55%, et donc faible en comparaison (cette intertie de référence est le quantile 0.95 de la distribution des pourcentages d’inertie obtenus en simulant 1230 jeux de données aléatoires de dimensions comparables sur la base d’une distribution uniforme). Toutefois, l’inertie observée sur la première composante principale est supérieure à la référence de 51.39%. Bien que la significativité de l’inertie projetée sur le plan soit insuffisante, celle expliquée par le premier axe est malgré tout significative.

Figure 2 - Decomposition of the total inertia on the components of the AFC Le premier facteur est prépondérant : il explique a lui seul 51.89% de la variabilité totale des données. Il convient de noter que dans un tel cas, la variabilité liée aux autres composantes peut être dénuée de sens, en dépit d’un pourcentage élevé.

Une estimation du nombre pertinent d’axes à interpréter suggère de restreindre l’analyse à la description des 1 premiers axes. Ces composantes révèlent un taux d’inertie supérieur à celle du quantile 0.95 de distributions aléatoires (51.89% contre 51.39%). Cette observation suggère que seul cet axe est porteur d’une véritable information. En conséquence, la description de l’analyse sera restreinte à ces seuls axes.

3. Description de la dimension 1

Figure 3.1 - Graphe superposé (AFC) Les lignes libellées sont celles ayant la plus grande contribution à la construction du plan. Les colonnes libellées sont celles les mieux représentées sur le plan.

La dimension 1 oppose des facteurs tels que economic, world et circumstances (à droite du graphe, caractérisés par une coordonnée fortement positive sur l’axe) à des facteurs comme unemployment et work (à gauche du graphe, caractérisés par une coordonnée fortement négative sur l’axe).

Le groupe auquel les facteurs economic, world et circumstances appartiennent (caractérisés par une coordonnée positive sur l’axe) partage :

des modalité dont la fréquence ne diffèrent pas significativement de la moyenne.

Le groupe auquel les facteurs unemployment et work appartiennent (caractérisés par une coordonnées négative sur l’axe) partage :

des modalité dont la fréquence ne diffèrent pas significativement de la moyenne.

Notons que les facteurs unemployment et world sont extrêmement corrélés à cette dimension (corrélations respectives de 0.94, 0.95). Ces facteurs pourraient donc résumer à eux seuls la dimension 1.

4. Classification

Figure 4 - Classification Ascendante Hiérachique des lignes. La classification réalisée sur les lignes fait apparaître 3 clusters.

La classe 1 est composée de lignes telles que unemployment, work et employment. Ce groupe est caractérisé par :

une forte fréquence des modalités unqualified et cep (du plus commun au plus rare).
une faible fréquence des modalités high_school_diploma et university (du plus rare au plus commun).

La classe 2 est composée de lignes telles que future, fear, circumstances et world. Ce groupe est caractérisé par :

une forte fréquence de la modalité high_school_diplomacepunqualified.
une faible fréquence des modalités unqualified et cep (du plus rare au plus commun).

La classe 3 est composée de lignes telles que comfort, economic et to_live. Ce groupe est caractérisé par :

une forte fréquence de la modalité university.

Annexes

$`Dim 1`
$`Dim 1`$row
                     coord
finances      -0.279887545
hard          -0.245359371
unemployment  -0.233272781
work          -0.209016933
employment    -0.130992362
money         -0.117443507
housing        0.003881425
egoism         0.052623062
health         0.097440618
future         0.140662042
disagreement   0.158022406
fear           0.174259470
war            0.180671589
comfort        0.300783566
economic       0.386280048
to_live        0.398124901
circumstances  0.426830971
world          0.525685678

$`Dim 1`$col
                          coord
unqualified         -0.22655672
cep                 -0.13381745
bepc                 0.07874659
high_school_diploma  0.25925908
university           0.33047102

Figure 5 - Liste des variables caractéristiques des dimensions de l’analyse.

$`1`
                     Intern %    glob % Intern freq Glob freq 
unqualified         24.441524 19.963812         186        331
cep                 37.976347 33.594692         289        557
university           6.570302  8.323281          50        138
high_school_diploma 12.483574 18.094089          95        300
                         p.value    v.test
unqualified         3.561103e-05  4.134253
cep                 6.151161e-04  3.424860
university          2.117802e-02 -2.304796
high_school_diploma 4.623094e-08 -5.465229

$`2`
                    Intern %   glob % Intern freq Glob freq       p.value
high_school_diploma 23.31288 18.09409         190        300 7.205432e-08
cep                 30.42945 33.59469         248        557 8.468978e-03
unqualified         16.31902 19.96381         133        331 3.197555e-04
                       v.test
high_school_diploma  5.385972
cep                 -2.632778
unqualified         -3.598746

$`3`
           Intern %   glob % Intern freq Glob freq      p.value  v.test
university 23.17073 8.323281          19        138 3.83769e-05 4.11704

attr(,"class")
[1] "descfreq" "list "