Nous allons utiliser ici des données un peu particulière, disponibles ici. Elles représentent 10992 écritures d’un chiffre (entre 0 et 9), chaque tracé étant représenté par 8 points (coordonnées \((x,y)\), homogénéisées entre 0 et 100) et donc le chiffre écrit (voir les exemples ci-dessous pour plus de compréhension).
X1 | Y1 | X2 | Y2 | X3 | Y3 | X4 | Y4 | X5 | Y5 | X6 | Y6 | X7 | Y7 | X8 | Y8 | chiffre |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
47 | 100 | 27 | 81 | 57 | 37 | 26 | 0 | 0 | 23 | 56 | 53 | 100 | 90 | 40 | 98 | 8 |
0 | 89 | 27 | 100 | 42 | 75 | 29 | 45 | 15 | 15 | 37 | 0 | 69 | 2 | 100 | 6 | 2 |
0 | 57 | 31 | 68 | 72 | 90 | 100 | 100 | 76 | 75 | 50 | 51 | 28 | 25 | 16 | 0 | 1 |
0 | 100 | 7 | 92 | 5 | 68 | 19 | 45 | 86 | 34 | 100 | 45 | 74 | 23 | 67 | 0 | 4 |
0 | 67 | 49 | 83 | 100 | 100 | 81 | 80 | 60 | 60 | 40 | 40 | 33 | 20 | 47 | 0 | 1 |
100 | 100 | 88 | 99 | 49 | 74 | 17 | 47 | 0 | 16 | 37 | 0 | 73 | 16 | 20 | 20 | 6 |
Puisque les donnĂ©es s’y prĂªtent très bien, nous allons reprĂ©senter les tracĂ©s du premier exemple de chaque chiffre. On remarque que le 5 et le 7 sont peu reconnaissables.
Comme il n’est pas envisageable de le faire pour chaque exemple, et pour visualiser un peu mieux, nous allons représenter le chiffre moyen (i.e. les coordonnées moyennes de chaque point, pour chaque chiffre - voir ci-dessous). Ici, on remarque des effets étonnants sur certains chiffres (5 et 7 encore, ainsi que 8 et 9).
Une méthode directement applicable ici et bien utile est l’Analyse en Composantes Principales (ou ACP), qui permet de projeter un espace à \(d\) dimensions dans un sous-espace de moindre dimensions (idéalement 2 ou 3), en minimisant la perte d’informations (i.e. l’inertie). Nous utilisons ici le package FactoMineR (cf site web). On remarque que certains chiffres sont concentrés dans un zone restreinte, alors que d’autres sont plus volatiles.
Pour mieux voir ce qu’il se passe pour chaque chiffre, nous allons reprĂ©senter les points de chaque chiffre sĂ©parĂ©ment (cf ci-dessous). On remarque visuellement que le 2, le 3 et le 6 (ainsi que le 4 et le 9) sont localisĂ©s dans une zone assez restreinte. Par contre, le 5, le 7 et le 8 sont clairement très Ă©parpillĂ©s, avec mĂªme deux groupes distincts pour le 5. On est donc en droit de se demande s’il existe des classes pour chaque chiffre.
Sur cet exemple, nous pouvons aussi appliquer une ACP normée, i.e sur les données réduites.
Si on utilise la mĂªme technique que prĂ©cĂ©demment, nous avons sensiblement les mĂªmes conclusions sur la rĂ©partition des tracĂ©s de chaque chiffre.