Données

Nous allons utiliser ici des données un peu particulière, disponibles ici. Elles représentent 10992 écritures d’un chiffre (entre 0 et 9), chaque tracé étant représenté par 8 points (coordonnées \((x,y)\), homogénéisées entre 0 et 100) et donc le chiffre écrit (voir les exemples ci-dessous pour plus de compréhension).

X1 Y1 X2 Y2 X3 Y3 X4 Y4 X5 Y5 X6 Y6 X7 Y7 X8 Y8 chiffre
47 100 27 81 57 37 26 0 0 23 56 53 100 90 40 98 8
0 89 27 100 42 75 29 45 15 15 37 0 69 2 100 6 2
0 57 31 68 72 90 100 100 76 75 50 51 28 25 16 0 1
0 100 7 92 5 68 19 45 86 34 100 45 74 23 67 0 4
0 67 49 83 100 100 81 80 60 60 40 40 33 20 47 0 1
100 100 88 99 49 74 17 47 0 16 37 0 73 16 20 20 6

Tracé d’un chiffre

Puisque les données s’y prêtent très bien, nous allons représenter les tracés du premier exemple de chaque chiffre. On remarque que le 5 et le 7 sont peu reconnaissables.

Comme il n’est pas envisageable de le faire pour chaque exemple, et pour visualiser un peu mieux, nous allons représenter le chiffre moyen (i.e. les coordonnées moyennes de chaque point, pour chaque chiffre - voir ci-dessous). Ici, on remarque des effets étonnants sur certains chiffres (5 et 7 encore, ainsi que 8 et 9).

Visualisation via l’ACP

ACP centrée

Une méthode directement applicable ici et bien utile est l’Analyse en Composantes Principales (ou ACP), qui permet de projeter un espace à \(d\) dimensions dans un sous-espace de moindre dimensions (idéalement 2 ou 3), en minimisant la perte d’informations (i.e. l’inertie). Nous utilisons ici le package FactoMineR (cf site web). On remarque que certains chiffres sont concentrés dans un zone restreinte, alors que d’autres sont plus volatiles.

Pour mieux voir ce qu’il se passe pour chaque chiffre, nous allons représenter les points de chaque chiffre séparément (cf ci-dessous). On remarque visuellement que le 2, le 3 et le 6 (ainsi que le 4 et le 9) sont localisés dans une zone assez restreinte. Par contre, le 5, le 7 et le 8 sont clairement très éparpillés, avec même deux groupes distincts pour le 5. On est donc en droit de se demande s’il existe des classes pour chaque chiffre.

ACP normée

Sur cet exemple, nous pouvons aussi appliquer une ACP normée, i.e sur les données réduites.

Si on utilise la même technique que précédemment, nous avons sensiblement les mêmes conclusions sur la répartition des tracés de chaque chiffre.