Classification Ascendante Hiérarchique (CAH)

DUT STID 2AFA

FX Jollois

Que veut-on faire ?

Exemple : données faithful dans R

Objectif sur l’exemple

Problème et histoire

Notions

Partition

Nécessité de définir des critères de bonne classification et d’avoir des algorithmes performants, et optimisant la recherche d’une partition

Hiérachie

Exemple simple

Considérons \(X=\{a,b,c,d,e\}\).

Inertie intraclasse et interclasse

Objectif

Avec comme seul critère l’inertie :

Qualité d’une partition

Critère \(R^2\)

Critère \(CCC\)

Critère \(PseudoF\)

Iris

Classification hiérarchique

Distance entre parties

Recherche de d’une classification hiérarchique = recherche d’une ultram�trique.

Connaissant une métrique sur \(X\), en déduire une ultramétrique aussi proche que possible de la métrique de départ

Classification Ascendante Hiérachique (CAH)

Algorithme

  1. Chaque élément dans sa propre classe
  2. Calculer les distances entre chaque élément
  3. Regrouper les deux éléments les plus proches, et recalculer les distances entre cette nouvelle classe et les autres
  4. Recommencer l’étape précédente jusqu’à n’avoir plus qu’une seule classe avec tous les éléments

Problème

Distance entre deux classes : critères d’agrégation

Distance entre deux classes : critères d’agrégation

Exemple simple

Les données

La matrice de distance initiale

##    1  2  3  4
## 2 25         
## 3  5 20      
## 4 17  8 12   
## 5  6 31 11 23

L’arbre obtenu (lien complet)

L’ultramétrique obtenu

##    1  2  3  4
## 2 31         
## 3  5 31      
## 4 31  8 31   
## 5 11 31 11 31

Iris