Statistiques exploratoires sous SAS

Statistiques exploratoires

Analyse de données
- Analyse en composantes principales (ACP)
- Analyse factorielle des correspondances (AFC)
- Analyse factorielle des correspondances multiples (AFCM ou ACM)
Classification
- Classification hiérarchique (CAH)
- Classification directe (\(k\)-means)

Analyse de données

Analyse en composantes principales (ACP)

Utilisation de la PROC PRINCOMP
Deux tables en sorties
- out= pour récupérer les coordonnées des individus sur les composantes principales
- outstat= pour récupérer les informations autres (sur les variables, matrice de variance/covariance, et valeurs et vecteurs propres)
Plusieurs graphiques directement disponibles dans la version classique de SAS (et pas disponible dans SAS Studio)

Analyse de données

ACP - code

ACP en elle-même

proc princomp data = sashelp.iris out=iris_pca outstat=iris_pca_stat;
    var _NUMERIC_;
run;

Pour représenter le premier plan factoriel

proc sgplot data = iris_pca;
    scatter x=Prin1 y=Prin2 / 
        group=Species markerattrs=(SYMBOL=CircleFilled);
run; quit;

Analyse de données

Analyse factorielle des correspondances (AFC)

Utilisation de la PROC CORRESP
Indication dans tables du couple de variables à utiliser pour la table de contingence (séparée par une ,)
Spécification des stats de sorties : all pour tout, sinon voir aide de SAS
Deux tables en sortie :
- out= (ou outc=) pour récupérer les coordonnées des points sur les axes factoriels (avec contribution et qualité de représentation)
- outf= pour récupérer les fréquences observées, attendues, et autres statistiques

Analyse de données

AFC - code

AFC en elle-même
- produit par défaut les graphiques nécessaires

proc corresp data = sashelp.cars all 
        out = cars_afc_1 outf = cars_afc_2;
    tables type, origin;
run;

Analyse de données

Analyse factorielle des correspondances multiples (AFCM)

Utilisation de la PROC CORRESP avec l’option mca
Indication dans tables ds variables à utiliser (sans ,)
Spécification des stats de sorties : all pour tout, sinon voir aide de SAS
Deux tables en sortie :
- out= (ou outc=) pour récupérer les coordonnées des points sur les axes factoriels (avec contribution et qualité de représentation)
- outf= pour récupérer les fréquences observées, attendues, et autres statistiques

Analyse de données

AFCM - code

AFCM en elle-même
- produit par défaut les graphiques nécessaires

proc corresp data = sashelp.cars mca all 
        out = cars_afcm_1 outf = cars_afcm_2;
    tables type origin DriveTrain Cylinders;
run;

Classification

Classification hiérarchique (CAH)

PROC CLUSTER pour créer le dendrogramme
- method= pour spécifier la méthode (ward, single, …)
- rsquare, pseudo, ccc pour représenter graphiquement ces critères de choix du nombre de classes
- outree pour récupérer le dengramme et les statistiques associées
- présentation du dendogramme par défaut
PROC TREE pour représenter le dendrogramme
- ncl= pour découper le dendrogramme en \(k\) classes
- out= pour récupérer la partition ainsi créée

Classification

CAH - code

proc cluster data = sashelp.iris 
        method = ward 
        rsquare ccc pseudo 
        outtree = iris_tree;
    var _NUMERIC_;
run;

proc tree data = iris_tree ncl = 3 out = iris_clust_cah;
    copy Petal: Sepal:;
run;

proc sgscatter data = iris_clust_cah;
    matrix Petal: Sepal: / 
        group = cluster markerattrs=(SYMBOL=CircleFilled) ;
run; quit;

Classification

Classification directe (\(k\)-means)

PROC FASTCLUS pour appliquer l’algorithme \(k\)-means
- maxc= pour définir le nombre de classes
- maxiter= pour définir le nombre d’itérations maximal
- converge= pour spécifier le seuil de convergence
- out= pour récupérer les données augmentées de la partition
- mean= pour récupérer les centres des classes
- outstat= pour récupérer tout un ensemble de statistiques, dont les critères de choix du nombre de classes

Classification

\(k\)-means - code

proc fastclus data = sashelp.iris 
    maxc = 3 maxiter = 20 converge = 0 vardef = n
    out = iris_km 
    mean = iris_km_mean 
    outstat = iris_km_stat;
    var _NUMERIC_;
run;

proc sgscatter data = iris_km;
    matrix Petal: Sepal: / 
        group = cluster markerattrs=(SYMBOL=CircleFilled) ;
run; quit;

Liens intéressants

Programmes disponibles :