class: center, middle, inverse, title-slide .title[ # Rappels de Statistique ] .author[ ### FX Jollois ] .date[ ### BUT TC - 2ème année ] --- ## Qu'est-ce que la statistique ? - Ensemble de méthodes permettant de décrire et d'analyser des observations (communément appelées **données** de nos jours) - Utilisé maintenant dans tous les secteurs d'activités - Economie et finance : marketing, sondages... - Industrie : fiabilité, contrôle qualité... - Santé : recherche médicale, gestion des hôpitaux... - Environnement : prévisions climatiques et météorologiques, pollution... - Web : réseaux, publicité... - ... - Essor important avec le développement des outils informatiques et du web --- ## Définitions de base - **Population** : ensemble d'entités (personnes, objets...) étudiées -- - **Individu** (ou *unité statistique*) : entité étudiée -- - **Variable** : caractéristique étudiée sur chaque individu -- - **Observation** : mesure -- - **Série statistique** : série d'observations recueillies sur les individus -- - **Tableau de données** : stockage de la série statistique - Individus croisant des variables - Chaque ligne représente un individu - Chaque colonne représente une variable (ou attribut) - C'est ce qu'on fait classiquement dans un tableur de type Excel --- ## Données *diamants* - Exemple utilisé dans ce document - ~54000 diamants (10 premières lignes ici) <table class="table" style="margin-left: auto; margin-right: auto;"> <thead> <tr> <th style="text-align:right;"> carat </th> <th style="text-align:left;"> cut </th> <th style="text-align:left;"> color </th> <th style="text-align:left;"> clarity </th> <th style="text-align:right;"> depth </th> <th style="text-align:right;"> table </th> <th style="text-align:right;"> price </th> <th style="text-align:right;"> x </th> <th style="text-align:right;"> y </th> <th style="text-align:right;"> z </th> </tr> </thead> <tbody> <tr> <td style="text-align:right;"> 0.30 </td> <td style="text-align:left;"> Ideal </td> <td style="text-align:left;"> G </td> <td style="text-align:left;"> VVS2 </td> <td style="text-align:right;"> 61.1 </td> <td style="text-align:right;"> 57 </td> <td style="text-align:right;"> 684 </td> <td style="text-align:right;"> 4.32 </td> <td style="text-align:right;"> 4.35 </td> <td style="text-align:right;"> 2.65 </td> </tr> <tr> <td style="text-align:right;"> 0.34 </td> <td style="text-align:left;"> Ideal </td> <td style="text-align:left;"> G </td> <td style="text-align:left;"> VS2 </td> <td style="text-align:right;"> 61.9 </td> <td style="text-align:right;"> 55 </td> <td style="text-align:right;"> 596 </td> <td style="text-align:right;"> 4.49 </td> <td style="text-align:right;"> 4.53 </td> <td style="text-align:right;"> 2.79 </td> </tr> <tr> <td style="text-align:right;"> 0.43 </td> <td style="text-align:left;"> Ideal </td> <td style="text-align:left;"> F </td> <td style="text-align:left;"> VVS1 </td> <td style="text-align:right;"> 62.3 </td> <td style="text-align:right;"> 55 </td> <td style="text-align:right;"> 1358 </td> <td style="text-align:right;"> 4.85 </td> <td style="text-align:right;"> 4.88 </td> <td style="text-align:right;"> 3.03 </td> </tr> <tr> <td style="text-align:right;"> 0.42 </td> <td style="text-align:left;"> Very Good </td> <td style="text-align:left;"> E </td> <td style="text-align:left;"> VVS2 </td> <td style="text-align:right;"> 59.4 </td> <td style="text-align:right;"> 60 </td> <td style="text-align:right;"> 1262 </td> <td style="text-align:right;"> 4.88 </td> <td style="text-align:right;"> 4.91 </td> <td style="text-align:right;"> 2.91 </td> </tr> <tr> <td style="text-align:right;"> 0.70 </td> <td style="text-align:left;"> Very Good </td> <td style="text-align:left;"> G </td> <td style="text-align:left;"> VS2 </td> <td style="text-align:right;"> 59.3 </td> <td style="text-align:right;"> 60 </td> <td style="text-align:right;"> 2539 </td> <td style="text-align:right;"> 5.77 </td> <td style="text-align:right;"> 5.83 </td> <td style="text-align:right;"> 3.43 </td> </tr> <tr> <td style="text-align:right;"> 1.09 </td> <td style="text-align:left;"> Ideal </td> <td style="text-align:left;"> F </td> <td style="text-align:left;"> VS2 </td> <td style="text-align:right;"> 60.9 </td> <td style="text-align:right;"> 54 </td> <td style="text-align:right;"> 7385 </td> <td style="text-align:right;"> 6.66 </td> <td style="text-align:right;"> 6.73 </td> <td style="text-align:right;"> 4.08 </td> </tr> <tr> <td style="text-align:right;"> 1.09 </td> <td style="text-align:left;"> Ideal </td> <td style="text-align:left;"> D </td> <td style="text-align:left;"> VS1 </td> <td style="text-align:right;"> 62.3 </td> <td style="text-align:right;"> 56 </td> <td style="text-align:right;"> 9650 </td> <td style="text-align:right;"> 6.63 </td> <td style="text-align:right;"> 6.59 </td> <td style="text-align:right;"> 4.12 </td> </tr> <tr> <td style="text-align:right;"> 1.15 </td> <td style="text-align:left;"> Ideal </td> <td style="text-align:left;"> F </td> <td style="text-align:left;"> VVS2 </td> <td style="text-align:right;"> 62.1 </td> <td style="text-align:right;"> 55 </td> <td style="text-align:right;"> 8743 </td> <td style="text-align:right;"> 6.69 </td> <td style="text-align:right;"> 6.74 </td> <td style="text-align:right;"> 4.17 </td> </tr> <tr> <td style="text-align:right;"> 0.33 </td> <td style="text-align:left;"> Ideal </td> <td style="text-align:left;"> E </td> <td style="text-align:left;"> VS2 </td> <td style="text-align:right;"> 61.5 </td> <td style="text-align:right;"> 57 </td> <td style="text-align:right;"> 928 </td> <td style="text-align:right;"> 4.47 </td> <td style="text-align:right;"> 4.41 </td> <td style="text-align:right;"> 2.73 </td> </tr> <tr> <td style="text-align:right;"> 0.96 </td> <td style="text-align:left;"> Premium </td> <td style="text-align:left;"> E </td> <td style="text-align:left;"> SI2 </td> <td style="text-align:right;"> 62.6 </td> <td style="text-align:right;"> 60 </td> <td style="text-align:right;"> 4113 </td> <td style="text-align:right;"> 6.32 </td> <td style="text-align:right;"> 6.26 </td> <td style="text-align:right;"> 3.94 </td> </tr> </tbody> </table> --- ## Recensement vs Sondage 2 méthodes de recueil de données -- ### Recensement Etude de tous les individus d'une population - Recueil exhaustif de toutes les informations sur toutes les entités - Difficile à mettre en œuvre la plupart du temps -- ### Sondage Etude d'une partie de la population pour extrapolation sur l'ensemble de la population - Partie des individus étudiés = **échantillon** - Représentativité de l'échantillon ? --- ## Type de variables ### Variable quantitative - Caractéristiques numériques : opérations de type somme ayant un sens -- ### Continue - Mesurable - Ex : taille, poids, durée... -- ### Discrète - Dénombrable ou mesurable en espace fini - Ex : âge, quantité en stock... --- ## Type de variables ### Variable qualitative - Caractéristiques non numériques : opérations de type somme n'ayant pas de sens - Valeurs possibles : **Modalités** (ou catégories) -- ### Nominale - Modalités n'ayant pas de lien entre elles (Ex : couleur des yeux, sexe...) - Cas particulier *Binaire* : 2 valeurs possibles uniquement (Ex : oui/non, présence/absence...) ### Ordinale - Modalités devant être triées dans un ordre spécifique (Ex : mois, sentiment...) --- ## Transformation de variable ### Quantitative en qualitative - Courant de transformer une variable **quantitative** en variable **qualitative ordinale** - Ex : Catégorie d'âge, Nombre d'enfants du foyer, ... - Différents problèmes se posent - Combien de modalités (*intervalles* ici) ? - Taille identique des intervalles ou variable (*amplitude*) ? - Seuils des intervalles ? --- ## Transformation de variable ### Standardisation ou normalisation d'une variable quantitative - Obligatoire pour l'utilisation de certaines méthodes statistiques - 2 opérations sont réalisées : - Centrage : on retire la moyenne à chaque valeur - Réduction : on divise par la variance $$ x_{norm} = \frac{x - \bar{x}}{\sigma^2} $$ --- ## Premier problème : décrire les données On parle de **Statistique descriptive** ou **exploratoire** -- ### Objectifs - Résumer l'information contenue dans les données - Faire ressortir des éléments intéressants - Poser des hypothèses sur des phénomènes potentiellement existant dans les données -- ### Outils - Description numérique (moyenne, occurrences, corrélation...) - Description graphique (histogramme, diagramme en barres, nuage de points...) --- ## Variable quantitative - Moyenne `\(\bar{x}\)` $$ \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i $$ -- - Variance (et écart-type `\(\sigma(x)\)`) $$ \sigma^2(x) = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2 $$ --- ## Variable quantitative - Médiane `\(med(x)\)` : valeur permettant de séparer les observations ordonnées prises par `\(x\)` en 2 groupes de même taille $$ med(x) = m | P(x \le m) = .5 $$ - si `\(n\)` est impair : `\(med(x) = x_{(n + 1) / 2}\)` - si `\(n\)` est pair : `\(med(x) = \frac{x_{n/2} + x_{n/2 + 1}}{2}\)` -- - Quantile `\(q_p(x)\)` : valeur pour laquelle une proportion `\(p\)` d'observations sont inférieures $$ q_p(x) = q | P(x \le q) = p $$ - Quartiles `\(Q1\)` et `\(Q3\)` : respectivement 25% et 75% (utilisés dans les boîtes à moustaches) - Quantiles usuels : `\(.01\)` (1%), `\(.1\)` (10%), `\(.9\)` (90%) et `\(.99\)` (99%) --- ## Variable quantitative Exemple : prix des diamants .pull-left[### Représentation numérique <table class="table" style="margin-left: auto; margin-right: auto;"> <thead> <tr> <th style="text-align:left;"> Statistique </th> <th style="text-align:right;"> Valeur </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> Moyenne </td> <td style="text-align:right;"> 3932.80 </td> </tr> <tr> <td style="text-align:left;"> Ecart-Type </td> <td style="text-align:right;"> 3989.44 </td> </tr> <tr> <td style="text-align:left;"> Variance </td> <td style="text-align:right;"> 15915629.42 </td> </tr> <tr> <td style="text-align:left;"> Médiane </td> <td style="text-align:right;"> 2401.00 </td> </tr> <tr> <td style="text-align:left;"> Minimum </td> <td style="text-align:right;"> 326.00 </td> </tr> <tr> <td style="text-align:left;"> Maximum </td> <td style="text-align:right;"> 18823.00 </td> </tr> </tbody> </table> ] -- .pull-right[### A regarder aussi : - Divergence moyenne et médiane - Valeurs extrêmes présentes - Déséquilibre de la répartition des valeurs - Présence de valeurs aberrantes - On parle d'**outliers** ] --- ## Variable quantitative ### Représentation graphique Histogramme <img src="StatsProbas_TC2A_TD1_files/figure-html/qt-graph-hist-1.png" style="display: block; margin: auto;" /> --- ## Variable quantitative ### Représentation graphique Boîte à moustaches <img src="StatsProbas_TC2A_TD1_files/figure-html/qt-graph-box-1.png" style="display: block; margin: auto;" /> --- ## Variable qualitative ### Nominale - Modalités de la variable `\(x\)` : `\(m_j\)` (avec `\(j=1,...,p\)`) - Effectif (ou occurrences) d'une modalité `\(n_j\)` : nombre d'individus ayant la modalité `\(m_j\)` - Fréquence d'une modalité `\(f_j\)` $$ f_j = \frac{n_j}{n} $$ -- ### Ordinale - Effectif cumulé `\(n_j^{cum}\)` : nombre d'individus ayant une modalité entre `\(n_1\)` et `\(n_j\)` - Fréquence cumulée `$$n_j^{cum} = \sum_{k=1}^j n_k \mbox{ and } f_j^{cum} = \sum_{k=1}^j f_k$$` --- ## Variable qualitative Exemple : Qualité de découpe (*ordinale* de plus) ### Représentation numérique <table class="table" style="margin-left: auto; margin-right: auto;"> <thead> <tr> <th style="text-align:left;"> Modalités </th> <th style="text-align:right;"> Effectifs </th> <th style="text-align:right;"> Effectifs cumulés </th> <th style="text-align:right;"> Fréquences </th> <th style="text-align:right;"> Fréquences cumulées </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;width: 5em; "> Fair </td> <td style="text-align:right;width: 5em; "> 1610 </td> <td style="text-align:right;width: 5em; "> 1610 </td> <td style="text-align:right;width: 5em; "> 0.03 </td> <td style="text-align:right;width: 5em; "> 0.03 </td> </tr> <tr> <td style="text-align:left;width: 5em; "> Good </td> <td style="text-align:right;width: 5em; "> 4906 </td> <td style="text-align:right;width: 5em; "> 6516 </td> <td style="text-align:right;width: 5em; "> 0.09 </td> <td style="text-align:right;width: 5em; "> 0.12 </td> </tr> <tr> <td style="text-align:left;width: 5em; "> Very Good </td> <td style="text-align:right;width: 5em; "> 12082 </td> <td style="text-align:right;width: 5em; "> 18598 </td> <td style="text-align:right;width: 5em; "> 0.22 </td> <td style="text-align:right;width: 5em; "> 0.34 </td> </tr> <tr> <td style="text-align:left;width: 5em; "> Premium </td> <td style="text-align:right;width: 5em; "> 13791 </td> <td style="text-align:right;width: 5em; "> 32389 </td> <td style="text-align:right;width: 5em; "> 0.26 </td> <td style="text-align:right;width: 5em; "> 0.60 </td> </tr> <tr> <td style="text-align:left;width: 5em; "> Ideal </td> <td style="text-align:right;width: 5em; "> 21551 </td> <td style="text-align:right;width: 5em; "> 53940 </td> <td style="text-align:right;width: 5em; "> 0.40 </td> <td style="text-align:right;width: 5em; "> 1.00 </td> </tr> </tbody> </table> -- ### A regarder aussi : .small[ - Différence entre les proportions - Si modalités peu fréquentes, regroupement de modalités à envisager ] --- ## Variable qualitative ### Représentation graphique Diagramme en barres <img src="StatsProbas_TC2A_TD1_files/figure-html/ql-graph-bar-1.png" style="display: block; margin: auto;" /> --- ## Quantitative vs quantitative - Covariance $$ cov(x,y) = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x}) (y_i - \bar{y}) $$ - Problème : non bornée et donc non exploitable -- - Coefficient de corrélation linéaire (de *Pearson*) $$ \rho(x,y) = \frac{cov(x,y)}{\sigma^2(x) \sigma^2(y)} $$ - Covariance des variables normalisées - Valeurs comprises entre -1 et 1 - `\(0\)` : pas de lien linéaire (autre type de lien possible) - `\(1\)` : lien positif fort (si `\(x\)` augmente, `\(y\)` augmente) - `\(-1\)` : lien négatif fort (si `\(x\)` augmente, `\(y\)` diminue) --- ## Quantitative vs quantitative Exemple : Prix et Carat ### Représentation numérique <table class="table" style="margin-left: auto; margin-right: auto;"> <thead> <tr> <th style="text-align:left;"> Statistique </th> <th style="text-align:right;"> Valeur </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> Covariance </td> <td style="text-align:right;"> 1742.77 </td> </tr> <tr> <td style="text-align:left;"> Corrélation </td> <td style="text-align:right;"> 0.92 </td> </tr> </tbody> </table> -- ### A regarder aussi : - Présence d'**outliers** avec un comportement atypique --- ## Quantitative vs quantitative ### Représentation graphique Nuage de points <img src="StatsProbas_TC2A_TD1_files/figure-html/qtqt-graph-1.png" style="display: block; margin: auto;" /> --- ## Anscombe La visualisation est aussi importante (voire plus) que la représentation numérique ! Entre ces quatres séries : - même moyenne et même variance pour `\(x\)` et `\(y\)` - même coefficient de corrélation entre les deux <table class="table" style="margin-left: auto; margin-right: auto;"> <thead> <tr> <th style="text-align:left;"> </th> <th style="text-align:right;"> 1 </th> <th style="text-align:right;"> 2 </th> <th style="text-align:right;"> 3 </th> <th style="text-align:right;"> 4 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> Moyenne(x) </td> <td style="text-align:right;"> 9.00 </td> <td style="text-align:right;"> 9.00 </td> <td style="text-align:right;"> 9.00 </td> <td style="text-align:right;"> 9.00 </td> </tr> <tr> <td style="text-align:left;"> Moyenne(y) </td> <td style="text-align:right;"> 7.50 </td> <td style="text-align:right;"> 7.50 </td> <td style="text-align:right;"> 7.50 </td> <td style="text-align:right;"> 7.50 </td> </tr> <tr> <td style="text-align:left;"> Ecart-type(x) </td> <td style="text-align:right;"> 3.32 </td> <td style="text-align:right;"> 3.32 </td> <td style="text-align:right;"> 3.32 </td> <td style="text-align:right;"> 3.32 </td> </tr> <tr> <td style="text-align:left;"> Ecart-type(y) </td> <td style="text-align:right;"> 2.03 </td> <td style="text-align:right;"> 2.03 </td> <td style="text-align:right;"> 2.03 </td> <td style="text-align:right;"> 2.03 </td> </tr> <tr> <td style="text-align:left;"> Covariance </td> <td style="text-align:right;"> 5.50 </td> <td style="text-align:right;"> 5.50 </td> <td style="text-align:right;"> 5.50 </td> <td style="text-align:right;"> 5.50 </td> </tr> <tr> <td style="text-align:left;"> Corrélation </td> <td style="text-align:right;"> 0.82 </td> <td style="text-align:right;"> 0.82 </td> <td style="text-align:right;"> 0.82 </td> <td style="text-align:right;"> 0.82 </td> </tr> </tbody> </table> --- ## Anscombe <img src="StatsProbas_TC2A_TD1_files/figure-html/anscombe-graph-1.png" style="display: block; margin: auto;" /> --- ## Qualitative vs qualitative - Table de contingence - Croisement des 2 ensembles de modalités, avec le nombre d'individus ayant chaque couple de modalités - `\(n_{ij}\)` : Nombre d'observations ayant la modalité `\(i\)` pour `\(x\)` et `\(j\)` pour `\(y\)` - `\(n_{i.}\)` : Effectif marginal (nombre d'observations ayant la modalité `\(i\)` pour `\(x\)`) - `\(n_{.j}\)` : Effectif marginal (nombre d'observations ayant la modalité `\(j\)` pour `\(y\)`) <table class="table" style="margin-left: auto; margin-right: auto;"> <thead> <tr> <th style="text-align:left;"> </th> <th style="text-align:left;"> 1 </th> <th style="text-align:left;"> ... </th> <th style="text-align:left;"> j </th> <th style="text-align:left;"> ... </th> <th style="text-align:left;"> l </th> <th style="text-align:left;"> total </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> 1 </td> <td style="text-align:left;"> </td> <td style="text-align:left;"> </td> <td style="text-align:left;"> </td> <td style="text-align:left;"> </td> <td style="text-align:left;"> </td> <td style="text-align:left;"> </td> </tr> <tr> <td style="text-align:left;"> ... </td> <td style="text-align:left;"> </td> <td style="text-align:left;"> </td> <td style="text-align:left;"> </td> <td style="text-align:left;"> </td> <td style="text-align:left;"> </td> <td style="text-align:left;"> </td> </tr> <tr> <td style="text-align:left;"> i </td> <td style="text-align:left;"> </td> <td style="text-align:left;"> </td> <td style="text-align:left;"> n_ij </td> <td style="text-align:left;"> </td> <td style="text-align:left;"> </td> <td style="text-align:left;"> n_i. </td> </tr> <tr> <td style="text-align:left;"> ... </td> <td style="text-align:left;"> </td> <td style="text-align:left;"> </td> <td style="text-align:left;"> </td> <td style="text-align:left;"> </td> <td style="text-align:left;"> </td> <td style="text-align:left;"> </td> </tr> <tr> <td style="text-align:left;"> k </td> <td style="text-align:left;"> </td> <td style="text-align:left;"> </td> <td style="text-align:left;"> </td> <td style="text-align:left;"> </td> <td style="text-align:left;"> </td> <td style="text-align:left;"> </td> </tr> <tr> <td style="text-align:left;"> total </td> <td style="text-align:left;"> </td> <td style="text-align:left;"> </td> <td style="text-align:left;"> n_.j </td> <td style="text-align:left;"> </td> <td style="text-align:left;"> </td> <td style="text-align:left;"> n_.. = n </td> </tr> </tbody> </table> --- ## Qualitative vs qualitative - Profils lignes et colonnes - Distribution d'une variable conditionnellement aux modalités de l'autre - Pour une ligne `\(i\)` : `\(\frac{n_{ij}}{n_{i.}}\)` - Pour une colonne `\(j\)` : `\(\frac{n_{ij}}{n_{.j}}\)` --- ## Qualitative vs qualitative Exemple : Qualité et couleur .pull-left[### Représentation numérique <table class="table" style="margin-left: auto; margin-right: auto;"> <thead> <tr> <th style="text-align:left;"> color </th> <th style="text-align:right;"> Fair </th> <th style="text-align:right;"> Good </th> <th style="text-align:right;"> Very Good </th> <th style="text-align:right;"> Premium </th> <th style="text-align:right;"> Ideal </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> D </td> <td style="text-align:right;"> 163 </td> <td style="text-align:right;"> 662 </td> <td style="text-align:right;"> 1513 </td> <td style="text-align:right;"> 1603 </td> <td style="text-align:right;"> 2834 </td> </tr> <tr> <td style="text-align:left;"> E </td> <td style="text-align:right;"> 224 </td> <td style="text-align:right;"> 933 </td> <td style="text-align:right;"> 2400 </td> <td style="text-align:right;"> 2337 </td> <td style="text-align:right;"> 3903 </td> </tr> <tr> <td style="text-align:left;"> F </td> <td style="text-align:right;"> 312 </td> <td style="text-align:right;"> 909 </td> <td style="text-align:right;"> 2164 </td> <td style="text-align:right;"> 2331 </td> <td style="text-align:right;"> 3826 </td> </tr> <tr> <td style="text-align:left;"> G </td> <td style="text-align:right;"> 314 </td> <td style="text-align:right;"> 871 </td> <td style="text-align:right;"> 2299 </td> <td style="text-align:right;"> 2924 </td> <td style="text-align:right;"> 4884 </td> </tr> <tr> <td style="text-align:left;"> H </td> <td style="text-align:right;"> 303 </td> <td style="text-align:right;"> 702 </td> <td style="text-align:right;"> 1824 </td> <td style="text-align:right;"> 2360 </td> <td style="text-align:right;"> 3115 </td> </tr> <tr> <td style="text-align:left;"> I </td> <td style="text-align:right;"> 175 </td> <td style="text-align:right;"> 522 </td> <td style="text-align:right;"> 1204 </td> <td style="text-align:right;"> 1428 </td> <td style="text-align:right;"> 2093 </td> </tr> <tr> <td style="text-align:left;"> J </td> <td style="text-align:right;"> 119 </td> <td style="text-align:right;"> 307 </td> <td style="text-align:right;"> 678 </td> <td style="text-align:right;"> 808 </td> <td style="text-align:right;"> 896 </td> </tr> </tbody> </table> ] -- .pull-right[### A regarder aussi : - Couple de modalités très peu pris - Ici aussi, regroupement de modalités à envisager éventuellement ] --- ## Qualitative vs qualitative ### Représentation graphique <img src="StatsProbas_TC2A_TD1_files/figure-html/qtql-graph-1.png" style="display: block; margin: auto;" /> --- ## Qualitative vs qualitative ### Représentation graphique <img src="StatsProbas_TC2A_TD1_files/figure-html/qtql-graph-bis-1.png" style="display: block; margin: auto;" /> --- ## Qualitative vs qualitative Exemple : Qualité et couleur ### Représentation numérique Profils colonnes ici (sommes en colonnes = 100%) <table class="table" style="margin-left: auto; margin-right: auto;"> <thead> <tr> <th style="text-align:left;"> color </th> <th style="text-align:right;"> Fair </th> <th style="text-align:right;"> Good </th> <th style="text-align:right;"> Very Good </th> <th style="text-align:right;"> Premium </th> <th style="text-align:right;"> Ideal </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> D </td> <td style="text-align:right;"> 0.10 </td> <td style="text-align:right;"> 0.13 </td> <td style="text-align:right;"> 0.13 </td> <td style="text-align:right;"> 0.12 </td> <td style="text-align:right;"> 0.13 </td> </tr> <tr> <td style="text-align:left;"> E </td> <td style="text-align:right;"> 0.14 </td> <td style="text-align:right;"> 0.19 </td> <td style="text-align:right;"> 0.20 </td> <td style="text-align:right;"> 0.17 </td> <td style="text-align:right;"> 0.18 </td> </tr> <tr> <td style="text-align:left;"> F </td> <td style="text-align:right;"> 0.19 </td> <td style="text-align:right;"> 0.19 </td> <td style="text-align:right;"> 0.18 </td> <td style="text-align:right;"> 0.17 </td> <td style="text-align:right;"> 0.18 </td> </tr> <tr> <td style="text-align:left;"> G </td> <td style="text-align:right;"> 0.20 </td> <td style="text-align:right;"> 0.18 </td> <td style="text-align:right;"> 0.19 </td> <td style="text-align:right;"> 0.21 </td> <td style="text-align:right;"> 0.23 </td> </tr> <tr> <td style="text-align:left;"> H </td> <td style="text-align:right;"> 0.19 </td> <td style="text-align:right;"> 0.14 </td> <td style="text-align:right;"> 0.15 </td> <td style="text-align:right;"> 0.17 </td> <td style="text-align:right;"> 0.14 </td> </tr> <tr> <td style="text-align:left;"> I </td> <td style="text-align:right;"> 0.11 </td> <td style="text-align:right;"> 0.11 </td> <td style="text-align:right;"> 0.10 </td> <td style="text-align:right;"> 0.10 </td> <td style="text-align:right;"> 0.10 </td> </tr> <tr> <td style="text-align:left;"> J </td> <td style="text-align:right;"> 0.07 </td> <td style="text-align:right;"> 0.06 </td> <td style="text-align:right;"> 0.06 </td> <td style="text-align:right;"> 0.06 </td> <td style="text-align:right;"> 0.04 </td> </tr> </tbody> </table> --- ## Qualitative vs qualitative ### Représentation graphique Profils colonnes <img src="StatsProbas_TC2A_TD1_files/figure-html/qtql-graph-2-1.png" width="80%" style="display: block; margin: auto;" /> --- ## Qualitative vs qualitative Exemple : Qualité et couleur ### Représentation numérique Profils lignes ici (sommes en lignes = 100%) <table class="table" style="margin-left: auto; margin-right: auto;"> <thead> <tr> <th style="text-align:left;"> color </th> <th style="text-align:right;"> Fair </th> <th style="text-align:right;"> Good </th> <th style="text-align:right;"> Very Good </th> <th style="text-align:right;"> Premium </th> <th style="text-align:right;"> Ideal </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> D </td> <td style="text-align:right;"> 0.02 </td> <td style="text-align:right;"> 0.10 </td> <td style="text-align:right;"> 0.22 </td> <td style="text-align:right;"> 0.24 </td> <td style="text-align:right;"> 0.42 </td> </tr> <tr> <td style="text-align:left;"> E </td> <td style="text-align:right;"> 0.02 </td> <td style="text-align:right;"> 0.10 </td> <td style="text-align:right;"> 0.24 </td> <td style="text-align:right;"> 0.24 </td> <td style="text-align:right;"> 0.40 </td> </tr> <tr> <td style="text-align:left;"> F </td> <td style="text-align:right;"> 0.03 </td> <td style="text-align:right;"> 0.10 </td> <td style="text-align:right;"> 0.23 </td> <td style="text-align:right;"> 0.24 </td> <td style="text-align:right;"> 0.40 </td> </tr> <tr> <td style="text-align:left;"> G </td> <td style="text-align:right;"> 0.03 </td> <td style="text-align:right;"> 0.08 </td> <td style="text-align:right;"> 0.20 </td> <td style="text-align:right;"> 0.26 </td> <td style="text-align:right;"> 0.43 </td> </tr> <tr> <td style="text-align:left;"> H </td> <td style="text-align:right;"> 0.04 </td> <td style="text-align:right;"> 0.08 </td> <td style="text-align:right;"> 0.22 </td> <td style="text-align:right;"> 0.28 </td> <td style="text-align:right;"> 0.38 </td> </tr> <tr> <td style="text-align:left;"> I </td> <td style="text-align:right;"> 0.03 </td> <td style="text-align:right;"> 0.10 </td> <td style="text-align:right;"> 0.22 </td> <td style="text-align:right;"> 0.26 </td> <td style="text-align:right;"> 0.39 </td> </tr> <tr> <td style="text-align:left;"> J </td> <td style="text-align:right;"> 0.04 </td> <td style="text-align:right;"> 0.11 </td> <td style="text-align:right;"> 0.24 </td> <td style="text-align:right;"> 0.29 </td> <td style="text-align:right;"> 0.32 </td> </tr> </tbody> </table> --- ## Qualitative vs qualitative ### Représentation graphique Profils lignes <img src="StatsProbas_TC2A_TD1_files/figure-html/qtql-graph-3-1.png" width="80%" style="display: block; margin: auto;" /> --- ## Qualitative vs quantitative - Soit `\(Y\)` la variable qualitative à `\(m\)` modalités, et `\(X\)` la variable quantitative - Sous-populations déterminées par les modalités de `\(Y\)` - Indicateurs calculés pour chaque modalité k `$$\bar{x_j} = \frac{1}{n_j} \sum_{i | y_i = j} x_i$$` `$$\sigma^2(x_j) = \frac{1}{n_j} \sum {}_{i | y_i = j} (x_i - \bar{x_j})^2$$` --- ## Qualitative vs quantitative Exemple : Qualité et prix .pull-left[### Représentation numérique <table class="table" style="margin-left: auto; margin-right: auto;"> <thead> <tr> <th style="text-align:left;"> cut </th> <th style="text-align:right;"> Moyenne </th> <th style="text-align:right;"> Ecart-type </th> <th style="text-align:right;"> Médiane </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> Fair </td> <td style="text-align:right;"> 4358.76 </td> <td style="text-align:right;"> 3560.39 </td> <td style="text-align:right;"> 3282.0 </td> </tr> <tr> <td style="text-align:left;"> Good </td> <td style="text-align:right;"> 3928.86 </td> <td style="text-align:right;"> 3681.59 </td> <td style="text-align:right;"> 3050.5 </td> </tr> <tr> <td style="text-align:left;"> Very Good </td> <td style="text-align:right;"> 3981.76 </td> <td style="text-align:right;"> 3935.86 </td> <td style="text-align:right;"> 2648.0 </td> </tr> <tr> <td style="text-align:left;"> Premium </td> <td style="text-align:right;"> 4584.26 </td> <td style="text-align:right;"> 4349.20 </td> <td style="text-align:right;"> 3185.0 </td> </tr> <tr> <td style="text-align:left;"> Ideal </td> <td style="text-align:right;"> 3457.54 </td> <td style="text-align:right;"> 3808.40 </td> <td style="text-align:right;"> 1810.0 </td> </tr> </tbody> </table> ] -- .pull-right[### A regarder aussi : - Outliers ] --- ## Qualitative vs quantitative ### Représentation graphique Boîte à moustaches <img src="StatsProbas_TC2A_TD1_files/figure-html/qlqt-graph-1.png" width="80%" style="display: block; margin: auto;" /> --- ## Deuxième problème : Extrapoler à partir de données On parle alors de **statistique inférentielle** -- ### Cadre - Données issues d'un échantillon d'une population - Modèle probabiliste sur la population - Méthodes d'échantillonnage pour choisir au mieux l'échantillon -- ### Objectifs - Etendre les conclusions faites sur l'échantillon à toute la population - Valider des hypothèses faites sur la population en analysant l'échantillon -- ### Outils - Estimation : approximer des paramètres de la population - Test : valider les hypothèses - Modélisation : rechercher des liens entre variables