class: center, middle, inverse, title-slide .title[ # Rappel de Statistique - Bivarié ] .author[ ### FX Jollois ] .date[ ### BUT TC - 2ème année ] --- <style type="text/css"> .pull-left { float: left; width: 48%; } .pull-right { float: right; width: 48%; } .pull-right ~ p { clear: both; } .pull-left30 { float: left; width: 28%; } .pull-right70 { float: right; width: 68%; } .pull-right70 ~ p { clear: both; } </style> # Décrire un lien entre variable - Statistique univarié utile pour comprendre le comportement de chaque variable - Bivarié utile pour comprendre le lien éventuel entre 2 variables - Particulièrement intéressant si variable d'intérêt spécifique (de type achat oui/non, montant du panier, ...) - Croisements possibles - 2 variables quantitatives - 2 variables qualitatives - 1 variable qualitative et 1 variable quantitative --- class: middle, center, inverse # Quantitative vs quantitative --- ## Quantitative vs quantitative - Covariance $$ cov(x,y) = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x}) (y_i - \bar{y}) $$ - Problème : non bornée et donc non exploitable - Coefficient de corrélation linéaire (de *Pearson*) $$ \rho(x,y) = \frac{cov(x,y)}{\sigma^2(x) \sigma^2(y)} $$ - Covariance des variables normalisées - Valeurs comprises entre -1 et 1 - `\(0\)` : pas de lien linéaire (autre type de lien possible) - `\(1\)` : lien positif fort (si `\(x\)` augmente, `\(y\)` augmente) - `\(-1\)` : lien négatif fort (si `\(x\)` augmente, `\(y\)` diminue) --- ## Quantitative vs quantitative ### Nuage de points <img src="seance2--stat-bi_files/figure-html/qtqt-graph-1.png" width="90%" style="display: block; margin: auto;" /> - Attention à la présence d'**outliers** avec un comportement atypique --- ## Anscombe La visualisation est aussi importante (voire plus) que la représentation numérique ! Entre ces quatre séries : - même moyenne et même variance pour `\(x\)` et `\(y\)` - même coefficient de corrélation entre les deux <table class="table" style="margin-left: auto; margin-right: auto;"> <thead> <tr> <th style="text-align:left;"> </th> <th style="text-align:right;"> 1 </th> <th style="text-align:right;"> 2 </th> <th style="text-align:right;"> 3 </th> <th style="text-align:right;"> 4 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> Moyenne(x) </td> <td style="text-align:right;"> 9.00 </td> <td style="text-align:right;"> 9.00 </td> <td style="text-align:right;"> 9.00 </td> <td style="text-align:right;"> 9.00 </td> </tr> <tr> <td style="text-align:left;"> Moyenne(y) </td> <td style="text-align:right;"> 7.50 </td> <td style="text-align:right;"> 7.50 </td> <td style="text-align:right;"> 7.50 </td> <td style="text-align:right;"> 7.50 </td> </tr> <tr> <td style="text-align:left;"> Ecart-type(x) </td> <td style="text-align:right;"> 3.32 </td> <td style="text-align:right;"> 3.32 </td> <td style="text-align:right;"> 3.32 </td> <td style="text-align:right;"> 3.32 </td> </tr> <tr> <td style="text-align:left;"> Ecart-type(y) </td> <td style="text-align:right;"> 2.03 </td> <td style="text-align:right;"> 2.03 </td> <td style="text-align:right;"> 2.03 </td> <td style="text-align:right;"> 2.03 </td> </tr> <tr> <td style="text-align:left;"> Covariance </td> <td style="text-align:right;"> 5.50 </td> <td style="text-align:right;"> 5.50 </td> <td style="text-align:right;"> 5.50 </td> <td style="text-align:right;"> 5.50 </td> </tr> <tr> <td style="text-align:left;"> Corrélation </td> <td style="text-align:right;"> 0.82 </td> <td style="text-align:right;"> 0.82 </td> <td style="text-align:right;"> 0.82 </td> <td style="text-align:right;"> 0.82 </td> </tr> </tbody> </table> --- ## Anscombe <img src="seance2--stat-bi_files/figure-html/anscombe-graph-1.png" width="90%" style="display: block; margin: auto;" /> --- class: middle, center, inverse # Qualitative vs qualitative --- ## Qualitative vs qualitative **Table de contingence** : Croisement des 2 ensembles de modalités, avec le nombre d'individus ayant chaque couple de modalités - `\(n_{ij}\)` : Nombre d'observations ayant la modalité `\(i\)` pour `\(x\)` et `\(j\)` pour `\(y\)` - `\(n_{i.}\)` : Effectif marginal (nombre d'observations ayant la modalité `\(i\)` pour `\(x\)`) - `\(n_{.j}\)` : Effectif marginal (nombre d'observations ayant la modalité `\(j\)` pour `\(y\)`) | | 1 | `\(\ldots\)` | `\(j\)` | `\(\ldots\)` | `\(\ell\)` | Total | |----------|---|----------|-----|----------|--------|-------| | 1 | | `\(\ldots\)` | | `\(i\)` | | | `\(n_{ij}\)` | | | `\(n_{i.}\)` | | `\(\ldots\)` | | `\(k\)` | | Total | | | `\(n_{.j}\)` | | | `\(n_{..}=n\)` | --- ## Qualitative vs qualitative ### Profils lignes et colonnes Distribution d'une variable conditionnellement aux modalités de l'autre ### Profil ligne Pour une ligne `\(i\)` : `\(\frac{n_{ij}}{n_{i.}}\)` - Somme des valeurs en lignes = 100% ### Profil colonne Pour une colonne `\(j\)` : `\(\frac{n_{ij}}{n_{.j}}\)` - Somme des valeurs en colonnes = 100% --- ## Qualitative vs qualitative Exemple : Jour de la semaine et Présence de fumeur .pull-left30[ <table class="table" style="margin-left: auto; margin-right: auto;"> <thead> <tr> <th style="text-align:left;"> day </th> <th style="text-align:right;"> No </th> <th style="text-align:right;"> Yes </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> Thur </td> <td style="text-align:right;"> 45 </td> <td style="text-align:right;"> 17 </td> </tr> <tr> <td style="text-align:left;"> Fri </td> <td style="text-align:right;"> 4 </td> <td style="text-align:right;"> 15 </td> </tr> <tr> <td style="text-align:left;"> Sat </td> <td style="text-align:right;"> 45 </td> <td style="text-align:right;"> 42 </td> </tr> <tr> <td style="text-align:left;"> Sun </td> <td style="text-align:right;"> 57 </td> <td style="text-align:right;"> 19 </td> </tr> </tbody> </table> ] .pull-right70[ <img src="seance2--stat-bi_files/figure-html/qtql-graph-1.png" width="90%" style="display: block; margin: auto;" /> ] Couple de modalités très peu pris : regroupement de modalités à envisager éventuellement --- ## Qualitative vs qualitative ### Profils colonnes ici (sommes en colonnes = 100%) .pull-left30[ <table class="table" style="margin-left: auto; margin-right: auto;"> <thead> <tr> <th style="text-align:left;"> day </th> <th style="text-align:right;"> No </th> <th style="text-align:right;"> Yes </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> Thur </td> <td style="text-align:right;"> 0.30 </td> <td style="text-align:right;"> 0.18 </td> </tr> <tr> <td style="text-align:left;"> Fri </td> <td style="text-align:right;"> 0.03 </td> <td style="text-align:right;"> 0.16 </td> </tr> <tr> <td style="text-align:left;"> Sat </td> <td style="text-align:right;"> 0.30 </td> <td style="text-align:right;"> 0.45 </td> </tr> <tr> <td style="text-align:left;"> Sun </td> <td style="text-align:right;"> 0.38 </td> <td style="text-align:right;"> 0.20 </td> </tr> </tbody> </table> ] .pull-right70[ <img src="seance2--stat-bi_files/figure-html/qtql-graph-2-1.png" width="90%" style="display: block; margin: auto;" /> ] --- ## Qualitative vs qualitative ### Profils lignes ici (sommes en lignes = 100%) .pull-left30[ <table class="table" style="margin-left: auto; margin-right: auto;"> <thead> <tr> <th style="text-align:left;"> day </th> <th style="text-align:right;"> No </th> <th style="text-align:right;"> Yes </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> Thur </td> <td style="text-align:right;"> 0.73 </td> <td style="text-align:right;"> 0.27 </td> </tr> <tr> <td style="text-align:left;"> Fri </td> <td style="text-align:right;"> 0.21 </td> <td style="text-align:right;"> 0.79 </td> </tr> <tr> <td style="text-align:left;"> Sat </td> <td style="text-align:right;"> 0.52 </td> <td style="text-align:right;"> 0.48 </td> </tr> <tr> <td style="text-align:left;"> Sun </td> <td style="text-align:right;"> 0.75 </td> <td style="text-align:right;"> 0.25 </td> </tr> </tbody> </table> ] .pull-right70[ <img src="seance2--stat-bi_files/figure-html/qtql-graph-3-1.png" width="90%" style="display: block; margin: auto;" /> ] --- class: middle, center, inverse # Qualitative vs quantitative --- ## Qualitative vs quantitative - Soit `\(Y\)` la variable qualitative à `\(m\)` modalités, et `\(X\)` la variable quantitative - Sous-populations déterminées par les modalités de `\(Y\)` - Indicateurs calculés pour chaque modalité k `$$\bar{x_j} = \frac{1}{n_j} \sum_{i | y_i = j} x_i$$` `$$\sigma^2(x_j) = \frac{1}{n_j} \sum {}_{i | y_i = j} (x_i - \bar{x_j})^2$$` --- ## Qualitative vs quantitative Exemple : Montant payé et Jour de la semaine ### Boîte à moustaches <img src="seance2--stat-bi_files/figure-html/qlqt-graph-1.png" width="90%" style="display: block; margin: auto;" /> - Outliers observables par modalité