class: center, middle, inverse, title-slide .title[ # Estimation et Tests ] .author[ ### FX Jollois ] .date[ ### BUT TC - 2ème année ] --- class: center, middle, section # Estimation --- ### Introduction #### Comment puis-je connaître un indicateur sur la population française ? - Impossible à réaliser (trop coûteux, trop compliqué à mettre en oeuvre, ...) - Sélection d'un sous-ensemble de la population, appelé **échantillon** -- #### Comment sélectionner correctement un échantillon ? - Notion de représentativité - Méthodes de sondage pour répondre à ce problème --- ## Que fait-on ? Quand on cherche à analyser un phénomène (biologique, économique, météorologique...), on a 2 possibilités -- ### Loi de probabilité connue a priori On vérifie a posteriori que les observations faites à partir d’un échantillon sont en accord avec elle. On effectue alors un test d'ajustement entre la distribution théorique et la distribution observée -- ### Loi de probabilité inconnue Mais elle est suggérée par la description de l’échantillon (nature de la variable, forme de la distribution des fréquences, valeurs des paramètres descriptifs). Dans ce cas, il est nécessaire d’estimer les paramètres de la loi de probabilité à partir des paramètres établis sur l’échantillon. --- ## Inférence statistique -- ### Inférence Opération qui consiste à admettre une proposition en raison de son lien avec une proposition préalable tenue pour vraie. -- ### Inférence statistique Ensemble de techniques permettant d'induire les caractéristiques d'un groupe général (la population) à partir de celles d'un groupe particulier (l'échantillon), en fournissant une mesure de la certitude de la prédiction (via la probabilité d'erreur) --- ## 2 problèmes différents -- ### Estimation Déterminer les **valeurs inconnues** des paramètres de la population à partir des données de l'échantillon. Il est alors nécessaire de déterminer la précision de ces estimations en établissant un *intervalle de confiance* autour des valeurs prédites. -- ### Tests d'hypothèses A partir d'une hypothèse posée, déterminer les conséquences de cette hypothèse sur la population et/ou l'échantillon, et comparer ces conséquences aux observations faites sur l'échantillon. On conclut **en acceptant ou en rejetant l'hypothèse de travail** à partir de règles de décisions objectives. --- ## Distribution d'échantillonage Dans un problème d'estimation, il est nécessaire d'étudier la **loi de probabilité** suivie par l'estimateur Trois concepts importants : - Paramètres de la **population** (comme la proportion `\(p\)`, la moyenne `\(\mu\)`, ou la variance `\(\sigma^2\)`) -- - Paramètres de l'**échantillon** (comme la fréquence `\(f\)`, la moyenne `\(\bar{x}\)`, ou la variance `\(s^2\)`) -- - Variables aléatoires des paramètres (comme `\(\bar{X}\)`, ...) --- ## Estimation - Problème statistique : estimation d'un paramètre inconnu de la population via un échantillon -- - Résumer l'échantillon à une statistique -- - Plusieurs catégories de paramètres : - Paramètres de position - Paramètres de dispersion - Paramètres de liaison -- - Deux types d'estimation : - Estimation ponctuelle - Estimation par intervalle --- ## Estimation ponctuelle - Estimation d'un résultat sur la population - Unique valeur mesurée dans l'échantillon -- ### Définition Soit `\(\theta\)` un paramètre inconnu intervenant dans la loi de probabilité (connue analytiquement) de la variable aléatoire `\(X\)`. Soient `\(x_1, x_2, \ldots, x_n\)` les `\(n\)` valeurs prises par la v.a. `\(X\)` dans un échantillon de taille `\(n\)`. On appelle **estimateur** de `\(\theta\)`, noté `\(T_n\)` la fonction qui fait correspondre aux valeurs `\(x_i\)` de l'échantillon la valeur du paramètre `\(\theta\)`. On note la valeur numérique de cette estimation par $$ \hat\theta = T_n(x_1, x_2, \ldots, x_n) $$ --- ## Exemple d'estimation ponctuelle - Estimation de la taille moyenne de la population française -- - Echantillon : les étudiants de ce cours -- - Variable aléatoire suivant une loi normale -- - Proposer une estimation de la taille moyenne `\(\mu\)`, via l'échantillon `\({x_i}\)` ? - la moyenne - la médiane - le mode - la taille de l'individu 3 - ... --- ## Quel estimateur ? - Meilleur estimateur de la taille moyenne ? -- - Définition mathématique impossible de *meilleur* -- ### Comparer les estimateurs avec certains critères : -- - **Biais** : l'estimation ne doit pas être systématiquement décalée par rapport à la vraie valeur, -- - **Précision** : la variation d'un échantillon à l'autre de l'estimation doit être faible, -- - **Convergence** : lorsque la taille de l'échantillon augmente, l'estimateur converge vers le paramètre inconnu `\(\theta\)`, -- - **Complexité** : le calcul de l'estimation ne doit pas nécessiter trop de calculs, -- - **Robustesse** : les perturbations doivent avoir un impact très limité sur l'estimation. --- ## Variable quantitative ### Moyenne Soit `\(X\)` une variable aléatoire d'espérance `\(\mu\)` inconnue, la moyenne `\(\hat\mu\)` (ou `\(\bar{x}\)`) de l'échantillon est un estimateur correct de `\(\mu\)` ( `\(E(\hat\mu) = \mu\)` : sans biais et `\(V(\hat\mu) = \frac{\sigma^2}{n} \rightarrow 0\)` : convergent). $$ \hat\mu = \frac{\sum_{i=1}^n x_i}{n} $$ --- ## Variable quantitative ### Variance `\(\hat\sigma^2\)` n'est pas un bon estimateur de `\(\sigma^2\)` car `\(E(\hat\sigma^2) = \frac{n-1}{n} \sigma^2\)`. Par contre, `\(\hat{\sigma}^{*2}\)` est un estimateur sans biais de `\(\sigma^2\)`, et convergent. Mais `\(\hat{\sigma}^*\)` n'est pas un estimateur sans biais de `\(\sigma\)`. `$$\hat{\sigma}^2 = \frac{\sum_{i=1}^n (x_i - \bar{x})^2}{n}$$` `$$\hat{\sigma}^{*2} = \frac{\sum_{i=1}^n (x_i - \bar{x})^2}{n - 1}$$` --- ## Variable quantitative ### Médiane Valeur pour laquelle 50 % des individus ont une valeur plus grande et 50 % plus petite. Intéressant car insensible aux données aberrantes, contrairement à la moyenne. $$ \hat{m} : p(X < \hat{m}) = 0.5 $$ En triant les données `\(x_i\)` par ordre croissant, on obtient la médiane avec - Si `\(n\)` pair, alors `\(\hat{m} = \frac{\displaystyle x_{n/2} + x_{n/2+1}}{2}\)` - Si `\(n\)` impair, alors `\(\hat{m} = \frac{\displaystyle x_{(n+1)}}{2}\)` --- ## Variable qualitative ### Mode Mesure prise le plus fréquemment. `$$x_{mode} : p(X = x_{mode}) = \max_x p(X = x)$$` -- ### Proportion Soit `\(\hat{p}\)` l'estimation d'une proportion inconnu `\(p\)` et `\(k\)` le nombre d'individus présentant la caractéristique étudiée, la proportion `\(p\)` approxime la vraie valeur de `\(p\)` : $$ \hat{p} = \frac{k}{n} $$ --- ## Variable qualitative ### Ecart-type d'une proportion Soit `\(F_n = \frac{k}{n}\)`, c'est une v.a. construite par la somme de `\(n\)` v.a. suivant une loi de Bernouilli et de même paramètre `\(p\)`. C'est donc (d'après le TCL) une v.a. dont la loi de probabilité tend vers une loi normale de moyenne `\(p\)`. Son écart-type est estimé par $$ \hat{\sigma_p} = \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} $$ Cette estimation n'est valable que pour les cas où `\(n > 30\)`. --- ## Estimation par intervalles - Intervalle souvent plus intéressant et plus correct que l'affirmation `\(\hat\theta = c\)` - Estimation par intervalle de confiance (souvent symétrique) -- ### Définition Soit `\(X\)` une v.a., `\(\theta\)` le paramètre inconnu et `\(\hat{\theta}\)` son estimation sur `\(X\)`, on cherche ainsi `\(c1\)` et `\(c2\)` tel que $$ p(c1 < X < c2 | \theta = \hat{\theta}) = 1 - \alpha $$ -- ### Choix de `\(\alpha\)` dépendant du problème posé - Etude de marché prospective : `\(\alpha\)` élevé (intervalles restreints) - Etude sur une maladie ou dans une centrale nucléaire : `\(\alpha\)` très faible (intervalles grands) - Pratique : prendre un risque `\(\alpha\)` égal à 5 % (autres valeurs classiques : 10 %, 1 %). --- ## Cas de la loi Normale centrée-réduite Table de valeurs connues pour `\(P(X < u)\)` (fonction de répartition) [Table complète](https://fr.wikipedia.org/wiki/Loi_normale#Tables_num%C3%A9riques_et_calculs) `\(\rightarrow\)` Au croisement, on lit `\(P(X < 0,31) = 0.6217\)` <table class="table" style="font-size: 10px; margin-left: auto; margin-right: auto;"> <thead> <tr> <th style="text-align:left;"> </th> <th style="text-align:right;"> 0,00 </th> <th style="text-align:right;"> 0,01 </th> <th style="text-align:right;"> 0,02 </th> <th style="text-align:right;"> 0,03 </th> <th style="text-align:right;"> 0,04 </th> <th style="text-align:right;"> 0,05 </th> <th style="text-align:right;"> 0,06 </th> <th style="text-align:right;"> 0,07 </th> <th style="text-align:right;"> 0,08 </th> <th style="text-align:right;"> 0,09 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> 0 </td> <td style="text-align:right;"> 0.5000 </td> <td style="text-align:right;font-weight: bold;background-color: lightgray !important;"> 0.5040 </td> <td style="text-align:right;"> 0.5080 </td> <td style="text-align:right;"> 0.5120 </td> <td style="text-align:right;"> 0.5160 </td> <td style="text-align:right;"> 0.5199 </td> <td style="text-align:right;"> 0.5239 </td> <td style="text-align:right;"> 0.5279 </td> <td style="text-align:right;"> 0.5319 </td> <td style="text-align:right;"> 0.5359 </td> </tr> <tr> <td style="text-align:left;"> 0,1 </td> <td style="text-align:right;"> 0.5398 </td> <td style="text-align:right;font-weight: bold;background-color: lightgray !important;"> 0.5438 </td> <td style="text-align:right;"> 0.5478 </td> <td style="text-align:right;"> 0.5517 </td> <td style="text-align:right;"> 0.5557 </td> <td style="text-align:right;"> 0.5596 </td> <td style="text-align:right;"> 0.5636 </td> <td style="text-align:right;"> 0.5675 </td> <td style="text-align:right;"> 0.5714 </td> <td style="text-align:right;"> 0.5753 </td> </tr> <tr> <td style="text-align:left;"> 0,2 </td> <td style="text-align:right;"> 0.5793 </td> <td style="text-align:right;font-weight: bold;background-color: lightgray !important;"> 0.5832 </td> <td style="text-align:right;"> 0.5871 </td> <td style="text-align:right;"> 0.5910 </td> <td style="text-align:right;"> 0.5948 </td> <td style="text-align:right;"> 0.5987 </td> <td style="text-align:right;"> 0.6026 </td> <td style="text-align:right;"> 0.6064 </td> <td style="text-align:right;"> 0.6103 </td> <td style="text-align:right;"> 0.6141 </td> </tr> <tr> <td style="text-align:left;font-weight: bold;background-color: lightgray !important;"> 0,3 </td> <td style="text-align:right;font-weight: bold;background-color: lightgray !important;"> 0.6179 </td> <td style="text-align:right;font-weight: bold;background-color: lightgray !important;font-weight: bold;background-color: lightgray !important;"> 0.6217 </td> <td style="text-align:right;font-weight: bold;background-color: lightgray !important;"> 0.6255 </td> <td style="text-align:right;font-weight: bold;background-color: lightgray !important;"> 0.6293 </td> <td style="text-align:right;font-weight: bold;background-color: lightgray !important;"> 0.6331 </td> <td style="text-align:right;font-weight: bold;background-color: lightgray !important;"> 0.6368 </td> <td style="text-align:right;font-weight: bold;background-color: lightgray !important;"> 0.6406 </td> <td style="text-align:right;font-weight: bold;background-color: lightgray !important;"> 0.6443 </td> <td style="text-align:right;font-weight: bold;background-color: lightgray !important;"> 0.6480 </td> <td style="text-align:right;font-weight: bold;background-color: lightgray !important;"> 0.6517 </td> </tr> <tr> <td style="text-align:left;"> 0,4 </td> <td style="text-align:right;"> 0.6554 </td> <td style="text-align:right;font-weight: bold;background-color: lightgray !important;"> 0.6591 </td> <td style="text-align:right;"> 0.6628 </td> <td style="text-align:right;"> 0.6664 </td> <td style="text-align:right;"> 0.6700 </td> <td style="text-align:right;"> 0.6736 </td> <td style="text-align:right;"> 0.6772 </td> <td style="text-align:right;"> 0.6808 </td> <td style="text-align:right;"> 0.6844 </td> <td style="text-align:right;"> 0.6879 </td> </tr> <tr> <td style="text-align:left;"> 0,5 </td> <td style="text-align:right;"> 0.6915 </td> <td style="text-align:right;font-weight: bold;background-color: lightgray !important;"> 0.6950 </td> <td style="text-align:right;"> 0.6985 </td> <td style="text-align:right;"> 0.7019 </td> <td style="text-align:right;"> 0.7054 </td> <td style="text-align:right;"> 0.7088 </td> <td style="text-align:right;"> 0.7123 </td> <td style="text-align:right;"> 0.7157 </td> <td style="text-align:right;"> 0.7190 </td> <td style="text-align:right;"> 0.7224 </td> </tr> <tr> <td style="text-align:left;"> 0,6 </td> <td style="text-align:right;"> 0.7257 </td> <td style="text-align:right;font-weight: bold;background-color: lightgray !important;"> 0.7291 </td> <td style="text-align:right;"> 0.7324 </td> <td style="text-align:right;"> 0.7357 </td> <td style="text-align:right;"> 0.7389 </td> <td style="text-align:right;"> 0.7422 </td> <td style="text-align:right;"> 0.7454 </td> <td style="text-align:right;"> 0.7486 </td> <td style="text-align:right;"> 0.7517 </td> <td style="text-align:right;"> 0.7549 </td> </tr> <tr> <td style="text-align:left;"> 0,7 </td> <td style="text-align:right;"> 0.7580 </td> <td style="text-align:right;font-weight: bold;background-color: lightgray !important;"> 0.7611 </td> <td style="text-align:right;"> 0.7642 </td> <td style="text-align:right;"> 0.7673 </td> <td style="text-align:right;"> 0.7704 </td> <td style="text-align:right;"> 0.7734 </td> <td style="text-align:right;"> 0.7764 </td> <td style="text-align:right;"> 0.7794 </td> <td style="text-align:right;"> 0.7823 </td> <td style="text-align:right;"> 0.7852 </td> </tr> <tr> <td style="text-align:left;"> 0,8 </td> <td style="text-align:right;"> 0.7881 </td> <td style="text-align:right;font-weight: bold;background-color: lightgray !important;"> 0.7910 </td> <td style="text-align:right;"> 0.7939 </td> <td style="text-align:right;"> 0.7967 </td> <td style="text-align:right;"> 0.7995 </td> <td style="text-align:right;"> 0.8023 </td> <td style="text-align:right;"> 0.8051 </td> <td style="text-align:right;"> 0.8078 </td> <td style="text-align:right;"> 0.8106 </td> <td style="text-align:right;"> 0.8133 </td> </tr> <tr> <td style="text-align:left;"> 0,9 </td> <td style="text-align:right;"> 0.8159 </td> <td style="text-align:right;font-weight: bold;background-color: lightgray !important;"> 0.8186 </td> <td style="text-align:right;"> 0.8212 </td> <td style="text-align:right;"> 0.8238 </td> <td style="text-align:right;"> 0.8264 </td> <td style="text-align:right;"> 0.8289 </td> <td style="text-align:right;"> 0.8315 </td> <td style="text-align:right;"> 0.8340 </td> <td style="text-align:right;"> 0.8365 </td> <td style="text-align:right;"> 0.8389 </td> </tr> <tr> <td style="text-align:left;"> 1 </td> <td style="text-align:right;"> 0.8413 </td> <td style="text-align:right;font-weight: bold;background-color: lightgray !important;"> 0.8438 </td> <td style="text-align:right;"> 0.8461 </td> <td style="text-align:right;"> 0.8485 </td> <td style="text-align:right;"> 0.8508 </td> <td style="text-align:right;"> 0.8531 </td> <td style="text-align:right;"> 0.8554 </td> <td style="text-align:right;"> 0.8577 </td> <td style="text-align:right;"> 0.8599 </td> <td style="text-align:right;"> 0.8621 </td> </tr> <tr> <td style="text-align:left;"> 1,1 </td> <td style="text-align:right;"> 0.8643 </td> <td style="text-align:right;font-weight: bold;background-color: lightgray !important;"> 0.8665 </td> <td style="text-align:right;"> 0.8686 </td> <td style="text-align:right;"> 0.8708 </td> <td style="text-align:right;"> 0.8729 </td> <td style="text-align:right;"> 0.8749 </td> <td style="text-align:right;"> 0.8770 </td> <td style="text-align:right;"> 0.8790 </td> <td style="text-align:right;"> 0.8810 </td> <td style="text-align:right;"> 0.8830 </td> </tr> <tr> <td style="text-align:left;"> 1,2 </td> <td style="text-align:right;"> 0.8849 </td> <td style="text-align:right;font-weight: bold;background-color: lightgray !important;"> 0.8869 </td> <td style="text-align:right;"> 0.8888 </td> <td style="text-align:right;"> 0.8907 </td> <td style="text-align:right;"> 0.8925 </td> <td style="text-align:right;"> 0.8944 </td> <td style="text-align:right;"> 0.8962 </td> <td style="text-align:right;"> 0.8980 </td> <td style="text-align:right;"> 0.8997 </td> <td style="text-align:right;"> 0.9015 </td> </tr> <tr> <td style="text-align:left;"> 1,3 </td> <td style="text-align:right;"> 0.9032 </td> <td style="text-align:right;font-weight: bold;background-color: lightgray !important;"> 0.9049 </td> <td style="text-align:right;"> 0.9066 </td> <td style="text-align:right;"> 0.9082 </td> <td style="text-align:right;"> 0.9099 </td> <td style="text-align:right;"> 0.9115 </td> <td style="text-align:right;"> 0.9131 </td> <td style="text-align:right;"> 0.9147 </td> <td style="text-align:right;"> 0.9162 </td> <td style="text-align:right;"> 0.9177 </td> </tr> <tr> <td style="text-align:left;"> 1,4 </td> <td style="text-align:right;"> 0.9192 </td> <td style="text-align:right;font-weight: bold;background-color: lightgray !important;"> 0.9207 </td> <td style="text-align:right;"> 0.9222 </td> <td style="text-align:right;"> 0.9236 </td> <td style="text-align:right;"> 0.9251 </td> <td style="text-align:right;"> 0.9265 </td> <td style="text-align:right;"> 0.9279 </td> <td style="text-align:right;"> 0.9292 </td> <td style="text-align:right;"> 0.9306 </td> <td style="text-align:right;"> 0.9319 </td> </tr> <tr> <td style="text-align:left;"> 1,5 </td> <td style="text-align:right;"> 0.9332 </td> <td style="text-align:right;font-weight: bold;background-color: lightgray !important;"> 0.9345 </td> <td style="text-align:right;"> 0.9357 </td> <td style="text-align:right;"> 0.9370 </td> <td style="text-align:right;"> 0.9382 </td> <td style="text-align:right;"> 0.9394 </td> <td style="text-align:right;"> 0.9406 </td> <td style="text-align:right;"> 0.9418 </td> <td style="text-align:right;"> 0.9429 </td> <td style="text-align:right;"> 0.9441 </td> </tr> <tr> <td style="text-align:left;"> 1,6 </td> <td style="text-align:right;"> 0.9452 </td> <td style="text-align:right;font-weight: bold;background-color: lightgray !important;"> 0.9463 </td> <td style="text-align:right;"> 0.9474 </td> <td style="text-align:right;"> 0.9484 </td> <td style="text-align:right;"> 0.9495 </td> <td style="text-align:right;"> 0.9505 </td> <td style="text-align:right;"> 0.9515 </td> <td style="text-align:right;"> 0.9525 </td> <td style="text-align:right;"> 0.9535 </td> <td style="text-align:right;"> 0.9545 </td> </tr> <tr> <td style="text-align:left;"> 1,7 </td> <td style="text-align:right;"> 0.9554 </td> <td style="text-align:right;font-weight: bold;background-color: lightgray !important;"> 0.9564 </td> <td style="text-align:right;"> 0.9573 </td> <td style="text-align:right;"> 0.9582 </td> <td style="text-align:right;"> 0.9591 </td> <td style="text-align:right;"> 0.9599 </td> <td style="text-align:right;"> 0.9608 </td> <td style="text-align:right;"> 0.9616 </td> <td style="text-align:right;"> 0.9625 </td> <td style="text-align:right;"> 0.9633 </td> </tr> <tr> <td style="text-align:left;"> 1,8 </td> <td style="text-align:right;"> 0.9641 </td> <td style="text-align:right;font-weight: bold;background-color: lightgray !important;"> 0.9649 </td> <td style="text-align:right;"> 0.9656 </td> <td style="text-align:right;"> 0.9664 </td> <td style="text-align:right;"> 0.9671 </td> <td style="text-align:right;"> 0.9678 </td> <td style="text-align:right;"> 0.9686 </td> <td style="text-align:right;"> 0.9693 </td> <td style="text-align:right;"> 0.9699 </td> <td style="text-align:right;"> 0.9706 </td> </tr> <tr> <td style="text-align:left;"> 1,9 </td> <td style="text-align:right;"> 0.9713 </td> <td style="text-align:right;font-weight: bold;background-color: lightgray !important;"> 0.9719 </td> <td style="text-align:right;"> 0.9726 </td> <td style="text-align:right;"> 0.9732 </td> <td style="text-align:right;"> 0.9738 </td> <td style="text-align:right;"> 0.9744 </td> <td style="text-align:right;"> 0.9750 </td> <td style="text-align:right;"> 0.9756 </td> <td style="text-align:right;"> 0.9761 </td> <td style="text-align:right;"> 0.9767 </td> </tr> <tr> <td style="text-align:left;"> 2 </td> <td style="text-align:right;"> 0.9772 </td> <td style="text-align:right;font-weight: bold;background-color: lightgray !important;"> 0.9778 </td> <td style="text-align:right;"> 0.9783 </td> <td style="text-align:right;"> 0.9788 </td> <td style="text-align:right;"> 0.9793 </td> <td style="text-align:right;"> 0.9798 </td> <td style="text-align:right;"> 0.9803 </td> <td style="text-align:right;"> 0.9808 </td> <td style="text-align:right;"> 0.9812 </td> <td style="text-align:right;"> 0.9817 </td> </tr> <tr> <td style="text-align:left;"> 2,1 </td> <td style="text-align:right;"> 0.9821 </td> <td style="text-align:right;font-weight: bold;background-color: lightgray !important;"> 0.9826 </td> <td style="text-align:right;"> 0.9830 </td> <td style="text-align:right;"> 0.9834 </td> <td style="text-align:right;"> 0.9838 </td> <td style="text-align:right;"> 0.9842 </td> <td style="text-align:right;"> 0.9846 </td> <td style="text-align:right;"> 0.9850 </td> <td style="text-align:right;"> 0.9854 </td> <td style="text-align:right;"> 0.9857 </td> </tr> <tr> <td style="text-align:left;"> 2,2 </td> <td style="text-align:right;"> 0.9861 </td> <td style="text-align:right;font-weight: bold;background-color: lightgray !important;"> 0.9864 </td> <td style="text-align:right;"> 0.9868 </td> <td style="text-align:right;"> 0.9871 </td> <td style="text-align:right;"> 0.9875 </td> <td style="text-align:right;"> 0.9878 </td> <td style="text-align:right;"> 0.9881 </td> <td style="text-align:right;"> 0.9884 </td> <td style="text-align:right;"> 0.9887 </td> <td style="text-align:right;"> 0.9890 </td> </tr> <tr> <td style="text-align:left;"> 2,3 </td> <td style="text-align:right;"> 0.9893 </td> <td style="text-align:right;font-weight: bold;background-color: lightgray !important;"> 0.9896 </td> <td style="text-align:right;"> 0.9898 </td> <td style="text-align:right;"> 0.9901 </td> <td style="text-align:right;"> 0.9904 </td> <td style="text-align:right;"> 0.9906 </td> <td style="text-align:right;"> 0.9909 </td> <td style="text-align:right;"> 0.9911 </td> <td style="text-align:right;"> 0.9913 </td> <td style="text-align:right;"> 0.9916 </td> </tr> <tr> <td style="text-align:left;"> 2,4 </td> <td style="text-align:right;"> 0.9918 </td> <td style="text-align:right;font-weight: bold;background-color: lightgray !important;"> 0.9920 </td> <td style="text-align:right;"> 0.9922 </td> <td style="text-align:right;"> 0.9925 </td> <td style="text-align:right;"> 0.9927 </td> <td style="text-align:right;"> 0.9929 </td> <td style="text-align:right;"> 0.9931 </td> <td style="text-align:right;"> 0.9932 </td> <td style="text-align:right;"> 0.9934 </td> <td style="text-align:right;"> 0.9936 </td> </tr> </tbody> </table> --- ## Quelques valeurs à connaître - `\(P(X < 1.64) = 0.9494974 = \sim 0.95\)` - Si `\(X\)` suit une loi Normale centrée réduite, il y a 95% de chance que sa valeur soit inférieure à 1.64 -- - `\(P(X < 1.96) = 0.9750\)` - Si `\(X\)` suit une loi Normale centrée réduite, il y a 97.5% de chance que sa valeur soit inférieure à 1.96 -- Et pour les valeurs négatives ? On se base sur la symétrie de la loi Normale. - `\(P(X < -1.64) = P(X > 1.64) = 1 - P(X < 1.64) = \sim 0.05\)` - `\(P(X < -1.96) = P(X > 1.96) = 1 - P(X < 1.96) = \sim 0.025\)` -- ### Conclusion Pour une variable `\(X\)` suivant une loi Normale centrée-réduite, on a donc 95% de chances que sa valeur soit comprise dans l'intervalle `\([-1.96; 1.96]\)`. --- ## Représentation graphique <img src="StatsProbas_TC2A_TD4_files/figure-html/unnamed-chunk-2-1.png" style="display: block; margin: auto;" /> --- ## Intervalle de confiance d'une moyenne ### Si `\(\sigma\)` est connu On a l'intervalle de confiance suivant : `$$\hat\mu - u_{\alpha/2} \frac{\sigma}{\sqrt{n}} < \mu < \hat\mu + u_{\alpha/2} \frac{\sigma}{\sqrt{n}}$$` où `\(u_{\alpha/2}\)` est la valeur de la table de la loi normale pour laquelle `\(p(X > u_{\alpha/2}) = \frac{\alpha}{2}\)`. Puisqu'on choisit souvent `\(\alpha = 5\%\)`, on a `\(u_{\alpha/2} = 1.96\)`. --- ## Intervalle de confiance d'une moyenne ### Si `\(\sigma\)` n'est pas connu On utilise ici l'intervalle de confiance suivant: `$$\hat\mu - t_{\alpha/2} \frac{\hat{\sigma}}{\sqrt{n-1}} < \mu < \hat\mu + t_{\alpha/2} \frac{\hat{\sigma}}{\sqrt{n-1}}$$` où `\(t_{\alpha/2}\)` est la valeur de la table de la loi de *Student*, à `\(n-1\)` degrés de liberté, pour laquelle `\(p(X > t_{\alpha/2}) = \frac{\alpha}{2}\)`. Si `\(n\)` est grand (*i.a* `\(\ge 1000\)`), la loi de *Student* peut approximé par une loi Normale. --- ## Intervalle de confiance d'une proportion On se base sur le fait que si `\(n\)` est grand, alors la variable aléatoire de la proportion suit approximativement une loi normale. On obtient donc l'intervalle suivant `$$\hat{p} - u_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} < p < \hat{p} + u_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$$` On a toujours `\(u_{\alpha/2} = 1.96\)` pour `\(\alpha = 5\%\)`. --- ## Exemple d'estimations - On a mesuré le niveau de pluie pendant 9 ans, et on a obtenu les valeurs suivantes : - `\(\bar{x} = 610.2222\)` et `\(s = 111.5289\)` -- - `\(X\)` : niveau de pluie de la région - Suit une loi Normale `\(N(\mu, \sigma)\)` -- - Estimation de la moyenne `\(\mu\)` par `\(\bar{x} = 610.2222\)` -- - Estimation par intervalle de confiance à 5% : `\([537.3; 683.1]\)` --- class: center, middle, section # Tests statistiques --- ## Notions générales sur les tests statistiques - Idée : niveau de pluie en augmentation -- - Niveau de pluie suit une loi `\(N(600, 100)\)` (étude précédente) -- - Mesure du niveau de pluie pendant 9 ans - `\(\bar{x} = 610.2222\)` et `\(s = 111.5289\)` -- - Que peut-on conclure ? -- - Opposer deux hypothèses contradictoires : - [ `\(H_0\)` ] le niveau de pluie n'a pas augmenté, donc `\(\mu = 600\)` - [ `\(H_1\)` ] le niveau de pluie a augmenté, donc `\(\mu > 600\)`. -- - Choix d'une règle de décision --- ## Notions générales sur les tests statistiques ### Comment tester ces hypothèses ? - Intérêt naturel porté à `\(\hat\mu\)`, moyenne des observations, et donc estimation du niveau de pluie -- - Variable considérée comme la **variable de décision** -- - Si `\(H_0\)` vrai, `\(\hat\mu\)` suit une loi `\(N(600, \frac{100}{\sqrt{9}})\)` -- ### Règle de décision - Si `\(\hat\mu\)` est trop grand, choix de l'hypothèse `\(H_1\)` - Donc si `\(p(\hat\mu > k) = 0.05\)` - 5% de chance de se tromper - Sinon, conservation de `\(H_0\)` --- ## Notions générales sur les tests statistiques - Test avec `\(k = 600 + \frac{100}{\sqrt{9}} \times 1.64 = 655\)` - Si `\(\hat\mu > 655\)`, alors on rejette `\(H_0\)` pour conserver `\(H_1\)` - Si `\(\hat\mu \leq 655\)`, alors on conserve `\(H_0\)` -- ### Ensemble des évènements - `\(\{\hat\mu > 655\}\)` : **région critique** ou région de rejet - `\(\{\hat\mu \leq 655\}\)` : **région d'acceptation** -- .example[ ### Sur les données `\(\hat\mu = 610.2\)` `\(\rightarrow\)` Conservation de `\(H_0\)` (pas d'augmentation du niveau de pluie) ] --- ## Notions générales sur les tests statistiques ### Mais il existe une possibilité de se tromper -- - Croire le chercheur alors qu'il avait tort -- - Ne pas croire ce chercheur alors qu'il avait raison -- Test présentant une forte probabilité d'être inexact -- ### Augmentation de la pluie Le niveau suit finalement une loi `\(N(650,\frac{100}{\sqrt 9})\)` -- #### Erreur commise quand `\(\hat\mu\)` inférieur à 655 - Probabilité `\(\beta = p(\hat\mu < 655)\)` - `\(u = \frac{\hat\mu - 650}{100 / \sqrt 9}\)` suit une loi `\(N(0,1)\)` - `\(\beta = p(u < \frac{655 - 650}{100 / \sqrt 9}) = p(u < 0.15)\)` - `\(\beta = 0.56\)`, ce qui est effectivement considérable --- ## Notions générales sur les tests statistiques - Deux probabilités d'erreur - `\(\alpha\)` : risque de première espèce - `\(\beta\)` : risque de seconde espèce -- | | `\(H_0\)` vraie | `\(H_1\)` vraie | |-|-|-| | Choix `\(H_0\)` | `\(1 - \alpha\)` | `\(\beta\)` | | Choix `\(H_1\)` | `\(\alpha\)` | `\(1 - \beta\)` | -- - Dans la pratique, plus d'importance à l'hypothèse nulle - Calcul de `\(\beta\)` souvent impossible - `\(1 - \beta\)` est appelé **puissance du test** - Choix des probabilités d'erreur `\(\alpha\)` de 5%, 1% ou 10% --- ## Notions générales sur les tests statistiques ### Pour effectuer un test, voici les étapes à suivre -- 1. Etablir deux **hypothèses contradictoires**, -- 1. Déterminer la **variable de décision**, -- 1. Calculer la **région critique** en fonction de `\(\alpha\)`, -- 1. Calculer si possible la puissance `\(1 - \beta\)`, -- 1. Calculer la **valeur expérimentale** de la variable de décision, -- 1. **Conclure** : rejet ou acceptation de `\(H_0\)`. -- ### Types de test -- - **Unilatéral** : on cherche à tester si une variable a une moyenne supérieure (ou inférieure) à une certaine valeur - risque sur un seul côté -- - **Bilatéral** : on cherche à tester si une variable a une moyenne égale à une certaine valeur - risque des deux côtés --- ## Exemple de test - Niveau de pluie suit une loi `\(N(600, 100)\)` (étude précédente) -- - Est-ce toujours le même ? -- - On a mesuré le niveau de pluie pendant 9 ans, et on a obtenu les valeurs suivantes : - `\(\bar{x} = 610.2222\)` et `\(s = 111.5289\)` - Intervalle de confiance à 5% : `\([537.3; 683.1]\)` -- - Hypothèses - [ `\(H_0\)` ] : le niveau n'a pas changé - [ `\(H_1\)` ] : le niveau a changé -- - Région critique : en dehors de l'intervalle de confiance -- `\(\rightarrow\)` **Conservation** de `\(H_0\)` (pas de changement du niveau de pluie)