mardi 26 novembre 2013

Illustration de la loi faible des grands nombres

Un des résultats les plus important de la théorie des probabilités est certainement la loi des grands nombres. Si on dispose d'une suite d'échantillons $(X_i)_{i=1,\dots,n}$ obtenus à partir d'une variable aléatoire $X$ alors la moyenne des $(X_i)_{i=1,\dots,n}$  doit tendre vers ${\mathbb E}(X)=\mu$ l'espérance de $X$ :

$$\forall \varepsilon>0~~~~\lim_{n\to+\infty}{\mathbb P}\left(\left\vert {X_1+X_2+\dots+X_n\over n}-\mu\right\vert>\varepsilon\right)=0$$

Cette définition correspond à la convergence en probabilité  des moyennes empiriques vers l'espérence, c'est ce qu'on appelle aussi  loi faible des grands nombres. Cette loi peut être  démontré  avec des outils relativement simples, essentiellement l'inégalité de Chebychev, et elle sert de base pour justifier l'utilisation des statistiques  (et  donner une justification mathématique aux sondages d'opinions). Par exemple dans l'animation ci-dessous on a simulé  N fois " le lancer d'un dé équilibré "  et fait l'histogramme des N valeurs obtenues pour n variant de 500 à 1000000.   Lorsque N augmente on voit que les fréquences observées de chaque résultat  tendent bien vers la fréquence théorique de 1/6, les écarts par rapport à cette fréquence théorique étant majorés par une valeur proportionnelle à  $1/\sqrt{N}$ :
fréquences d'apparition des face d'un dé  pour N lancers
Quelques théorèmes
Pour démontrer la loi faible des grands nombres il faut commencer par démontrer l'inégalité de Markov

Théorème (Inégalité de Markov ) si X est une variable aléatoire  positive qui possède une espérance ${\mathbb E}(X)$ alors $$\forall t>0,~~~~~{\mathbb P}(X\geq t)\leq {{\mathbb E}(X)\over t}$$
La démonstration est astucieuse mais élémentaire :
$$\begin{eqnarray*}
{\mathbb P}(X\geq t)&=&\sum_{k\geq t} {\mathbb P}(X=k)\\
&=&\sum_{k\geq t} {k\over k}{\mathbb P}(X=k)\\
&\leq &\sum_{k\geq t} {k\over t}{\mathbb P}(X=k)~~~\text{car $k\geq t$}\\
&\leq &{1\over t}\sum_{k\geq t} {k}{\mathbb P}(X=k)\leq   {{\mathbb E}(X)\over t}\\
\end{eqnarray*}$$
dans le cas d'une variable aléatoire continue, de densité $f_X$, la démonstration est tout à fait similaire mais avec des intégrales :
$$\begin{eqnarray*}
{\mathbb P}(X\geq t)&=&\int_t^\infty f_X(x) dx\\
&\leq &\int_t^\infty {x\over t}f_X(x) dx\\
&\leq &{1\over t}\int_t^\infty {x}f_X(x) dx\leq {{\mathbb E}(X)\over t}\\
\end{eqnarray*}$$

Théorème (Inégalité de Chebychev) si X est une variable aléatoire  positive qui possède une espérance ${\mathbb E}(X)$ et un écart-type $\sigma=\sqrt{{\rm Var}(X)}$ alors $$\forall s>0,~~~~~{\mathbb P}(\vert X- {\mathbb E}(X)\vert \geq \sigma s )\leq {1\over s^2}$$
il suffit d'appliquer l'inégalité de Markov, pour la valeur $t=\sigma^2s^2>0$, à $Y=\vert X-{\mathbb E}(X)\vert ^2$   qui possède une espérance ${\mathbb E}(Y)={\mathbb E}(\vert X-{\mathbb E}(X)\vert ^2)=\sigma^2$  donc
$${\mathbb P}(Y\geq \sigma^2s^2)\leq {{\mathbb E}(X)\over \sigma^2s^2}= {\sigma^2\over \sigma^2s^2}= {1\over s^2}$$
il reste à remarquer que :
$${\mathbb P}(\vert X- {\mathbb E}(X)\vert^2\geq \sigma^2s^2)={\mathbb P}(\vert X- {\mathbb E}(X)\vert\geq \sigma s)$$

Théorème (Loi faible des grand nombres) si $(X_i)_{i=1,\dots,n}$  sont  des variables aléatoires discrètes indépendantes et de même loi  que $X$, d'espérance $\mu={\mathbb E}(X) $ et d'écart-type $\sigma=\sqrt{{\rm Var}(X)}$ alors $$\forall t>0,~~~~~{\mathbb P}\left(\left\vert {X_1+X_2+\dots+X_n\over n}- \mu \right\vert \geq \sigma t \right)\leq {1\over n t^2}$$

on applique l'inégalité de Chebychev  en $s= \sqrt{n}t$ à la variable $Y_n={X_1+X_2+\dots+X_n\over n}$ :
  •  d'espérance ${\mathbb E}(Y_n)=n{\mathbb E}(X) /n=\mu$
  • de variance ${\rm Var}(Y_n)= n {\rm Var}(X)/n^2=\sigma^2/n$
d'où
$${\mathbb P}\left(\vert Y_n- \mu\vert \geq {\sigma\over\sqrt{n}} t \sqrt{n} \right)\leq {1\over n t^2}$$

Application aux statistiques 
Dans le cas d'une variable discrète, on peut  adapter cette inégalité à la comparaison des fréquences empiriques et théorique d'une variable aléatoire X.  Si on fixe un cas de probabilité  $p={\mathbb P}(X=k)$,  il suffit de définir
$$Y=\left\{
\begin{array}{rcl}
1&si& X=k\\
0&sinon&\\
\end{array}
\right.$$
qui est une variable aléatoire de Bernoulli de paramètre p (donc  ${\mathbb E}(Y)=p$  et $\sigma^2={\rm Var}(Y)=p(1-p)\leq 1/4$) à laquelle on applique l'inégalité de Chebychev. La moyenne empirique des répétitions $Y_i$ de $Y$  sera alors f la fréquence  empirique de $X=k$  ce qui donne pour $t^2=1/(n\alpha)$ :
$${\mathbb P}\left(X=k \right)C_n^k p^k(1-p)^{n-k}={k!\over 10!(10-k)!}{1\over 2^{10}}$$
$\alpha$   représente le niveau de risque   que l'écart entre fréquence empirique et théorique soit plus grand que $\sqrt{\sigma\over n\alpha}$ .  Si on remarque que $\sigma=p(1-p)\leq 1/4$ alors on obtient que l'écart  est inférieur à $1\over 2\sqrt{n\alpha}$  qui tend bien vers 0 quand n augmente. Dans la pratique on voit que pour un risque de 1% ($\alpha=0.01$)  l'écart constaté est souvent beaucoup plus faible que  la limite théorique (mais il peut toujours la dépasser!).   Voici un autre exemple  obtenu en  simulant les tirages suivant une loi Binomiale de paramètres $n=10$ et $p=1/2$  (qui modélise par exemple le nombre de "pile" obtenus lors de 10 lancés d'une pièce équilibrée)  on verra de la même manière les fréquences empiriques se stabiliser vers les valeurs des fréquences théoriques données par la formule $${\mathbb P}\left(X=k \right)\C_n^k p (1-p)^{n-k}={k!\over 10!(10-k)!}{1\over 2^{10}}$$

Malgré sa simplicité  et la place de plus en plus importante des statistiques dans les programmes de mathématiques,  la loi faible des grands nombres me semble souvent mal enseignée (voir pas justifiée) car on préfère  donner aux étudiants  le théorème central limite  (le plus sans démonstration) . Cet outil  est certes bien plus puissant que l'inégalité précédente puisque celui-ci donne des indications  précises sur les écarts entre fréquences empiriques et théoriques en  établissant une convergence vers une loi au lieu d'une simple majoration.  C'est dommage car  une démonstration  complète du théorème central limite passe en général par l'inégalité de Chebychev ...

Théorème Central Limite soient $(X_i)_{i=1,\dots,n}$ des variables aléatoires discrètes indépendantes et de même loi que $X$, d'espérance $\mu={\mathbb E}(X) $ et d'écart-type $\sigma=\sqrt{{\rm Var}(X)}$ et $S_n={X_1+X_2+\dots+X_n\over n}$ alors ${S_n-{\mathbb E}(X)\over \sigma/\sqrt{n}}$ converge en probabilité vers une loi Normale centrée réduite ${\mathcal N}(0,1)$ c'est à dire que ; $$\lim_{n\to\infty}{\mathbb P}\left({S_n-{\mathbb E}(X)\over \sigma/\sqrt{n}}<z\right)=\int_{-\infty}^z {e^{-t^2/2}\over \sqrt{2\pi}}dt$$
Allez encore une petite animation pour visualiser cette loi avec ici $X_i=$ résultat du lancer d'un dé équilibré (${\mathbb E}(X_i)=3.5$ et $\sigma=\sqrt{35/12}$.




Pour finir il existe un autre résultat,  moins évident à comprendre, appelé loi forte des grands nombres qui affirme la convergence presque sûre des moyennes empiriques vers l'espérence $${\mathbb P}\left( \lim_{n\to+\infty}{X_1+X_2+\dots+X_n\over n}=\mu \right)=1$$ La première démonstration beaucoup  plus complexe que pour la loi faible des grands nombres, est due à Kolmogorov.

Aucun commentaire:

Enregistrer un commentaire

Pour écrire des formules mathématiques vous pouvez utiliser la syntaxe latex en mettant vos formules entre des "dollars" $ \$....\$ $ par exemple :
- $\sum_{n=1}^\infty {1\over n^2}={\pi^2\over 6}$ s'obtient avec \sum_{n=1}^\infty {1\over n^2}={\pi^2\over 6}
- $\mathbb R$ s'obtient avec {\mathbb R} et $\mathcal D$ s'obtient avec {\mathcal D}
- pour les crochets $\langle .,. \rangle$ dans les commentaires utilisez \langle .,. \rangle
vous pouvez écrire du html dans les commentaires :
- italique <i> ... </i> gras <b> ... </b>
- lien <a href="http://adresse "> .... </a>