Un des résultats les plus important de la théorie des probabilités est certainement la loi des grands nombres. Si on dispose d'une suite d'échantillons $(X_i)_{i=1,\dots,n}$ obtenus à partir d'une variable aléatoire $X$ alors la moyenne des $(X_i)_{i=1,\dots,n}$ doit tendre vers ${\mathbb E}(X)=\mu$ l'espérance de $X$ :
$$\forall \varepsilon>0~~~~\lim_{n\to+\infty}{\mathbb P}\left(\left\vert {X_1+X_2+\dots+X_n\over n}-\mu\right\vert>\varepsilon\right)=0$$
Cette définition correspond à la convergence en probabilité des moyennes empiriques vers l'espérence, c'est ce qu'on appelle aussi loi faible des grands nombres. Cette loi peut être démontré avec des outils relativement simples, essentiellement l'inégalité de Chebychev, et elle sert de base pour justifier l'utilisation des statistiques (et donner une justification mathématique aux sondages d'opinions). Par exemple dans l'animation ci-dessous on a simulé N fois " le lancer d'un dé équilibré " et fait l'histogramme des N valeurs obtenues pour n variant de 500 à 1000000. Lorsque N augmente on voit que les fréquences observées de chaque résultat tendent bien vers la fréquence théorique de 1/6, les écarts par rapport à cette fréquence théorique étant majorés par une valeur proportionnelle à $1/\sqrt{N}$ :
fréquences d'apparition des face d'un dé pour N lancers |
Pour démontrer la loi faible des grands nombres il faut commencer par démontrer l'inégalité de Markov
Théorème (Inégalité de Markov ) si X est une variable aléatoire positive qui possède une espérance ${\mathbb E}(X)$ alors $$\forall t>0,~~~~~{\mathbb P}(X\geq t)\leq {{\mathbb E}(X)\over t}$$
La démonstration est astucieuse mais élémentaire :$$\begin{eqnarray*}
{\mathbb P}(X\geq t)&=&\sum_{k\geq t} {\mathbb P}(X=k)\\
&=&\sum_{k\geq t} {k\over k}{\mathbb P}(X=k)\\
&\leq &\sum_{k\geq t} {k\over t}{\mathbb P}(X=k)~~~\text{car $k\geq t$}\\
&\leq &{1\over t}\sum_{k\geq t} {k}{\mathbb P}(X=k)\leq {{\mathbb E}(X)\over t}\\
\end{eqnarray*}$$
dans le cas d'une variable aléatoire continue, de densité $f_X$, la démonstration est tout à fait similaire mais avec des intégrales :
$$\begin{eqnarray*}
{\mathbb P}(X\geq t)&=&\int_t^\infty f_X(x) dx\\
&\leq &\int_t^\infty {x\over t}f_X(x) dx\\
&\leq &{1\over t}\int_t^\infty {x}f_X(x) dx\leq {{\mathbb E}(X)\over t}\\
\end{eqnarray*}$$
Théorème (Inégalité de Chebychev) si X est une variable aléatoire positive qui possède une espérance ${\mathbb E}(X)$ et un écart-type $\sigma=\sqrt{{\rm Var}(X)}$ alors $$\forall s>0,~~~~~{\mathbb P}(\vert X- {\mathbb E}(X)\vert \geq \sigma s )\leq {1\over s^2}$$
il suffit d'appliquer l'inégalité de Markov, pour la valeur $t=\sigma^2s^2>0$, à $Y=\vert X-{\mathbb E}(X)\vert ^2$ qui possède une espérance ${\mathbb E}(Y)={\mathbb E}(\vert X-{\mathbb E}(X)\vert ^2)=\sigma^2$ donc$${\mathbb P}(Y\geq \sigma^2s^2)\leq {{\mathbb E}(X)\over \sigma^2s^2}= {\sigma^2\over \sigma^2s^2}= {1\over s^2}$$
il reste à remarquer que :
$${\mathbb P}(\vert X- {\mathbb E}(X)\vert^2\geq \sigma^2s^2)={\mathbb P}(\vert X- {\mathbb E}(X)\vert\geq \sigma s)$$
Théorème (Loi faible des grand nombres) si $(X_i)_{i=1,\dots,n}$ sont des variables aléatoires discrètes indépendantes et de même loi que $X$, d'espérance $\mu={\mathbb E}(X) $ et d'écart-type $\sigma=\sqrt{{\rm Var}(X)}$ alors $$\forall t>0,~~~~~{\mathbb P}\left(\left\vert {X_1+X_2+\dots+X_n\over n}- \mu \right\vert \geq \sigma t \right)\leq {1\over n t^2}$$
on applique l'inégalité de Chebychev en $s= \sqrt{n}t$ à la variable $Y_n={X_1+X_2+\dots+X_n\over n}$ :
- d'espérance ${\mathbb E}(Y_n)=n{\mathbb E}(X) /n=\mu$
- de variance ${\rm Var}(Y_n)= n {\rm Var}(X)/n^2=\sigma^2/n$
$${\mathbb P}\left(\vert Y_n- \mu\vert \geq {\sigma\over\sqrt{n}} t \sqrt{n} \right)\leq {1\over n t^2}$$
Application aux statistiques
Dans le cas d'une variable discrète, on peut adapter cette inégalité à la comparaison des fréquences empiriques et théorique d'une variable aléatoire X. Si on fixe un cas de probabilité $p={\mathbb P}(X=k)$, il suffit de définir
$$Y=\left\{
\begin{array}{rcl}
1&si& X=k\\
0&sinon&\\
\end{array}
\right.$$
qui est une variable aléatoire de Bernoulli de paramètre p (donc ${\mathbb E}(Y)=p$ et $\sigma^2={\rm Var}(Y)=p(1-p)\leq 1/4$) à laquelle on applique l'inégalité de Chebychev. La moyenne empirique des répétitions $Y_i$ de $Y$ sera alors f la fréquence empirique de $X=k$ ce qui donne pour $t^2=1/(n\alpha)$ :
$${\mathbb P}\left(X=k \right)C_n^k p^k(1-p)^{n-k}={k!\over 10!(10-k)!}{1\over 2^{10}}$$
$\alpha$ représente le niveau de risque que l'écart entre fréquence empirique et théorique soit plus grand que $\sqrt{\sigma\over n\alpha}$ . Si on remarque que $\sigma=p(1-p)\leq 1/4$ alors on obtient que l'écart est inférieur à $1\over 2\sqrt{n\alpha}$ qui tend bien vers 0 quand n augmente. Dans la pratique on voit que pour un risque de 1% ($\alpha=0.01$) l'écart constaté est souvent beaucoup plus faible que la limite théorique (mais il peut toujours la dépasser!). Voici un autre exemple obtenu en simulant les tirages suivant une loi Binomiale de paramètres $n=10$ et $p=1/2$ (qui modélise par exemple le nombre de "pile" obtenus lors de 10 lancés d'une pièce équilibrée) on verra de la même manière les fréquences empiriques se stabiliser vers les valeurs des fréquences théoriques données par la formule $${\mathbb P}\left(X=k \right)\C_n^k p (1-p)^{n-k}={k!\over 10!(10-k)!}{1\over 2^{10}}$$
Malgré sa simplicité et la place de plus en plus importante des statistiques dans les programmes de mathématiques, la loi faible des grands nombres me semble souvent mal enseignée (voir pas justifiée) car on préfère donner aux étudiants le théorème central limite (le plus sans démonstration) . Cet outil est certes bien plus puissant que l'inégalité précédente puisque celui-ci donne des indications précises sur les écarts entre fréquences empiriques et théoriques en établissant une convergence vers une loi au lieu d'une simple majoration. C'est dommage car une démonstration complète du théorème central limite passe en général par l'inégalité de Chebychev ...
Théorème Central Limite soient $(X_i)_{i=1,\dots,n}$ des variables aléatoires discrètes indépendantes et de même loi que $X$, d'espérance $\mu={\mathbb E}(X) $ et d'écart-type $\sigma=\sqrt{{\rm Var}(X)}$ et $S_n={X_1+X_2+\dots+X_n\over n}$ alors ${S_n-{\mathbb E}(X)\over \sigma/\sqrt{n}}$ converge en probabilité vers une loi Normale centrée réduite ${\mathcal N}(0,1)$ c'est à dire que ; $$\lim_{n\to\infty}{\mathbb P}\left({S_n-{\mathbb E}(X)\over \sigma/\sqrt{n}}<z\right)=\int_{-\infty}^z {e^{-t^2/2}\over \sqrt{2\pi}}dt$$
Allez encore une petite animation pour visualiser cette loi avec ici $X_i=$ résultat du lancer d'un dé équilibré (${\mathbb E}(X_i)=3.5$ et $\sigma=\sqrt{35/12}$.
Pour finir il existe un autre résultat, moins évident à comprendre, appelé loi forte des grands nombres qui affirme la convergence presque sûre des moyennes empiriques vers l'espérence $${\mathbb P}\left( \lim_{n\to+\infty}{X_1+X_2+\dots+X_n\over n}=\mu \right)=1$$ La première démonstration beaucoup plus complexe que pour la loi faible des grands nombres, est due à Kolmogorov.
Aucun commentaire:
Enregistrer un commentaire
Pour écrire des formules mathématiques vous pouvez utiliser la syntaxe latex en mettant vos formules entre des "dollars" $ \$....\$ $ par exemple :
- $\sum_{n=1}^\infty {1\over n^2}={\pi^2\over 6}$ s'obtient avec \sum_{n=1}^\infty {1\over n^2}={\pi^2\over 6}
- $\mathbb R$ s'obtient avec {\mathbb R} et $\mathcal D$ s'obtient avec {\mathcal D}
- pour les crochets $\langle .,. \rangle$ dans les commentaires utilisez \langle .,. \rangle
vous pouvez écrire du html dans les commentaires :
- italique <i> ... </i> gras <b> ... </b>
- lien <a href="http://adresse "> .... </a>