Mesure empirique

En probabilité, la mesure empirique est une mesure aléatoire calculée à partir de la réalisation d'un échantillon, c'est-à-dire de la réalisation d'une séquence de variables aléatoires. Cette notion est très utilisée en statistique. La motivation principale de l'étude de cette mesure vient du fait qu'elle nous permet de connaître la mesure de probabilité réelle P {\displaystyle P} qui est inconnue. Les théorèmes concernant les processus empiriques permettent de donner les vitesses de convergence de cette mesure.

Définition et propriétés

Soit X 1 , X 2 , {\displaystyle X_{1},X_{2},\dots } une suite de variables aléatoires indépendantes et identiquement distribuées (i.i.d.) de mesure de probabilité P {\displaystyle P} (pas nécessairement connue) à valeurs dans un ensemble X {\displaystyle {\mathcal {X}}} .

Définition

La mesure empirique P n {\displaystyle P_{n}} est la mesure de probabilité discrète définie par P n ( A ) = 1 n i = 1 n 1 A ( X i ) = 1 n i = 1 n δ X i ( A ) {\displaystyle P_{n}(A)={\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{A}(X_{i})={\frac {1}{n}}\sum _{i=1}^{n}\delta _{X_{i}}(A)} 1 A {\displaystyle \mathbf {1} _{A}} est la fonction indicatrice et δ X {\displaystyle \delta _{X}} est la mesure de Dirac. On peut généraliser cette définition à des classes de fonctions mesurables à valeurs réelles en définissant la mesure empirique P n {\displaystyle P_{n}} par P n ( f ) = X f d P n = 1 n i = 1 n f ( X i ) {\displaystyle P_{n}(f)=\int _{\mathcal {X}}f\mathrm {d} P_{n}={\frac {1}{n}}\sum _{i=1}^{n}f(X_{i})} pour toute fonction f : X R {\displaystyle f:{\mathcal {X}}\to \mathbb {R} } mesurable.

En particulier, la mesure empirique P n ( A ) {\displaystyle P_{n}(A)} est la mesure empirique de la fonction indicatrice 1 A {\displaystyle \mathbf {1} _{A}} .

Propriétés

Propriétés de la mesure empirique classique

  • Pour un ensemble mesurable A {\displaystyle A} , n P n ( A ) {\displaystyle nP_{n}(A)} est une variable aléatoire binomiale de paramètres ( n ; P ( A ) ) {\displaystyle (n;P(A))} . En particulier, P n ( A ) {\displaystyle P_{n}(A)} est un estimateur non biaisé de P ( A ) {\displaystyle P(A)} .
  • Si ( A i ) 1 i n {\displaystyle (A_{i})_{1\leq i\leq n}} forme une partition de X {\displaystyle {\mathcal {X}}} alors les variables aléatoires X i = n P n ( A i ) {\displaystyle X_{i}=nP_{n}(A_{i})} sont des multinomiales de paramètres n {\displaystyle n} et P ( A i ) {\displaystyle P(A_{i})} .
  • Si on note α n X {\displaystyle \alpha _{n}^{X}} le processus empirique défini par α n X ( t ) = 1 n ( i = 1 1 { X i t } F ( t ) ) {\displaystyle \alpha _{n}^{X}(t)={\frac {1}{\sqrt {n}}}\left(\sum _{i=1}\mathbf {1} _{\{X_{i}\leq t\}}-F(t)\right)} , on peut définir ce dernier via la mesure empirique : α n X = n ( P n P ) P n = P + α n X n . {\displaystyle \alpha _{n}^{X}={\sqrt {n}}(P_{n}-P)\Leftrightarrow P_{n}=P+{\frac {\alpha _{n}^{X}}{\sqrt {n}}}.}

Propriétés de la mesure empirique généralisée

  • Pour une fonction mesurable fixée f , P n ( f ) {\displaystyle f,P_{n}(f)} est une variable aléatoire de moyenne E [ f ] {\displaystyle \mathbb {E} [f]} et de variance 1 n E [ ( f E [ f ] ) 2 ] {\displaystyle {\frac {1}{n}}\mathbb {E} [(f-\mathbb {E} [f])^{2}]} .
  • D'après la loi forte des grands nombres, P n ( f ) {\displaystyle P_{n}(f)} converge p.s. vers E [ f ] {\displaystyle \mathbb {E} [f]} pour une fonction mesurable f {\displaystyle f} fixée.
  • La mesure empirique indexée par une classe de fonctions s'exprime avec le processus empirique indexé par une classe de fonctions de la même manière que la mesure empirique :
    α n X ( f ) = 1 n ( i = 1 n f ( X i ) E [ f ( X i ) ] ) {\displaystyle \alpha _{n}^{X}(f)={\frac {1}{\sqrt {n}}}\left(\sum _{i=1}^{n}f(X_{i})-\mathbb {E} [f(X_{i})]\right)} .

Principe des grandes déviations

Article détaillé : Théorème de Sanov.

En 1957, Sanov[1] établit que la mesure empirique suit le principe des grandes déviations avec pour fonction taux la divergence de Kullback-Leibler. En particulier, la probabilité que la mesure empirique appartienne à un ensemble auquel n'appartient pas la loi mère (i.e. P {\displaystyle P} ) de l'échantillon est exponentiellement décroissante par rapport à la taille de l'échantillon. Une preuve simple faisant appel à des résultats élémentaires de topologie a été proposée en 2006 par Csiszár[2].

Classes de Glivenko-Cantelli et de Donsker

Classe de Glivenko-Cantelli

Articles détaillés : Théorème de Glivenko-Cantelli et Classe de Glivenko-Cantelli.

Le théorème de Glivenko-Cantelli affirme que la fonction de répartition empirique F n ( t ) = P n ( ] , t ] ) {\displaystyle F_{n}(t)=P_{n}(]-\infty ,t])} converge uniformément vers la fonction de répartition F {\displaystyle F} de la variable étudiée. Pour généraliser ce résultat, on nomme les classes de Glivenko-Cantelli les classes des fonctions mesurables à valeurs réelles pour lesquels la mesure empirique converge uniformément vers la mesure théorique. En d'autres mots, C {\displaystyle {\mathcal {C}}} est une classe de Glivenko-Cantelli si

lim n + | | P n P | | C = lim n + sup C C | P n ( C ) P ( C ) | = 0 {\displaystyle \lim _{n\to +\infty }||P_{n}-P||_{\mathcal {C}}=\lim _{n\to +\infty }\sup _{C\in {\mathcal {C}}}|P_{n}(C)-P(C)|=0} .

Classe de Donsker

Article détaillé : Classe de Donsker.

Le théorème de Donsker affirme lui que le processus empirique α n X {\displaystyle \alpha _{n}^{X}} converge en loi vers un pont brownien. Pour généraliser cela, on nomme classes de Donsker les classes des fonctions auxquelles la mesure empirique centrée et normalisée converge en loi vers un pont brownien. En d'autres mots, C {\displaystyle {\mathcal {C}}} est une classe de Donsker si α n L n + G  dans  ( C ) {\displaystyle \alpha _{n}{\underset {n\to +\infty }{\overset {\mathcal {L}}{\longrightarrow }}}\mathbb {G} {\text{ dans }}\ell ^{\infty }({\mathcal {C}})} .

Articles connexes

Ouvrages

  • (en) P. Billingsley, Probability and Measure, New York, John Wiley and Sons, , Third éd., 622 p. (ISBN 0-471-80478-9)
  • (en) M. D. Donsker, « Justification and extension of Doob's heuristic approach to the Kolmogorov–Smirnov theorems », Annals of Mathematical Statistics, vol. 23, no 2,‎ , p. 277–281 (DOI 10.1214/aoms/1177729445)
  • (en) R. M. Dudley, « Central limit theorems for empirical measures », Annals of Probability, vol. 6, no 6,‎ , p. 899–929 (DOI 10.1214/aop/1176995384, JSTOR 2243028)
  • (en) R. M. Dudley, Uniform Central Limit Theorems, vol. 63, Cambridge, UK, Cambridge University Press, coll. « Cambridge Studies in Advanced Mathematics », , 436 p. (ISBN 0-521-46102-2, lire en ligne)
  • (en) J. Wolfowitz, « Generalization of the theorem of Glivenko–Cantelli », Annals of Mathematical Statistics, vol. 25, no 1,‎ , p. 131–138 (DOI 10.1214/aoms/1177728852, JSTOR 2236518)

Références

  1. (en) I. N. Sanov, « On the probability of large deviations of random variables », Matematicheskii Sbornik,‎ , p. 11-44 (lire en ligne)
  2. (en) I. Csiszár, « A simple proof of Sanov’s theorem », Bull Braz Math Soc, vol. 37,‎ , p. 453-459 (lire en ligne)
  • icône décorative Portail des probabilités et de la statistique