V-statistique

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.
Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.

La mise en forme de cet article est à améliorer ().

La mise en forme du texte ne suit pas les recommandations de Wikipédia : il faut le « wikifier ».

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.
Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.

Cet article est orphelin. Moins de trois articles lui sont liés ().

Vous pouvez aider en ajoutant des liens vers [[V-statistique]] dans les articles relatifs au sujet.

Les statistiques V sont une classe de statistiques nommée en l'honneur de Richard von Mises qui a développé sa théorie de la distribution asymptotique dans un article fondamental en 1947[1]. Les statistiques V sont étroitement liées aux U-statistiques [2],[3] (U pour « unbiased », non biaisées) introduites par Wassily Hoeffding en 1948[4]. Une V-statistique est une fonction statistique (d'un échantillon) définie par une fonctionnelle statistique particulière d'une distribution de probabilité.

Fonctions statistiques

Statistiques pouvant être représentées sous forme de fonctionnelles T ( F n ) {\displaystyle T(F_{n})} de la fonction de distribution empirique ( F n ) {\displaystyle (F_{n})} sont appelées fonctionnelles statistiques[5]. La différentiabilité de la fonctionnelle T joue un rôle clé dans l'approche de von Mises ; ainsi von Mises considère des fonctionnelles statistiques différentiables.

Exemples de fonctions statistiques

  1. Le k-ième moment central est la fonctionnelle : T ( F ) = ( x μ ) k d F ( x ) {\displaystyle T(F)=\int (x-\mu )^{k}\,dF(x)} , où : μ = E [ X ] {\displaystyle \mu =E[X]} , est l'espérance de X. La fonction statistique associée au k-ième moment central de l'échantillon est :
    T n = m k = T ( F n ) = 1 n i = 1 n ( x i x ¯ ) k . {\displaystyle T_{n}=m_{k}=T(F_{n})={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{k}.}
  2. La statistique d'adéquation du chi-carré est une fonction statistique T(Fn), correspondant à la fonctionnelle statistique :
    T ( F ) = i = 1 k ( A i d F p i ) 2 p i , {\displaystyle T(F)=\sum _{i=1}^{k}{\frac {(\int _{A_{i}}\,dF-p_{i})^{2}}{p_{i}}},} Ai sont cellules du tableau de contingence et pi sont les probabilités spécifiées des cellules sous l'hypothèse nulle.
  3. Les statistiques d'ajustement de Cramér – von-Mises et Anderson – Darling sont basées sur la fonction :
    T ( F ) = ( F ( x ) F 0 ( x ) ) 2 w ( x ; F 0 ) d F 0 ( x ) , {\displaystyle T(F)=\int (F(x)-F_{0}(x))^{2}\,w(x;F_{0})\,dF_{0}(x),} w ( X ; F 0 ) {\displaystyle w(X;F_{0})} est une fonction de pondération et F 0 {\displaystyle F_{0}} est une distribution nulle, toutes deux spécifiées. Si w {\displaystyle w} est la fonction d'identité, alors T ( F n ) {\displaystyle T(F_{n})} est la statistique d'ajustement de Cramér – von-Mises bien connue ; si w ( x ; F 0 ) = [ F 0 ( x ) ( 1 F 0 ( x ) ) ] 1 {\displaystyle w(x;F_{0})=[F_{0}(x)(1-F_{0}(x))]^{-1}} alors T ( F n ) {\displaystyle T(F_{n})} est la statistique d'Anderson – Darling.

Représentation sous forme de V-statistique

Supposons que : x1,..., xn, est un échantillon. Dans les applications typiques, la fonction statistique a une représentation sous la forme de la V-statistique.

V 2 , n = 1 n 2 i = 1 n j = 1 n h ( x i , x j ) , {\displaystyle V_{2,n}={\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}h(x_{i},x_{j}),}

h est un noyau symétrique. Serfling [6] explique comment trouver le noyau en pratique. Vmn est alors appelée V-statistique de degré m.

Un noyau symétrique de degré 2 est une fonction h(x, y), tel que h(x, y) = h(y, x) pour tous x et y dans le domaine de h. Pour les échantillons x1,... ,xn, la V-statistique correspondante est définie comme :

V m n = 1 n m i 1 = 1 n i m = 1 n h ( x i 1 , x i 2 , , x i m ) . {\displaystyle V_{mn}={\frac {1}{n^{m}}}\sum _{i_{1}=1}^{n}\cdots \sum _{i_{m}=1}^{n}h(x_{i_{1}},x_{i_{2}},\dots ,x_{i_{m}}).}

Exemple de V-statistique

  1. Un exemple de V-statistique de degré 2 est le deuxième moment central m 2. Si h(x, y) = (xy)2/2, la V-statistique correspondante est : V 2 , n = 1 n 2 i = 1 n j = 1 n 1 2 ( x i x j ) 2 = 1 n i = 1 n ( x i x ¯ ) 2 , {\displaystyle V_{2,n}={\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}{\frac {1}{2}}(x_{i}-x_{j})^{2}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2},} qui est l'estimateur du maximum de vraisemblance de la variance. Avec le même noyau, la U-statistique correspondante est la variance de l'échantillon (sans biais) : s 2 = ( n 2 ) 1 i < j 1 2 ( x i x j ) 2 = 1 n 1 i = 1 n ( x i x ¯ ) 2 {\displaystyle s^{2}={n \choose 2}^{-1}\sum _{i<j}{\frac {1}{2}}(x_{i}-x_{j})^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}} .

Distribution asymptotique

Dans les exemples 1 à 3, la distribution asymptotique de la statistique est différente : dans (1) c'est normal, dans (2) c'est le chi-carré et dans (3) c'est une somme pondérée de variables du chi-carré.

L'approche de Von Mises est une théorie unificatrice qui couvre tous les cas ci-dessus. De manière informelle, le type de distribution asymptotique d'une fonction statistique dépend de l'ordre de « dégénérescence », qui est déterminé par le rang du premier premier terme non nul du développement de Taylor de la fonction statistique. T. Dans le cas où il s'agit du terme linéaire, la distribution limite est normale ; sinon, des types de distributions d'ordre supérieur apparaissent (dans des conditions appropriées telles qu'un théorème central limite est valable).

Il existe une hiérarchie de cas similaire à la théorie asymptotique des U-statistiques[7]. Soit A(m) la propriété définie par :

A(m) :
  1. Var(h(X 1,..., Xk)) = 0 pour k < m, et Var(h(X 1,..., X k)) > 0 pour k = m ;
  2. n m / 2 R m n {\displaystyle n^{m/2}R_{mn}} tend vers zéro (en probabilité), où R m n {\displaystyle R_{mn}} est le terme restant de la série de Taylor pour T.

Cas m = 1 (noyau non dégénéré) :

Si A(1) est vraie, la statistique est une moyenne d'échantillon et le théorème central limite implique que T(Fn) est asymptotiquement normal.

Dans l'exemple de variance (4), m2 est asymptotiquement normal avec une moyenne σ 2 {\displaystyle \sigma ^{2}} et de variance ( μ 4 σ 4 ) / n {\displaystyle (\mu _{4}-\sigma ^{4})/n} , où μ 4 = E ( X E ( X ) ) 4 {\displaystyle \mu _{4}=E(X-E(X))^{4}} .

Cas m = 2 (noyau dégénéré) :

Supposons que A(2) soit vraie, et E [ h 2 ( X 1 , X 2 ) ] < , E | h ( X 1 , X 1 ) | < , {\displaystyle E[h^{2}(X_{1},X_{2})]<\infty ,\,E|h(X_{1},X_{1})|<\infty ,} et E [ h ( x , X 1 ) ] 0 {\displaystyle E[h(x,X_{1})]\equiv 0} . Alors n V 2 , n {\displaystyle nV_{2,n}} converge en distribution vers une somme pondérée de variables indépendantes du chi-carré :

n V 2 , n d k = 1 λ k Z k 2 , {\displaystyle nV_{2,n}{\stackrel {d}{\longrightarrow }}\sum _{k=1}^{\infty }\lambda _{k}Z_{k}^{2},}

Z k {\displaystyle Z_{k}} sont des variables normales standard indépendantes et λ k {\displaystyle \lambda _{k}} sont des constantes qui dépendent de la distribution F et de la fonctionnelle T. Dans ce cas, la distribution asymptotique est appelée forme quadratique de variables aléatoires gaussiennes centrées. La V-statistique V 2 , n {\displaystyle V_{2,n}} est appelée V-statistique à noyau dégénéré. La V-statistique associée à la fonctionnelle de Cramer – von Mises [1] (exemple 3) est un exemple de V-statistique à noyau dégénéré[8].

Voir également

  • U-statistique
  • Distribution asymptotique
  • Théorie asymptotique (statistiques)

Références

  1. a et b (en) R. v. Mises, « On the Asymptotic Distribution of Differentiable Statistical Functions », The Annals of Mathematical Statistics, vol. 18, no 3,‎ , p. 309–348 (ISSN 0003-4851, DOI 10.1214/aoms/1177730385, lire en ligne, consulté le )
  2. Alan J. Lee, U-statistics: theory and practice, M. Dekker, coll. « Statistics », (ISBN 978-0-8247-8253-5)
  3. Volodimir Semenovič Korolûk et Ûrij Vasilʹevič Borovskič, Theory of U-statistics, Kluwer academic publ, coll. « Mathematics and its applications », (ISBN 978-0-7923-2608-3)
  4. (en) Wassily Hoeffding, « A Class of Statistics with Asymptotically Normal Distribution », The Annals of Mathematical Statistics, vol. 19, no 3,‎ , p. 293–325 (ISSN 0003-4851, DOI 10.1214/aoms/1177730196, lire en ligne, consulté le )
  5. von Mises (1947), p. 309; Serfling (1980), p. 210.
  6. Serfling (1980, Section 6.5)
  7. Serfling (1980, Ch. 5–6); Lee (1990, Ch. 3)
  8. See Lee (1990, p. 160) for the kernel function.
  • icône décorative Portail des probabilités et de la statistique