Kolmogorow-Verteilung

Die Kolmogorow-Verteilung ist eine stetige Wahrscheinlichkeitsverteilung, die als Grenzverteilung einer Teststatistik des Kolmogorow-Smirnow-Anpassungstests für einen über alle Grenzen wachsenden Stichprobenumfang auftritt.

Definition

Eine stetige Zufallsvariable X {\displaystyle X} heißt Kolmogorow-verteilt, falls sie die Verteilungsfunktion

P ( X x ) = K ( x ) := { 1 2 k = 1 ( 1 ) k 1 e 2 k 2 x 2 für  x > 0 0 für  x 0 , x R {\displaystyle P(X\leq x)=K(x):={\begin{cases}1-2\sum \limits _{k=1}^{\infty }(-1)^{k-1}e^{-2k^{2}x^{2}}&{\text{für }}x>0\\0&{\text{für }}x\leq 0\end{cases}},\quad x\in \mathbb {R} }

hat.[1][2] Die zugehörige Wahrscheinlichkeitsverteilung heißt Kolmogorow-Verteilung.

Eigenschaften

Kolmogorow-Verteilungsfunktion (rot) und x 1 2 e 2 x 2 {\displaystyle x\mapsto 1-2e^{-2x^{2}}} (blau)

Eine alternative Summendarstellung der Verteilungsfunktion[3][4] ist

K ( x ) = 1 x 2 π k = 1 exp ( ( 2 k 1 ) 2 π 2 8 x 2 ) , x > 0 . {\displaystyle K(x)={\frac {1}{x{\sqrt {2\pi }}}}\sum _{k=1}^{\infty }\exp \left(-{\frac {(2k-1)^{2}\pi ^{2}}{8x^{2}}}\right),\quad x>0\;.}

Diese alternative Darstellung ist für numerische Berechnungen in bestimmten Fällen günstiger.[3]

Für eine Kolmogorow-verteilte Zufallsvariable X {\displaystyle X} gilt

P ( X > 0 ) = 1 . {\displaystyle P(X>0)=1\;.}

Die Zufallsvariable X {\displaystyle X} hat den Erwartungswert

E [ X ] = π 2 ln ( 2 ) {\displaystyle \mathbb {E} [X]={\sqrt {\frac {\pi }{2}}}\ln(2)}

und die Varianz

V a r [ X ] = π 2 12 π 2 ln 2 ( 2 ) . {\displaystyle \mathrm {Var} [X]={\frac {\pi ^{2}}{12}}-{\frac {\pi }{2}}\ln ^{2}(2)\;.} [3]

Anwendung

Die Kolmogorow-Verteilung wird als approximative Wahrscheinlichkeitsverteilung der Teststatistik für die Durchführung eines approximativen Kolmogorow-Smirnow-Anpassungstests verwendet, falls der Stichprobenumfang hinreichend groß ist, um die asymptotische Verteilung der Teststatistik – nämlich die Kolmogorow-Verteilung – zu verwenden. Die ( 1 α ) {\displaystyle (1-\alpha )} -Quantile der Kolmogorow-Verteilung für α = 0.20 , 0.10 , 0.05 , 0.02 , 0.01 {\displaystyle \alpha =0.20,0.10,0.05,0.02,0.01} sind näherungsweise 1.073 , 1.224 , 1.358 , 1.517 , 1.628 {\displaystyle 1.073,1.224,1.358,1.517,1.628} .[5]

Eine Approximation der Verteilungsfunktion ergibt sich, wenn nur der erste Summand für k = 1 {\displaystyle k=1} verwendet wird,

K ( x ) K ( 1 ) ( x ) = 1 2 e 2 x 2 , x > 0. {\displaystyle K(x)\approx K^{(1)}(x)=1-2e^{-2x^{2}},\quad x>0.}

Das ( 1 α ) {\displaystyle (1-\alpha )} -Quantil k 1 α {\displaystyle k_{1-\alpha }} der Kolmogorow-Verteilung ergibt sich dann näherungsweise als Lösung der Gleichung α = 2 e 2 x 2 {\displaystyle \alpha =2e^{-2x^{2}}} . Dies führt zur Näherungsformel

k 1 α 1 2 ln ( α 2 ) {\displaystyle k_{1-\alpha }\approx {\sqrt {-{\frac {1}{2}}\ln \left({\frac {\alpha }{2}}\right)}}} ,

die zu Werten führt, die bis zur dritten Nachkommastelle mit den oben angegebenen Tabellenwerten übereinstimmen. Manchmal wird diese Formel angegeben, ohne klarzustellen, dass es sich um eine doppelte Approximation handelt.[6] Die asymptotische Verteilung wird für endlichen Stichprobenumfang verwendet und dabei wird nur die Approximation K 1 ( x ) {\displaystyle K_{1}(x)} der Kolomogorow-Verteilung verwendet. Wie der Vergleich der Funktionen K {\displaystyle K} und K ( 1 ) {\displaystyle K^{(1)}} in der Abbildung zeigt, ist die Approximation K ( 1 ) {\displaystyle K^{(1)}} zur Quantilbestimmung nur für hinreichend kleine Werte von α {\displaystyle \alpha } , z. B. für α < 1 / 2 {\displaystyle \alpha <1/2} , anwendbar. Insbesondere ist die Approximation K ( 1 ) {\displaystyle K^{(1)}} keine Verteilungsfunktion.

Theoretischer Hintergrund

Die reellwertigen Zufallsvariablen X 1 , , X n {\displaystyle X_{1},\dots ,X_{n}} seien stochastisch unabhängig und identisch verteilt mit der stetigen Verteilungsfunktion F {\displaystyle F} .

  • Dann hängt die Wahrscheinlichkeitsverteilung der Stichprobenfunktion
K n = n sup x R | F ~ n ( x ) F ( x ) | , {\displaystyle K_{n}={\sqrt {n}}\sup _{x\in \mathbb {R} }|{\tilde {F}}_{n}(x)-F(x)|\;,}
wobei
F ~ n ( x ) := 1 n i = 1 n 1 ( , x ] ( X i ) , x R {\displaystyle {\tilde {F}}_{n}(x):={\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{(-\infty ,x]}(X_{i}),\quad x\in \mathbb {R} }
die zufällige empirische Verteilungsfunktion bezeichnet, nicht von F {\displaystyle F} ab. K n {\displaystyle K_{n}} ist also bezüglich der Klasse aller stetigen Verteilungsfunktionen eine verteilungsfreie Statistik.
  • Außerdem konvergiert die Folge ( K n ) n N {\displaystyle (K_{n})_{n\in \mathbb {N} }} in Verteilung gegen die Kolmogorow-Verteilung, es gilt daher
lim n P ( K n x ) = K ( x ) , für alle  x R {\displaystyle \lim _{n\to \infty }P(K_{n}\leq x)=K(x),\quad {\text{für alle }}x\in \mathbb {R} } .

K n {\displaystyle K_{n}} ist die Teststatistik des Kolmogorov-Smirnov-Anpassungstest für den Stichprobenumfang n {\displaystyle n} . Sie heißt auch Kolmogorow-Smirnow-Statistik. Es gibt Tabellen für Quantile der Verteilung von K n {\displaystyle K_{n}} .[7]

Für große Stichprobenumfänge können die Quantile der Kolmogorow-Verteilung verwendet werden.[5] Es gibt eine Tabelle für Werte der Verteilungsfunktion der Kolomogorov-Verteilung.[8]

Literatur

  • Kevin Ford: From Kolmogorov’s theorem on empirical distribution to number theory. In: Eric Charpentier, Annick Lesne, Nikolai Kapitonowitsch Nikolski (Hrsg.): Kolmogorov’s Heritage in Mathematics. Springer, Berlin / Heidelberg 2007, ISBN 978-3-540-36349-1, S. 97–108, doi:10.1007/978-3-540-36351-4_5. 
  • A. Kolmogoroff: Sulla determinazione empirica di una legge di distribuzione. In: Giornale dell’Istituto italiano degli attuari. Band IV, Nr. 1, 1933, S. 83–91 (italienisch, sbn.it). 
A. Kolmogorov: On the Empirical Determination of a Distribution Function. In: Samuel Kotz, Norman L. Johnson (Hrsg.): Breakthroughs in Statistics, Volume II – Methodology and Distribution. Springer-Verlag, Berlin / Heidelberg / New York 1992, ISBN 3-540-94037-5, S. 106–113, doi:10.1007/978-1-4612-4380-9_10 (Übersetzt aus dem Italienischen von Quirino Meneghini, 1990). 
  • P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, Kolmogorow-Verteilung, S. 188–189, 627. 
  • M. A. Stephens: Introduction to Kolmogorov (1933) On the Empirical Determination of a Distribution Function. In: Samuel Kotz, Norman L. Johnson (Hrsg.): Breakthroughs in Statistics, Volume II – Methodology and Distribution. Springer-Verlag, Berlin / Heidelberg / New York 1992, ISBN 3-540-94037-5, S. 93–105, doi:10.1007/978-1-4612-4380-9_9. 

Einzelnachweise und Anmerkungen

  1. Die leicht abweichende Darstellung
    K ( x ) = j = ( 1 ) j e 2 j 2 x 2 , x > 0 {\displaystyle K(x)=\sum \limits _{j=-\infty }^{\infty }(-1)^{j}e^{-2j^{2}x^{2}},\quad x>0}
    findet sich im Lexikon der Stochastik: Kolmogorow-Verteilung. S. 188.  In dieser Form wurde die Verteilungsfunktion auch durch Kolmogorow in der Originalarbeit angegeben: A. Kolmogoroff: Sulla determinazione empirica di una legge di distribuzione. In: Giornale dell’Istituto italiano degli attuari. Band IV, Nr. 1, 1933, S. 83–91, S. 91 (italienisch, sbn.it).  Diese ist äquivalent zur oben angegebenen Form.
  2. Eine - vermutlich fehlerhafte – Darstellung der Verteilungsfunktion K ( x ) {\displaystyle K(x)} mit e k 2 x 2 {\displaystyle e^{-k^{2}x^{2}}} anstelle von e 2 k 2 x 2 {\displaystyle e^{-2k^{2}x^{2}}} findet sich in den beiden folgenden Quellen: Andererseits findet sich die in der Definition angegebene Form der Verteilungsfunktion mit dem Faktor 2 im Exponenten auch in diesen Quellen:
    • Anirban DasGupta: Asymptotic Theory of Statistics and Probability. Springer, New York 2008, ISBN 978-0-387-75970-8, S. 425, doi:10.1007/978-0-387-75971-5. 
    • Jaroslav Hájek, Zbyněk Šidák, Pranab K. Sen: Theory of Rank Tests. 2. Auflage. Academic Press, San Diego et al. 1999, ISBN 978-0-12-642350-1, S. 247, doi:10.1016/B978-0-12-642350-1.X5017-6. 
    • Robert J. Serfling: Approximation Theorems of Mathematical Statistics. Wiley, New York 1980, ISBN 0-471-21927-4, S. 62. 
    • Galen R. Shorack, Jon A. Wellner: Empirical Processes with Applications in Statistics. Wiley, New York 1986, S. 142 (Unveränderter Nachdruck: SIAM, Philadelphia 2009, ISBN 978-0-89871-684-9). 
  3. a b c Lexikon der Stochastik: Kolmogorow-Verteilung. S. 188. 
  4. William Feller: On the Kolmogorov-Smirnov limit theorems for empirical distributions. In: The Annals of Mathematical Statistics. Band 19, Nr. 2, 1948, S. 177–186, S. 178, JSTOR:2236265. 
  5. a b Z. B. Lexikon der Stochastik: Tafel XIII B: Kolmogorow-Test: Quantile der Kolmogorow-Verteilung. S. 627. 
  6. Lothar Sachs, Jürgen Hedderich: Angewandte Statistik. Methodensammlung mit R. 17. Auflage. Springer Spektrum, Berlin / Heidelberg 2018, ISBN 978-3-662-62293-3, S. 496, doi:10.1007/978-3-662-62294-0. 
  7. Z. B. Lexikon der Stochastik: Tafel XIII A: Kolmogorow-Test: Quantile k n ; 1 α {\displaystyle k_{n;1-\alpha }} . S. 625–626. 
  8. N. Smirnov: Table for estimating the goodness of fit for empirical distributions. In: The Annals of Mathematical Statistics. Band 19, Nr. 2, 1948, S. 279–281, JSTOR:2236278.  Diese Tabelle wurde zuerst abgedruckt in N. Smirnov: On the estimation of the discrepancy between empirical curves of distribution for two independent samples. In: Bulletin Mathématique de l'Université Moscou. Band 2, Nr. 2, 1939.  Die Tabelle ist wiederabgedruckt auf S. 143 in Galen R. Shorack, Jon A. Wellner: Empirical Processes with Applications in Statistics. Wiley, New York 1986 (Unveränderter Nachdruck: SIAM, Philadelphia 2009, ISBN 978-0-89871-684-9). 
Diskrete univariate Verteilungen

Diskrete univariate Verteilungen für endliche Mengen:
Benford | Bernoulli | beta-binomial | binomial | Dirac | diskret uniform | empirisch | hypergeometrisch | kategorial | negativ hypergeometrisch | Rademacher | verallgemeinert binomial | Zipf | Zipf-Mandelbrot | Zweipunkt

Diskrete univariate Verteilungen für unendliche Mengen:
Boltzmann | Conway-Maxwell-Poisson | discrete-Phase-Type | erweitert negativ binomial | Gauss-Kuzmin | gemischt Poisson | geometrisch | logarithmisch | negativ binomial | parabolisch-fraktal | Poisson | Skellam | verallgemeinert Poisson | Yule-Simon | Zeta

Kontinuierliche univariate Verteilungen

Kontinuierliche univariate Verteilungen mit kompaktem Intervall:
Beta | Cantor | Kumaraswamy | raised Cosine | Dreieck | Trapez | U-quadratisch | stetig uniform | Wigner-Halbkreis

Kontinuierliche univariate Verteilungen mit halboffenem Intervall:
Beta prime | Bose-Einstein | Burr | Chi | Chi-Quadrat | Coxian | Erlang | Exponential | Extremwert | F | Fermi-Dirac | Folded normal | Fréchet | Gamma | Gamma-Gamma | verallgemeinert invers Gauß | halblogistisch | halbnormal | Hartman-Watson | Hotellings T-Quadrat | hyper-exponentiale | hypoexponential | invers Chi-Quadrat | scale-invers Chi-Quadrat | Invers Normal | Invers Gamma | Kolmogorow-Verteilung | Lévy | log-normal | log-logistisch | Maxwell-Boltzmann | Maxwell-Speed | Nakagami | nichtzentriert Chi-Quadrat | Pareto | Phase-Type | Rayleigh | relativistisch Breit-Wigner | Rice | Rosin-Rammler | shifted Gompertz | truncated normal | Type-2-Gumbel | Weibull | Wilks’ Lambda

Kontinuierliche univariate Verteilungen mit unbeschränktem Intervall:
Cauchy | Extremwert | exponential Power | Fishers z | Fisher-Tippett (Gumbel) | generalized hyperbolic | Hyperbolic-secant | Landau | Laplace | alpha-stabil | logistisch | normal (Gauß) | normal-invers Gauß’sch | Skew-normal | Studentsche t | Type-1-Gumbel | Variance-Gamma | Voigt

Multivariate Verteilungen

Diskrete multivariate Verteilungen:
Dirichlet compound multinomial | Ewens | gemischt Multinomial | multinomial | multivariat hypergeometrisch | multivariat Poisson | negativmultinomial | Pólya/Eggenberger | polyhypergeometrisch

Kontinuierliche multivariate Verteilungen:
Dirichlet | GEM | generalized Dirichlet | multivariat normal | multivariat Student | normalskaliert invers Gamma | Normal-Gamma | Poisson-Dirichlet

Multivariate Matrixverteilungen:
Gleichverteilung auf der Stiefel-Mannigfaltigkeit | Invers Wishart | Matrix Beta | Matrix Gamma | Matrix invers Beta | Matrix invers Gamma | Matrix Normal | Matrix Student-t | Matrix-Von-Mises-Fisher-Verteilung | Normal-invers-Wishart | Normal-Wishart | Wishart