Stutzung

Der Begriff der Stutzung (englisch truncation) wird in der Stochastik für zwei verschiedene Konzepte verwendet. Beim ersten Konzept ist eine gestutzte Verteilung die Wahrscheinlichkeitsverteilung einer Zufallsvariablen X {\displaystyle X} unter der Bedingung auf ein Ereignis { X A } {\displaystyle \{X\in A\}} , wobei A {\displaystyle A} in der Regel ein Teilintervall der reellen Zahlen ist. Beim zweiten Konzept wird aus einer gegebenen Zufallsvariablen eine neue gestutzte Zufallsvariable so gebildet, dass die Wahrscheinlichkeit außerhalb eines beschränkten Intervalls [ a , b ] {\displaystyle [a,b]} auf den Punkt 0 oder auf die Punkte a {\displaystyle a} und b {\displaystyle b} gelegt wird.

Gestutzte Verteilung als bedingte Verteilung

Definition

Die reellwertige Zufallsvariable X {\displaystyle X} besitze die Wahrscheinlichkeitsverteilung P X {\displaystyle P_{X}} auf dem Messraum ( R , B ) {\displaystyle (\mathbb {R} ,\mathbb {B} )} , wobei B {\displaystyle \mathbb {B} } die Borelsche σ-Algebra auf R {\displaystyle \mathbb {R} } bezeichnet. Es sei A B {\displaystyle A\in \mathbb {B} } mit P X ( A ) > 0 {\displaystyle P_{X}(A)>0} . Die auf A {\displaystyle A} gestutzte (oder eingeschränkte) Verteilung (englisch truncated distribution) ist dann durch die bedingten Wahrscheinlichkeiten

P X | A ( B ) = P X ( B A | A ) = P X ( B A ) P X ( A ) für  B B {\displaystyle P_{X|A}(B)=P_{X}(B\cap A|A)={\frac {P_{X}(B\cap A)}{P_{X}(A)}}\quad {\text{für }}B\in \mathbb {B} }

gegeben.

Bezeichnungen

Häufig ist die Menge A {\displaystyle A} ein Intervall der Form ( , b ] {\displaystyle (-\infty ,b]} , [ a , b ] {\displaystyle [a,b]} mit a < b {\displaystyle a<b} oder [ a , ) {\displaystyle [a,\infty )} . Bei einer Stutzung auf das Intervall ( , b ] {\displaystyle (-\infty ,b]} nennt man die Verteilung einseitig bei b {\displaystyle b} nach oben gestutzt[1] oder rechtsseitig gestutzt[2]. Bei einer Stutzung auf das Intervall [ a , ) {\displaystyle [a,\infty )} nennt man die Verteilung einseitig bei a {\displaystyle a} noch unten gestutzt[1] oder linksseitig gestutzt[2]. Bei einer Stutzung auf das Intervall [ a , b ] {\displaystyle [a,b]} nennt man die Verteilung zweiseitig bei a {\displaystyle a} noch unten gestutzt und bei b {\displaystyle b} nach oben gestutzt[1] oder zweiseitig gestutzt[3]. Manchmal wird eine gestutzte Verteilung auch als trunkierte Verteilung[4] bezeichnet.

Eigenschaften

  • P X | A {\displaystyle P_{X|A}} ist eine Wahrscheinlichkeitsverteilung auf dem Messraum ( A , B A ) {\displaystyle (A,\mathbb {B} _{A})} mit B A = { B A B B } {\displaystyle \mathbb {B} _{A}=\{B\cap A\mid B\in \mathbb {B} \}} , so dass ( A , B A , P X | A ) {\displaystyle (A,\mathbb {B} _{A},P_{X|A})} einen Wahrscheinlichkeitsraum bildet.
  • Es gilt P X | A ( A ) = 1 . {\displaystyle P_{X|A}(A)=1\;.}
  • In einer eher in der Statistik üblichen Schreibweise ist
P X | A ( B ) = P ( X B A ) P ( X A ) . {\displaystyle P_{X|A}(B)={\frac {P(X\in B\cap A)}{P(X\in A)}}\;.}
  • In maßtheoretischer Interpretation ist ( Ω , F , P ) {\displaystyle (\Omega ,{\mathcal {F}},P)} ein gegebener Wahrscheinlichkeitsraum, die Zufallsvariable X {\displaystyle X} eine ( Ω , F ) ( R , B ) {\displaystyle (\Omega ,{\mathcal {F}}){\text{–}}(\mathbb {R} ,\mathbb {B} )} -messbare Abbildung und
P X | A ( B ) = P ( { ω X ( ω ) B A } ) P ( { ω | X ( ω ) A } ) . {\displaystyle P_{X|A}(B)={\frac {P(\{\omega \mid X(\omega )\in B\cap A\})}{P(\{\omega |X(\omega )\in A\})}}\;.}

Beispiel

  • Wenn eine Poissonverteilung auf N {\displaystyle \mathbb {N} } gestutzt wird, dann entsteht eine positive Poisson-Verteilung.
  • Wenn eine Standardnormalverteilung auf [ 0 , ) {\displaystyle [0,\infty )} gestutzt wird, dann entsteht eine Chi-Verteilung mit einem Freiheitsgrad. Dies ist die Verteilung von | Z | {\displaystyle |Z|} , wenn Z {\displaystyle Z} standardnormalverteilt ist.[5]
  • Häufig ist die Menge A {\displaystyle A} ein Intervall der Form ( , a ] {\displaystyle (-\infty ,a]} , [ a , b ] {\displaystyle [a,b]} mit a < b {\displaystyle a<b} oder [ b , ) {\displaystyle [b,\infty )} . In diesen Fällen gibt es explizite Formeln, um die Verteilungsfunktion F X | A ( B ) {\displaystyle F_{X|A}(B)} der gestutzten Verteilung P X | A ( B ) {\displaystyle P_{X|A}(B)} durch die Verteilungsfunktion F X {\displaystyle F_{X}} von P X {\displaystyle P_{X}} und die Koeffizienten a {\displaystyle a} und b {\displaystyle b} darzustellen.[6] Falls X {\displaystyle X} eine stetige Zufallsvariable ist, für die eine Dichtefunktion f X {\displaystyle f_{X}} existiert, gibt es auch Formeln um die Dichtefunktion f X | A {\displaystyle f_{X|A}} aus der Dichtefunktion f X {\displaystyle f_{X}} zu berechnen.[7]
  • Falls die Zufallsvariable Y {\displaystyle Y} die Verteilungsfunktion der auf das Intervall ( a , b ] {\displaystyle (a,b]} gestutzten Verteilung der Zufallsvariablen X {\displaystyle X} hat, gilt
F Y ( t ) = { 0 für  t a F X ( t ) F X ( a ) F X ( b ) F X ( a ) für  a < t b 1 für  t > 1 . {\displaystyle F_{Y}(t)={\begin{cases}0&{\text{für }}t\leq a\\\displaystyle {\frac {F_{X}(t)-F_{X}(a)}{F_{X}(b)-F_{X}(a)}}&{\text{für }}a<t\leq b\\1&{\text{für }}t>1\end{cases}}\;.} [8]
  • Falls die Zufallsvariable Y {\displaystyle Y} die auf das Intervall ( a , b ] {\displaystyle (a,b]} gestutzte Verteilung der diskreten Zufallsvariablen X {\displaystyle X} hat, gilt
P ( Y = t ) = { P ( X = t ) F X ( b ) F X ( a ) für  a < t b 0 sonst . {\displaystyle P(Y=t)={\begin{cases}\displaystyle {\frac {P(X=t)}{F_{X}(b)-F_{X}(a)}}&{\text{für }}a<t\leq b\\0&{\text{sonst}}\end{cases}}\;.} [8]
  • Falls die Zufallsvariable Y {\displaystyle Y} die auf das Intervall ( a , b ] {\displaystyle (a,b]} gestutzte Verteilung der stetigen Zufallsvariablen X {\displaystyle X} mit der Dichtefunktion f X {\displaystyle f_{X}} hat, ist
f Y ( t ) = { f X ( t ) F X ( b ) F X ( a ) für  a < t b 0 sonst {\displaystyle f_{Y}(t)={\begin{cases}\displaystyle {\frac {f_{X}(t)}{F_{X}(b)-F_{X}(a)}}&{\text{für }}a<t\leq b\\0&{\text{sonst}}\end{cases}}}
die Dichtefunktion der Zufallsvariablen Y {\displaystyle Y} .[8]

Gestutzte Normalverteilung

Ein häufig verwendeter Fall einer gestutzten Verteilung ist die auf ein Intervall gestutzte Normalverteilung N ( μ , σ 2 ) {\displaystyle {\mathcal {N}}(\mu ,\sigma ^{2})} . Im Folgenden bezeichnen φ {\displaystyle \varphi } und Φ {\displaystyle \Phi } die Dichtefunktion und die Verteilungsfunktion der Standardnormalverteilung. Für jedes x R {\displaystyle x\in \mathbb {R} } wird die Bezeichnung x ~ = ( x μ ) / σ {\displaystyle {\tilde {x}}=(x-\mu )/\sigma } vereinbart.

  • Eine Zufallsvariablen Y {\displaystyle Y} mit der auf das Intervall [ a , b ] {\displaystyle [a,b]} mit a < b {\displaystyle a<b} gestutzten Normalverteilung N ( μ , σ 2 ) {\displaystyle {\mathcal {N}}(\mu ,\sigma ^{2})} hat die Verteilungsfunktion
F Y ( t ) = { 0 für  t a Φ ( t ~ ) Φ ( a ~ ) Φ ( b ~ ) Φ ( a ~ ) für  a < t b 1 sonst  , {\displaystyle F_{Y}(t)={\begin{cases}0&{\text{für }}t\leq a\\\displaystyle {\frac {\Phi ({\tilde {t}})-\Phi ({\tilde {a}})}{\Phi ({\tilde {b}})-\Phi ({\tilde {a}})}}&{\text{für }}a<t\leq b\\1&{\text{sonst }}\end{cases}}\;,}
die Dichtefunktion
f Y ( t ) = { φ ( t ~ ) σ ( Φ ( b ~ ) Φ ( a ~ ) ) für  a < t < b 0 sonst  , {\displaystyle f_{Y}(t)={\begin{cases}\displaystyle {\frac {\varphi ({\tilde {t}})}{\sigma (\Phi ({\tilde {b}})-\Phi ({\tilde {a}}))}}&{\text{für }}a<t<b\\0&{\text{sonst }}\end{cases}}\;,}
den Erwartungswert
E [ Y ] = μ σ φ ( b ~ ) φ ( a ~ ) Φ ( b ~ ) Φ ( a ~ ) {\displaystyle \mathbb {E} [Y]=\mu -\sigma {\frac {\varphi ({\tilde {b}})-\varphi ({\tilde {a}})}{\Phi ({\tilde {b}})-\Phi ({\tilde {a}})}}}
und die Varianz
V a r [ Y ] = σ 2 ( 1 b ~ φ ( b ~ ) a ~ φ ( a ~ ) Φ ( b ~ ) Φ ( a ~ ) ( φ ( b ~ ) φ ( a ~ ) Φ ( b ~ ) Φ ( a ~ ) ) 2 ) . {\displaystyle \mathrm {Var} [Y]=\sigma ^{2}\left(1-{\frac {{\tilde {b}}\varphi ({\tilde {b}})-{\tilde {a}}\varphi ({\tilde {a}})}{\Phi ({\tilde {b}})-\Phi ({\tilde {a}})}}-\left({\frac {\varphi ({\tilde {b}})-\varphi ({\tilde {a}})}{\Phi ({\tilde {b}})-\Phi ({\tilde {a}})}}\right)^{2}\right)\;.} [9]
  • Eine Zufallsvariablen Y {\displaystyle Y} mit der auf das Intervall [ a , ) {\displaystyle [a,\infty )} gestutzten Normalverteilung N ( μ , σ 2 ) {\displaystyle {\mathcal {N}}(\mu ,\sigma ^{2})} hat die Verteilungsfunktion
F Y ( t ) = { 0 für  t a Φ ( t ~ ) Φ ( a ~ ) 1 Φ ( a ~ ) für  a < t b 1 sonst  , {\displaystyle F_{Y}(t)={\begin{cases}0&{\text{für }}t\leq a\\\displaystyle {\frac {\Phi ({\tilde {t}})-\Phi ({\tilde {a}})}{1-\Phi ({\tilde {a}})}}&{\text{für }}a<t\leq b\\1&{\text{sonst }}\end{cases}}\;,}
die Dichtefunktion
f Y ( t ) = { φ ( t ~ ) σ ( 1 Φ ( a ~ ) ) für  a < t 0 sonst  , {\displaystyle f_{Y}(t)={\begin{cases}\displaystyle {\frac {\varphi ({\tilde {t}})}{\sigma (1-\Phi ({\tilde {a}}))}}&{\text{für }}a<t\\0&{\text{sonst }}\end{cases}}\;,}
den Erwartungswert
E [ Y ] = μ + σ φ ( a ~ ) 1 Φ ( a ~ ) {\displaystyle \mathbb {E} [Y]=\mu +\sigma {\frac {\varphi ({\tilde {a}})}{1-\Phi ({\tilde {a}})}}}
und die Varianz
V a r [ Y ] = σ 2 ( 1 + a ~ φ ( a ~ ) 1 Φ ( a ~ ) ( φ ( a ~ ) 1 Φ ( a ~ ) ) 2 ) . {\displaystyle \mathrm {Var} [Y]=\sigma ^{2}\left(1+{\frac {{\tilde {a}}\varphi ({\tilde {a}})}{1-\Phi ({\tilde {a}})}}-\left({\frac {\varphi ({\tilde {a}})}{1-\Phi ({\tilde {a}})}}\right)^{2}\right)\;.}
  • Eine Zufallsvariablen Y {\displaystyle Y} mit der auf das Intervall ( , b ] {\displaystyle (-\infty ,b]} gestutzten Normalverteilung N ( μ , σ 2 ) {\displaystyle {\mathcal {N}}(\mu ,\sigma ^{2})} hat die Verteilungsfunktion
F Y ( t ) = { Φ ( t ~ ) Φ ( b ~ ) für  t b 1 sonst  , {\displaystyle F_{Y}(t)={\begin{cases}\displaystyle {\frac {\Phi ({\tilde {t}})}{\Phi ({\tilde {b}})}}&{\text{für }}t\leq b\\1&{\text{sonst }}\end{cases}}\;,}
die Dichtefunktion
f Y ( t ) = { φ ( t ~ ) σ Φ ( b ~ ) für  t < b 0 sonst  , {\displaystyle f_{Y}(t)={\begin{cases}\displaystyle {\frac {\varphi ({\tilde {t}})}{\sigma \Phi ({\tilde {b}})}}&{\text{für }}t<b\\0&{\text{sonst }}\end{cases}}\;,}
den Erwartungswert
E [ Y ] = μ σ φ ( b ~ ) Φ ( b ~ ) {\displaystyle \mathbb {E} [Y]=\mu -\sigma {\frac {\varphi ({\tilde {b}})}{\Phi ({\tilde {b}})}}}
und die Varianz
V a r [ Y ] = σ 2 ( 1 b ~ φ ( b ~ ) Φ ( b ~ ) ( φ ( b ~ ) Φ ( b ~ ) ) 2 ) . {\displaystyle \mathrm {Var} [Y]=\sigma ^{2}\left(1-{\frac {{\tilde {b}}\varphi ({\tilde {b}})}{\Phi ({\tilde {b}})}}-\left({\frac {\varphi ({\tilde {b}})}{\Phi ({\tilde {b}})}}\right)^{2}\right)\;.}

Anwendungen

Die statistische Lebensdaueranalyse (englisch life testing) wird hauptsächlich in der Technik und Biometrie angewendet. Die positive und stetige Zufallsvariable X {\displaystyle X} bezeichne eine zufällige Lebensdauer.

Dann beschreibt für einen Zeitpunkt a > 0 {\displaystyle a>0} die Zufallsvariable Y = X a {\displaystyle Y=X-a} durch negative bzw. positive Werte inwieweit die Lebensdauer den Zeitpunkt b {\displaystyle b} zufällig unter- bzw. überschreitet.

Die zufällige Restlebensdauer bei Erreichen von a {\displaystyle a} ist durch die Verteilung der Zufallsvariablen Y {\displaystyle Y} unter der Bedingung { Y > 0 } {\displaystyle \{Y>0\}} bzw. die auf das Intervall [ 0 , ) {\displaystyle [0,\infty )} gestutzte Verteilung von Y {\displaystyle Y} beschrieben.[10]

Ist der Einsatz einer Maschine bis zum Zeitpunkt b > 0 {\displaystyle b>0} geplant, dann interessiert die zufällige Frühausfallzeit, die durch die Verteilung von X {\displaystyle X} unter der Bedingung { X < b } {\displaystyle \{X<b\}} bzw. die auf das Intervall ( 0 , b ) {\displaystyle (0,b)} gestutzte Verteilung von X {\displaystyle X} gegeben ist.[11]

Die zufällige Interimslebensdauer zwischen zwei Zeitpunkten a {\displaystyle a} und b {\displaystyle b} mit 0 < a < b {\displaystyle 0<a<b} ist die Verteilung Y = X a {\displaystyle Y=X-a} unter der Bedingung { a X b } = { 0 Y b a } {\displaystyle \{a\leq X\leq b\}=\{0\leq Y\leq b-a\}} bzw. die auf das Intervall [ 0 , b a ] {\displaystyle [0,b-a]} gestutzte Verteilung von Y {\displaystyle Y} gegeben.[12]

Gestutzte Zufallsvariable als beschränkte Zufallsvariable

Gestutzte Zufallsvariablen

Bei Konvergenzuntersuchungen für eine Folge von Zufallsvariablen ( X n ) n N {\displaystyle (X_{n})_{n\in \mathbb {N} }} werden häufig die Zufallsvariablen

Y n = X n 1 [ n , n ] ( X n ) = { X n , falls  | X n | n 0 , falls  | X n | > n {\displaystyle Y_{n}=X_{n}\mathbf {1} _{[-n,n]}(X_{n})={\begin{cases}X_{n},&{\text{falls }}|X_{n}|\leq n\\0,&{\text{falls }}|X_{n}|>n\end{cases}}}

gebildet und als gestutzte Zufallsvariablen (englisch truncated random variables) bezeichnet.[13][14] Dabei bezeichnet x 1 A ( x ) {\displaystyle x\mapsto \mathbf {1} _{A}(x)} die Indikatorfunktion der Menge A R {\displaystyle A\subseteq \mathbb {R} } .

Die so gebildeten Zufallsvariablen sind beschränkt, da Y n [ n , n ] {\displaystyle Y_{n}\in [-n,n]} gilt und haben damit eine endliche Varianz und endliche Momente höherer Ordnung. Die Folge ( Y n ) n N {\displaystyle (Y_{n})_{n\in \mathbb {N} }} besteht nur aus beschränkten Zufallsvariablen und ist eine Approximation der Folge ( X n ) n N {\displaystyle (X_{n})_{n\in \mathbb {N} }} . Wenn die Zufallsvariablen X n {\displaystyle X_{n}} endliche Erwartungswerte haben, gilt die Abschätzung P ( X n Y n ) 1 / n {\displaystyle P(X_{n}\neq Y_{n})\leq 1/n} für hinreichend großes n {\displaystyle n} .[15]

Beim Beweis von Grenzwertsätzen ist die Verwendung in dieser Art gestutzter Zufallsvariablen eine wichtige Beweismethode, die als Stutzungsmethode (englisch method of truncation)[16] oder Abschneidetechnik[17] bekannt ist. Eine typische Anwendung ist der Beweis des schwachen Gesetzes der großen Zahlen in einer allgemeinen Version, die endliche Erwartungswerte, aber keine endlichen Varianzen voraussetzt.[15] In diesem Zusammenhang heißt die Folge ( Y n ) n N {\displaystyle (Y_{n})_{n\in \mathbb {N} }} auch gestutzte Version der Folge ( X n ) n N {\displaystyle (X_{n})_{n\in \mathbb {N} }} .[13]

Die Beschränktheit der Zufallsvariablen Y n {\displaystyle Y_{n}} wird dabei dadurch erreicht, dass die außerhalb des Intervalls [ n , n ] {\displaystyle [-n,n]} liegende Wahrscheinlichkeitsmasse der Stelle 0 zugeordnet wird. Dagegen wird bei der auf das Intervall [ n , n ] {\displaystyle [-n,n]} gestutzten Verteilung die außerhalb des Intervalls [ n , n ] {\displaystyle [-n,n]} liegende Wahrscheinlichkeitsmasse gleichmäßig auf das Intervall [ n , n ] {\displaystyle [-n,n]} verteilt.

Alternative Form der Stutzung einer Folge von Zufallsvariablen im Zusammenhang Untersuchungen der Voraussetzungen für Gesetze der großen Zahlen sind die Stutzung der Zufallsvariablen X n {\displaystyle X_{n}} in der Form[18]

Y n = X n 1 ( n , n ) ( X n ) + n 1 R ( n , n ) ( X n ) = { X n , falls  | X n | < n n , falls  | X n | n {\displaystyle Y_{n}=X_{n}\mathbf {1} _{(-n,n)}(X_{n})+n\mathbf {1} _{\mathbb {R} \setminus (-n,n)}(X_{n})={\begin{cases}X_{n},&{\text{falls }}|X_{n}|<n\\n,&{\text{falls }}|X_{n}|\geq n\end{cases}}}

und in der Form[19]

Y n = X n 1 [ n , n ] ( X n ) = { X n , falls  | X n | n 0 , falls  | X n | > n . {\displaystyle Y_{n}=X_{n}\mathbf {1} _{[-{\sqrt {n}},{\sqrt {n}}]}(X_{n})={\begin{cases}X_{n},&{\text{falls }}|X_{n}|\leq {\sqrt {n}}\\0,&{\text{falls }}|X_{n}|>{\sqrt {n}}\end{cases}}\;.}

Winsorisierte Zufallsvariable

Für eine Zufallsvariable X {\displaystyle X} und ein Intervall ( a , b ] {\displaystyle (a,b]} mit a < b {\displaystyle a<b} ist

Y = X 1 ( a , b ] ( X ) + a 1 ( , a ] ( X ) + b 1 ( b , ) ( X ) {\displaystyle Y=X\mathbf {1} _{(a,b]}(X)+a\mathbf {1} _{(-\infty ,a]}(X)+b\mathbf {1} _{(b,\infty )}(X)}

die auf das Intervall ( a , b ] {\displaystyle (a,b]} winsorisierte Zufallsvariable. Dabei werden Werte von X {\displaystyle X} , die kleiner als a {\displaystyle a} sind, der Stelle a {\displaystyle a} und Werte von X {\displaystyle X} , die größer als b {\displaystyle b} sind, der Stelle b {\displaystyle b} zugeordnet. Die neu gebildete Zufallsvariable ist beschränkt mit Werten in [ a , b ] {\displaystyle [a,b]} .[20]

Unterschied der Konzepte

Der Unterschied der beiden Konzepte sei an einer standardnormalverteilten Zufallsvariable X {\displaystyle X} mit der Verteilungsfunktion Φ {\displaystyle \Phi } erläutert.

  • Die auf das Intervall [ 2 , 2 ] {\displaystyle [-2,2]} gestutzte Verteilung hat die Verteilungsfunktion
Φ | [ 2 , 2 ] ( x ) = { 0 für  x < 2 Φ ( x ) Φ ( 2 ) Φ ( 2 ) Φ ( 2 ) für  2 x < 2 1 für  x 2 . {\displaystyle \Phi _{|[-2,2]}(x)={\begin{cases}0&{\text{für }}x<-2\\{\frac {\Phi (x)-\Phi (-2)}{\Phi (2)-\Phi (-2)}}&{\text{für }}-2\leq x<2\\1&{\text{für }}x\geq 2\end{cases}}\;.}

Dabei gilt P ( X [ 2 , 2 ] ) = Φ ( 2 ) Φ ( 2 ) {\displaystyle P(X\in [-2,2])=\Phi (2)-\Phi (-2)} .

  • Die durch Y := X 1 [ 2 , 2 ] ( X ) {\displaystyle Y:=X\mathbf {1} _{[-2,2]}(X)} definierte Zufallsvariable ist beschränkt, da sie nur Wert im Intervall [ 2 , 2 ] {\displaystyle [-2,2]} annimmt, und hat die Verteilungsfunktion
F Y ( x ) = P ( Y x ) = { 0 für  x < 2 Φ ( x ) Φ ( 2 ) für  2 x < 0 Φ ( x ) + 1 Φ ( 2 ) für  0 x < 2 1 für  x 2 . {\displaystyle F_{Y}(x)=P(Y\leq x)={\begin{cases}0&{\text{für }}x<-2\\\Phi (x)-\Phi (-2)&{\text{für }}-2\leq x<0\\\Phi (x)+1-\Phi (2)&{\text{für }}0\leq x<2\\1&{\text{für }}x\geq 2\end{cases}}\;.}

Während die Verteilungsfunktion Φ | [ 2 , 2 ] {\displaystyle \Phi _{|[-2,2]}} stetig ist, hat die Verteilungsfunktion von Y {\displaystyle Y} die Sprungstelle 0, an der diese um den Wert 1 ( Φ ( 2 ) Φ ( 2 ) ) {\displaystyle 1-(\Phi (2)-\Phi (-2))} springt, es gilt also P ( Y = 0 ) = 1 ( Φ ( 2 ) Φ ( 2 ) ) ) {\displaystyle P(Y=0)=1-(\Phi (2)-\Phi (-2)))} .

In der Literatur kommt es manchmal zur Konfusion beider Konzepte. Beispielsweise wird ausgehend von einer Zufallsvariablen X {\displaystyle X} und einem Intervall ( a , b ] {\displaystyle (a,b]} die Zufallsvariable X 1 ( a , b ] ( X ) {\displaystyle X\mathbf {1} _{(a,b]}(X)} definiert und als auf ( a , b ] {\displaystyle (a,b]} gestutzte Zufallsvariable bezeichnet, dann aber die Verteilungsfunktion der auf ( a , b ] {\displaystyle (a,b]} gestutzten Verteilung (im Sinn einer bedingten Verteilung) angegeben.[21]

Gestutzte Beobachtungswerte und verwandte Konzepte

Gestutzte und zensierte Beobachtungswerte sind Fälle unvollständig erhobener oder berichteter Daten, während bei getrimmten und winsorisierten Beobachtungswerten zunächst eine Stichprobe vollständiger Daten vorliegt, aus der extreme Werte entfernt werden, um eine Verbesserung im Sinn robuster Schätzverfahren zu erreichen.

Gestutzte Beobachtungswerte

Gestutzte Beobachtungswerte sind ein Fall unvollständiger berichteter Daten, wobei nur Beobachtungswerte aus einem Teil der Grundgesamtheit vorliegen. Bei der Beobachtung von Lebenszeiten liegen linksseitig gestutzte Beobachtungswerte vor, wenn eine Häufigkeitsverteilung von Lebenszeiten vorliegt, wobei nur Beobachtungseinheiten berücksichtigt sind, deren Lebenszeit einen bestimmten Wert überschreitet. Im Fall von Zufallsstichproben können solche Beobachtungswerte als Realisierungen von Stichprobenvariablen mit einer gestutzten (bedingten) Verteilung beschrieben werden.

Zensierte Beobachtungswerte

Bei zensierten Daten (oder Beobachtungswerten) sind einige beobachtete Werte nur unvollständig bekannt. Wenn bei n {\displaystyle n} Untersuchungseinheiten für die Werte eines Merkmals x : { 1 , , n } R {\displaystyle x\colon \{1,\dots ,n\}\to \mathbb {R} } mit Werten x i = x ( i ) {\displaystyle x_{i}=x(i)} gemessen werden, so spricht man von an der Stelle a {\displaystyle a} linksseitig zensierten Beobachtungswerten. Falls nur die Werte im Intervall ( , b ] {\displaystyle (-\infty ,b]} bekannt sind, so liegen an der Stelle b {\displaystyle b} rechtsseitig zensierte Beobachtungswerte vor. Falls nur die beobachteten Werte im Intervall [ a , b ] {\displaystyle [a,b]} bekannt sind, liegen beidseitig durch das Intervall [ a , b ] {\displaystyle [a,b]} zensierte Beobachtungwerte vor.[22]

Wenn ( X 1 , , X n ) {\displaystyle (X_{1},\dots ,X_{n})} eine Zufallsstichprobe ist und nur die Realisierungen in einem vor der Stichprobenziehung fixierten Intervall [ a , ) {\displaystyle [a,\infty )} bekannt sind, so spricht man von einer linksseitig zensierten Stichprobe vom Typ I. Dabei ist die Anzahl n u {\displaystyle n_{u}} der unterhalb von a {\displaystyle a} liegenden Beobachtungswerte die Realisierung einer Zufallsgröße.[23] Von einer linksseitig zensierten Stichprobe vom Typ II spricht man, wenn die Anzahl r = n n u {\displaystyle r=n-n_{u}} vorgegeben ist und sich die Grenze a {\displaystyle a} zufällig ergibt. Dabei liegen nur r {\displaystyle r} Beobachtungswerte vor.[23] Analog werden die Begriffe der rechtsseitig und beidseitig zensierten Stichprobe verwendet.

Zensierte Stichproben spielen eine Rolle bei der Lebensdaueranalyse und Zuverlässigkeitsanalyse in der Biometrie und Technik, bei der die Beobachtungsdauer begrenzt ist. Wenn die Beobachtungsdauer durch einen festen Abbruchzeitpunkt begrenzt ist, entsteht eine rechtsseitig zentrierte Stichprobe vom Typ I; wenn noch einer vorgegebenen Anzahl von Ausfällen abgebrochen wird, entsteht eine rechtsseitig zentrierte Stichprobe vom Typ II.[24]

Zensierte Stichproben vom Typ I werden manchmal als gestutzte Stichproben bezeichnet.[23]

Getrimmte Beobachtungswerte

Für Stichprobenwerte x 1 x 2 x n {\displaystyle x_{1}\leq x_{2}\leq \dots \leq x_{n}} entstehen symmetrisch getrimmte Stichprobenwerte, wenn für ein k < n / 2 {\displaystyle k<n/2} die jeweils k {\displaystyle k} kleinsten und k {\displaystyle k} größten Werte entfernt werden, so dass die verbliebene Stichprobe aus n 2 k {\displaystyle n-2k} Werten besteht.[25] Der arithmetische Mittelwert der verbliebenen Werte

1 n 2 k i = k + 1 n 2 k x i {\displaystyle {\frac {1}{n-2k}}\sum _{i=k+1}^{n-2k}x_{i}} ,

heißt dann α {\displaystyle \alpha } -getrimmter Mittelwert mit α = k / n {\displaystyle \alpha =k/n} .[25]

Dabei kann der getrimmte Mittelwert im Fall x k < x k + 1 {\displaystyle x_{k}<x_{k+1}} und x n k < x n k + 1 {\displaystyle x_{n-k}<x_{n-k+1}} als Mittelwert der auf das Intervall A = [ x k + 1 , x n k ] {\displaystyle A=[x_{k+1},x_{n-k}]} gestutzten empirischen Verteilung interpretiert werden. Die empirische Verteilung der beobachteten Werte ist

P n ( B ) = 1 n i = 1 n 1 B ( x i ) , B R {\displaystyle P_{n}(B)={\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{B}(x_{i}),\quad B\subseteq \mathbb {R} } .

Durch Stutzung auf A {\displaystyle A} ergibt sich

P n | A ( B ) = P n ( B A ) P n ( B ) = 1 n i = 1 n 1 B A ( x i ) 1 n i = 1 n 1 A ( x i ) = i = k + 1 n k 1 B ( x i ) n 2 k , B R {\displaystyle P_{n|A}(B)={\frac {P_{n}(B\cap A)}{P_{n}(B)}}={\frac {{\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{B\cap A}(x_{i})}{{\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{A}(x_{i})}}={\frac {\sum _{i=k+1}^{n-k}\mathbf {1} _{B}(x_{i})}{n-2k}},\quad B\subset \mathbb {R} }

und damit die empirische Verteilung für die n 2 k {\displaystyle n-2k} beobachteten Werte ( x k + 1 , x k + 2 , , x n k ) {\displaystyle (x_{k+1},x_{k+2},\dots ,x_{n-k})} , die sich im Intervall A {\displaystyle A} befinden.

Winsorisierte Beobachtungswerte

Aus den Stichprobenwerten x 1 x 2 x n {\displaystyle x_{1}\leq x_{2}\leq \dots \leq x_{n}} wird für k < n / 2 {\displaystyle k<n/2} die winsorisierte Stichprobe gebildet, indem die k {\displaystyle k} kleinsten Werte auf den nächstgrößeren Wert x k + 1 {\displaystyle x_{k+1}} erhöht werden und die k {\displaystyle k} größten Wert auf den nächstkleineren Wert x n k {\displaystyle x_{n-k}} reduziert werden.[25] Der arithmetische Mittelwert dieser Werte ist der winsorisierte Mittelwert

1 n ( k x k + 1 + i = k + 1 n k x i + k x n k ) {\displaystyle {\frac {1}{n}}\left(kx_{k+1}+\sum _{i=k+1}^{n-k}x_{i}+kx_{n-k}\right)} .

Literatur

  • P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, Gestutzte Verteilung (eingeschränkte Verteilung), S. 146–148. 
  • Janos Galambos: Truncation Methods in Probability. In: Samuel Kotz et al. (Hrsg.): Encyclopedia of Statistical Sciences. 2. Auflage. Band 14. Wiley, New York 2006, ISBN 978-0-471-15044-2, Truncation Methods in Probability , S. 8773–8775, doi:10.1002/0471667196. 
  • David Ruppert: Trimming and Winsorization. In: Samuel Kotz et al. (Hrsg.): Encyclopedia of Statistical Sciences. 2. Auflage. Band 14. Wiley, New York 2006, ISBN 978-0-471-15044-2, S. 8765–8770, doi:10.1002/0471667196. 

Einzelnachweise

  1. a b c P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, S. 147. 
  2. a b Joachim Hartung, Bärbel Elpelt, Karl-Heinz Klösener: Statistik – Lehr- und Handbuch der angewandten Statistik. 15., überarbeitete und wesentlich erweiterte Auflage. Oldenbourg, München 2009, ISBN 978-3-486-59028-9, S. 150, doi:10.1524/9783486710540. 
  3. Joachim Hartung, Bärbel Elpelt, Karl-Heinz Klösener: Statistik – Lehr- und Handbuch der angewandten Statistik. 15., überarbeitete und wesentlich erweiterte Auflage. Oldenbourg, München 2009, ISBN 978-3-486-59028-9, S. 149, doi:10.1524/9783486710540. 
  4. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang: Regression – Modelle, Methoden und Anwendungen. 2. Auflage. Springer, Heidelberg / Dordrecht / London / New York 2009, ISBN 978-3-642-01836-7, S. 459, doi:10.1007/978-3-642-01837-4. 
  5. P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, χ-Verteilung, S. 58. 
  6. P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, Gestutzte Verteilung (eingeschränkte Verteilung), S. 147 (Bei der Verwendung der Formeln ist zu beachten, dass in dieser Quelle eine Verteilungsfunktion linksseitig stetig definiert ist). 
  7. P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, S. 147-148. 
  8. a b c Horst Rinne: Taschenbuch der Statistik. 4. Auflage. Harri Deutsch, Frankfurt am Main 2008, ISBN 978-3-8171-1827-4, S. 220. 
  9. P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, Gestutzte Verteilung (eingeschränkte Verteilung), S. 146. 
  10. Horst Rinne: Taschenbuch der Statistik. 4. Auflage. Harri Deutsch, Frankfurt am Main 2008, ISBN 978-3-8171-1827-4, S. 863–864. 
  11. Horst Rinne: Taschenbuch der Statistik. 4. Auflage. Harri Deutsch, Frankfurt am Main 2008, ISBN 978-3-8171-1827-4, S. 865–866. 
  12. Horst Rinne: Taschenbuch der Statistik. 4. Auflage. Harri Deutsch, Frankfurt am Main 2008, ISBN 978-3-8171-1827-4, S. 866–867. 
  13. a b Sidney I. Resnick: A Probability Path. Birkhäuser, Boston / Basel / Berlin, ISBN 0-8176-4055-X, S. 203, doi:10.1007/978-0-8176-8409-9. 
  14. Joseph P. Romano, Andrew F. Siegel: Counterexamples in Probability and Statistics. Chapman & Hall, New York / London 1986, ISBN 0-412-98901-8, S. 110. 
  15. a b Janos Galambos: Truncation Methods in Probability. S. 8774. 
  16. Janos Galambos: Truncation Methods in Probability. S. 8775. 
  17. Ludger Rüschendorf: Wahrscheinlichkeitstheorie (= Springer Lehrbuch Masterclass). Springer Spektrum, Berlin / Heidelberg 2016, ISBN 978-3-662-48936-9, S. 240, doi:10.1007/978-3-662-48937-6. 
  18. Michael A. Proschan, Pamela A. Shaw: Essentials of Probability Theory for Statisticians. CRC Press, Boca Raton 2016, ISBN 978-1-4987-0419-9, S. 139–140. 
  19. Jordan Stoyanov: Counterexamples in Probability (= Dover Books on Mathematics). 3. Auflage. Dover Publications, New York 2013, ISBN 978-0-486-49998-7, Abschn. 17.3, S. 186–187. 
  20. Janos Galambos: Truncation Methods in Probability. S. 8773. 
  21. Horst Rinne: Taschenbuch der Statistik. 4. Auflage. Harri Deutsch, Frankfurt am Main 2008, ISBN 978-3-8171-1827-4, S. 221–222. 
  22. Horst Rinne: Taschenbuch der Statistik. 4. Auflage. Harri Deutsch, Frankfurt am Main 2008, ISBN 978-3-8171-1827-4, S. 216. 
  23. a b c P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, Zensierte Stichprobe (censored sample), S. 596. 
  24. P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, Zensierte Stichprobe (censored sample), S. 597. 
  25. a b c David Ruppert: Trimming and Winsorization. S. 8765.