Mischverteilung

Der Begriff Mischverteilung oder zusammengesetzte Verteilung stammt aus der Wahrscheinlichkeitsrechnung. Es handelt sich dabei um eine Wahrscheinlichkeitsverteilung, die ein gewichtetes Mittel von mehreren Wahrscheinlichkeitsverteilungen ist. Das heißt zum Beispiel seien f X 1 , , f X n {\displaystyle f_{X_{1}},\dots ,f_{X_{n}}} die Wahrscheinlichkeitsdichten von n {\displaystyle n} verschiedenen Verteilungen, dann ist die Dichte der Mischverteilung von der Form

f X = a 1 f X 1 + + a n f X n {\displaystyle f_{X}=a_{1}f_{X_{1}}+\cdots +a_{n}f_{X_{n}}}

wobei a 1 , , a n {\displaystyle a_{1},\cdots ,a_{n}} normalisierte Gewichte sind. Dadurch entsteht eine Mischung X {\displaystyle X} von Zufallsgrößen X 1 , , X n {\displaystyle X_{1},\dots ,X_{n}} aus mehreren verschiedenen Grundgesamtheiten.

Einführendes Beispiel

Betrachtet man beispielsweise das Merkmal Körpergröße bei Kleinkindern (erste Grundgesamtheit) und Erwachsenen (zweite Grundgesamtheit), ist dieses Merkmal innerhalb jeder einzelnen Grundgesamtheit meist annähernd normalverteilt, wobei der Mittelwert für die Kleinkinder deutlich niedriger liegen dürfte als für die Erwachsenen. Die Mischverteilung ist nun die Verteilung der Körpergröße, wenn man die beiden Grundgesamtheiten Kleinkinder und Erwachsene nicht einzeln, sondern gemeinsam betrachtet, also die Verteilung der Körpergröße einer Person, von der man nicht weiß, ob sie Kleinkind oder Erwachsener ist.

Mathematisch handelt es sich in diesem Beispiel bei der Körpergröße der Kleinkinder um eine Zufallsgröße X 1 {\displaystyle X_{1}} aus der einen Grundgesamtheit G 1 {\displaystyle G_{1}} und bei der Körpergröße der Erwachsenen um eine andere Zufallsgröße X 2 {\displaystyle X_{2}} aus der anderen Grundgesamtheit G 2 {\displaystyle G_{2}} . Die Mischung dieser beiden Zufallsgrößen ist eine weitere Zufallsgröße X {\displaystyle X} , die mit einer gewissen Wahrscheinlichkeit a 1 {\displaystyle a_{1}} als X 1 {\displaystyle X_{1}} der ersten Grundgesamtheit G 1 {\displaystyle G_{1}} bzw. mit Wahrscheinlichkeit a 2 {\displaystyle a_{2}} als X 2 {\displaystyle X_{2}} der anderen Grundgesamtheit G 2 {\displaystyle G_{2}} entstammt. Da nur diese beiden Grundgesamtheiten zur Auswahl stehen, muss a 1 + a 2 = 1 {\displaystyle a_{1}+a_{2}=1} gelten. Die Wahrscheinlichkeiten a 1 {\displaystyle a_{1}} und a 2 {\displaystyle a_{2}} lassen sich auch als relative Anteile der Grundgesamtheiten G 1 {\displaystyle G_{1}} und G 2 {\displaystyle G_{2}} an der gemeinsamen Grundgesamtheit interpretieren, bezogen auf das Beispiel also als Anteil der Kleinkinder beziehungsweise der Erwachsenen an der Gesamtstichprobe. Die Verteilung von X {\displaystyle X} bestimmt sich über das Gesetz der totalen Wahrscheinlichkeit zu

P ( X x ) = P ( X x | X  aus  G 1 ) a 1 + P ( X x | X  aus  G 2 ) a 2 = P ( X x | X = X 1 ) a 1 + P ( X x | X = X 2 ) a 2 = P ( X 1 x ) a 1 + P ( X 2 x ) a 2 ; {\displaystyle {\begin{alignedat}{2}&P(X\leq x)&{}={}&P(X\leq x|X{\text{ aus }}G_{1})\cdot a_{1}+P(X\leq x|X{\text{ aus }}G_{2})\cdot a_{2}\\&&{}={}&P(X\leq x|X=X_{1})\cdot a_{1}+P(X\leq x|X=X_{2})\cdot a_{2}\\&&{}={}&P(X_{1}\leq x)\cdot a_{1}+P(X_{2}\leq x)\cdot a_{2}{\text{;}}\end{alignedat}}}

Wenn X 1 {\displaystyle X_{1}} und X 2 {\displaystyle X_{2}} Verteilungsfunktionen F 1 {\displaystyle F_{1}} und F 2 {\displaystyle F_{2}} haben, lautet die Verteilungsfunktion F {\displaystyle F} von X {\displaystyle X} also

F ( x ) = F 1 ( x ) a 1 + F 2 ( x ) a 2 {\displaystyle F(x)=F_{1}(x)\cdot a_{1}+F_{2}(x)\cdot a_{2}} .

Definition

Stetiger Fall

Lässt sich die Dichtefunktion einer stetigen Zufallsvariablen X {\displaystyle X} als

f ( x ) = k = 1 K a k f k ( x ) {\displaystyle f(x)=\sum _{k=1}^{K}a_{k}f_{k}(x)}

schreiben, so sagt man, dass X {\displaystyle X} einer Mischverteilung folgt. Dabei sind die f k ( x ) {\displaystyle f_{k}(x)} Dichtefunktionen von stetigen Zufallsvariablen X k {\displaystyle X_{k}} und die a k {\displaystyle a_{k}} Wahrscheinlichkeiten mit

k = 1 K a k = 1 {\displaystyle \sum _{k=1}^{K}a_{k}=1} .

f {\displaystyle f} ist also eine Konvexkombination der Dichten f 1 , , f K {\displaystyle f_{1},\ldots ,f_{K}} .

Man kann leicht zeigen, dass unter diesen Bedingungen f {\displaystyle f} nichtnegativ ist und die Normierungseigenschaft

f ( x ) d x = 1 {\displaystyle \int _{-\infty }^{\infty }f(x)\,\mathrm {d} x=1}

erfüllt ist.

Entsprechend ergibt sich die Wahrscheinlichkeitsfunktion einer diskreten Mischverteilung als

ρ ( x i ) = k = 1 K a k ρ k ( x i ) {\displaystyle \rho (x_{i})=\sum _{k=1}^{K}a_{k}\rho _{k}(x_{i})}

aus den Wahrscheinlichkeitsfunktionen ρ k {\displaystyle \rho _{k}} von diskreten Zufallsvariablen X k {\displaystyle X_{k}} .

Eigenschaften

Für die Momente von X {\displaystyle X} gilt:

E ( X p ) = k = 1 K a k E ( X k p ) ,   p { 1 , 2 , 3 , } . {\displaystyle \operatorname {E} (X^{p})=\sum _{k=1}^{K}a_{k}\,\operatorname {E} (X_{k}^{p}),~p\in \{1,2,3,\dotsc \}.}

Dies folgt (im stetigen Fall) aus

E ( X p ) = x p f ( x ) d x = x p ( k = 1 K a k f k ( x ) ) d x = k = 1 K a k ( x p f k ( x ) d x ) . {\displaystyle \operatorname {E} (X^{p})=\int _{-\infty }^{\infty }x^{p}f(x)\,\mathrm {d} x=\int _{-\infty }^{\infty }x^{p}\left(\sum _{k=1}^{K}a_{k}f_{k}(x)\right)\,\mathrm {d} x=\sum _{k=1}^{K}a_{k}\left(\int _{-\infty }^{\infty }x^{p}f_{k}(x)\,\mathrm {d} x\right).}

Eine analoge Rechnung ergibt die Formel für den diskreten Fall.

Häufiger Spezialfall: Gaußsche Mischmodelle

Beispiel einer Mischverteilung, berechnet aus einem Modell mit den Parametern von drei einzelnen gewichteten Gaußverteilungen mit dem EM-Algorithmus (berechnet mit dem R-Paket mclust[1]).

Ein häufiger Spezialfall von Mischverteilungen sind sogenannte Gaußsche Mischmodelle (gaussian mixture models, kurz: GMMs). Dabei sind die Dichtefunktionen f 1 , , f K {\displaystyle f_{1},\ldots ,f_{K}} die der Normalverteilung mit potenziell verschiedenen Mittelwerten μ 1 , , μ K {\displaystyle \mu _{1},\ldots ,\mu _{K}} und Standardabweichungen σ 1 , , σ K {\displaystyle \sigma _{1},\ldots ,\sigma _{K}} (beziehungsweise Mittelwertvektoren und Kovarianzmatrizen im d {\displaystyle d} -dimensionalen Fall). Es gilt also

f k ( x ) = N ( μ k , Σ k ) ( x ) = 1 ( 2 π ) d 2 | Σ k | 1 2 exp ( 1 2 ( x μ k ) Σ k 1 ( x μ k ) ) {\displaystyle f_{k}(x)={\mathcal {N}}\left(\mu _{k},\Sigma _{k}\right)(x)={\frac {1}{\left(2\pi \right)^{\frac {d}{2}}|\Sigma _{k}|^{\frac {1}{2}}}}\exp \left(-{\frac {1}{2}}(x-\mu _{k})\Sigma _{k}^{-1}(x-\mu _{k})\right)}

und die Dichte f {\displaystyle f} der Mischverteilung hat die Form

f ( x ) = k = 1 K a k f k ( x ) = k = 1 K a k ( 2 π ) d 2 | Σ k | 1 2 exp ( 1 2 ( x μ k ) Σ k 1 ( x μ k ) ) {\displaystyle f(x)=\sum _{k=1}^{K}a_{k}f_{k}(x)=\sum _{k=1}^{K}{\frac {a_{k}}{\left(2\pi \right)^{\frac {d}{2}}|\Sigma _{k}|^{\frac {1}{2}}}}\exp \left(-{\frac {1}{2}}(x-\mu _{k})\Sigma _{k}^{-1}(x-\mu _{k})\right)} .

Parameterschätzung

Schätzer für die Parameter von Wahrscheinlichkeitsverteilungen werden häufig mit dem Maximum-Likelihood-Verfahren hergeleitet. Im Falle von Mischverteilungen ergeben sich dabei allerdings meist Gleichungen, deren Lösungen sich nicht algebraisch angeben lassen und daher numerisch bestimmt werden müssen[2]. Ein typisches Verfahren dazu ist der Expectation-Maximization-Algorithmus (EM-Algorithmus), der beginnend bei initialen Werten für die Parameter eine Folge von immer besseren Schätzwerten erzeugt, die sich in vielen Fällen den realen Parametern annähern.

Beispiel

Verteilung des Gewichts der Forellen (g)

Ein Forellenzüchter verkauft Forellen in großen Mengen. Es wird im Herbst beim Leeren der Teiche eine Bestandsaufnahme gemacht. Dabei werden die herausgefischten Forellen gewogen. Es ergibt sich die Verteilung des Gewichts, wie in der Grafik zu ersehen ist. Die Zweigipfligkeit der Verteilung deutet auf eine Mischverteilung hin. Es stellt sich heraus, dass die Forellen aus zwei verschiedenen Teichen stammen. Die Forellengewichte aus dem ersten Teich sind normalverteilt mit dem Erwartungswert 400 g und der Varianz 4900 g2 und die aus dem zweiten Teich mit dem Erwartungswert 600 g und der Varianz 8100 g2. Aus dem ersten Teich stammen 40 % der Forellen, aus dem zweiten 60 %. Es ergibt sich die Dichtefunktion f ( x ) = 0 , 4 1 70 2 π e 1 2 ( x 400 70 ) 2 + 0 , 6 1 90 2 π e 1 2 ( x 600 90 ) 2 {\displaystyle f(x)=0{,}4\cdot {\frac {1}{70\cdot {\sqrt {2\pi }}}}e^{-{\frac {1}{2}}\left({\frac {x-400}{70}}\right)^{2}}+0{,}6\cdot {\frac {1}{90\cdot {\sqrt {2\pi }}}}e^{-{\frac {1}{2}}\left({\frac {x-600}{90}}\right)^{2}}} (siehe Abbildung).

Literatur

  • Mischverteilung (zusammengesetzte Verteilung). In: P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, S. 263–265. 

Siehe auch

Einzelnachweise

  1. Fraley,Ch., Raftery, A.: 'MCLUST; Version 3 for R: Normal Mixture Modeling and Model-Based Clustering' (Memento vom 24. September 2015 im Internet Archive)
  2. Ghojogh, Benyamin Ghojogh, Aydin Crowley, Mark Karray, Fakhri: Fitting A Mixture Distribution to Data: Tutorial. 20. Januar 2019, arxiv:1901.06708 (englisch).