Goldfeld-Quandt-Test

Der Goldfeld-Quandt-Test ist ein statistischer Test auf Heteroskedastizität (nicht konstante Varianz der Störgrößen) bei der Regressionsanalyse. Der Test basiert auf dem Vergleich zweier Stichprobenhälften. Er wurde benannt nach Stephen Goldfeld und Richard E. Quandt.[1]

Vorgehen

Vorgehensweise beim Goldfeld-Quandt-Test

Die Stichprobe wird in zwei Teilmengen bzgl. einer erklärenden Variablen geteilt, siehe Grafik. Die beiden Teilmengen müssen disjunkt sein, sodass keine Beobachtung in beiden Teilmengen vorkommen. Die beiden Teilmengen zusammen müssen aber nicht die gesamte Stichprobe umfassen. In der Grafik ist z. B. der Mittelteil der Beobachtungen in keiner Teilmenge (grau). Für beide Teilmengen wird eine Regression geschätzt und die Varianz der Residuen berechnet. Danach wird für jede Teilmenge die Stichprobenvarianz der Residuen s i 2 {\displaystyle {s_{i}^{2}}} für i=1,2 bestimmt (mit s 1 2 > s 2 2 {\displaystyle s_{1}^{2}>s_{2}^{2}} ) und der Prüfwert s 1 2 s 2 2 {\displaystyle {\tfrac {s_{1}^{2}}{s_{2}^{2}}}} mit einem kritischen Wert aus der F-Verteilung verglichen. In dem Beispiel liegt Heteroskedastizität vor, da die Regression zu einer Teilmenge eine hohe Residualvarianz (rot) aufweisen, während die Regression zur anderen Teilmenge eine niedrige Residualvarianz (blau) zeigt.

Mathematische Formulierung

Voraussetzung

Im klassischen Regressionsmodell gilt Y i 1 = f 1 ( x i 1 ) + U i 1 {\displaystyle Y_{i1}=f_{1}(x_{i1})+U_{i1}} bzw. Y i 2 = f 2 ( x i 2 ) + U i 2 {\displaystyle Y_{i2}=f_{2}(x_{i2})+U_{i2}} mit U i 1 N ( 0 , σ 1 2 ) {\displaystyle U_{i1}\sim {\mathcal {N}}(0,\sigma _{1}^{2})} und U i 2 N ( 0 , σ 2 2 ) {\displaystyle U_{i2}\sim {\mathcal {N}}(0,\sigma _{2}^{2})} . Der Test reagiert sensitiv auf Verletzungen der Normalverteilung der Residuen.

Hypothesen und Teststatistik

Die Null- und die Alternativhypothese lauten

H 0 : σ 1 2 = σ 2 2 = σ 2 , {\displaystyle H_{0}:\sigma _{1}^{2}=\sigma _{2}^{2}=\sigma ^{2},} (Vorliegen von Homoskedastizität) vs. H 1 : σ 1 2 σ 2 2 {\displaystyle H_{1}:\sigma _{1}^{2}\neq \sigma _{2}^{2}} (Vorliegen von Heteroskedastizität).

Die Verteilung der Teststatistik ergibt sich als

F = S 1 2 S 2 2 F n 1 k ; n 2 k {\displaystyle F={\frac {S_{1}^{2}}{S_{2}^{2}}}\sim F_{n_{1}-k;n_{2}-k}}

mit n i {\displaystyle n_{i}} die Anzahl der Beobachtungen im i {\displaystyle i} ten Teil und k {\displaystyle k} die Anzahl der geschätzten Regressionsparameter sowie

S i 2 = 1 n i k j = 1 n i U j i 2 {\displaystyle S_{i}^{2}={\frac {1}{n_{i}-k}}\sum _{j=1}^{n_{i}}U_{ji}^{2}} .

Die Nullhypothese (Homoskedastizität) wird verworfen, wenn der Prüfwert größer ist als der kritische Wert F n 1 k ; n 2 k ( 1 α ) {\displaystyle F_{n_{1}-k;n_{2}-k}(1-\alpha )} aus der F-Verteilung mit n 1 k {\displaystyle n_{1}-k} und n 2 k {\displaystyle n_{2}-k} Freiheitsgraden und einem vorgegebenen Signifikanzniveau α {\displaystyle \alpha } .

Beispiel

Variable Bedeutung
medv Mittlerer Kaufpreis eines
Hauses in 1000 US$
lstat Anteil Unterschichtbevölkerung
rm Durchschnittliche Raumzahl
dis Gewichtete Entfernung zu den fünf
wichtigsten Beschäftigtenzentren

Für das Beispiel wurden lineare Regressionen mit dem Boston-Housing-Datensatz durchgeführt. Für jeden der 506 Bezirke wurden die rechts stehenden Variablen erhoben und eine multiple lineare Regression durchgeführt:

m e d v i = 2 , 8083 0,723 3 l s t a t i + 4,873 4 r m i 0,461 3 d i s i + u ^ i {\displaystyle medv_{i}=2,8083-0{,}7233lstat_{i}+4{,}8734rm_{i}-0{,}4613dis_{i}+{\hat {u}}_{i}} .

Plottet man die Residuen gegen die Variable dis (Grafik oben) so sieht man, dass die Varianz der Residuen abnimmt, wenn die Werte von dis zunehmen. Man teilt die Daten nun in zwei Teile: den roten und den blauen Teil. Dann fittet man zwei Regressionsmodelle und berechnet die Summe der quadrierten Residuen.

Rot m e d v i 1 = + 56,116 1,002 l s t a t i 1 + 0,664 r m i 1 14,106 d i s i 1 + u ^ i 1 {\displaystyle medv_{i1}=+56{,}116-1{,}002lstat_{i1}+0{,}664rm_{i1}-14{,}106dis_{i1}+{\hat {u}}_{i1}}
s 1 2 = 1 n 1 k i = 1 n 1 u ^ i 1 2 = 4899,807 112 4 = 45,369 {\displaystyle s_{1}^{2}={\frac {1}{n_{1}-k}}\sum _{i=1}^{n_{1}}{\hat {u}}_{i1}^{2}={\frac {4899{,}807}{112-4}}=45{,}369}
Blau m e d v i 2 = 40,858 0,044 l s t a t i 2 + 9,895 r m i 2 + 0,233 d i s i 2 + u ^ i 2 {\displaystyle medv_{i2}=-40{,}858-0{,}044lstat_{i2}+9{,}895rm_{i2}+0{,}233dis_{i2}+{\hat {u}}_{i2}}
s 2 2 = 1 n 2 k i = 1 n 2 u ^ i 2 2 = 179,927 49 4 = 3,998 {\displaystyle s_{2}^{2}={\frac {1}{n_{2}-k}}\sum _{i=1}^{n_{2}}{\hat {u}}_{i2}^{2}={\frac {179{,}927}{49-4}}=3{,}998}

Dann ergibt sich der Prüfwert zu f = 45,369 3 , 998 = 11,347 {\displaystyle f={\tfrac {45{,}369}{3,998}}=11{,}347} und der kritische Wert für ein Signifikanzniveau α = 5 % {\displaystyle \alpha =5\,\%} aus der F-Verteilung mit 108 und 45 Freiheitsgraden zu c = 1,548 {\displaystyle c=1{,}548} . Da der Prüfwert größer ist als der kritische Wert, muss die Nullhypothese der Homoskedastizität abgelehnt werden.

Literatur

  • William E. Griffiths, R. Carter Hill, George G. Judge: Learning and Practicing Econometrics. 1. Auflage. 1993, ISBN 0-471-51364-4, S. 494 ff.

Einzelnachweise

  1. R. E. Quandt, Stephen M. Goldfeld: Some Tests for Homoscedasticity. In: Journal of the American Statistical Association. Band 60, Nr. 310, Juni 1965, S. 539–547, doi:10.1080/01621459.1965.10480811, JSTOR:2282689.