Deming-Regression

Deming-Regression

In der Statistik wird mit der Deming-Regression eine Ausgleichsgerade für eine endliche Menge metrisch skalierter Datenpaare ( x i , y i {\displaystyle x_{i},y_{i}} ) nach der Methode der kleinsten Quadrate bestimmt. Es handelt sich um eine Variante der linearen Regression. Bei der Deming-Regression werden die Residuen (Messfehler) sowohl für die x {\displaystyle x} - als auch für die y {\displaystyle y} -Werte in das Modell einbezogen.

Die Deming-Regression ist somit ein Spezialfall der Regressionsanalyse; sie beruht auf einer Maximum-Likelihood-Schätzung der Regressionsparameter, bei der die Residuen beider Variablen als unabhängig und normalverteilt angenommen werden und der Quotient δ {\displaystyle \delta } ihrer Varianzen als bekannt unterstellt wird.

Die Deming-Regression geht auf eine Arbeit von C.H. Kummell (1879) zurück;[1] 1937 wurde die Methode von T.C. Koopmans wieder aufgegriffen[2] und in allgemeinerem Rahmen 1943 von W. E. Deming für technische und ökonomische Anwendungen bekannt gemacht.[3]

Die orthogonale Regression ist ein wichtiger Spezialfall der Deming-Regression; sie behandelt den Fall δ = 1 {\displaystyle \delta =1} . Die Deming-Regression wiederum ist ein Spezialfall der York-Regression.

Rechenweg

Die gemessenen Werte x i {\displaystyle x_{i}} und y i {\displaystyle y_{i}} werden als Summen der „wahren Werte“ x i {\displaystyle x_{i}^{*}} bzw. y i {\displaystyle y_{i}^{*}} und der „Fehler“ η i {\displaystyle \eta _{i}} bzw. ε i {\displaystyle \varepsilon _{i}} aufgefasst, d. h. ( x i , y i ) = ( x i + η i , y i + ε i ) {\displaystyle (x_{i},y_{i})=(x_{i}^{*}+\eta _{i},y_{i}^{*}+\varepsilon _{i})} Die Datenpaare ( x i , y i {\displaystyle x_{i}^{*},y_{i}^{*}} ) liegen auf der zu berechnenden Geraden. η i {\displaystyle \eta _{i}} und ε i {\displaystyle \varepsilon _{i}} seien unabhängig mit σ η 2 := V a r ( η ) {\displaystyle \sigma _{\eta }^{2}:=Var(\eta )} und σ ε 2 := V a r ( ε ) {\displaystyle \sigma _{\varepsilon }^{2}:=Var(\varepsilon )} . Bekannt sei zumindest der Quotient der Fehlervarianzen δ = σ η 2 σ ε 2 {\displaystyle \delta ={\frac {\sigma _{\eta }^{2}}{\sigma _{\varepsilon }^{2}}}} .

Es wird eine Gerade

y = β 0 + β 1 x {\displaystyle y=\beta _{0}+\beta _{1}x}

gesucht, die die gewichtete Residuenquadratsumme minimiert:

S Q R = i = 1 n ( η i 2 σ η 2 + ε i 2 σ ε 2 ) = 1 σ ε 2 i = 1 n ( ( y i β 0 β 1 x i ) 2 + δ ( x i x i ) 2 )     min β 0 , β 1 , x i S Q R {\displaystyle SQR=\sum _{i=1}^{n}{\bigg (}{\frac {\eta _{i}^{2}}{\sigma _{\eta }^{2}}}+{\frac {\varepsilon _{i}^{2}}{\sigma _{\varepsilon }^{2}}}{\bigg )}={\frac {1}{\sigma _{\varepsilon }^{2}}}\sum _{i=1}^{n}{\Big (}(y_{i}-\beta _{0}-\beta _{1}x_{i}^{*})^{2}+\delta (x_{i}-x_{i}^{*})^{2}{\Big )}\ \to \ \min _{\beta _{0},\beta _{1},x_{i}^{*}}SQR}

Für die weitere Rechnung werden die folgenden Hilfswerte benötigt:

x ¯ = 1 n i = 1 n x i {\displaystyle {\overline {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}}     (arithmetisches Mittel der x i {\displaystyle x_{i}} )
y ¯ = 1 n i = 1 n y i {\displaystyle {\overline {y}}={\frac {1}{n}}\sum _{i=1}^{n}y_{i}}     (arithmetisches Mittel der y i {\displaystyle y_{i}} )
s x 2 = 1 n 1 i = 1 n ( x i x ¯ ) 2 {\displaystyle s_{x}^{2}={\tfrac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}     (Stichprobenvarianz der x i {\displaystyle x_{i}} )
s y 2 = 1 n 1 i = 1 n ( y i y ¯ ) 2 {\displaystyle s_{y}^{2}={\tfrac {1}{n-1}}\sum _{i=1}^{n}(y_{i}-{\overline {y}})^{2}}     (Stichprobenvarianz der y i {\displaystyle y_{i}} )
s x y = 1 n 1 i = 1 n ( x i x ¯ ) ( y i y ¯ ) {\displaystyle s_{xy}={\tfrac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})(y_{i}-{\overline {y}})}     (Stichprobenkovarianz der ( x i , y i ) {\displaystyle (x_{i},y_{i})} ).

Damit ergeben sich die Parameter zur Lösung des Minimierungsproblems:[4]

β 1 = s y 2 δ s x 2 + ( s y 2 δ s x 2 ) 2 + 4 δ s x y 2 2 s x y {\displaystyle \beta _{1}={\frac {s_{y}^{2}-\delta s_{x}^{2}+{\sqrt {(s_{y}^{2}-\delta s_{x}^{2})^{2}+4\delta s_{xy}^{2}}}}{2s_{xy}}}}
β 0 = y ¯ β 1 x ¯ {\displaystyle \beta _{0}={\overline {y}}-\beta _{1}{\overline {x}}} .

Die x i {\displaystyle x_{i}^{*}} -Koordinaten berechnet man mit

x i = x i + β 1 β 1 2 + δ ( y i β 0 β 1 x i ) {\displaystyle x_{i}^{*}=x_{i}+{\frac {\beta _{1}}{\beta _{1}^{2}+\delta }}(y_{i}-\beta _{0}-\beta _{1}x_{i})} .

Erweiterung York-Regression

York-Regression erweitert die Deming-Regression, da es korrelierte x- und y-Fehler erlaubt[5].

Einzelnachweise

  1. Charles H. Kummell: Reduction of observation equations which contain more than one observed quantity. In: The Analyst. Band 6, Nummer 4, 1879, S. 97–105, JSTOR:2635646.
  2. Tjalling Koopmans: Linear regression analysis of economic time series (= Publications of the Netherland Economic Institute. 20). De Erven F. Bohn, Haarlem 1937.
  3. W. Edwards Deming: Statistical adjustment of data. Wiley u. a., New York NY 1943, (Unabriged and corrected republication. Dover Publications, New York NY 1985, ISBN 0-486-64685-8).
  4. Paul Glaister: Least squares revisited. In: The Mathematical Gazette. Band 85, Nummer 502, 2001, S. 104–107, JSTOR:3620485.
  5. Derek York, Norman M. Evensen, Margarita López Martı́nez, Jonás De Basabe Delgado: Unified equations for the slope, intercept, and standard errors of the best straight line. In: American Journal of Physics. Band 72, 2004, S. 367–375, doi:10.1119/1.1632486.