Hibák és reziduálisok

A hibák és reziduálisok a statisztika és az optimalizálás témakörein belül két egymáshoz nagyon közel álló és könnyen összekeverhető fogalom, amelyek a statisztikai minta egyetlen elemének megfigyelt értékére vonatkoznak, összevetve a „teoretikusan elvárható értékkel”. A vizsgált értékhez tartozó hiba (vagy mérési zaj) a megfigyelt érték eltérése a (megfigyelhetetlen) valódi értéktől, amely egy, az érdeklődés középpontjában álló mennyiségi változó része (pl. egy populáció átlaga). A vizsgált értékhez tartozó reziduális pedig a megfigyelt érték eltérése a becsült értéktől (pl. egy adott minta átlaga). A megkülönböztetés a regresszióelemzés alkalmazásakor kiemelt fontosságú, ahol a fogalmakat regressziós hibáknak és regressziós reziduumoknak nevezik, amelyekből levezethető az ún. studentizált reziduálisok koncepciója.

Problémafelvetés

Tegyük fel, hogy vannak megfigyelt adataink egy egyváltozós eloszlásból, és meg szeretnénk becsülni az eloszlás átlagát (lokációs modell). Ebben az esetben a hibák a megfigyelt értékek eltérései a populáció átlagától, míg a reziduumok a minta átlagától való eltérések.

A statisztikai hiba (vagy zaj) az a mennyiség, amellyel a megfigyelt érték eltér az előre várt, a teljes populáció alapján megállapított értéktől, amely populációból a mintát véletlenszerűen kiválasztottuk.

Például, ha a populációban a 21 éves férfiak átlagos magassága 175 cm és a véletlenszerűen kiválasztott személy 180 cm, a „hiba” mértéke 5 cm. Ha a kiválasztott személy 170 cm, a „hiba” akkor is 5 cm. A várható érték, amely a teljes populáció átlaga, általában nem megfigyelhető és éppen ezért a statisztikai hiba sem válik közvetlenül vizsgálhatóvá.

A reziduális (vagy illeszkedéstől való eltérés) másrészt egy megvizsgálható becslés a nem megfigyelhető statisztikai hibáról. A magasságmérős példánál maradva: tegyük fel, hogy véletlenszerű mintánk van n személyről. A mintaátlag jó becslést adhat a populáció átlagáról.

Ebben az esetben megállapítható:

  • A mintában szereplő férfiak magassága és a populáció átlagos magassága közötti eltérés egy statisztikai hiba, miközben
  • A mintában szereplő férfiak magassága és a megfigyelhető mintaátlag közötti eltérés egy reziduális.

Fontos, hogy a mintaátlag definíciójából következően a véletlenszerű mintában megfigyelhető reziduálisok összege szükségszerűen 0, tehát a reziduumok következésképpen nem függetlenek egymástól. A statisztikai hibák azonban függetlenek és összegük szinte bizonyosan nem nulla a véletlen mintán belül (hiszen a populáció- és mintaátlagok eltérőek).

Statisztikai elemzések során a statisztikai hibák (különösen normális eloszlás esetén) egy standard pontszámmal (z-érték számítása) standardizálhatók, míg a reziduálisok t-próbával vagy még általánosabban az ún. studentizált „törölt” reziduálisok számításával.

Egyváltozós eloszlásokban

Ha egy normális eloszlású populációt vizsgálunk, amelynek átlaga μ és szórása σ, emellett az esetek függetlenek egymástól, akkor az értékeink:

X 1 , , X n N ( μ , σ 2 ) {\displaystyle X_{1},\dots ,X_{n}\sim N(\mu ,\sigma ^{2})\,}

a mintaátlag pedig:

X ¯ = X 1 + + X n n {\displaystyle {\overline {X}}={X_{1}+\cdots +X_{n} \over n}}

amely egy véletlen változó az alábbi eloszlással:

X ¯ N ( μ , σ 2 n ) . {\displaystyle {\overline {X}}\sim N\left(\mu ,{\frac {\sigma ^{2}}{n}}\right).}

A statisztikai hibák ekkor:

e i = X i μ , {\displaystyle e_{i}=X_{i}-\mu ,\,} amelyek várható értéke hagyományosan nulla[1]

míg a reziduálisok:

r i = X i X ¯ . {\displaystyle r_{i}=X_{i}-{\overline {X}}.}

A statisztikai hibák négyzeteinek összege, elosztva σ2-tel, khí-négyzet eloszlást mutat, n szabadságfokkal:

1 σ 2 i = 1 n e i 2 χ n 2 . {\displaystyle {\frac {1}{\sigma ^{2}}}\sum _{i=1}^{n}e_{i}^{2}\sim \chi _{n}^{2}.}

Azonban ez a mennyiség nem vizsgálható, mivel a populáció átlaga ismeretlen. A reziduumok négyzeteinek összege ugyanakkor megfigyelhető. Ezt az összeget elosztva a varianciával (σ2) egy khí-négyzet eloszlást kapunk, csupán n – 1 szabadságfokkal:

1 σ 2 i = 1 n r i 2 χ n 1 2 . {\displaystyle {\frac {1}{\sigma ^{2}}}\sum _{i=1}^{n}r_{i}^{2}\sim \chi _{n-1}^{2}.}

Ez a különbség n és n – 1 szabadságfok között a Bessel-féle korrekciót igényli a szimpla variancia becslésére egy olyan populációban, amelynek sem átlagát, sem varianciáját nem ismerjük. Ha ismert a populáció átlaga, nem szükséges korrekciót alkalmazni.

Külön hangsúlyozandó, hogy a reziduumok négyzetének összege és a mintaátlag egymástól függetlenek, amely bizonyítható például a Basu-tétel alkalmazásával. Ez, valamint a normális és a khí-négyzet eloszlás által fentebb kialakított formulák alkotják a számítások alapját, többek közt a t-statisztikát:

T = X ¯ n μ 0 S n / n , {\displaystyle T={\frac {{\overline {X}}_{n}-\mu _{0}}{S_{n}/{\sqrt {n}}}},}

ahol X ¯ n μ 0 {\displaystyle {\overline {X}}_{n}-\mu _{0}} jelenti a hibákat, S n {\displaystyle S_{n}} jelenti a minta szórását n méretű minta esetén, és ismeretlen szórással (σ), a nevezőben szereplő S n / n {\displaystyle S_{n}/{\sqrt {n}}} kifejezés pedig a hibák szórását mutatja meg, az alábbiaknak megfelelően:

V a r ( X ¯ n ) = σ 2 / n {\textstyle Var({{\overline {X}}_{n}})=\sigma ^{2}/{n}}

A számláló és a nevező valószínűség-eloszlásai a populáció nem megfigyelhető standard szórásától függenek, azonban σ a tört mindkét részében megjelenik, így számításkor eltűnik. Ez rendkívül kedvező, mivel még akkor is tudjuk a kvóciens valószínűség-eloszlását, ha nem ismerjük a szórást: a valószínűség-eloszlást Student t-eloszlás és n – 1 szabadságfok jellemzi. Ugyanakkor használhatjuk arra is a hányadost, hogy μ számára konfidenciaintervallumot számítsunk. Ez a t-statisztika úgy interpretálható, mint „a standard hibák száma hány szórásnyira van a regressziós vonaltól”.[2]

Egyéb statisztikai kifejezések – „hiba” vagy „eltérés”

A „hiba”, ahogyan a korábbiakban megtárgyaltuk, a megfigyelt érték egy bizonyos eltérése a hipotetikusan nem megfigyelhető értéktől. Ezen kívül a statisztikában még legalább két másik értelmezése használatos, amelyek a megfigyelhető bejósló hibákról adnak információt:

Az átlagos négyzetes eltérés (MSE, Mean square error) és a négyzetes középérték (RMSE, Root Mean Square Error) az a mennyiség, amennyivel a vizsgált értékek eltérnek az előre megbecsült értékektől (a mintán kívüli adatokból készített becslés alapján).

A négyzetes hibaösszeg (SSE, Sum of Squared Errors) a regresszióanalízis során kapott reziduumok négyzetének összege; ez a megfigyelt értékek és a becsült értékek eltérésének négyzetének összege, a mintán belüli adatokból készített becslés eredményeit felhasználva. Ugyanezt nevezik a legkisebb négyzetek becslésének is, amikor a regressziós koefficiensek a négyzetek összegének minimalizálására törekszenek (tehát a deriváltjuk nulla).

Ehhez hasonlóan, az abszolút eltérések összege (SAE, Sum of Absolute Errors) a reziduumok abszolút értékein alapszik, amely a regresszióanalízisben a legkisebb abszolút eltérések számításával törekszik a modellhez való közelítésre.

Jegyzetek

  1. Wetherill, G. Barrie.. Intermediate statistical methods. London: Chapman and Hall (1981. április 28.). ISBN 0-412-16440-X. OCLC 7779780 
  2. Bruce, Peter C., 1953-. Practical statistics for data scientists : 50 essential concepts, Bruce, Andrew, 1958-, First edition. ISBN 978-1-4919-5293-1. OCLC 987251007