G-Test

In der Statistik dient der G-Test der Prüfung, ob die Häufigkeiten in einer Kontingenztafel durch den Zufall zustande gekommen sind oder nicht. Der G-Test löst in vielen Bereichen, insbesondere aber in der Computerlinguistik, den älteren Chi-Quadrat-Test ab.

Wie beim Chi-Quadrat-Test teilt man die Ausprägungen des Merkmals X {\displaystyle X} in m {\displaystyle m} Kategorien ein und zählt, wie oft das Merkmal in jede von diesen Kategorien fällt.

Die Formel zur Berechnung der Prüfstatistik G lautet wie folgt:

G = 2 i = 1 m N i ln ( N i n 0 i ) {\displaystyle G=2\sum _{i=1}^{m}{N_{i}\cdot \ln \left({\frac {N_{i}}{n_{0i}}}\right)}}

N i {\displaystyle N_{i}} ist die beobachtete Häufigkeit, mit der das Merkmal in die i {\displaystyle i} -te Kategorie fällt, n 0 i {\displaystyle n_{0i}} ist die erwartete Häufigkeit derselben Zelle unter Annahme der Nullhypothese, und ln {\displaystyle \ln } ist der natürliche Logarithmus. Das Summenzeichen addiert die Ergebnisse für alle m {\displaystyle m} Kategorien. Die Prüfstatistik G {\displaystyle G} ist annähernd Chi-Quadrat-verteilt mit m 1 {\displaystyle m-1} Freiheitsgraden.

Vergleich mit dem Chi-Quadrat-Test

Beide Tests lösen dasselbe statistische Problem, der Chi-Quadrat-Test besitzt jedoch als aufwändigsten Rechenschritt eine Quadrierung, während der G-Test den Logarithmus berechnet. Der Chi-Quadrat-Test verdankt seine Beliebtheit somit der einfachen Berechnung, die bei kleinen Kontingenztafeln ohne Weiteres von Hand vorgenommen werden kann. Hinzu kommt, dass der Chi-Quadrat-Test schon seit jeher in grundlegenden Statistik-Lehrbüchern behandelt wird.

Für Chi-Quadrat-Tests gilt die Faustregel, dass der Häufigkeitswert pro Zelle mindestens 5 betragen muss. Der G-Test ist bei kleinen Stichproben robuster.

Literatur

  • arxiv:1206.4881 [abs]