Prueba de Kruskal-Wallis

En estadística, la prueba de Kruskal-Wallis (de William Kruskal y W. Allen Wallis) es un método no paramétrico para probar si un grupo de datos proviene de la misma población. Intuitivamente, es idéntico al ANOVA con los datos reemplazados por categorías. Es una extensión de la prueba de la U de Mann-Whitney para 3 o más grupos.

Ya que es una prueba no paramétrica, la prueba de Kruskal-Wallis no asume normalidad en los datos, en oposición al tradicional ANOVA. Sí asume, bajo la hipótesis nula, que los datos vienen de la misma distribución. Una forma común en que se viola este supuesto es con datos heterocedásticos.

Método

  1. El estadístico de prueba está dado por: H = ( N 1 ) i = 1 g n i ( r ¯ i r ¯ ) 2 i = 1 g j = 1 n i ( r i j r ¯ ) 2 {\displaystyle H=(N-1){\frac {\sum _{i=1}^{g}n_{i}({\bar {r}}_{i\cdot }-{\bar {r}})^{2}}{\sum _{i=1}^{g}\sum _{j=1}^{n_{i}}(r_{ij}-{\bar {r}})^{2}}}} , donde:
    • n i {\displaystyle n_{i}} es el número de observaciones en el grupo i {\displaystyle i}
    • r i j {\displaystyle r_{ij}} es el rango (entre todas las observaciones) de la observación j {\displaystyle j} en el grupo i {\displaystyle i}
    • N {\displaystyle N} es el número total de observaciones entre todos los grupos
    • g {\displaystyle g} es el número de grupos
    • r ¯ i = j = 1 n i r i j n i {\displaystyle {\bar {r}}_{i\cdot }={\frac {\sum _{j=1}^{n_{i}}{r_{ij}}}{n_{i}}}} ,
    • r ¯ = ( N + 1 ) / 2 {\displaystyle {\bar {r}}=(N+1)/2} es el promedio de r i j {\displaystyle r_{ij}} .
      Note que el denominador de la expresión para H {\displaystyle H} es exactamente ( N 1 ) N ( N + 1 ) 12 {\displaystyle {\frac {(N-1)N(N+1)}{12}}} . Luego, H = 12 N ( N + 1 ) i = 1 g n i ( r ¯ i r ¯ ) 2 {\displaystyle H={\frac {12}{N(N+1)}}\sum _{i=1}^{g}n_{i}({\bar {r}}_{i\cdot }-{\bar {r}})^{2}} .
  2. Se puede realizar una corrección para los valores repetidos dividiendo H {\displaystyle H} por 1 i = 1 G ( t i 3 t i ) N 3 N {\displaystyle 1-{\frac {\sum _{i=1}^{G}(t_{i}^{3}-t_{i})}{N^{3}-N}}} , donde G {\displaystyle G} es el número de grupos de diferentes rangos repetidos, y t i {\displaystyle t_{i}} es el número de observaciones repetidas dentro del grupo i {\displaystyle i} que tiene observaciones repetidas para un determinado valor. Esta corrección hace cambiar a H {\displaystyle H} muy poco al menos que existan un gran número de observaciones repetidas.
  3. Finalmente, el p-value (valor p) es aproximado por Pr ( χ g 1 2 H ) {\displaystyle \Pr(\chi _{g-1}^{2}\geq H)} . Si algún n i {\displaystyle n_{i}} es pequeño ( < 5 {\displaystyle <5} ) la distribución de H {\displaystyle H} puede ser distinta de la chi-cuadrado.

Véase también

  • Prueba de Mann-Whitney

Referencias

Artículo adaptado de la Wikipedia en inglés.

  • William H. Kruskal and W. Allen Wallis. Use of ranks in one-criterion variance analysis. Journal of the American Statistical Association 47 (260): 583–621, December 1952.
  • Sidney Siegel and N. John Castellan, Jr. (1988). Nonparametric Statistics for the Behavioral Sciences (second edition). New York: McGraw-Hill.
Control de autoridades
  • Proyectos Wikimedia
  • Wd Datos: Q1790302
  • Wd Datos: Q1790302