Teste de Shapiro–Wilk

O teste de Shapiro-Wilk é um teste de normalidade na estatística frequentista. Foi publicado em 1965 por Samuel Sanford Shapiro e Martin Wilk.[1]

Teoria

O teste de Shapiro-Wilk testa a hipótese nula de que uma amostra x1, ..., xn veio de uma população normalmente distribuída. A estatística de teste é

W = ( i = 1 n a i x ( i ) ) 2 i = 1 n ( x i x ¯ ) 2 , {\displaystyle W={\left(\sum _{i=1}^{n}a_{i}x_{(i)}\right)^{2} \over \sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}},}

Onde

  • x ( i ) {\displaystyle x_{(i)}} (com parênteses envolvendo o índice de subscrito i ; não deve ser confundido com x i {\displaystyle x_{i}} ) é a i ésima estatística de ordem, ou seja, o i ésimo menor número da amostra;
  • x ¯ = ( x 1 + + x n ) / n {\displaystyle {\overline {x}}=\left(x_{1}+\cdots +x_{n}\right)/n} é a média da amostra.

Os coeficientes a i {\displaystyle a_{i}} são dados por: [1]

( a 1 , , a n ) = m T V 1 C , {\displaystyle (a_{1},\dots ,a_{n})={m^{\mathsf {T}}V^{-1} \over C},}

onde C é uma norma de vetor: [2]

C = V 1 m = ( m T V 1 V 1 m ) 1 / 2 {\displaystyle C=\|V^{-1}m\|=(m^{\mathsf {T}}V^{-1}V^{-1}m)^{1/2}}

e o vetor m ,

m = ( m 1 , , m n ) T {\displaystyle m=(m_{1},\dots ,m_{n})^{\mathsf {T}}\,}

é feito dos valores esperados das estatísticas de ordem de variáveis aleatórias independentes e distribuídas de forma idêntica, amostradas a partir da distribuição normal padrão. Finalmente, V {\displaystyle V} é a matriz de covariância dessas estatísticas de ordem normal.[3]

Interpretação

A hipótese nula desse teste é que a população está normalmente distribuída. Assim, se o valor de p for menor que o nível alfa escolhido, a hipótese nula é rejeitada e há evidências de que os dados testados não são normalmente distribuídos. Por outro lado, se o valor de p for maior do que o nível alfa escolhido, a hipótese nula (de que os dados vieram de uma população normalmente distribuída) não pode ser rejeitada (por exemplo, para um nível alfa de 0,05, um conjunto de dados com um valor de p inferior a 0,05 rejeita a hipótese nula de que os dados são de uma população normalmente distribuída).[4]

Análise de potência

A simulação de Monte Carlo descobriu que Shapiro–Wilk tem a melhor potência para uma determinada significância, seguido de perto por Anderson–Darling ao comparar os testes de Shapiro–Wilk, Kolmogorov –Smirnov, Lilliefors e Anderson–Darling.[5]

Ver também

  • Teste de Kolmogorov-Smirnov

Referências

  1. a b Shapiro, S. S.; Wilk, M. B. (1965). «An analysis of variance test for normality (complete samples)». Biometrika. 52 (3–4): 591–611. JSTOR 2333709. MR 205384. doi:10.1093/biomet/52.3-4.591  p. 593
  2. [1]
  3. [2]
  4. «How do I interpret the Shapiro–Wilk test for normality?». JMP. 2004. Consultado em 24 março de 2012 
  5. Razali, Nornadiah; Wah, Yap Bee (2011). «Power comparisons of Shapiro–Wilk, Kolmogorov–Smirnov, Lilliefors and Anderson–Darling tests». Journal of Statistical Modeling and Analytics. 2 (1): 21–33. Consultado em 30 de março de 2017 
  • v
  • d
  • e
Estatística
Estatística descritiva
Gráficos estatísticos
Inferência estatística
Estatística não-paramétrica
Análise de sobrevivência
  • Função de sobrevivência
  • Kaplan-Meier
  • Teste log-rank
  • Taxa de falha
  • Proportional hazards models
Amostragem
Distribuição de probabilidade
Correlação
Regressão
Análise multivariada
Séries temporais
  • Modelos para séries temporais
  • Tendência e sazonalidade
  • Modelos de suavização exponencial
  • ARIMA
  • Modelos sazonais