Critério de informação de Akaike

O critério de informação de Akaike (AIC) é uma métrica que mensura a qualidade de um modelo estatístico visando também a sua simplicidade. Fornece, portanto, uma métrica para comparação e seleção de modelos, em que menores valores de AIC representam uma maior qualidade e simplicidade, segundo este critério.[1][2]

É fundamentado na teoria da informação. Quando um modelo estatístico é usado para representar um determinado processo, a representação nunca será exata, ou seja, o modelo nunca será perfeito e certamente algumas informações serão perdidas. O AIC estima a quantidade relativa de informação perdida por um determinado modelo: quanto menos informações um modelo perde, maior a qualidade desse modelo e menor a pontuação AIC.

Ao estimar a quantidade de informação perdida por um modelo, o AIC lida com o balanço entre a qualidade e parcimônia de um modelo, ou seja, lida tanto com sobreajuste quanto com subajuste.

Além disso, a base lógica do AIC se encaixa no princípio da Navalha de Occam. Segundo este princípio, dadas duas hipóteses (modelos estatísticos) de mesmo poder explicativo para determinado fenômeno, a hipótese mais simples têm maior chance de estar correta. O AIC leva em conta e penaliza a complexidade dos modelos e tende a favorecer a escolha de modelos mais simples.

O AIC foi formulado pelo estatístico japonês Hirotugu Akaike e atualmente é uma das ferramentas amplamente utilizadas na inferência estatística.

Definição

Considere um determinado modelo estatístico, ajustado de acordo com dados observados. Seja k {\displaystyle k} o número de parâmetros de tal modelo e L ^ {\displaystyle {\hat {L}}} o valor máximo da função de verossimilhança. Então, o valor de AIC do modelo considerado é dado por:[3][4]

A I C = 2 k 2 ln ( L ^ ) . {\displaystyle AIC=2k-2\ln({\hat {L}}).}

Dado uma coleção de modelos candidatos para os dados, o modelo com menor AIC é o escolhido de acordo com este critério. Assim, o AIC bonifica a qualidade de ajuste (altos valores para a função de verossimilhança) e, por outro lado, penaliza a quantidade de parâmetros do modelo. Tal pênalti auxilia na prevenção de sobreajuste, o que é desejado, uma vez que aumentar o número de parâmetros geralmente melhora a qualidade do modelo.

Suponha que os dados são gerados por um modelo f {\textstyle f} . Considere então dois modelos candidatos para representá-lo, digamos, g 1 {\textstyle g_{1}} e g 2 {\textstyle g_{2}} . Na prática, não conhecemos o "verdadeiro" modelo f {\textstyle f} , mas se o conhecêssemos, poderíamos determinar a perda de informação através da Divergência de Kullback-leibler, digamos, D K L ( f | | g 1 ) {\textstyle D_{KL}(f||g_{1})} e D K L ( f | | g 2 ) {\textstyle D_{KL}(f||g_{2})} respectivamente, e escolher o que minimiza a perda de informação.

Como não conhecemos o modelo gerador dos dados, não podemos determinar tais medidas. Akaike (1974)[4] propôs uma solução, mostrando que, contudo, podemos estimar, via AIC, o quanto de informação é perdida ao se utilizar g 1 {\textstyle g_{1}} e g 2 {\textstyle g_{2}} . Entretanto, a estimativa é válida somente assintoticamente: se o tamanho amostral é pequeno, então é aconselhável utilizar uma correção para um tamanho amostral pequeno (ver AICc abaixo).

Note que o AIC não fornece uma medida de qualidade do modelo global, apenas relativa no que diz respeito à comparação entre modelos candidatos. Dessa forma, se todos os modelos propostos se ajustam mal aos dados, o AIC não explicita tal fato.

Modificação para tamanhos amostrais pequenos

Quando o tamanho amostral é tido como pequeno, é provável que ao se utilizar o AIC, escolhamos modelos menos parcimoniosos. Desse modo, uma correção do AIC para se evitar um possível sobreajuste neste caso é dada por:[3]

A I C c = A I C + 2 k 2 + 2 k n k 1 , {\displaystyle AICc=AIC+{\dfrac {2k^{2}+2k}{n-k-1}},}

em que n {\textstyle n} representa o tamanho amostral.

Note que quando n {\textstyle n\to \infty } , então A I C c A I C {\textstyle AICc\to AIC} .

Referências

  1. McElreath, Richard (2016). Statistical Rethinking: A Bayesian Course with Examples in R and Stan. [S.l.]: CRC Press. p. 189. ISBN 978-1-4822-5344-3. AIC provides a surprisingly simple estimate of the average out-of-sample deviance. 
  2. Taddy, Matt (2019). Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions. New York: McGraw-Hill. p. 90. ISBN 978-1-260-45277-8. The AIC is an estimate for OOS deviance. 
  3. a b Burnham, Kenneth P. (2002). Model selection and multimodel inference : a practical information-theoretic approach. David Raymond Anderson, Kenneth P. Burnham 2.ª ed. New York: Springer. OCLC 48557578 
  4. a b Akaike, H. (dezembro de 1974). «A new look at the statistical model identification». IEEE Transactions on Automatic Control (6): 716–723. ISSN 1558-2523. doi:10.1109/TAC.1974.1100705. Consultado em 6 de julho de 2021 
  • v
  • d
  • e
Estatística
Estatística descritiva
Gráficos estatísticos
Inferência estatística
Estatística não-paramétrica
Análise de sobrevivência
  • Função de sobrevivência
  • Kaplan-Meier
  • Teste log-rank
  • Taxa de falha
  • Proportional hazards models
Amostragem
Distribuição de probabilidade
Correlação
Regressão
Análise multivariada
Séries temporais
  • Modelos para séries temporais
  • Tendência e sazonalidade
  • Modelos de suavização exponencial
  • ARIMA
  • Modelos sazonais