Aproximació de Laplace

Estadística bayesiana
Teoria
Tècniques
  • Vegeu aquesta plantilla

L'aproximació de Laplace proporciona una expressió analítica per a una distribució de probabilitat posterior ajustant una distribució gaussiana amb una mitjana igual a la solució MAP i una precisió igual a la informació de Fisher observada.[1][2] L'aproximació està justificada pel teorema de Bernstein–von Mises, que afirma que en condicions de regularitat el posterior convergeix a un gaussià en mostres grans.[3][4]

Per exemple, un model de classificació o regressió (possiblement no lineal) amb un conjunt de dades { x n , y n } n = 1 , , N {\displaystyle \{x_{n},y_{n}\}_{n=1,\ldots ,N}} que inclou entrades x {\displaystyle x} i sortides y {\displaystyle y} té un vector de paràmetres (desconegut). θ {\displaystyle \theta } de llargada D {\displaystyle D} . Es denota la probabilitat p ( y | x , θ ) {\displaystyle p({\bf {y}}|{\bf {x}},\theta )} i el paràmetre anterior p ( θ ) {\displaystyle p(\theta )} . Suposem que es vol aproximar la densitat conjunta de sortides i paràmetres p ( y , θ | x ) {\displaystyle p({\bf {y}},\theta |{\bf {x}})}

p ( y , θ | x ) = p ( y | x , θ ) p ( θ | x ) = p ( y | x ) p ( θ | y , x ) q ~ ( θ ) = Z q ( θ ) . {\displaystyle p({\bf {y}},\theta |{\bf {x}})\;=\;p({\bf {y}}|{\bf {x}},\theta )p(\theta |{\bf {x}})\;=\;p({\bf {y}}|{\bf {x}})p(\theta |{\bf {y}},{\bf {x}})\;\simeq \;{\tilde {q}}(\theta )\;=\;Zq(\theta ).}

L'articulació és igual al producte de la versemblança i l'anterior i per la regla de Bayes, igual al producte de la versemblança marginal p ( y | x ) {\displaystyle p({\bf {y}}|{\bf {x}})} i posterior p ( θ | y , x ) {\displaystyle p(\theta |{\bf {y}},{\bf {x}})} . Vist en funció de θ {\displaystyle \theta } l'articulació és una densitat no normalitzada. En l'aproximació de Laplace aproximem l'articulació mitjançant una gaussiana no normalitzada q ~ ( θ ) = Z q ( θ ) {\displaystyle {\tilde {q}}(\theta )=Zq(\theta )} , on fem servir q {\displaystyle q} per indicar la densitat aproximada, q ~ {\displaystyle {\tilde {q}}} per a la densitat no normalitzada i Z {\displaystyle Z} és una constant (independent de θ {\displaystyle \theta } ). Des de la probabilitat marginal p ( y | x ) {\displaystyle p({\bf {y}}|{\bf {x}})} no depèn del paràmetre θ {\displaystyle \theta } i el posterior p ( θ | y , x ) {\displaystyle p(\theta |{\bf {y}},{\bf {x}})} es normalitza θ {\displaystyle \theta } podem identificar-los immediatament Z {\displaystyle Z} i q ( θ ) {\displaystyle q(\theta )} de la nostra aproximació, respectivament. L'aproximació de Laplace és

p ( y , θ | x ) p ( y , θ ^ | x ) exp ( 1 2 ( θ θ ^ ) S 1 ( θ θ ^ ) ) = q ~ ( θ ) , {\displaystyle p({\bf {y}},\theta |{\bf {x}})\;\simeq \;p({\bf {y}},{\hat {\theta }}|{\bf {x}})\exp {\big (}-{\tfrac {1}{2}}(\theta -{\hat {\theta }})S^{-1}(\theta -{\hat {\theta }}){\big )}\;=\;{\tilde {q}}(\theta ),}

on hem definit

θ ^ = argmax θ log p ( y , θ | x ) , S 1 = θ θ log p ( y , θ | x ) | θ = θ ^ , {\displaystyle {\begin{aligned}{\hat {\theta }}&\;=\;\operatorname {argmax} _{\theta }\log p({\bf {y}},\theta |{\bf {x}}),\\S^{-1}&\;=\;-\left.\nabla _{\theta }\nabla _{\theta }\log p({\bf {y}},\theta |{\bf {x}})\right|_{\theta ={\hat {\theta }}},\end{aligned}}}

on θ ^ {\displaystyle {\hat {\theta }}} és la ubicació d'un mode de la densitat objectiu conjunta, també conegut com a màxim a posteriori o punt MAP i S 1 {\displaystyle S^{-1}} és el D × D {\displaystyle D\times D} matriu definida positiva de segones derivades de la densitat objectiu de l'articulació negatiu al mode θ = θ ^ {\displaystyle \theta ={\hat {\theta }}} . Així, l'aproximació gaussiana coincideix amb el valor i la curvatura de la densitat objectiu no normalitzada en el mode. El valor de θ ^ {\displaystyle {\hat {\theta }}} normalment es troba utilitzant un mètode basat en gradients, per exemple, el mètode de Newton. En resum, tenim

q ( θ ) = N ( θ | μ = θ ^ , Σ = S ) , log Z = log p ( y , θ ^ | x ) + 1 2 log | S | + D 2 log ( 2 π ) , {\displaystyle {\begin{aligned}q(\theta )&\;=\;{\cal {N}}(\theta |\mu ={\hat {\theta }},\Sigma =S),\\\log Z&\;=\;\log p({\bf {y}},{\hat {\theta }}|{\bf {x}})+{\tfrac {1}{2}}\log |S|+{\tfrac {D}{2}}\log(2\pi ),\end{aligned}}}

per a la part posterior aproximada θ {\displaystyle \theta } i la probabilitat logarítmica marginal aproximada respectivament. En el cas especial de la regressió lineal bayesiana amb un a priori gaussià, l'aproximació és exacta. Les principals debilitats de l'aproximació de Laplace són que és simètrica al voltant del mode i que és molt local: tota l'aproximació es deriva de propietats en un sol punt de la densitat objectiu. El mètode de Laplace és àmpliament utilitzat i va ser pioner en el context de les xarxes neuronals per David MacKay, [5] i per als processos gaussians per Williams i Barber.[6]

Referències

  1. Kass, Robert E. «Laplace’s method in Bayesian analysis». A: Statistical Multiple Integration. 115, 1991, p. 89–100 (Contemporary Mathematics). DOI 10.1090/conm/115/07. ISBN 0-8218-5122-5. 
  2. MacKay, David J. C. «Information Theory, Inference and Learning Algorithms, chapter 27: Laplace's method» (en anglès).
  3. Walker, A. M. Journal of the Royal Statistical Society, 31, 1, 1969, pàg. 80–88. JSTOR: 2984328.
  4. Kass, Robert E. «The Validity of Posterior Expansions Based on Laplace's Method». A: Geisser. Bayesian and Likelihood Methods in Statistics and Econometrics (en anglès). Elsevier, 1990, p. 473–488. ISBN 0-444-88376-2. 
  5. MacKay, David J. C. Neural Computation, 4, 3, 1992, pàg. 415–447. DOI: 10.1162/neco.1992.4.3.415.
  6. Williams, Christopher K. I.; Barber, David PAMI, 20, 12, 1998, pàg. 1342–1351. DOI: 10.1109/34.735807.