Distribució conjugada

Infotaula distribució de probabilitatDistribució conjugada

En la teoria de la probabilitat bayesiana, si la distribució posterior p ( θ x ) {\displaystyle p(\theta \mid x)} es troba a la mateixa família de distribució de probabilitat que la distribució de probabilitat anterior p ( θ ) {\displaystyle p(\theta )} , l'anterior i el posterior s'anomenen distribucions conjugades, i l'anterior s'anomena a priori conjugat per a la funció de versemblança p ( x θ ) {\displaystyle p(x\mid \theta )} .[1]

Un a priori conjugat és una conveniència algebraica, que dóna una expressió de forma tancada per a la posterior; en cas contrari, pot ser necessària la integració numèrica. A més, els priors conjugats poden donar intuïció mostrant de manera més transparent com una funció de probabilitat actualitza una distribució prèvia.[2]

El concepte, així com el terme "conjugat anterior", van ser introduïts per Howard Raiffa i Robert Schlaifer en el seu treball sobre la teoria de la decisió bayesiana.[3] Un concepte similar havia estat descobert independentment per George Alfred Barnard.

Exemple

La forma del prior conjugat es pot determinar generalment mitjançant la inspecció de la densitat de probabilitat o la funció de massa de probabilitat d'una distribució. Per exemple, considerem una variable aleatòria que consisteix en el nombre d'èxits s {\displaystyle s} en n {\displaystyle n} Assajos de Bernoulli amb probabilitat d'èxit desconeguda q {\displaystyle q} en [0,1]. Aquesta variable aleatòria seguirà la distribució binomial, amb una funció de massa de probabilitat de la forma

p ( s ) = ( n s ) q s ( 1 q ) n s {\displaystyle p(s)={n \choose s}q^{s}(1-q)^{n-s}}

L'a priori conjugat habitual és la distribució beta amb paràmetres ( α {\displaystyle \alpha } , β {\displaystyle \beta } ):

p ( q ) = q α 1 ( 1 q ) β 1 B ( α , β ) {\displaystyle p(q)={q^{\alpha -1}(1-q)^{\beta -1} \over \mathrm {B} (\alpha ,\beta )}}

on α {\displaystyle \alpha } i β {\displaystyle \beta } es trien per reflectir qualsevol creença o informació existent ( α = 1 {\displaystyle \alpha =1} i β = 1 {\displaystyle \beta =1} donaria una distribució uniforme) i B ( α , β ) {\displaystyle \mathrm {B} (\alpha ,\beta )} és la funció Beta que actua com a constant normalitzadora.

En aquest context, α {\displaystyle \alpha } i β {\displaystyle \beta } s'anomenen hiperparàmetres (paràmetres de l'anterior), per distingir-los dels paràmetres del model subjacent (aquí q {\displaystyle q} ). Una característica típica dels priors conjugats és que la dimensionalitat dels hiperparàmetres és un més gran que la dels paràmetres de la distribució original. Si tots els paràmetres són valors escalars, hi haurà un hiperparàmetre més que un paràmetre; però això també s'aplica als paràmetres de valors vectorials i matricials. (Vegeu l'article general sobre la família exponencial, i també considereu la distribució de Wishart, anterior conjugada de la matriu de covariància d'una distribució normal multivariada, per exemple on hi ha una gran dimensionalitat).

Taula de distribucions conjugades

Sigui n el nombre d'observacions. En tots els casos següents, se suposa que les dades consten de n punts x 1 , , x n {\displaystyle x_{1},\ldots ,x_{n}} (que seran vectors aleatoris en els casos multivariants).

Si la funció de versemblança pertany a la família exponencial, llavors existeix un a priori conjugat, sovint també a la família exponencial; vegeu Família exponencial: distribucions conjugues.

Quan la funció de versemblança és una distribució discreta

Confiança Paràmetres Distribució conjugada Hiperparàmetres anteriors Hiperparàmetres posteriors
Bernoulli p (probabilitat) Beta α , β R {\displaystyle \alpha ,\,\beta \in \mathbb {R} \!} α + i = 1 n x i , β + n i = 1 n x i {\displaystyle \alpha +\sum _{i=1}^{n}x_{i},\,\beta +n-\sum _{i=1}^{n}x_{i}\!}
Binomial amb nombre conegut d'intents, m p (probabilitat) Beta α , β R {\displaystyle \alpha ,\,\beta \in \mathbb {R} \!} α + i = 1 n x i , β + i = 1 n N i i = 1 n x i {\displaystyle \alpha +\sum _{i=1}^{n}x_{i},\,\beta +\sum _{i=1}^{n}N_{i}-\sum _{i=1}^{n}x_{i}\!}
Negative binomial amb nombre conegut de fallides, r p (probabilitat) Beta α , β R {\displaystyle \alpha ,\,\beta \in \mathbb {R} \!} α + r n , β + i = 1 n x i {\displaystyle \alpha +rn,\,\beta +\sum _{i=1}^{n}x_{i}\!}
Poisson λ (ràtio) Gamma k , θ R {\displaystyle k,\,\theta \in \mathbb {R} \!} k + i = 1 n x i ,   θ n θ + 1 {\displaystyle k+\sum _{i=1}^{n}x_{i},\ {\frac {\theta }{n\theta +1}}\!}
α , β {\displaystyle \alpha ,\,\beta \!} α + i = 1 n x i ,   β + n {\displaystyle \alpha +\sum _{i=1}^{n}x_{i},\ \beta +n\!}
Categorical p (vector probabilitat), k (nombre de categories) Dirichlet α R k {\displaystyle {\boldsymbol {\alpha }}\in \mathbb {R} ^{k}\!} α + ( c 1 , , c k ) , {\displaystyle {\boldsymbol {\alpha }}+(c_{1},\ldots ,c_{k}),} on c i {\displaystyle c_{i}} és el nombre d'obserbacions en categoria i
Multinomial p (vector probabilitat), k (nombre de categories) Dirichlet α R k {\displaystyle {\boldsymbol {\alpha }}\in \mathbb {R} ^{k}\!} α + i = 1 n x i {\displaystyle {\boldsymbol {\alpha }}+\sum _{i=1}^{n}\mathbf {x} _{i}\!}
Hypergeometric amb mostres totals conegudes, N M (nombre de blancs) Beta-binomial n = N , α , β {\displaystyle n=N,\alpha ,\,\beta \!} α + i = 1 n x i , β + i = 1 n N i i = 1 n x i {\displaystyle \alpha +\sum _{i=1}^{n}x_{i},\,\beta +\sum _{i=1}^{n}N_{i}-\sum _{i=1}^{n}x_{i}\!}
Geometric p0 (probabilitat) Beta α , β R {\displaystyle \alpha ,\,\beta \in \mathbb {R} \!} α + n , β + i = 1 n x i {\displaystyle \alpha +n,\,\beta +\sum _{i=1}^{n}x_{i}\!}

Referències

  1. «Conjugate Prior Explained» (en anglès). https://towardsdatascience.com.+[Consulta: 9 juliol 2023].
  2. «Conjugate prior | Definition, explanation and examples» (en anglès). https://www.statlect.com.+[Consulta: 9 juliol 2023].
  3. Howard Raiffa and Robert Schlaifer. Applied Statistical Decision Theory. Division of Research, Graduate School of Business Administration, Harvard University, 1961.