Procés de Dirichlet

Dibuixos del procés de Dirichlet DP ( N ( 0 , 1 ) , α ) {\displaystyle \operatorname {DP} (N(0,1),\alpha )} . Les quatre files utilitzen alfa diferent α {\displaystyle \alpha } (de dalt a baix: 1, 10, 100 i 1000) i cada fila conté tres repeticions del mateix experiment. Tal com es veu als gràfics, els dibuixos d'un procés de Dirichlet són distribucions discretes i es tornen menys concentrades (més distribuïdes) amb l'augment α {\displaystyle \alpha } . Els gràfics es van generar mitjançant la vista del procés de trencament de pals del procés Dirichlet.

En teoria de la probabilitat, els processos de Dirichlet (anomenada segons la distribució associada a Peter Gustav Lejeune Dirichlet) són una família de processos estocàstics les realitzacions dels quals són distribucions de probabilitat. En altres paraules, un procés de Dirichlet és una distribució de probabilitat el rang de la qual és en si mateix un conjunt de distribucions de probabilitat. Sovint s'utilitza en la inferència bayesiana per descriure el coneixement previ sobre la distribució de variables aleatòries — quina probabilitat és que les variables aleatòries es distribueixin segons una o una altra distribució particular.[1]

A tall d'exemple, una bossa de 100 daus del món real és una funció de massa de probabilitat aleatòria (pmf aleatòria): per provar aquest pmf aleatori cal posar la mà a la bossa i treure un dau, és a dir, dibuixar un pmf. Una bossa de daus fabricada amb un procés cru fa 100 anys probablement tindrà probabilitats que s'allunyin molt del pmf uniforme, mentre que una bossa de daus d'última generació utilitzada pels casinos de Las Vegas pot tenir imperfeccions amb prou feines perceptibles. Podem modelar l'aleatorietat de pmfs amb la distribució de Dirichlet.[2]

El procés de Dirichlet s'especifica mitjançant una distribució base H {\displaystyle H} i un nombre real positiu α {\displaystyle \alpha } anomenat paràmetre de concentració (també conegut com a paràmetre d'escala). La distribució base és el valor esperat del procés, és a dir, el procés de Dirichlet dibuixa distribucions "al voltant" de la distribució base de la manera com una distribució normal dibuixa nombres reals al voltant de la seva mitjana. Tanmateix, fins i tot si la distribució de base és contínua, les distribucions extretes del procés de Dirichlet són gairebé segurament discretes. El paràmetre d'escala especifica la força d'aquesta discretització: en el límit de α 0 {\displaystyle \alpha \rightarrow 0} , les realitzacions es concentren totes en un sol valor, mentre que en el límit de α {\displaystyle \alpha \rightarrow \infty } les realitzacions esdevenen contínues. Entre els dos extrems les realitzacions són distribucions discretes amb cada vegada menys concentració com α {\displaystyle \alpha } augmenta.

El procés de Dirichlet també es pot veure com la generalització de dimensions infinites de la distribució de Dirichlet. De la mateixa manera que la distribució de Dirichlet és l'a priori conjugada per a la distribució categòrica, el procés de Dirichlet és l'a priori conjugada per a les distribucions discretes infinites i no paramètriques. Una aplicació particularment important dels processos de Dirichlet és com a distribució de probabilitat prèvia en models de mescles infinites.[3]

El procés de Dirichlet va ser introduït formalment per Thomas Ferguson el 1973.[4] Des de llavors s'ha aplicat a la mineria de dades i l'aprenentatge automàtic, entre d'altres per al processament del llenguatge natural, la visió per computador i la bioinformàtica.[1]

Una àrea d'aplicació on el Dirichlet ha demostrat ser especialment útil és el modelatge de la distribució de paraules en documents de text. Si tenim un diccionari que conté k paraules possibles, aleshores un document particular es pot representar mitjançant un pmf de longitud k produït per la normalització de la freqüència empírica de les seves paraules. Un grup de documents produeix una col·lecció de pmfs, i podem ajustar una distribució Dirichlet per capturar la variabilitat d'aquests pmfs. Es poden utilitzar diferents distribucions de Dirichlet per modelar documents de diferents autors o documents sobre diferents temes.

Els processos de Dirichlet s'utilitzen generalment quan es modelen dades que tendeixen a repetir valors anteriors de l'anomenada manera "els rics es fan més rics". Concretament, suposem que la generació de valors X 1 , X 2 , . . . {\displaystyle X_{1},X_{2},...} es pot simular amb el següent algorisme.[5]

Entrada: H {\displaystyle H} (una distribució de probabilitat anomenada distribució base), α {\displaystyle \alpha } (un nombre real positiu anomenat paràmetre d'escala)
Per n 1 {\displaystyle n\geq 1}  :

a) Amb probabilitat α α + n 1 {\displaystyle {\frac {\alpha }{\alpha +n-1}}} amb X n {\displaystyle X_{n}} des de H {\displaystyle H} .

b) amb probabilitat n x α + n 1 {\displaystyle {\frac {n_{x}}{\alpha +n-1}}} set X n = x {\displaystyle X_{n}=x} , where n x {\displaystyle n_{x}} és el nombre d'observacions prèvies de x {\displaystyle x} .
(Formally, n x := | { j : X j = x  and  j < n } | {\displaystyle n_{x}:=|\{j:X_{j}=x{\text{ and }}j<n\}|} on | | {\displaystyle |\cdot |} indica el nombre d'elements del conjunt.)

Al mateix temps, un altre model comú de dades és que les observacions X 1 , X 2 , . . . {\displaystyle X_{1},X_{2},...} se suposa que són independents i distribuïts de manera idèntica (iid) segons alguna distribució (aleatoria) P.

Imagineu un restaurant xinès, on entren els clients. Un nou client s'asseu a una taula amb una probabilitat proporcional al nombre de clients que ja s'hi asseuen. A més, un client obre una taula nova amb una probabilitat proporcional al paràmetre d'escala a=0,5. Això s'indica amb una pseudotaula vermella amb un nombre fix de 0,5 clients. Després d'entrar infinits clients, s'obté una distribució de probabilitat sobre infinitat de categories, que juntament amb mostres de la mesura base H produeixen una mostra aleatòria del procés de Dirichlet DP (0,5, H). (Les taules s'amaguen quan els clients d'una taula ja no es poden mostrar; tanmateix, cada taula té una infinitat de seients).

El procés del restaurant xinès

Una metàfora àmpliament emprada del procés de Dirichlet es basa en l'anomenat procés del restaurant xinès. La metàfora és la següent:

Imagineu un restaurant xinès on entren els clients. Un nou client s'asseu a una taula amb una probabilitat proporcional al nombre de clients que ja s'hi asseuen. A més, un client obre una taula nova amb una probabilitat proporcional al paràmetre d'escala α {\displaystyle \alpha } . Després d'entrar infinitat de clients, s'obté una distribució de probabilitat sobre infinites taules a escollir. Aquesta distribució de probabilitat sobre les taules és una mostra aleatòria de les probabilitats d'observacions extretes d'un procés de Dirichlet amb paràmetre d'escala α {\displaystyle \alpha } .

Si un associa treu de la mesura base

H {\displaystyle H} amb cada taula, la distribució resultant sobre l'espai mostral S {\displaystyle S} és una mostra aleatòria d'un procés de Dirichlet. El procés del restaurant xinès està relacionat amb l'esquema de mostreig d'urnes Pólya que produeix mostres de distribucions finites de Dirichlet.

Referències

  1. 1,0 1,1 Frigyik, Bela A. «Introduction to the Dirichlet Distribution and Related Processes». [Consulta: 2 setembre 2021].
  2. «[https://www.cs.cmu.edu/~kbe/dp_tutorial.pdf Dirichlet Processes A gentle tutorial]» (en anglès). https://www.cs.cmu.edu.+[Consulta: 22 novembre 2022].
  3. Arrigoni, Alberto. «Dirichlet processes» (en anglès). https://medium.com,+20-09-2019.+[Consulta: 22 novembre 2022].
  4. Ferguson, Thomas Annals of Statistics, 1, 2, 1973, pàg. 209–230. DOI: 10.1214/aos/1176342360 [Consulta: free].
  5. «Dirichlet Process» (en anglès). https://www.gatsby.ucl.ac.uk.+[Consulta: 22 novembre 2022].