Geometría de la información

La geometría de la información es una rama de las matemáticas que usa técnicas de la geometría diferencial al campo de la teoría de la probabilidad. Esto se hace tomando las distribuciones de probabilidad, usadas para un determinado modelo estadístico, como los puntos de una variedad de Riemann, que constituyen una variedad estadística. La métrica informacional de Fisher proporciona la métrica de Riemann para dicha variedad.

La geometría de la información alcanzó su madurez como disciplina independiente a través del trabajo de Shun'ichi Amari y otros matemáticos japoneses en los años 1980. El libro de Amari y Nagaoka, Methods of Information Geometry,[1]​ se considera uno de los trabajos seminales, y además presentan un amplio panorama de desarrollos significativos en la disciplinas que cubren hasta el año 2000. Muchos de esos desarrollos sólo habían estado disponibles previamente en publicaciones en japonés, por lo que su difusión había sido limitada.

Introducción

La siguiente introducción sigue las líneas generales del libro de Amari y Naoka Methods of Information Geometry.[1]

Información y probabilidad

Se define un n-conjunto como un conjunto V de cardinalidad | V | = n {\displaystyle |V|=n} . Para escoger un elemento v (valor, estado, punto, resultado) de un n-conjunto V, se necesita especificar log b n {\displaystyle \log _{b}n} b-conjuntos (usualmente se considera b=2), si lo único que se tiene en cuenta es la cardinalidad. Es decir, se requieren I ( v ) = log n {\displaystyle I(v)=\log n} nates de información para especificar v o equivalentemente, I ( v ) = log 2 n {\displaystyle I(v)=\log _{2}n} bits de información.

Considerando el subconjunto de apariciones C {\displaystyle C} tomados de V {\displaystyle V} , hay una forma alternativa de referirse a v V {\displaystyle v\in V} a través de C {\displaystyle C} . Primero, se escoge una aparición c C {\displaystyle c\in C} , que requiere una información de I ( c ) = log 2 | C | {\displaystyle I(c)=\log _{2}|C|} bits para ser especificada. Entonces, para especificar v, se resta el exceso de información usado para escoger un c {\displaystyle c} de entre todos las apariciones de ese tipo relacionadas con v {\displaystyle v} , es decir I ( c v ) = log 2 | C v | {\displaystyle I(c_{v})=\log _{2}|C_{v}|} . Así se tiene que | C | | C v | {\displaystyle {\frac {|C|}{|C_{v}|}}} es el número de | C v | {\displaystyle |C_{v}|} partes que juntas forman una partición de | C | {\displaystyle |C|} . Así se necesitan I ( v ) = log 2 | C | | C v | {\displaystyle I(v)=\log _{2}{\frac {|C|}{|C_{v}|}}} bits para escoger una de ellas. De esta manera la cantidad de información (tamaño de una variable, longitud del código, o número de bits) necesaria para especificar un v {\displaystyle v} , considerando el número de veces que aparece en un mensaje viene dada por

I ( v ) = log 2 p ( v ) {\displaystyle I(v)=-\log _{2}p(v)}

Finalmente, p ( v ) I ( v ) {\displaystyle p(v)I(v)} es la cantidad normalizada de información necesaria para codificar todas las apariciones de un v {\displaystyle v} . La longitud de código promediada sobre todos los valores posibles es H ( V ) = p ( v ) log p ( v ) {\displaystyle H(V)=-\sum p(v)\log p(v)} . Esta magnitud H ( V ) {\displaystyle H(V)} se denomina entropía de una variable aleatoria V {\displaystyle V} .

Parámetros de un modelo estadístico

Cuando se observa una determinada variable aleatoria en un cierto contexto, cuyos valores pertenecen a V {\displaystyle V} , se parte usualmente de la distribución de probabilidad asociada a la observación de un determinado valor en un determinado contexto, como un mensaje codificado o un montaje experimental.

El contexto mencionado anteriormente, es una situación que se especifica mediante un conjunto de parámetros (frecuentemente usando el razonamiento combinatorio). Los parámetros pueden tener un número arbitrario de dimensiones, y por tanto una observación puede caracterizarse por n parámetros ξ = [ ξ i ] R n {\displaystyle \xi =[\xi ^{i}]\in \mathbb {R} ^{n}} que puede asociarse a un valor de V {\displaystyle V} , i.e. el soporte supp ( V ) {\displaystyle {\text{supp}}(V)} no cambia como función de. Cada ξ {\displaystyle \xi } determina una distribución de probabilidad para V {\displaystyle V} . Nótese al cambiar de contexto o situación, la probabilidad con la que se observa un determinado resultado cambia acorde a los parámetros que definen el contexto. Frecuentemente un conjunto de parámetros se asocia a una determinada familia de distribuciones, por lo que los parámetros en esos casos tienen una interpretación concreta, que constituye un modelo estadístico para el contexto en el que se observa V {\displaystyle V} .

Los parámetros son muy diferentes en su naturaleza a los elementos del propio V {\displaystyle V} itself, porque no describen V {\displaystyle V} , sino el contexto de observación para V {\displaystyle V} . Una parametrización de la forma:

p ( v ) = ξ i p i ( v ) = ξ i p i {\displaystyle p(v)=\sum \xi ^{i}p_{i}(v)=\xi ^{i}p_{i}}

donde p i ( v j ) = 1 {\displaystyle \sum p_{i}(v_{j})=1} y ξ i = 1 {\displaystyle \sum \xi ^{i}=1} , que mezcla diferentes distribuciones p i ( v ) {\displaystyle p_{i}(v)} , se denomina una distribución mixta, o mixtura de distribuciones o m {\displaystyle m} -parametrization. Todas las parametrizaciones de ese tipo están relacionadas a través de una transformación afín ρ = A ξ + B {\displaystyle \rho =A\xi +B} . Una parametrización asociada a una regla de transformación de ese tipo se denomina plana.

Una paremetrización plana para I ( v ) = log p ( v ) = E ( v ) + ξ i F i ( v ) {\displaystyle I(v)=\log p(v)=E(v)+\sum \xi ^{i}F_{i}(v)} es una exponencial o e {\displaystyle e} -parametrización, porque los parámetros se encuentran en el exponente de p ( v ) {\displaystyle p(v)} . Existen muchas distribuciones notables, como la distribución normal o la distribución de Poisson, que caen dentro de esta categoría. Estas distribuciones se denominan colectivamente como una "familia exponencial" o e {\displaystyle e} -familia. La p {\displaystyle p} -variedad de todas las distribuciones de ese tipo, no es una variedad afín, pero log p {\displaystyle \log p} sí es una variedad afín. La parametrización log p ( v ) = E ( v ) + ξ i F i ( v ) ψ ( ξ ) {\displaystyle \log p(v)=E(v)+\sum \xi ^{i}F_{i}(v)-\psi (\xi )} para una familia exponencial puede ponerse en relación con la anterior reparametrizando como ψ ( ξ ) {\displaystyle \psi (\xi )} y extendiendo [ F i ] [ F i , 1 ] {\displaystyle [F_{i}]\rightarrow [F_{i},1]} .

Geometría diferencial aplicada a las probabilidades

En geometría de información, los métodos de la geometría diferencial se aplican para describir el espacio abstracto de distribuciones de probabilidad posibles para un conjunto de observaciones de V {\displaystyle V} . Esto se hace mediante una carta coordenada o un conjunto de ellas que conforma un atlas ξ R n {\displaystyle \xi \in \mathbb {R} ^{n}} . Más aún, la distribución de probabilidad p ( v ; ξ ) {\displaystyle p(v;\xi )} debe ser una función diferenciable e invertible de ξ {\displaystyle \xi } . En este caso, las [ ξ i ] {\displaystyle [\xi ^{i}]} forman un conjunto de coordenadas de para las p ( v ; ξ ) {\displaystyle p(v;\xi )} -spacio de distribuciones, que de hecho tiene la estructura de variedad diferenciable, y se denota por M {\displaystyle {\mathcal {M}}} .

Las derivadas sobre esta variedad se definen como usualmente se hace para otras variedades diferenciables:

i f = f ξ i := f ¯ ξ i {\displaystyle \partial _{i}f={\frac {\partial f}{\partial \xi ^{i}}}:={\frac {\partial {\bar {f}}}{\partial \xi ^{i}}}}

con f ¯ = f ξ 1 {\displaystyle {\bar {f}}=f\circ \xi ^{-1}} , para f F ( M ) {\displaystyle f\in {\mathcal {F}}(M)} una función real sobre M {\displaystyle {\mathcal {M}}} . Dadao una función f {\displaystyle f} sobre M {\displaystyle M} , se puede "geometrizar" tomándola para definir una nueva variedad. Esto se hace definiendo funciones coordenadas sobre esta otra nueva variedad mediante las relaciones:

ϕ = ( f ξ 1 ) 1 = ξ f 1 {\displaystyle \phi =(f\circ \xi ^{-1})^{-1}=\xi \circ f^{-1}}

De esta forma se "geometriza" una función f {\displaystyle f} , codificándola en las coordenadas usadas para describir el sistema. Para f = log {\displaystyle f=\log } la inversa es f 1 = exp {\displaystyle f^{-1}=\exp } y la variedad resultante de log p {\displaystyle \log p} se denomina e {\displaystyle e} -representación. La p {\displaystyle p} -variedad en sí misma se denomina la m {\displaystyle m} -representación.

Espacio tangente

Artículo principal: Espacio tangente

En geometría diferencial ordinaria, el espacio tangente a una variedad diferenciable M {\displaystyle {\mathcal {M}}} en un punto q {\displaystyle q} vienen dado por:

T q M = { X i i | X R n , i = ξ i } {\displaystyle T_{q}M=\left\{X^{i}\partial _{i}{\Big |}X\in \mathbb {R} ^{n},\partial _{i}={\frac {\partial }{\partial \xi ^{i}}}\right\}}

En geometría diferencial ordinaria, no existe ningún sistema canónico de coordenadas sobre la variedad; así típicamente, toda discusión debe hacerse con respecto al atlas, sin necesidad explícita de coordenadas, por esa razón los vectores tangentes (y el conjunto de ellos que es el espacio tangente) se definen como operadores que actúan sobre funciones definidas sobre la variedad. Sin embargo, cuando se usan distribuciones de probabilidad p ( v ; ξ ) {\displaystyle p(v;\xi )} , se es posible expresar el espacio tangente directamente como X i i p {\displaystyle X^{i}\partial _{i}p} ( m {\displaystyle m} -representación) o X i i log p {\displaystyle X^{i}\partial _{i}\log p} ( e {\displaystyle e} -representación), sin necesidad de especificarlos como operadores.

Representación alfa

Diversas funciones definidas sobre la variedad de distribuciones p {\displaystyle p} pueden codificarse por un parámetro α {\displaystyle \alpha } (que asume tres valores 1 {\displaystyle 1} , 0 {\displaystyle 0} y 1 {\displaystyle -1} ):

  • mezcla o m {\displaystyle m} -representación ( α = 1 {\displaystyle \alpha =-1} ):

( 1 ) = 2 1 α p 1 α 2 = p {\displaystyle \ell ^{(-1)}={\frac {2}{1-\alpha }}p^{\frac {1-\alpha }{2}}=p}

  • exponencial o e {\displaystyle e} -representación ( α = 1 {\displaystyle \alpha =1} ):

= ( 1 ) = log p ( X ( e ) = 1 p X ( m ) {\displaystyle \ell =\ell ^{(1)}=\log p(X^{(e)}={\frac {1}{p}}X^{(m)}}

  • 0 {\displaystyle 0} -representación ( α = 0 {\displaystyle \alpha =0} ):

( 0 ) = 2 1 α p 1 α 2 = 2 p , X ( 0 ) = 1 p X ( m ) {\displaystyle \ell ^{(0)}={\frac {2}{1-\alpha }}p^{\frac {1-\alpha }{2}}=2{\sqrt {p}},\quad X^{(0)}={\frac {1}{\sqrt {p}}}X^{(m)}}

Las distribuciones que admiten una representación plana α ( v ; ξ ) = E ( v ) + ξ i F i ( v ) {\displaystyle \ell ^{\alpha }(v;\xi )=E(v)+\xi ^{i}F_{i}(v)} se denominan colectivamente α {\displaystyle \alpha } -familia ( m {\displaystyle m} -, e {\displaystyle e} - o 0 {\displaystyle 0} -familia) de distribuciones y la correspondiente variedad se denomina α {\displaystyle \alpha } -afín. El α {\displaystyle \alpha } -vector tangente es X ( α ) = X i i α {\displaystyle X^{(\alpha )}=X^{i}\partial _{i}\ell ^{\alpha }} .

Historia

La historia de la geometría de la información está asociada con trabajos de varios matemáticos, entre los más destacados están:

Véase también

Referencias

  1. a b Shun'ichi Amari, Hiroshi Nagaoka - Methods of information geometry, Translations of mathematical monographs; v. 191, American Mathematical Society, 2000 (ISBN 978-0821805312)

Bibliografía

  • Shun'ichi Amari, Hiroshi Nagaoka - Methods of information geometry, Translations of mathematical monographs; v. 191, American Mathematical Society, 2000 (ISBN 978-0821805312)
  • Shun'ichi Amari - Differential-geometrical methods in statistics, Lecture notes in statistics, Springer-Verlag, Berlín, 1985.
  • M. Murray and J. Rice - Differential geometry and statistics, Monographs on Statistics and Applied Probability 48, Chapman and Hall, 1993.
  • R. E. Kass and P. W. Vos - Geometrical Foundations of Asymptotic Inference, Series in Probability and Statistics, Wiley, 1997.
  • N. N. Cencov - Statistical Decision Rules and Optimal Inference, Translations of Mathematical Monographs; v. 53, American Mathematical Society, 1982
  • Giovanni Pistone, and Sempi, C. (1995). "An infinitedimensional geometric structure on the space of all the probability measures equivalent to a given one", Annals of Statistics. 23 (5), 1543–1561.
  • Brigo, D, Hanzon, B, Le Gland, F, "Approximate nonlinear filtering by projection on exponential manifolds of densities", Bernoulli, 1999, Vol: 5, Pages: 495 - 534, ISSN 1350-7265
  • Brigo, D, Diffusion Processes, "Manifolds of Exponential Densities, and Nonlinear Filtering", In: Ole E. Barndorff-Nielsen and Eva B. Vedel Jensen, editor, Geometry in Present Day Science, World Scientific, 1999
  • Arwini, Khadiga, Dodson, C. T. J. Information Geometry - Near Randomness and Near Independence, Lecture Notes in Mathematics Vol. 1953, Springer 2008 ISBN 978-3-540-69391-8
  • Th. Friedrich, "Die Fisher-Information und symplektische Strukturen", Math. Nachrichten 153 (1991), 273-296.

Enlaces externos

  • Information Geometry overview by Cosma Rohilla Shalizi, July 2010
  • Information Geometry notes by John Baez, November 2012
  • blog Computational Information Geometry Wonderland by Frank Nielsen
  • pdf Information geometry for neural networks by Daniel Wagenaar
Control de autoridades
  • Proyectos Wikimedia
  • Wd Datos: Q3798604
  • Wd Datos: Q3798604