UNIVERSIDAD DE LAS AMÉRICAS PUEBLA Escuela de Ciencias...

62
UNIVERSIDAD DE LAS AMÉRICAS PUEBLA Escuela de Ciencias Departamento de Actuaría, Física y Matemáticas Fundamentos y aplicaciones de la geometría de la información Tesis que, para completar los requisitos del Programa de Honores presenta la estudiante Sebastian Jiménez Farías 153280 Licenciatura en Actuaría Gerardo Arizmendi Echegaray San Andrés Cholula, Puebla. Primavera 2019

Transcript of UNIVERSIDAD DE LAS AMÉRICAS PUEBLA Escuela de Ciencias...

UNIVERSIDAD DE LAS AMÉRICAS PUEBLA

Escuela de Ciencias

Departamento de Actuaría, Física y Matemáticas

Fundamentos y aplicaciones de la geometría de la información

Tesis que, para completar los requisitos del Programa de Honores presenta la

estudiante

Sebastian Jiménez Farías

153280

Licenciatura en Actuaría

Gerardo Arizmendi Echegaray

San Andrés Cholula, Puebla. Primavera 2019

Indice general

0.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1. Preliminares 5

1.1. Variedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.2. Vectores y espacios tangentes . . . . . . . . . . . . . . . . . . 8

1.3. Campos vectoriales y campos tensoriales . . . . . . . . . . . . 10

1.4. Metrica Riemanniana . . . . . . . . . . . . . . . . . . . . . . . 12

1.5. Conexiones afines y derivadas covariantes . . . . . . . . . . . . 14

1.6. Segunda Definicion de Derivada Covariante . . . . . . . . . . . 15

1.7. Variedades planas . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.8. Conexion Riemmaniana . . . . . . . . . . . . . . . . . . . . . 18

2. Metrica de Fisher y Variedades estadısticas 21

2.1. Metrica de Fisher Rao . . . . . . . . . . . . . . . . . . . . . . 23

2.2. Desigualdad de Cramer-Rao . . . . . . . . . . . . . . . . . . . 28

2.3. La α conexion . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.4. Geometra de P(X) . . . . . . . . . . . . . . . . . . . . . . . . 34

3. Conexiones duales y divergencia 39

3.1. Divergencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.2. f -divergencias . . . . . . . . . . . . . . . . . . . . . . . . . . 41

4. Inferencia estadıstica y geometrıa diferencial 43

4.1. Familia exponencial . . . . . . . . . . . . . . . . . . . . . . . . 46

4.2. Familia exponencial curveada . . . . . . . . . . . . . . . . . . 50

5. Deformacion de formas en el plano hiperbolico 53

5.1. Directrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

1

2 Indice general

6. Conclusiones 59

0.1. Introduccion 3

0.1. Introduccion

La tesis presentada a continuacion habla sobre la geometrıa de la infor-macion, este concepto fue creado por el profesor Amari Shunichi. Su principalenfoque es analizar las familias de distribuciones y variables aleatorias desdeun punto de vista geometrico al grado de ver su clasificacion como variedades,y a partir de esto poder manipularlas y entenderlas de una manera distintaa la usual, ademas de abrir nuevos panoramas con respecto a las mismas.La geometrıa de la informacion es un tema que relativamente nuevo, por lotanto, tiene mucho potencial para su comprension y desarrollo. Es necesariomencionar tambien que en la actuarıa tiene un potencial tremendo dado quela mayorıa de sus ramas giran en torno a probabilidad y estadıstica, por loque tener conocimientos nuevos y mas profundos de los modelos y las tecni-cas que se utilizan en estos ramos podrıa mejorar de forma impresionanteel entorno tanto academico como laboral. En otras areas, las aplicaciones sepueden derivar a sistemas de informacion, redes neuronales, series de tiem-po, procesamiento de senales, estudios neurologicos, analisis de formas, entreotros. Una de las principales motivaciones de esta tesis es dar una forma masamigable de entender la geometrıa de la informacion, entenderla y darle unuso en el area del analisis estadıstico.

Al ser un tema que abarca dos areas que no son tan comunmente unidas,el primer capıtulo de este trabajo se enfoca en el analisis y entendimien-to de estructuras geometricas, en este se abarcan estructuras topologicas,geometricas, algebraicas, desde el punto de vista de la geometrıa diferencial,y la conexion de las tres porque la idea de la geometrıa de la informacion esdarle una estructura de este tipo a los modelos probabilısticos y entender laspropiedades de los mismos bajo estas estructuras.

El segundo capıtulo nos da la conexion mencionada previamente y comose induce para tener variedades estadısticas, como asociar una metrica Rie-manniana natural, la llamada metria de Fisher-Rao, las α-conexiones y suestructura general. Cabe mencionar una propiedad fundamental que disitin-gue la metrica de Fisher-Rao, si F es una estadıstica suficiente entonces tantola metrica de Fisher-Rao como las α conexiones son invariantes bajo F . Unaelemento importante que se abarca desde un punto de vista geometrico esla desigualdad de Cramer-Rao, ver [8]. Tambien se da la distincion entrefamilias de distribuciones y se presenta a la familia de mezclas y la familiaexponencial, las cuales juegan un papel muy importante en la estadısticaparametrica y desde el punto de vista geometrico.

4 Indice general

En el tercer capıtulo se da una introduccion a que es una conexion dual,se define lo que es una divergencia y su relacion con la metrica de Fisher-Raoy se analizan estas dos estructuras en las variedades estadısticas, enfocandoseen la familia exponencial y dando un analisis mas profundo de su estructuradual, su conexion afın y su estructura m-afın inducida.

El cuarto capıtulo se adentra en la inferencia estadıstica y su relacion conla estructura geometrica de cualquier familia de distribuciones, dando unarelacion entre la metrica de Fisher y las herramientas para analizar y obtenerestimadores normalmente utilizados en el ambito de la estadıstica, poniendocomo ejemplo la familia exponencial.

Finalmente, en el ultimo capıtulo basandose en las ideas contenidas en [6]se da una aplicacion a la representacion y deformacion de formas en el planohiperbolico, haciendo un analisis numerico.

Capıtulo 1

Preliminares

En este capıtulo se explican los conceptos basicos de variedades, metricasRiemannianas, conexiones afines, campos vectoriales, tensores, entre otros.Se dan algunos ejemplos para tratar de hacer mas claros los conceptos.

1.1. Variedades

Definicion 1.1.1. Una variedad es un espacio topologico (Hausdorff) quecumple con la propiedad que para cada punto en el espacio existe una iden-tificacion de una vecindad del punto con un bola abierta de R

n.

Sea M una variedad, U una subvariedad de M y x : U → Rn una funcion

que va de U a x(U) ⊂ Rn, donde x := (x1(p), . . . , xn(p)) y p ∈ U . Una familia

de homeomorfismos relacionados de forma C∞ cuyos dominios cubren a M esllamado atlas de M . Un miembro particular (x, U) de un atlas A es llamadouna carta o sistema coordenado de U , esta nocion sera explicada con mayordetenimiento, un buena referencia al respecto es [9].

Lema 1.1.1. Si A es un atlas de cartas C∞ relacionadas en M , entonces Aesta contenido en un unico atlas maximal A′ para M .

Definicion 1.1.2. Una variedad C∞ se puede ver como el par (M,A) dondeA es el Atlas maximal para M .

Otra forma menos formal de verlo es que las transformaciones entre sis-temas coordenados y sus inversas sean suaves entre ellas.

5

6 Capıtulo 1. Preliminares

En esta tesis se considerara C∞ como suficientemente diferenciable. Porlo tanto, dada una transformacion coordenada, podemos tomar la derivadaparcial ∂i = ∂i(ξ1, . . . , ξn) con respecto a sus variables las veces que sean ne-cesarias, y lo mismo se sostiene para ξi = ξi(ρ1, . . . , ρn). Todas las variedadesS a utilizar a continuacion seran variedades diferenciables C∞, a menos quese indique lo contrario.

Intuitivamente, si tenemos un conjunto S que es una variedad diferencia-ble, S cuenta con un sistema coordenado, el cual se puede entender comouna aplicacion uno a uno x : S → R

n que nos permite identificar cada puntop en S con un punto de R

n. Llamamos al numero natural n la dimension deS, y lo escribimos como n = dimS.

Llamamos a un sistema coordenado que tiene a S como dominio un sis-tema coordenado global.

Definicion 1.1.3. Sea S una variedad y ϕ : S → Rn donde ϕ es un sistema

coordenado para S. Entonces ϕ envıa cada punto p en S a n nmeros realestales que ϕ = [ξ1(p), . . . , ξn(p)] = [ξ1, . . . , ξn]. Estas son las coordenadasdel punto p. Cada ξ puede ser visto como una funcion ξi : p → ξi(p) quemanda un punto p a su i-esima coordenada, llamamos estas n funcionesξ : S → R(i = 1, . . . , n) funciones coordenadas. El sistema coordenado sepuede escribir como ϕ = [ξ1, . . . , ξn] = [ξi].

Una funcion f es de clase Ck, si sus derivadas f, f ′, . . . , f (k) existen y soncontinuas. Una funcion es C∞ o suave, si cumple con la propiedad anterioren todos los ordenes.

Definicion 1.1.4. Si existe un conjunto de sistemas coordenados A paraS que satisfacen las siguientes condiciones, decimos que S es una variedaddiferenciable

Cada elemento ϕ de A es una aplicacion uno a uno de S a algunsubconjunto abierto de R

n

Para todo ϕ ∈ A, dada cualquier aplicacion ψ de S a Rn, se mantiene

lo siguiente:

ϕ ∈ A ⇐⇒ ϕ ◦ ψ−1 es un C∞ diferomorfismo.

Teorema 1.1.1. Sea ψ = [ρi] otro sistema coordenado para S. Entoncesel mismo punto p que pertenece a S tiene coordenadas [ξi] con respecto alsistema coordenado ϕ y [ρi] con respecto al sistema coordenado ψ.

1.1. Variedades 7

Las coordenadas [ρi] pueden ser obtenidas de [ξi] de la siguiente manera:Aplicando ϕ−1[ξi], esto envıa el vector en R

n a un punto p en S. Despuesaplicamos ψ a este punto, lo cual nos devuelve las coordenadas del punto pen terminos de las coordenadas [ρi].

En terminos de composicion, se vera de la siguiente manera:

ψ ◦ ϕ−1 : [ξ1, . . . , ξn] �→ [ρ1, . . . , ρn].

Esto se llama la transformacion coordenada de ϕ = [ξi] a ψ = [ρi].

Definicion 1.1.5. Sea S una variedad y ϕ un sistema coordenado en S. SeaU un subconjunto de S. Si la imagen de ϕ(U) es un subconjunto abierto deR

n, entonces decimos que U es un subconjunto abierto de S.

Gracias a la propiedad C∞ de S, podemos ver que esta propiedad de Ues invariante con respecto al sistema coordenado que elijamos.

Para cualquier subconjunto abierto no vacio U de S, podemos restringirϕ, un sistema coordenado cualquiera de S, para obtener ϕ |U (llamado laaplicacion U → R

n obtenido al restringir el dominio de ϕ a U), el cual puedeser tomado como un sistema coordenado para U . Por lo tanto, vemos queU es una variedad cuya dimension es la misma que S, dado que el sistemacoordenado este heredado de S y, por la solicitud de suavidad tenemos quela dimension de cualquier sistema coordenado en S tiene que mandarnos aR

n.Sea f : S → R una funcion en una variedad S. Entonces si seleccio-

namos un sistema coordenado ϕ = [ξi] para S, esta funcion se puede rees-cribir como una funcion de las coordenadas, por ejemplo, podemos denotarf(p) = f(ξ1, . . . , ξn), donde f = f ◦(ϕ)−1. Cabe resaltar que f es una funcioncon valor real cuyo dominio es ϕ(S), un subconjunto abierto de R

n. Ahorasupongamos que f(ξ1, . . . , ξn) tiene derivadas parciales para cada punto p enϕ(S). Entonces la derivada parcial de ∂

∂ξif(ξ1, . . . , ξn) tambien es una fun-

cion en ϕ(S). Si transformamos el dominio de vuelta a S, podemos definir laderivada parcial de f que sea ∂

∂ξif ≡ ∂

∂ξif ◦ ϕ: S → R , esto nos quiere decir

que para cualquier punto en S podemos enviarlo a Rn, calcular sus derivadas

y evaluarlo ahı.Cuando f = f ◦ (ϕ)−1 es C∞, a f se le llama una funcion C∞ en S. Esta

definicion no depende de nuestra seleccion del sistema coordenado ϕ. Lasderivadas de parciales ∂

∂ξif tambien mantienen la propiedad C∞ y, se cumple

con la propiedad ∂2

∂ξi∂ξjf= ∂

∂ξj∂∂ξi

f .

8 Capıtulo 1. Preliminares

Vamos a denotar a todas las funciones C∞ en S por F(S), o simplementeF . Para toda f y g en F y un numero real c, definimos la suma como(cf + g)(p) = cf(p) + g(p), y el producto (f ∗ g)(p) = f(p) ∗ g(p), estasfunciones tambien son miembros de F .

Sean [ξi] y [ρi] dos sistemas coordenados, ya que son C∞, las derivadas

parciales ∂ξi

∂ρjy ∂ρj

∂ξiestan bien definidas y satisfacen:

n∑j=1

∂ξi

∂ρj∂ρj

∂ξk=

n∑j=1

∂ρi

∂ξj∂ξj

∂ρk= δik

Lo cual nos indica que la regla de la cadena es permitida en estos espacios.

Definicion 1.1.6. Sean S y Q variedades con sistemas coordenados ϕ :S → R

n y ψ : Q → Rm. Una aplicacion λ : S es llamada C∞ o suave si la

composicion ψ ◦ λ ◦ ϕ−1 es una apliacion C∞ que va de Rn a R

m.

Una condicion suficiente y necesaria para que λ sea C∞ es que f ◦ λpertenezca a F(S) para toda f que pertenece a F(Q). Si un mapeo C∞ dadopor λ es una biyeccion y su inversa tambien es C∞, entonces λ es llamadoun difeomorfismo C∞de S sobre Q.

1.2. Vectores y espacios tangentes

Un espacio tangente en un punto p que pertenece a S de una variedades intuitivamente el espacio vectorial obtenido por linealizar localmente Salrededor de p.

Esto, dicho en otras palabras, es tomar un sistema coordenado [ξi] cual-quiera para S, y sea ξi la forma de denotar el vector tangente que va a travesdel punto p y es paralelo a la i-esima curva coordenada, la cual obtenemosfijando los valores para toda ξj donde j �= i y variando solo el valor de ξi.El espacio n-dimensional obtenido del espacio generado por los n vectorestangentes e1, . . . , en es el espacio tangente Tp en el punto p. Definimos for-malmente que es una curva suave en S

Definicion 1.2.1. Consideremos una funcion uno a uno γ : I → S dondeI es un invervalo que pertenece a R. Si definimos γi(t) = ξi(γ(t)), podemosexpresar el punto γ(t) usando las coordenadas γ(t) = [γ1(t), . . . , γn(t)]. Si γes C∞ para t que pertenece a I, llamamos a γ una curva C∞ en S. Estadefinicion es independiente del sistema coordenado para S que elijamos.

1.2. Vectores y espacios tangentes 9

Ahora, dada una curva γ y un punto γ(a) = p, observemos lo que significala derivada de γ en p, o alternativamente el vector tangente

(dγdt

)p= γ(a)

Teorema 1.2.1. Si tomamos una funcion f que pertenece a F(S) y consi-deramos el valor de γ(t) en una curva, dado que esta es una funcion con unvalor real podemos definir d

dtf(γ(t)) de la forma usual.

Usando sistemas coordenados podemos llegar a la forma f(γ1(t), . . . , γn(t)),y las derivadas se pueden reescribir como:

d

dtf(γ(t)) =

(∂f

∂ξi

)γ(t)

dγi(t)

dt=

(∂f

∂ξi

)γ(t)

dγi(t)

dt(1.1)

Llamamos a esto la derivada direccional de f sobre la curva γ. Si tomamosel operador: F → R que envıa f ∈ F a d

dtf(γ(t)) |t=a y definimos el vector

tangente(dγdt

)p= γ(a) a ser este operador. Podemos reescribir la ecuacion

1.1 como:

γ(a) =

(dγ

dt

)p

= γ(a)

(∂

∂ξi

)p

Al realizar estas transformaciones podemos utilizar la definicion clasicade derivada (la del lımite) para obtener vectores tangentes. Dado que lasderivadas parciales son simplemente derivadas direccionales sobre un eje de

coordenadas. Las derivadas parciales las definiremos como(

∂∂ξi

)pel vector

tangente en el punto p en direccion de la i-esima coordenada curva.

Teorema 1.2.2. Si consideramos todas las curvas que pasan por el puntop. Denotamos el conjunto de todos los vectores tangentes correspondientes aestas curvas con Tp o, Tp(S).

Podemos escribirlo como:

Tp(S) =

{ci(

∂ξi

)p

| [c1, . . . , cn] ∈ Rn

}

Esto forma un espacio lineal, y dado que los operadores

{(∂∂ξi

)p; i = 1, . . . , n

}son claramente independientes la dimension de este espacio es n(= dimS).Podemos llamar a Tp(S) y a sus elementos el espacio tangente y vectores

10 Capıtulo 1. Preliminares

tangentes, de S en el punto p, respectivamente. Adicionalmente, podemos

llamar a(

∂∂ξi

)pla base natural para el sistema coordenado [ξi].

Definicion 1.2.2. Sea D ∈ Tp(S) algun vector tangente, entonces para todof, g que pertenecen a F(S) y toda a, b que pertenecen a R, D satisface:

D(af + bg) = aD(f) + bD(g)

D(f · g) = f(p)D(p) + g(p)D(p)

Cualquier operadorD : F → R que tenga esas propiedades es un elementode Tp. Por lo tanto, es posible definir vectores tangentes en terminos de esaspropiedades.

Teorema 1.2.3. (Diferencial de una aplicacion). Sea λ : S → Q una apli-cacion suave de una variedad S a otra variedad Q. Dado un vector tangenteD ∈ Tp(S) de S, la aplicacion D′ : F → R definida por D′(f) = D(f ◦λ) sa-tisface las ecuaciones de linealidad y de Leibniz con p reemplazado con λ(p),y por lo tanto D′ pertenece a Tλ(p)(Q).

Respresentando esta correspondencia como D′ = (dλp(D) podemos defi-nir una aplicacion lineal dλp : Tp(S) → Tλ(p)(Q) que es llamado el diferencialde λ en p. Cuando S y Q tienen sistemas coordenados [ξi] y [ρi] respectiva-mente, tenemos:

(dλ)p(

(∂

∂ξi

)p

) =

(∂(ρj ◦ λ)

∂ξi

)p

(∂

∂ρj

)λ(p)

Mas aun, para cualquier curva γ(t) en S que pasa por el punto p se tieneque:

(dλ)p(

(dγ

dt

)p

) =

(d(λ ◦ γ)

dt

)λ(p)

1.3. Campos vectoriales y campos tensoriales

Definicion 1.3.1. Un campo vectorial X : p → Xp es una aplicacion queenvıa cada punto en la variedad S a un vector tangente Xp ∈ Tp(S).

1.3. Campos vectoriales y campos tensoriales 11

Ejemplo: Sea X = R2 con coordenadas (x, y) entonces cualquier campo

vectorial se escribe como F = f∂x + g∂y, con f, g ∈ C∞(R2). En este casopodemos identificar ∂x con el vector (1, 0) y el ∂y con el vector (0, 1) de ma-nera global. Entonces pensamos un campo vectorial como F = (f, g).

Llamamos a F : V1×V2× . . .×Vr → W , donde V1, . . . Vr, W son espacioslineales, un aplicacion multilinea1 si la siguiente propiedad se cumple:

Teorema 1.3.1. Sea F (vi) un mapeo de una variable equivalente a F (v1, ..., vr)donde alguna vi fue distinguida como variable y las demas vj(j �= i) se man-tienen constantes para algun valor(∈ Vj). Entonces F que envıa a vi �→ F (vi)es un mapeo lineal de Vi a W .

Definicion 1.3.2. Para cada punto p ∈ S, sea [Tp]0r la familia de aplicaciones

multilineales de la forma Tp × · · · × Tp → R con r productos directos, y sea[Tp]

1r denota la familia de la forma Tp×· · ·×Tp → Tp con r productos directos

de nuevo. Llamamos a los mapeos A : p → Ap que envıa cada punto p en S aalgun elemento A de [Tp]

qr para (q = 1, 0) un campo tensorial de tipo (q, r) en

S. Los tipos (0, r) y(1, r) tambien son llamados campo tensorial covariante degrado r, campo tensorial de contravariante de grado1 y covariante de grador, respectivamente. Los campos vectoriales tambien pueden ser consideradoscampos tensoriales de tipo (1, 0).

Definicion 1.3.3. Sean S y M variedades, donde M es un subconjunto deS. Sean [ξi] y [ui] sistemas coordenados para S y M , respectivamente, donden = dimS y m = dimM . Utilizaremos los ındices i, j, k para denotar {1, .., n}de S y a, b, c para {1, . . . ,m} de M .

Llamamos a M subvariedad de S si cumple con las siguientes propiedades:

1. La restriccion ξi|M de cada ξi : S → R a M , es una funcion C∞ en M .

2. Las derivadas parciales del sistema coordenado ξ con respecto de lasvariables ui son linealmente independientes.

3. Para cualquier subconjunto abierto W de M , existe un U , abierto de Stal que W = M ∩ U .

Estas condiciones son independientes de nuestra eleccion de sistema coor-denado.

12 Capıtulo 1. Preliminares

1.4. Metrica Riemanniana

Definimos una metrica Riemanniana como un producto interno gp en cadaespacio tangente Tp(M), es decir gp : Tp(M)× Tp(M) → R y cumple que

1. gp(v, ·) es lineal.

2. gp(v, w) = gp(w, v) (Simetrico).

3. gx(v, v) > 0 si v �= 0 (Positivo-definido)

Ademas, dentro de la definicion pedimos que g varie suavemente en to-do M . Esto es, si tomamos coordenadas locales [ξi] y definimos gij(p) =g((∂i)p, (∂j)p) entonces gij : M → R es suave.

Observacion 1.4.1. La aplicacion g:p �→ gp es una forma bilineal (simetri-ca), por lo tanto g es un tensor de grado 2 simetrico.

De hecho si {dξi}i=1,...,n es la base dual de {∂ξi}i=1,...,n es decir dξi(∂ξj) =δij, entonces en coordenadas locales la metrica se escribe como

g = gijdxi ⊗ dxj

porqueg(∂i, ∂j) = gkldx

k ⊗ dxl(∂i, ∂j) = gklδkiδlj = gij

Mas aun, de la propiedad de simetrıa de gij si pensamos a G := [gij] comomatriz, entonces G es simetrica, positiva definida y dados X = Xi∂

i y Y =Yj∂

j tenemos:g(X, Y ) = (X1, . . . , Xn)G(Y1, . . . , Yn)

t

Por ejemplo, para n = 2 g(2∂1 + ∂2, ∂1) = 2g(∂1, ∂1) + g(∂2, ∂1) = 2g11 + g21es lo mismo que calcular

(2 1)

(g11 g12g21 g22

)(10

)= 2g11 + g21

Ejemplos:

1. (Metrica Plana) Sea M = Rn y g = dx1⊗dx1+ · · ·+dxn⊗dxn =: dx2

1+· · ·+ dx2

n. En este caso G = Id y gp(v, w) = (v1, . . . , vn)(w1, . . . , wn)t =

v1w1 + · · · + vnwn. Es decir, obtenemos el producto interno usual deR

n.

1.4. Metrica Riemanniana 13

2. (Metrica Hiperbolica) Sea M = H := {(x, y)|y > 0} el semiplanosuperior. Si p = (x, y) y

gp =dx2 + dy2

y2

entonces

G =

(1/y2 00 1/y2

).

Ası, para v = (v1, v2) y w = (w1, w2) en el tangente de M en p tenemosque

gp(v, w) =v1w1 + v2w2

y2.

Como referencias para estudiar geometrıa hiperbolica se puede consul-tar [4] y [10].

Definimos la norma de un vector tangente como norma ||Xp|| =√g(Xp, Xp).

Por lo tanto, si Xp = X ip∂i tenemos que

||Xp|| =√∑

ij

xjxigij

El tener una metrica Riemanniana en M nos permite definir la longitudde curvas la variedad. Si α : R → M definimos la longitud ||α|| de α como:

||α|| =∫ b

a

||α′(t)||α(t)dt (1.2)

donde α′p ∈ Tp y ||α(t)|| =

√g(α′(t), α′(t)). Es decir, estamos calculando la

integral de camino a lo largo α de la norma de la derivada, donde la normaesta calculada con respecto de g.

1. Si α : R → Rn, con g = dx2

1+ · · ·+dx2n la metrica estandar de Rn , ||α||

es la longitud usual de α. Ası, sea α : [1, 2] → R2 dada por α(t) = (0, t),

||α|| =∫ 2

1

||α′(t)||α(t)dt =∫ 2

1

1dt = 1

entonces en esta metrica α tiene una longitud de 1.

14 Capıtulo 1. Preliminares

2. Ahora tomando α : R → H, g = dx2+dy2

y2con los mismos paraametros

de la curva α anterior.

||α|| =∫ 2

1

||α′(t)||α(t)dt =∫ 2

1

1

tdt = ln(2)

1.5. Conexiones afines y derivadas covarian-

tes

Definicion 1.5.1. Sea S una variedad n-dimensional. Si S es un subconjuntoabierto de Rn, entonces al definir el vector tangente de una curva γ, el espaciotangente Tp(S) en cada punto p ∈ S puede ser considerado equivalente a R

n.

Esto implica que para dos puntos diferentes p y q, hay una corresponden-cia natural Tp y Tq. Para una variedad general Tp y Tq son espacios entre loscuales no hay una identificacion natural cuando p es diferente de q. Por lotanto, considerar la relacion entre Tp y Tq de alguna forma la estructura denuestra variedad, a este incremento de estructura se le llama conexion afın.

Definir una conexion afın en una variedad S significa que para cada puntop en S y su vecino p′, podemos definir una trasformacion lineal uno a unoentre Tp y Tp′ . Llamamos a p′ un vecino de p si dado un sistema coordenadoξi, la diferencia entre las coordenadas de p′ y p, dξi = ξi(p′) − ξi(p) cuandoson construidas como un infinitesimal de primer orden son suficientementepequenos para ignorar los infinitesimales de segundo orden (dξi)(dξj).

Para establecer una transformacion∏

p,p′ entre Tp y Tp′ debemos espe-cificar, para cada j ∈ {1, . . . , n}, como expresar

∏p,p′((∂j)p) , en terminos

de una combinacion lineal {(∂1)p′ , . . . , (∂n)p′}(∂j =

∂∂ξj

). Si asumimos que

la diferencia entre∏

p,p′((∂j)p) y(∂j)p′ es un infinitesimal, y que puede ser ex-

presado como una combinacion lineal de {dξ1, . . . , dξn} . Entonces tenemos:∏p,p′

((∂j)p) = (∂j)p′ − dξi(Γkij)p(∂k)p′ (1.3)

Donde{(Γkij)p; i, j, k = 1, . . . , n} son n3 al cubo numeros reales que de-

penden de p. Si para cada par de puntos vecinos p y p′ en S esta definiendouna transformacion lineal

∏p,p′ : Tp → Tp′ de la forma descrita en 1.3, y si

las n3 funciones Γ kij : p �→ (Γ k

ij)p son todas C∞, entonces decimos que he-mos introducido una conexion afın en S. Adicionalmente, llamamos a {Γ k

ij}

1.6. Segunda Definicion de Derivada Covariante 15

los coeficientes de conexion o sımbolos de Cristoffel de la conexion afın conrespecto al sistema coordenado [ξi].

1.6. Segunda Definicion de Derivada Cova-

riante

Podemos definir para cada X, Y ∈ T (S) el campo vectorial ∇XY ∈T (S) de la forma (∇XY )p = ∇XpY ∈ Tp(S). Llamamos a esta la derivadacovariante de Y con respecto a X. Dado X = X i∂i y Y = Y i∂i, podemosescribir

∇XY = X i{∂iY k + Y jΓ kij}∂k.

En particular, cuando X = ∂i y Y = ∂j, obtenemos la expresion delcomponente de la derivada covariante

∇∂i∂j = Γ kij∂k (1.4)

Esto puede ser pensado como el campo vectorial que expresa el cambioen el vector base ∂j conforme se va moviendo en la direccion de ∂i.

El operador ∇ : T × T → T que envıa (X, Y ) a ∇XY satisface lassiquientes propiedades.

Para X, Y, Z ∈ T y f ∈ F(: el conjunto de funciones C∞ en S) tenemos:

(i)∇X+YZ = ∇XZ +∇YZ

(ii)∇X(Y + Z) = ∇XY +∇XZ

(iii)∇fXY = f∇XY

(iv)∇X(fY ) = f∇XY + (Xf)Y

Aquı, Xf denota la funcion p �→ Xpf(∈ F). ∇ Es F -lineal con respectoa X, pero no con respecto a Y , por lo tanto ∇ no es un campo tensorial. Po-demos definir los coeficientes de conexion {Γ k

ij} de ∇ con respecto al sistemacoordenado [ξi] como las n3 funciones determinadas por la ecuacion 1.4.

Para cualquier conexion afin ∇ y ∇′ y para cualquier numero real α ∈ R,la combinacion afin α∇+ (1− α)∇′ define otra conexion afin. La diferenciaentre dos conexiones afines es un campo tensorial de tipo (1, 2).

16 Capıtulo 1. Preliminares

1.7. Variedades planas

Definicion 1.7.1. Sea X ∈ T (S) un campo vectorial en S. Si para cualquiercurva γ ∈ S, Xγ : t �→ Xγ(t)es paralela sobre γ (con respecto a la conexion∇), decimos que X es paralela en S(con respecto a ∇).

En este caso, para cualquier curva γ que conecta los puntos q y p, Xq =∏γ(Xp). Una condicion necesaria y suficiente para que X = X i∂i sea paralelo

es que∇YX para toda Y ∈ T (S), o equivalentemente que

∂iXk +XjΓ k

ij = 0

Definicion 1.7.2. Sea [ξi] un sistema coordenado de S, y supongamos quecon respecto a este sistema coordenado los n campos vectoriales generadospor la base son todos paralelos en S. Entonces llamamos a [ξi] un sistemacoordenado afin para ∇.

Esta condicion es equivalente para∇∂i∂j = 0 y tambien a la condicion quelos coeficientes de conexion {Γ k

ij} de∇ con respecto a [ξi] son identicamente 0.Dada una conexion, un sistema coordenado afın correspondiente a la mismageneralmente no existe.

Definicion 1.7.3. Si un sistema coordenado afin existe para la conexion ∇,decimos que ∇ es plano, o alternativamente que S es plano con respecto a∇.

Sea ∇ una conexion en S. Entonces para los campos vectoriales X, Y, Z ∈T , si definimos

R(X, Y )Z = ∇X(∇YZ)−∇Y (∇XZ)−∇[X,Y ]Z

T (X, Y ) = ∇XY −∇YX − [X, Y ]

Entonces estos tambien son campos vectoriales (∈ T ). Si definimos X =X i∂i y Y = Y i∂i, habremos definido [X, Y ] que sea el campo vectorial

[X, Y ] = (Xj∂jYj − Y j∂jX

i)∂i

Este operador no depende de nuestra seleccion de sistema coordenado.Los mapeos R : T × T × T −〉T y T : T × T −〉T como estan definidos

1.7. Variedades planas 17

arriba son ambos F−multilineales. Entonces, R y T son respectivamentecampos tensoriales de tipo (1,3) y (1,2). Llamamos a R el tensor (campo)de curvatura Riemann-Cristoffel de ∇, o simplemente el tensor (campo) decurvatura, y a T el tensor (campo) de torsion de ∇. Los componentes de lasexpresiones de R y T con respecto al sistema coordenado [ξi] estan dados por(1.44).

Y podemos escribirlos de la siguiente manera:

R(∂i, ∂j)∂k = R�ijk∂� (1.5)

T (∂i, ∂j) = T kij∂k (1.6)

con(∂i =

∂∂ξi

), y estos pueden ser reescritos de la siguiente manera:

R�ijk = ∂iΓ

�jk − ∂jΓ

�ik + Γ �

jhΓhjk − Γ �

jhΓhik

T kij = Γ k

ij − Γ kji

Si [ξi] es un sistema coordenado afin para∇, entonces claramente R�ijk = 0

y T kij = 0. Si ∇ es plano, entonces R = 0 y T = 0 con respecto a cualquier

sistema coordenado. Por otro lado, si sabemos que R = 0 y T = 0, es diceque ∇ es localmente plano en el siguiente sentido: Para cada punto p ∈ S,existe una vecindad U en p tal que ∇ es plano en U .

En general, cuando T = 0 (por ejemplo, cuando se cumple Γ kij = Γ k

ji),∇ esllamado una conexion simetrica o una conexion libre de torsion. Si la conexiones plana, la traslacion paralela no depende de la curva que seleccionemos paraconectar los dos puntos p y q.

Definicion 1.7.4. Sea M una subvariedad de S, si para todo X, Y en T (M)tenemos que ∇XY ∈ T (M) entonces decimos que M es autoparalela.

El siguiente teorema puede ser consultado en [5]

Teorema 1.7.1. Sea S una variedad plana, entonces una condicion necesariay suficiente para que una subvariedad M sea autoparalela es que M se puedaexpresar como un subespacio afın de S con respecto a un sistema coordenadoafın.

18 Capıtulo 1. Preliminares

1.8. Conexion Riemmaniana

Definicion 1.8.1. Sea ∇ una conexion afın en una variedad riemanniana(S, g), y supongamos que ∇ satisface para todos campos vectoriales X, Y, Z ∈T (S)

Zg(X, Y ) = g(∇ZX, Y ) + g(X,∇ZY ) (1.7)

Entonces decimos que ∇ es una conexion metrica con respecto a g.

Usando las expresiones coordinadas de g y ∇ podemos reescribir la con-dicion de la siguiente manera:

∂kgij = Γki,j + Γkj,i

Considere la curva γ : t �→ γ(t) en S y dos campos vectorialesX y Y sobreγ. Escribiendo δX

dty δY

dtrespecticamente denotando las derivadas covariantes

de X y Y con respecto a ∇, vemos de la ecuacion 1.7 que

d

dtg(X(t), Y (t)) = g(

δX

dt, Y (t)) + g(X(t),

δY

dt)

Si X y Y son ambos paralelos en γ (por ejemplo, δXdt

= δYdt

= 0) entoncesel lado derecho de la ecuacion es 0, y por lo tanto 〈X(t), Y (t)〉 no dependende t y es constante. La traslacion paralela sobre γ, entonces, es una metricaisomorfa que preserva los productos internos. En otras palabras, siendo py q los las orillas de la curva γ, para dos vectores tangentes cualesquieraD1, D2 ∈ Tp se mantiene la siguiente igualdad:

〈Πγ(D1), Πγ(D2)〉q = 〈D1, D2〉pLlamamos a esta conexion que es metrica y simetrica la conexion Rie-

mannniana o la conexion de Levi-Civita con respecto a g. Para una g da-da, tal conexion es unica. De hecho, si pedimos que se cumpla la condicionΓij,k = Γji,k, tenemos

Γij,k =1

2(∂igjk + ∂jgki − ∂kgij)

Las geodesicas con respecto a la conexion riemanniana ∇ son conocidaspor coincidir localmente con la curva mas corta que une dos puntos cuyalongitud se mide con la ecuacion 1.2.

1.8. Conexion Riemmaniana 19

Si consideramos el caso en que ∇ es plana y que existe un sistema coorde-nado afın [ξi], encontramos que dado que ∂i =

∂∂ξi

es paralelo en S, 〈∂i, ∂j〉 esconstante en S. Se puede ver que en particular existe un sistema coordenadoque satisface

〈∂i, ∂j〉 = δij

Un sistema coordenado que cumple con esa propiedad es llamado unsistema coordenado euclidiano con respecto a g. Por lo tanto, la conexionriemanniana es plana si y solo si existe un sistema coordenado euclideano.

20 Capıtulo 1. Preliminares

Capıtulo 2

Metrica de Fisher y Variedadesestadısticas

Sea X un conjunto discreto contable, entonces cuando hablamos de unadistribucion de probabilidad nos referimos a una funcion p : X → R quesatisface:

p(x) ≥ 0(∀x ∈ X ) y∑x∈X

p(x) = 1

Lo que significa que p cubre todo el espacio de eventos, es decir que laprobabilidad de que pase cualquier cosa es igual a 1.

Si X= Rn y nos referimos a una funcion p que cumple con:

p(x) ≥ 0(∀x ∈ X ) y

∫Xp(x)dx = 1

En otras palabras, a p se le llama funcion de densidad de probabilidad osolamente funcion de densidad, al ser el dominio de la integral el conjuntocompleto X , cuando n es mayor o igual a dos, nuestra integral puede ser detipo multiple sobre cada dimension de X .

Desde un punto de vista mas analıtico, las funciones que estamos con-siderando pueden ser vistas como la funcion de densidad p = dP

dv: X → R

donde v es una medida σ-finita en un espacio medible (X ,B) con B siendouna clase completamente aditiva que consiste de X y sus subconjuntos, y Pes una medida de probabilidad en (X ,B) que es absolutamente continua conrespecto a v. Esto se puede entender mas sencillamente como una transfor-

21

22 Capıtulo 2. Metrica de Fisher y Variedades estadısticas

macion del espacio de probabilidades hacia un espacio de funciones reales,donde X se convierte en un R

n.Considere una familia S de distribuciones de probabilidad. Suponga que

cada elemento de S, osea una distribucion de probabilidad, puede ser para-metrizada usando n variables con valor real [ξi, . . . , ξn] tal que

S ={pξ = p(x; ξ) | ξ = [ξ1, . . . , ξn] ∈ Ξ

}Donde cada ξi, representa un parametro de la funcion, en el caso mas

simple, como la exponencial de dimension 1, ξ1 serıa igual a λ.Donde Ξ es un subconjunto de R

n y el mapeo ξ �→ pξ es inyectivo. Lla-mamos a tal S un modelo estadıstico n dimensional, un modelo parametrico,o simplemente un modelo en X .

Supongamos que queremos estimar la distribucion de probabilidad sub-yacente que ha producido las observaciones x1, . . . , xn. Comunmente lo quese hace primero es tratar de buscar una familia sobre la cual seleccionar losposibles candidatos. Al hacer esto asumimos que existe una distribucion p∗

con la cual se generaron los datos, y que podemos considerar que los datosobservados sean resultado de muestrear una variable aleatoria obtenida deesta distribucion. Llamamos a p∗ la distribucion subyacente o la distribucion“real”. Aunque p∗ sea desconocida usualmente podemos utilizar los datosobtenidos para obtener una “forma” de p∗, hay muchas pruebas estadısticaspara estimar esta forma o familia, esta forma contiene varios parametros li-bres, y para obtener la distribucion real se tienen que obtener los parametrosde la misma.

Ahora daremos algunas suposiciones que tendremos para modelos es-tadısticos S. Vamos a asumir que podemos diferenciar con respecto a losparametros sin ningun problema pidiendo de Ξ sea un subconjunto abiertoy que para cada x ∈ X las funciones ξ �→ p(x; ξ)(Ξ → R) es C∞. Y tam-bien pediremos que el orden de integracion pueda ser movido libremente. Porejemplo podemos formulas de la forma∫

∂ip(x; ξ)dx = ∂i

∫p(x; ξ)dx = ∂i1 = 0. (2.1)

Todos los modelos que analizaremos son derivados del conjunto potenciade X .

Ejemplos de modelos estadısticos.

1. Distribucion normal

2.1. Metrica de Fisher Rao 23

X = R, n = 2, ξ = [μ, σ], Ξ = {[μ, σ]| −∞ < μ < ∞, 0 < σ < ∞}

p(x; ξ) =1√2πσ

e

−1

2

⎛⎜⎝x− μ

σ

⎞⎟⎠

2

2. Distribucion Poisson

X = {0, 1, 2, . . . }, n = 1, Ξ = {ξ|ξ > 0}

p(x; ξ) = e−ξξx

x!

3. P(X ) para una X finita

X = {x0, x1, . . . , xn}, Ξ = {[ξ1, . . . , ξn]|ξi > 0(∀i),Σni=1ξ

i < 1}

p(xi; ξ) =

{ξi (1 ≤ i ≤ n)

1− Σni=1ξ

i (i = 0)

Dado un modelo estadıstico S = {pξ|ξ ∈ Ξ}, el mapeo ϕ : S → Rn defi-

nido por ϕ(pξ) = ξ nos permite considerar a ϕ como un sistema coordenadopara S. Adicionalmente, si tenemos un difeomorfismo C∞denotado ψ que vade Ξ a ψ(Ξ), siendo ψ(Ξ) un subconjunto abierto de R

n. En otras palabras,suponemos que ψ es uno a uno, y que ψ y ψ−1son C∞. Podemos aplicaresta funcion ψ a Ξ lo cual nos entrega ξi transformadas, por lo tanto, po-demos usar ρ = ψ(ξ) en vez de ξ como nuestros parametros, lo cual nos daS =

{pψ−1(ρ)|ρ ∈ ψ(Ξ)

}. Esto expresa la misma familia de distribuciones de

probabilidad que S = {pξ} pero con parametros transformados.

2.1. Metrica de Fisher Rao

Sea S = {pξ} un modelo estadıstico n-dimensional, dado un punto ξ(∈ Ξ),la matriz de informacion de S en ξ es la matrix n×n G(ξ) = [gij(ξ)], donde elelemento (i, j) esta definido por la ecuacion de abajo, en particular, cuandon = 1, llamamos a esto informacion Fisher.

gij(ξ) = Eξ[∂i�ξ∂j�ξ] =

∫∂i�(x; ξ)∂j�(x; ξ)p(x; ξ)dx (2.2)

24 Capıtulo 2. Metrica de Fisher y Variedades estadısticas

donde ∂i =∂∂ξi

�ξ(x) = �(x; ξ) = ln p(x; ξ)

El valor esperado es con respecto a la distribucion pξ.Para la siguientediscucion, se asume que gij(ξ) es finito para toda ξ y para toda i, j y quegij : Ξ → R es C∞. Si la integral 2.2 no diverge, podemos utilizar la siguientepropiedad:

gij(ξ) = Eξ[∂i∂j�ξ]

Esto se puede derivar de reescribir la ecuacion 2.1 como:

Eξ[∂i�ξ] = 0 (2.3)

La matriz G(ξ) es simetrica y positiva semi-definida, si pedimos que G(ξ)sea positivo definido vemos que esto es equivalente a pedir que los elementosde {∂1�ξ, . . . , ∂n�ξ} que pueden ser vistos como funciones de X son lineal-mente independientes, lo cual es equivalente a que las derivadas de p sonlinealmente independientes tambien.

El ejemplo clasico de una variedad estadıstica es conjunto de las medidasde probabilidad con distribucion normal de media μ ∈ R y desviacion estan-dar σ > 0, esta es una variedad estadistica de dimension dos, modelada porel semiplano superior. Se pueden hacer los calculos directos para obtener quela metrica de Fisher-Rao esta dada por

G =

(1σ2 00 2

σ2

)

Esta es la metrica hiperbolica, que bajo un factor de 2 es la metrica hi-perbolica estandar. Cabe recalcar que a partir de definicines puramente deprobabilidad obtenemos una metrica muy interesante como es la metrica hi-perbolica. Las siguientes figuras muestran una geodesica para esta metricaen el plano (μ, σ) ası como la representacion de las correspondientes distru-buciones con esos parametros.

Cuando X es un conjunto finito podemos considerar P(X ) como un mo-delo estadıstico que forma una variedad de dimension equivalente a la cardi-nalidad de |X |− 1. Menos uno por el ultimo grado de libertad que se pierde.

Suponiendo que las propiedades de arriba se cumplan, podemos definirun producto interno para la base natural del sistema coordenado [ξi] por

2.1. Metrica de Fisher Rao 25

Figura 2.1: Geodesica de la metrica de Fisher en el espacio de parametros(μ, σ).

5Normales1.jpg

Figura 2.2: Representacion de medidas de probabilidad asociadas a la geode-sida de la figura 2.1.

26 Capıtulo 2. Metrica de Fisher y Variedades estadısticas

gij = 〈∂i, ∂j〉. Esto determina una metrica Riemanniana, a esta metrica lallamamos metrica Fisher, o metrica de informacion.

Podemos ver que nuestra metrica de Fisher es invariante sobre la elec-cion de sistema coordenado q. Por lo tanto, podemos escribir 〈X, Y 〉ξ =Eξ[(X�)(Y �)] para todo vector tangente X, Y ∈ Tξ(S).

Definicion 2.1.1. Sea F : X → Y una transformacion que convierte el valorde una variable X a Y = F (X). Entonces, dada la distribucion p(x; ξ) de X,esta determina la distribucion q(y; ξ) que gobierna a Y .

Adicionalmente tenemos las siguientes propiedades:

r(x; ξ) =p(x; ξ)

q(F (x); ξ)(2.4)

p(x|y; ξ) = r(x; ξ)δF (x)(y)

Pr(A|y; ξ) =∫A

p(x|y; ξ)dx

Donde δF (x) es la funcion delta en (Y , dy) concentrada en el punto F (x),tambien tenemos que para cualquier B ⊂ Y .∫

A∩F−1(B)

p(x; ξ)dx =

∫B

Pr(A|y; ξ)q(y; ξ)dy

Esto implica que Pr(A|y; ξ) es la distribucion condicional del evento{X ∈ A} dado Y = y. Si el valor Pr(A|y; ξ) no depende de ξ para todaA y y, o equivalentemente, si r(x; ξ) no depende de ξ para toda x, entoncesdecimos que F es un estadıstico suficiente para el modelo S. Las aplicacionesuno a uno son ejemplos triviales de estadısticos suficientes.

Si F es un estadıstico suficiente podemos escribir la ecuacion 2.4 como

p(x; ξ) = q(F (x); ξ)r(x) (2.5)

Esto nos dice que la parte de la distribucion p(x, ξ) que depende de ξ estacontenida completamente dentro de la distribucion q(y; ξ) de Y = F (X), en-tonces para conocer el parametro desconocido ξ (la distribucion desconocidap(x, ξ)), es suficiente conocer el valor de Y . Esto se puede lograr dado el valorde Y , podemos simular X usando el generador de numeros aleatorios p(x|y)que no depende de ξ.

2.1. Metrica de Fisher Rao 27

Teorema 2.1.1. F es un estadıstico suficiente si y solo si existen algunasfunciones s : Y ×Ξ → R y t : X ×Ξ → R tal que para toda x y ξ se podemosescribir la distribucion p(x; ξ) como

p(x; ξ) = s(F (x); ξ)t(x)

Teorema 2.1.2. La matriz de informacion Fisher GF (ξ) = [gFij(ξ)] del mo-delo inducido SF = {q(y; ξ)} satisface GF (ξ) ≤ G(ξ), donde G(ξ) = [gij(ξ)]es la matriz de informacion del modelo original S, en el sentido que ΔG(ξ) =G(ξ)−GF (ξ) es positivo semidefinido. Una condicion necesaria y suficientepara que la igualdad G(ξ) = GF (ξ) se mantenga es que F sea un estadısticosuficiente para S. En general, la perdida de informacion ΔG(ξ) = [Δgij(ξ)]causada por transformar la informacion x en y = F (x) esta dada por

Δgij(ξ) = Eξ[∂i log r(X; ξ)∂j log r(X; ξ)]

= Eξ [Covξ[∂i�(X; ξ), ∂j�(X; ξ)|Y ]] (2.6)

Donde Eξ [Covξ[·, ·|Y ]] =∫Covξ[·, ·|Y ]q(y; ξ)dy y Covξ[·, ·|Y ] para una y

fija denota la covarianza con respecto a la distribucion condicional p(x|y; ξ).Demostracion: Para cualquier B ⊂ Y tenemos:

∫B

∂i log(q(y; ξ))q(y; ξ)dy = ∂i

∫B

q(y; ξ)dy

= ∂i

∫F−1(B)

p(x; ξ)dx

=

∫F−1(B)

∂i�(x; ξ)p(x; ξ)dx

Lo que nos lleva a

∂i log(q(y; ξ)) = Eξ[∂i�(X; ξ)|y] (2.7)

Por otro lado, a la ecuacion 2.4 nos lleva a

∂i�(x; ξ) = ∂i log(q(F (x); ξ)) + ∂i log r(x; ξ) (2.8)

De estas ecuaciones tenemos

Eξ[∂i log r(X; ξ)|F (x)] = 0

28 Capıtulo 2. Metrica de Fisher y Variedades estadısticas

Esto implica que ∂i log r(x; ξ) como una funcion de x es ortogonal a cual-quier funcion de la forma ϕ(F (x)), donde ϕ es una funcion arbitraria en Y ,y es ortogonal a ∂j log(q(F (x); ξ)) en particular, con respecto al productointerno (2.21)

〈〈Φ,Ψ〉〉ξ = Eξ[Φ(X)Ψ(X)]

Se puede ver entonces que la ecuacion 2.6 surge de las ecuaciones 2.7, 2.8y de la definicion de covarianza condicional:

Covξ[∂i�ξ, ∂j�ξ|y] = Eξ [{∂i�ξ − Eξ[∂i�ξ|y} {∂j�ξ − Eξ[∂j�ξ|y} |y]

La no negatividad de ΔG(ξ) es ahora evidente, y la condicion de queΔG(ξ) desaparezca por identidad es que ∂i log r(x; ξ) = 0 para toda ξ, i, x,quees equivalente a la suficiencia de F .

2.2. Desigualdad de Cramer-Rao

Suponga que la informacion x es generada aleatoriamente sujeta a unadistribucion de probabilidad que es desconocida, pero se asume que esta enun modelo parametrico n-dimensional S = {pξ|[ξ1, . . . , ξn] ∈ Ξ}. Se considerael problema de estimar el parametro desconocido ξ por una funcion ξ(x) dela informacion x. Un mapeo ξ = [ξ1, . . . ., ξn] : X → R

n introducido para esteproposito es llamado un estimador. Decimos que ξ es un estimador insesgadosi:

Eξ[ξ(X)] = ξ ∀ξ ∈ Ξ

El error cuadratico medio de un estimador insesgado ξ puede ser expre-sado como la matriz de varianza-covarianza Vξ[ξ] = v ij

ξ donde:

v ijξ = Eξ[(ξi(X)− ξi)(ξj(X)− ξj)]

Teorema 2.2.1. (Desigualdad de Cramer-Rao) La matriz de varianza-covarianzaVξ[ξ] de un estimador insesgado ξ que satisface Vξ[ξ] ≥ G(ξ)−1 en el sentido

que Vξ[ξ]−G(ξ)−1 es positiva semidefinida.

2.3. La α conexion 29

Observacion: Esta desigualdad es mas conocida cuando nuestro espaciode parametros es 1-dimensional.

Un estimador insesgado ξ que alcanza la igualdad Vξ[ξ] = G(ξ)−1 paratoda ξ es llamado un estimador eficiente. Un estimador eficiente es el mejorestimador insesgado en el sentido que su varianza es la mınima entre todoslos estimadores insesgados (EIMV). El mejor estimador insesgado no siempreva a alcanzar la cota de Cramer-Rao.

Tambien se debe recalcar que no siempre existe un estimador eficiente enun modelo S = pξ. Vale la pena mencionar que siempre existira una secuen-

cia de estimadores{ξN : ξN(x1, . . . , xN)

}N

que alcanza asintoticamente la

igualdad en la desigualdad de Cramer-Rao cuando el numero N de observa-ciones independientes tiende a infinito. Tal secuencia de estimadores se llamaestimador asintoticamente eficiente o estimador eficiente de primer orden.

Se debe observar que la matriz G(ξ)−1 representa el grado en que unestimador asintoticamente optimo fluctua alrededor del valor del parametroverdadero ξ. En otras palabras, entre mas chico es G(ξ)−1 (Osea entre masgrande sea G(ξ)) nos indica que el estimador es mas preciso. Para poder es-timar de forma precisa el parametro ξ significa que conforme el valor de ξ escambiado, el “caracter”(por ejemplo, la distribucion pξ) de los datos cambiadramaticamente (es decir, que si cambio aunque sea un poco el parametro, to-da mi muestra aleatoria obtenida del mismo cambia drasticamente tambien).La metrica de Fisher puede ser considerada como la expresion geometrica deltamano de este cambio.

2.3. La α conexion

Sea S = pξ un modelo n-dimensional, y consideremos la funcion Γ(α)ij,k que

manda cada punto ξ al valor siguiente:

Γ(α)ij,k = Eξ[(∂i∂j�ξ +

1− α

2∂i�ξ∂j�ξ)(∂k�ξ)]

Donde α es un numero real arbitrario. Las n3 funciones Γ(α)ij,k se comportan

de acuerdo las transformaciones de los sımbolos de Cristoffel bajo cambios decoordenadas (ver ecuacion 1.61 de [1]), y por lo tanto tenemos una conexionafin ∇(α) en S definida por

〈∇(α)∂i

∂j, ∂k〉 = Γ(α)ij,k

30 Capıtulo 2. Metrica de Fisher y Variedades estadısticas

Donde g = 〈, 〉 es la metrica de Fisher. Llamamos a esta ∇(α) la α-conexion. La α-conexion es claramente una conexion simetrica. La relaciondada entre una α-conexion y una β-conexion esta dada por:

Γ(β)ij,k = Γ

(α)ij,k +

α− β

2Tijk

Donde Tijk es un tensor covariante de grado 3 definido por:

(Tijk)ξ = Eξ[∂i�ξ∂j�ξ∂k�ξ]

Y tambien tenemos las siguientes propiedades:

∇(α) = (1− α)∇(0) + α∇(1)

=1 + α

2∇(1) +

1− α

2∇(−1)

Adicionalmente, para una subvariedad M de S, la α-conexion en M essimplemente la proyeccion con respecto de g de la α-conexion en S.

Ahora veremos unas propiedades fundamentales de ∇(α) para varios va-lores particulares de α. Primero, tomando la derivada parcial de la definiciongij en la ecuacion 2.2 con respecto a ξk obtenemos:

partialkgij = Eξ[(∂k∂i�ξ)(∂j�ξ)] + Eξ[(∂i�ξ)(∂k∂j�ξ)] + Eξ[(∂i�ξ)(∂j�ξ)(∂k�ξ)]

= Γ(0)ki,j + Γ

(0)kj,i,

que nos lleva al siguiente teorema:

Teorema 2.3.1. La 0-conexion es la conexion Riemanniana con respecto ala metrica de Fisher.

En general, cuando α �= 0, ∇(α) no es metrica.Ahora vamos a presentar la nocion de familia exponencial, sobre la cual se

demostrara que tiene una relacion cercana con ∇(1). En general, si un modelon-dimensional S = {pθ|θ ∈ Θ} puede ser expresado en terminos de funciones{C, F1, . . . , Fn} en X y una funcion φ en Θ como:

p(x; θ) = exp

[C(x) +

n∑i=1

θiFi(x)− ψ(θ)

](2.9)

2.3. La α conexion 31

Entonces decimos que S es una familia exponencial, y que el vector [θi]son sus parametros naturales o canonicos. De la normalizacion de la condicion∫p(x; θ)dx obtenemos:

ψ = log

∫exp

[C(x) +

n∑i=1

θiFi(x)

]dx

Es facil observar que la parametrizacion θ �→ pθ es uno a uno si y solosi las n + 1 funciones F1, . . . , Fn, 1 son linealmente independientes, donde 1denota la funcion constante que identicamente toma el valor de 1. A partir deahora, en esta tesis se asumira que esta independencia lineal estara siemprepresente cuando se hable de una familia exponencial.

De la definicion de una familia exponencial dada en la ecuacion 2.9, yescribiendo ∂i =

∂∂θi

, podemos obtener:

∂i�(x; θ) = Fi(x)− ∂iψ(θ)

∂i∂j�(x; θ) = −∂i∂jψ(θ)

Por lo tanto, tenemos Γ(1)ij,k = −∂i∂jψ(θ)Eθ[∂k�θ] , que es cero por la ecua-

cion 2.3. En otras palabras, podemos ver que [θi] es un sistema coordenado1-afin, y que S es 1-plano. Entoncs ahora llamaremos a ∇(1) la conexionexponencial, o la e-conexion, y reescribiremos ∇(1) = ∇(e).

Ahora consideremos el caso cuando un modelo n-dimensional S = {pθ}puede ser expresado en terminos de las funciones {C, F1, . . . , Fn} en X como:

p(x, θ) = C(X) +n∑

i=1

θiFi(x),

En otras palabras, cuando S forma un subespacio afin de P(X). En estecaso decimos que S es una familia de “mezclas” con parametros de mezcla[θi]. En particular P(X) es una familia de mezclas cuando X es finito. Unaforma representativa de una familia de mezclas esta dada por la mezcla den+ 1 distribuciones de probabilidad {p0, p1, . . . , pn}:

p(x, θ) =n∑

i=1

θipi(x) +

(1−

n∑i=1

θi

)p0(x)

32 Capıtulo 2. Metrica de Fisher y Variedades estadısticas

= p0(x) +n∑

i=1

θi{pi(x)− p0(x)}

Donde [θi] esta sujeto a θi > 0 y Σiθi < 0. La familida de distribuciones

P({x0, . . . , xn}) puede ser expresado de esta forma dejando que las distribu-ciones p0, . . . , pn sean definidas por pi(xj) = δij. En general, para una familiade mezclas tenemos

∂i�(x; θ) =Fi(x)

p(x; θ)

∂i∂j�(x; θ) = −Fi(x)Fj(x)

p(x; θ)2

De los cuales podemos ver que ∂i∂j�+ ∂i�∂j� = 0, por lo tanto Γ(−1)ij,k = 0.

Para lo cual tenemos que [θi] es un sistema coordenado (−1)-afın, y S es (−1)-plano. Llamamos a ∇(−1) la conexion mezcla o la m-conexion, y se escribiracomo ∇(−1) = ∇(m).

Teorema 2.3.2. Una familia exponencial (una familia de mezclas, respec-tivamente) es e-plana(m-plana) y sus parametros naturales (parametros demezcla) forman un sistema coordenado e-afın (m-afin).

Teorema 2.3.3. Sea S una familia exponencial (familia de mezclas, res-pectivamente) y M sea una subvariedad de S. Entoncs M es una familiaexponencial (una familia de mezclas) si y solo si M es e-autoparalela (m-autoparalela) en S.

Demostracion: Sea S = p(x; θ) y M = q(x; u) podemos escribir a S como

p(x; θ) = exp

[C(x) +

n∑i=1

θiFi(x)− ψ(θ)

]

q(x; u) = p(x; θ(u)) = exp

[D(x) +

m∑a=1

uaGa(x)− ϕ(θ)

]

Entonces tenemos

2.3. La α conexion 33

Ga(x)− ∂aϕ(u) = ∂a log q(x; u)

= (∂aθi)u∂i log p(x; θ(u))

= (∂aθi)u{Fi(x)− ∂iψ(θ(u))}

Y, por lo tanto:

(∂aθi)uFi(x) + λa(u) = Ga(x)

Donde λa(u) es una constante con respecto a x. Ya que Ga(x) no dependede u y como sea asume que las funciones {F1, . . . , Fn, 1} son linealmenteindependientes, podemos ver que (∂aθ

i)u es una constante con especto a upara toda y y toda a. Esto combinado con el teorema 1.7.1 implica que Mes e-autoparalelo en S.

Teorema de Chentsov

Sea S = p(x; ξ) un modelo en X y F : X → Y algun mapeo el cualinduce un modelo SF = q(y; ξ) en Y . Si F es un estadıstico suficiente para S,entonces ∂i log p(x; ξ) = ∂i log q(F (x); ξ) de la ecuacion 2.5, por lo cual gij y

Γ(α)ij,k son los mismos en S y SF . Nos referimos a esto como “La invarianza de la

metrica de Fisher y la α-conexion con respecto de F .” Denotando la metricade Fisher y la α-conexion en S por g = 〈, 〉 y ∇(α) mientras denotamosaquellos en SF por g′ = 〈, 〉′ y ∇′(α), las propiedades de invarianza estanrepresentadas como:

〈X, Y 〉p = 〈λ∗(X), λ∗(Y )〉′λ(p)

λ∗(∇(α)X Y ) = ∇′(α)

λ∗(X)λ∗(Y ) ∀X, Y ∈ T (S)

Donde λ es el difeomorfismo de S en SF definido por λ(pξ) = qξ, y elmapeo λ∗ : T (S) → T (SF ) esta definido por (λ∗(X))λ(p) = (dλ)p(Xp). Engeneral, esta invarianza juega un papel importante cuando analizamos larelacion entre teorıa de probabilidad y estadıstica, y la estructura formadaal introducir una metrica y una conexion en un modelo estadıstico.

Teorema 2.3.4. Asuma que (gn, λn)∞n=1 es invariante con respecto a es-

tadısticos suficientes, por ejemplo, para toda n,m, S ⊂ P , y F : Xn → Xm

34 Capıtulo 2. Metrica de Fisher y Variedades estadısticas

tal que F es un estadıstico suficiente para S, para la metrica inducida y lasconexiones en S y SF se asume que son invariantes. Entonces existe un nu-mero real c y un numero real α tal que, para toda n,gn coincide con la metricade Fisher en Pn escalada por un factor c, y ∇n coincide con la α-conexionen Pn.

2.4. Geometra de P(X)

Sea X un conjunto finito. Un modelo arbitrario S en X es una subvariedadde P = P(X ), y la metrica Fisher y la α-conexion en S son las proyeccionesde esas P(X ) hacia S.

Podemos ver al modelo P como un subconjunto de RX = {A|A : X → R}:el cual representa la totalidad de funciones en X cuya imagen cae esta enR. Mas especıficamente P es un conjunto abierto del subespacio afın A1 ={A|ΣxA(x) = 1} de R

X y por lo tanto el espacio tangente Tp(P) puede seridentificado naturalmente con el subespacio lineal A0 = {A|ΣxA(x) = 0}.

Cuando un vector tangente X ∈ Tp(P) es considerado como un elementode A0, lo denotamos como X(m) y lo llamamos la m-representacion de X, ylo escribimos como

T (m)(P) = {X(m)|X ∈ Tp(P)} = A0

Para la base natural ∂i de un sistema coordenado ξ = [ξi], tenemos

(∂i)(m)ξ = ∂ipξ. Se sabe que P es una familia de mezclas que es m-plano,

y sus parametros de mezcla forman un sistema coordenado m-afın. Esto de-riva a que la m-conexion en P no sea nada mas que la conexion naturalinducida de la estructura afın de A1.

La traslacion paralelaΠ(m)p,q : Tp(P) → Tq(P) con respecto a lam-conexion

esta dada por:

Π(m)p,q (X) = X ′ ⇐⇒ X ′(m) = X(m)

Entonces es claro que la inclusion natural de P en RX hace que la nocion

de m-conexion sea clara.Luego, podemos tomar otra inclusion p �→ log p, e identificar P con el

subconjunto {log p|p ∈ P} de RX . Un vector tangente X ∈ Tp(P) esta repre-sentado entonces por el resultado de operar X a p �→ log p, lo cual denotamoscomo X(e) y lo llamamos la representacion exponencial o la e-representacion

2.4. Geometra de P(X) 35

de X. En particular tenemos que (∂i)(e)ξ = ∂i log pξ. Dada esta propiedad se

puede llegar a que

X(e)(x) = X(m)(x)/p(x)

Y que

Tp(P) = {X(e)|X ∈ Tp(P)} = {A ∈ RX |Ep[A] = 0} (2.10)

Donde Ep[A] = Σxp(x)A(x). Note que la definicion de metrica de Fisheresta expresada en terminos de la notacion anterior como

〈X, Y 〉p = Ep[X(e)Y (e)]

A diferencia de T(m)p (P), el espacio T

(e)p (P) depende de p, y un elemento A

de T(e)p (P) generalmente no pertenece a T

(e)q (P) cuando p �= q. Sin embargo,

la funcion transformada A′ = A−Eq[A] siempre pertenece a T(e)q (P), y la co-

rrespondencia A �→ A′ establece un isomorfismo lineal entre T(e)p (P)y T

(e)q (P).

Esta correspondencia es diferente de la que existe entre las e-representacionesde X y X ′ = Π

(m)p,q (X), que esta representada como A′ = Ap

q. Podemos ver la

relacion entre ellos de la siguiente manera:

Π(e)p,q (X) = X ′ ⇐⇒ X ′(e) = X(e) − Eq[X

(e)] (2.11)

Donde Π(e)p,q denota la traslacion paralela de Tp(P) a Tq(P) con respecto

a la e-conexion. Esto se puede ver de la siguiente forma:

Sea X : p �→ Xp un campo vectorial arbitrario en P , y ∂i la base natu-ral para el sistema coordenado [ξi]. De la definicion de e-conexion(α = 1)tenemos:

〈∇(e)∂iX, ∂k〉p = Ep[(∂iX

(e))p(∂k)(e)p ], (2.12)

Donde (∂iX(e))p denota la i-esima derivada parcial del mapeo X(e) : p �→

X(e)p (P → R

X ) a cualquier punto p. Ahora suponga que X(e) esta represen-

tado como X(e)p = F −Ep[F ], ∀p ∈ P por una funcion (variable aleatoria) F

en X . Entonces (∂iX(e))p = −∂iEp[F ] es una constante como funcion de X ,

entonces 〈∇(e)∂iX, ∂k〉p = 0 en cada punto, que se sigue ecuacion 2.12. Esto

implica que X es e-paralelo y cumple con la ecuacion 2.11.

36 Capıtulo 2. Metrica de Fisher y Variedades estadısticas

Definicion 2.4.1. Por cada vector tangente X ∈ Tp(P) sea wX ∈ Tp(S) unvector cotangente tal que wX : Y �→ 〈X, Y 〉p. Entonces la correspondenciaX ←→ wX establece un isomorfismo entre Tp(S) y T ∗

p (S), y el productointerno y la norma para vectores cotangentes esta naturalmente definida por〈wX , wY 〉p = 〈X, Y 〉p y ‖wX‖ p = ‖X||p

Teorema 2.4.1. Para una funcion suave arbitraria f ∈ F(S) sea (df)p ∈Tp(S), el diferencial de f en p, definido por (df)p : X �→ X(f), y (gradf)p ∈Tp(S), el gradiente de f en p es el vector tangente correspondiente a (df)p dela siguiente forma:

〈(gradf)p, X〉p = (df)p(X) = X(f), ∀X ∈ Tp(S),∀X ∈ Tp(S)

Recordando que un vector tangente es un mapeo: F(S) → R. Dado unsistema coordenado tenemos las siguientes expresiones:

(gradf)p = (∂if)pgij(p)(∂j)p

‖(df)p‖2p = ‖(gradf)p‖2p = (∂if)p(∂jf)pgij(p) (2.13)

Donde [gij(p)] denota la inversa de la matriz [gij(p)] = [〈∂i, ∂j〉p]Recordar que la varianza se denota como Vp[A] = Ep[(A− Ep[A])

2] parauna variable aleatoria A y representa la sensitividad de su valor esperadoEp[A] con el movimiento de p.

Teorema 2.4.2. Suponga que una funcion A : X → R es dada y E[A] denotela funcion p �→ Ep[A] en P. Entonces tenemos:

Vp[A] = ‖(dE[A])p‖2pDonde la norma es la inducida por la metrica de Fisher.

Demostracion: Para cada X ∈ Tp(P) tenemos

X(E[A]) = ΣxX(m)(x)A(x) = Ep[X

(e)A] = Ep[X(e)(A− Ep[A])]

Donde la ultima igualdad se sigue de la propiedad Ep[X(e)] = 0. Ya

que A − Ep[A] ∈ T (e)(P) por la ecuacion 2.10, entonces existe un vector

2.4. Geometra de P(X) 37

Yp ∈ Tp(P ) que satisface Y(e)p = A−Ep[A], que resulta ser el gradiente (grad

E[A])p. Entonces obtenemos la siguiente igualdad:

‖(dE[A])p‖2p = ‖Yp‖2p = Ep[(Y(e)p )2] = Vp[A].

Cuando el dominio de la funcion E[A] se restringe a una subvariedadS ⊂ P , el teorema anterior se modifica de la siguiente forma:

Teorema 2.4.3. Tenemos

Vp[A] ≥ ‖(dE[A]|S)p‖2pDonde esta igualdad se mantiene sı y solo sı

A− Ep[A] ∈ T (e)p (S) = {X(e)|X ∈ Tp(S)} (2.14)

Demostracion: Siguiendo del teorema pasado y el hecho que para cadaf ∈ F(P) el gradiente(gradf |S)p de la funcion restricta f |S es la proyeccionortogonal de (gradf)p en Tp(S).

Ahora veremos la demostracion del teorema de Cramer y Rao.Siguiendo del teorema anterior, para una X finita podemos escribir A =

ciξi para un estimador insesgado ξ y un vector columna arbitrario c = [ci] ∈

Rn, y usando la ecuacion 2.13 podemos verificar que la ecuacion 2.14 im-

plica ctVξ[ξ]c ≥ ctG(ξ)−1c. Podemos observar que una condicion necesariay suficiente para que la igualdad Vξ[ξ] = G(ξ)−1 se mantenga en p es que

ci(ξi − ξi(p)) pertenece a T

(e)p (S) para toda [ci] ∈ R

n , o equivalentemen-

te que ξi − ξi(p) pertenece a T(e)p (S) para toda i. Entonces, si ξ es un es-

timador eficiente, existen n campos vectoriales X1, . . . , Xn en S tales que(X i)(e) = ξi − ξi(p), ∀i, ∀p, que resultan ser paralelos con respecto a la e-conexion en P por la ecuacion 2.12. Esto nos dice que la existencia de unestimador eficiente para S implica que S es e-autoparalela en S, o en otraspalabras que S es una familia exponencial por el teorema 2.3.3.

Una aplicacion interesante es la siguiente. Sea S = pξ|ξ = [ξ1, . . . , ξn] ∈ Ξun modelo estadıstico, denotamos con G(ξ) la matriz de informacion Fisheren el punto ξ . Ahora suponga que el volumen V =

∫Ξ

√detG(ξ)dξ de S

con respecto a la metrica Fisher es finito. Entonces Q(ξ) = 1V

√detG(ξ) de-

fine una funcion de densidad de probabilidad en Ξ. Ya que esto es invariantesobre la eleccion del sistema coordenado [ξi], podemos llamar a Q(ξ) la fun-cion de probabilidad del modelo S. Q(ξ) es llamada la districion previa de

38 Capıtulo 2. Metrica de Fisher y Variedades estadısticas

Jeffrey . Ası, por ejemplo si tomamos P(X) que sabemos que es una varie-dad estadıstica de dimension N . Q(ξ) nos darıa una medida de probabilidaduniforme en P(X).

Capıtulo 3

Conexiones duales ydivergencia

Dada (S, g) una variedad Riemanniana con ∇ y ∇∗ dos conexiones afines,si para todos campos vectoriales X, Y, Z tenemos que

Z(X, Y ) = g(∇ZX, Y ) + g(X,∇ZY )

entonces decimos que las conexiones ∇ y ∇∗ son duales respecto de g. Lla-mamos a la tripleta (g,∇,∇∗) estructura dualıstica. Esta condicion se puedeescribir en coordenadas locales como

∂kgij = Γki,j + Γkj,i

En general ∇ tiene una unica conexion dual ∇∗ y evidentemente (∇∗)∗ = ∇(por eso es llamada la conexion dual). Ademas (∇+∇∗)/2 es una conexionmetrica.

Teorema 3.0.1. Para toda variedad estadısitca la α conexion y la −α cone-xion son duales respecto a la metrica de Fisher.

Ası la e−conexion y la m-conexion son duales. Mas aun tenemos que

Teorema 3.0.2. Dados ∇ y ∇∗ conexiones duales, con R y R∗ sus respectivostensores de curvatura. Tenemos que

R ≡ 0 ⇐⇒ R∗ ≡ 0

como tensores.

39

40 Capıtulo 3. Conexiones duales y divergencia

3.1. Divergencias

Dada S una variedad estadıstica, una funcion suave D(·||·) : S × S → R

que cumple que

D(p||q) ≥ 0 y D(p||q) = 0 ⇐⇒ p = q

se llama divergencia. Observemos que no se pide que la funcion sea simetricay cumpla con la desigualdad del triangulo. Dado un sistema coordenado[ξj] de S, sean (p, p′) ∈ S × S con coordenadas ([ξj], [ξ′j]) y denotemos lasderivadas parciales de D(p||p′) con respecto de p y p′ por:

D((∂p)||p) = ∂iD(p||p′)D((∂i)p||(∂i)′p = ∂i∂

′jD(p||p′)

D((∂i∂j)p||(∂k)′p = ∂i∂j∂′kD(p||p′), etc . . .

donde ∂i =∂∂ξi

es aplicada a la primera variable de D en p, mientras ∂i =∂

∂ε′ia la segunda en p′.

Estas definiciones se extienden naturalemente a campos vectoriales. Con-sideramos ahora las restricciones a la diagonal. {(p, p)|p ∈ S} y denotamospor

Uno puede probar que

D[∂i||·] = D[·||∂i] = 0

D[∂i∂j||·] = D[∂i∂j||·] = −D[||∂i||∂j] = g(D)ij

Por ejemplo, D[∂i||·] = 0 se sigue de ver que D[p||q] ≥ 0 y D[p||p] = 0, porlo que D(p||p) es un mınimo global. Estas propiedades hacen que la matriz[gij] sea una matrız simetrica, positiva definida. Entonces podemos definirg(X, Y )(D) = −D[X||Y ]. La expansion de D en series de potencias esta dadapor

D(p||q) = 1

2g(D)ij Δξ′iξj + o(||Δξ||2) (3.1)

Dada una divergencia D, se define una conexion afin ∇(D) con coeficientesΓ(D)ij,k dados por

Γ(D)ij,k = −D(∂i∂j||∂k)

3.2. f -divergencias 41

o de manera equivalente

g(∇(D)x Y, Z) = −D(XY ||Z)

Si uno considera la divergencia D∗(p||q) = D(q||p) se tiene que

Γ(D∗)ij,k = −D(∂k||∂i∂j)

De donde tenemos que

Teorema 3.1.1. ∇(D) y ∇(D∗) son duales con respecto a g(D).

Ası, una divergencia D induce una estructura dualıstica (g,∇(D),∇(D∗)).De manera reciproca, dada uno estructura dualıstica uno puede inducir unadivergencia a traves de la ecuacion 3.1.

3.2. f -divergencias

Sea f(u) una funcion convexa en u > 0. Para cada par de distribucionesp, q definimos

Df (p||q) =∫

p(x)f

(q(x)

p(x)

)dx

y la llamamos f−divergencia. Utilizando la desigualdad de Jensen tenemosque

Df (p||q) ≥ f

(∫p(x)

q(x)

p(x)dx

)= f(1)

donde la igualdad se da si y solo si p = q, cuando f es estrıctamente convexa.Ademas Df es invariante bajo cuando cambiamos f(u) por f(u) + c(u− 1).Mas aun, D∗

f = Df∗ donde f ∗(u) = uf(1/u).Si asumimos que f es estrıctamente convexa, suave y cumple que f(1) = 0.

Entones Df es es una diverencia. en el sentido de la seccion anterior, e inducemetricas g(Df ) = g(f) y conexiones∇(Df ) = ∇(f) de la manera ya mencionada.Como Df es invariante con respecto a estadısticos suficientes, tambien lo song(f) y ∇(f). Esto implica que g(f) = cg y ∇(f) = ∇(α) para algun c > 0 yα ∈ R, donde g es la metrica de Fisher y ∇(α) es la α-conexion.

Ejemplos importantes de f -divergencias son las α-divergencias, que estandadas por

42 Capıtulo 3. Conexiones duales y divergencia

f (α)(u) =

⎧⎪⎨⎪⎩

4(1−u(1+α)/2)1−α2 , α �= ±1

u log(u), α = 1

− log(u), α = −1.Tenemos entonces para α �= ±1

D(α)(p||q) = 4

1− α2

(1−

∫p(x)

1−α2 q(x)

1+α2 dx

)y para α = ±1

D(−1)(p||q) = D(1)(q||p) =∫

p(x) log

(p(x)

q(x)

)dx

Estas ultimas son llamadas por diversos autores divergencias de Kullback-Lieber, divergencias de Kullback- entropıa relativa o simplemente di-vergencias. Es de particular importancia y tiene muchas aplicacines en cam-pos relacionados con probabilidad e informacion. Para α = 0 la divergenciatiene es una distancia, llamada la distancia de Hellinger.

Capıtulo 4

Inferencia estadıstica ygeometrıa diferencial

Considere una familia de distribuciones de probabilidad S = p(x; ξ) pa-rametrizada por ξ = [ξi] para i = 1, . . . , n. Ahora, tomemos x1, . . . , xN comoN observaciones independientes de la variable aleatoria x que se distribuyede acuerdo a p(x; ξ). Siendo xN = (x1, . . . , xN), el objetivo de la inferenciaestadıstica es inferir la distribucion de probabilidad p(x; ξ) dados los N datosxN .

Sean x1, . . . , xn variables aleatorias con funcion de densidad conjuntafx(x1, . . . , xn), si esta puede ser factorizada de la siguiente manera fx(x1, . . . , xn) =f(x1)f(x2) . . . f(xn), donde f(xi) es la densidad comun de xi. Entonces sedice que x1, . . . , xn es una muestra aleatoria de tamano n de una poblacioncon densidad f(x), esto tambien se cumple de un lado para el otro.

Entonces, podemos escribir la distribucion de probabilidad que gobiernaa xN usando las individuales de la siguiente forma:

pN(xN ; ξ) = ΠN

t=1p(xt, ξ)

y tambien podemos escribirlo como:

log pN(xN ; ξ) = ΣN

t=1 log p(xt, ξ)

Viendo a xN como una variable aleatoria, podemos ver que SN = p(xN ; ξ)se comporta como S = S1, una variedad con ξ como sistema coordenado.La diferencia la podemos observar si analizamos la estructura geometricainducida a SN por:

43

44 Capıtulo 4. Inferencia estadıstica y geometrıa diferencial

gNij (ξ) = Ngij(ξ)

y

Γ(α)Nij,k = NΓ

(α)ij,k

En otras palabras, la geometrıa de SN es simplemente la de S pero esca-lada por un factor N . Podemos ver tambien que se puede ver la base naturalde SN con respecto a la base natural de S con la relacion

∂Ni =

√N∂i

Ası podemos ver que entender la estructura geometrica de S nos llevadirectamente a entender la de SN .

En la teorıa de estimacion, el objetivo es buscar una estadıstica que re-presente o estime el valor desconocido de ξ o de una funcion de ξ, esto esg(ξ). Esta estadıstica se le conoce como estimador puntual de ξ o g(ξ).

El estimador de ξ, se denota tambien como ξ. ξ puede ser un numero realo puede ser un vector ξ=(ξ1, ξ2, . . . , ξk)

Un estimador de ξ se puede escribir en funcion de los datos xN comoξ = ξ(xN) = ξ(x1, . . . , xN). Se pueden obtener diferentes estimaciones demuestras aleatorias diferentes.

Es necesario seleccionar una condicion para nuestro estimador ξ sea dealguna forma similar al parametro real ξ de la distribucion subyacente p(x; ξ).Como se vio previamente, que un estimador sea insesgado nos ayuda en queξ este distribuido alrededor de ξ, esta condicion sera la que pediremos enadelante a todos nuestros estimadores. La prueba de sesgo para N = 1 ypara N > 1 se manejara siempre de la siguiente forma:

Eξ[ξ] = ξ ∀ξDonde Eξ denota la esperanza con respecto a la distribucion pN(x

N , ξ)El error cuadratico medio es comunmente usado para medir la precision

de un estimador el cual se expresa con la matriz Vξ[ξ] = [vijξ] donde

vijξ = vijξ [ξ] = Eξ[(ξi − ξi)(ξj − ξj)]

Cuando ξ es insesgado, Vξ[ξ] equivale a la matriz de varianza-covarianza.Se debe mencionar que el sesgo y el error cuadratico medio son criterios

45

dependientes del sistema coordenado ξ. Una cota inferior del error cuadraticomedio de un estimador insesgado esta dado por la desigualdad de Cramer-Rao que ahora toma la forma

vijξ ≥ 1

N[gij(ξ)]

donde [gij(ξ)] denota la inversa de la matriz de informacion Fisher [gij(ξ)]del modelo S para una sola observacion.

Teoria asintotica

Definicion 4.0.1. Sea T1, T2, . . . , Tn una sucesion de estimadores de g(ξ).Se dice que la sucesion de estimadores es una sucesion de estimadores con-sistentes simples de g(ξ), si

lımn→∞

P [|Tn − g(ξ)| ≥ ε] = 1

Observacion: La definicion de estimador consistente, es la definicion deconvergencia en probabilidad.

Definicion 4.0.2. Sea T un estimador insesgado y no eficiente de g(ξ). Elestimador T es asintoticamente eficiente de g(ξ), si la eficiencia del estima-dor tiende a uno cuando n tiende a infinito.

Metodo de Maxima VerosimilitudEs el metodo de estimacion mas usado, ya que en muchas ocasiones, los esti-madores resultantes tienen propiedades deseables (insesgados y con mınimavarianza).

Definicion 4.0.3. Sea x1, x2, . . . , xn n variables aleatorias, la funcion dedensidad conjunta de estas variables f(x1, x2, . . . , xn; ξ) es llamada funcionde verosimilitud de las variables x1, x2, . . . , xn . Esta funcion se ve como unafuncion que depende de ξ, del parametro objetivo. La funcion de verosimilitudse denota como L(ξ) (Likelihood).

Observacion: La funcion de verosimilitud de una muestra aleatoria x1, x2, . . . , xn

obtenida de una densidad f(x; ξ) es igual a

L(ξ) = f(x1; ξ)f(x2; ξ) . . . f(xn; ξ)

46 Capıtulo 4. Inferencia estadıstica y geometrıa diferencial

El objetivo es, pensando en que se tiene una m.a. particular x1, x2, . . . , xn,encontrar el valor de ξ , tal que maximice la funcion de verosimilitud dex1, x2, . . . , xn.

Definicion 4.0.4. Sea L(ξ) la funcion de verosimilitud de las variables alea-torias X1, X2, . . . , Xn. Si ξ es el valor de ξ, el cual maximiza L(ξ) , entoncesξ es el estimador de maxima verosimilitud de ξ.

Si ξ = (ξ1, ξ2, . . . , ξk) entonces los correspondientes valores de ξ1, ξ2, . . . , ξk,que maximizan L(ξ), esto es, ξ1, ξ2, . . . , ξk, son los estimadores de maximaverosimilitud de ξ1, ξ2, . . . , ξk, respectivamente.

4.1. Familia exponencial

Ahora daremos una definicion menos formal para la una familia exponen-cial de distribuciones:

Una familia de funciones de densidad f(·, ξ), donde ξ es un real, que puedeser expresada comof(x; ξ) = a(ξ)b(x)e[c(ξ)d(x)] para todo x y ξ ∈ Ξ es definidacomo familia o clase exponencial.

Ejemplos de distribuciones

1. Exponencial

f(x, λ) = λe−λxI[0,∞)(x)

a(λ) = λ; b(x) = I[0,∞)(x); c(λ) = −λ; d(x) = x

2. Poisson

f(x, λ) =λx

x!e−λI0,1,...(x) = e−λ 1

x!exlnλI0,1,...(x)

a(λ) = e−λ; b(x) =1

x!I0,1,...(x); c(λ) = lnλ; d(x) = x

De aquı podemos hacer una afirmacion mas fuerte.Supongamos que X tiene funcion de densidad f(x; θ) la cual pertenece a

la clase exponencial. Entonces dada una distribucion

4.1. Familia exponencial 47

Πni=1f(xi; θ) = an(θ)[Πn

i=1b(xi)]ec(θ)[Σn

i=1d(xi)]

Tenemos que [Σni=1d(xi)] es una estadıstica suficiente.

Para la una familia de k parametros sobre la cual podemos escribir sufuncion de densidad como:

f(x, θ1, . . . , θk) = a(, θ1, . . . , θk)b(x)eΣj=1kcj(θ1,...,θk)dj(x)

Es definida como una familia exponencial de k-parametros.

Ejemplo: La distribucion normal con parametros desconocidos μ y σ.

f(x;μ, σ) =1√2πσ

e−1

2(x− μ

σ)2

=1√2πσ

e−1

2(x2 − 2xμ+ μ2

σ2)=

1√2πσ

e−x2

2σ2+μ

σ2xe−μ2

2σ2

a(μ, σ2) =1√2πσ

e−μ2

2σ2 ; b(x) = 1; c1(μ, σ) = − 1

2σ2; d1(x) = x2; c2(μ, σ) =

μ

σ2; d2(x) = x

Por lo tanto, la distribucion normal pertenece a la familia exponencial dedos parametros.

Teorema 4.1.1. Si tenemos f(x, θ1, . . . , θk) = a(, θ1, . . . , θk)b(x)eΣk

j=1cj(θ1,...,θk)dj(x),entonces

Πni=1f(x, θ1, . . . , θk) = an(, θ1, . . . , θk)Π

ni=1b(xi)e

Σj=1kcj(θ1,...,θk)Σni=1dj(xi)

De esta manera, Σni=1d1(xi), . . . ,Σ

ni=1dk(xi) son estadısticas conjuntamen-

te suficientes.Tomando el ejemplo de la normal anteriorΣn

i=1d1(xi) = Σni=1xi y Σn

i=1d2(xi) = Σni=1x

2i son estadısticas conjuntamen-

te suficientes para N(μ, σ).Ahora, escribiremos la definicion formal vista previamente

p(x, θ) = eC(x)+θiFi(x)−ψ(θ)

48 Capıtulo 4. Inferencia estadıstica y geometrıa diferencial

Podemos ver que Fi = di(i = 1, . . . , n), las n funciones F1(x), . . . , Fn(x)son variables aleatorias. Entonces las renombraremos como las n variablesaleatorias

xi = Fi(x)

Se puede definir la funcion de densidad de x = [x1, . . . , xn] con respectoa la medida dominante como

dμ(x) = expC(x)dx

Como vimos previamente, la familia exponencial S = {p(x; θ)} es unespacio dual plano, con su sistema coordenado e-afın dado por sus parame-tros naturales θ y su sistema coordenado m-afın dado por los parametros devalores esperados

ηi = Eθ[di]

Tambien tenemos que

Eθ[(xi − ηi)(xj − ηj)] = gij(θ),

Donde gij es la matriz de informacion Fisher con respecto a los parametrosnaturales.

Ejemplo:Considere una familia de distribuciones de probabilidad parametrizada

con [μ, σ] de la forma

p(x;μ, σ) =1√2πσ

e

−1

2

⎛⎜⎝x− μ

σ

⎞⎟⎠

2

Este es el espacio 2-dimensional formado por distribuciones normales uni-variadas y puede reescribirse como

p(x;μ, σ) = exp{− x2

2σ2+

μ

σ2x− μ2

2σ2− log(

√2πσ)}

Ahora tomamos los parametros naturales de la distribucion normal uni-variada que calculamos previamente θ = [θ1, θ2]

4.1. Familia exponencial 49

θ1 =μ

σ2, θ2 =

μ

σ2

Y la variable aleatoria x = [x1, x2] definida por

x1 = F1(x) = x y x2 = F2(x) = x2

Vemos entonces que tenemos la familia exponencial dada por

p(x; θ) = exp{θixi − ψ(θ)}

y

ψ(θ) =μ2

2σ2+ log(

√2πσ)

Entonces los valores esperados η = [η1, η2] estan dados porη1 = E[x1] = μ y

η2 = E[x2] = E[x2] = μ2 + σ2

Considere las N observaciones xN = x1x2 . . . xN , cada uno distribuidoindependientemente de acuerdo a un elemento pθ en la familia exponencialdada. La funcion de densidad conjunta esta dada por

pN(xN ; θ) = ΠN

t=1p(xt, θ) = exp[Nθixi − ψ(θ)]

donde tenemos x =1

NΣN

t=1xt

xt representa el t-esimo vector observado y xi es el i-esimo componentedel vector x. Esto nos muestra que pN(x

N ; θ) tambien forma una familiaexponencial con θ como su parametro natural. Es importante mencionar quela distribucion pN en xN el cual tiene nN componentes, puede ser expresadocomo una funcion de la variable aleatoria x, el cual tiene n componentes.Esto significa que x es un estadıstico suficiente con respecto a la familiaexponencial.

Teorema Rao-Blackwell

Sea X1, . . . , Xn una muestra aleatoria de una densidad f(·, ξ) y seanS1, . . . , Sk estadısticas conjuntamente suficientes. Sea T = T (X1, . . . , Xn)es un estimador insesgado de g(ξ). Definamos T ′ = E[T |S1, . . . , Sk] entonces:

50 Capıtulo 4. Inferencia estadıstica y geometrıa diferencial

1. T ′ es una estadıstica y esta en funcion de estadısticas suficientes T ′ =T ′(S1, . . . , Sk)

2. E[T ′] = g(θ), esto es un estimador insesgado de g(ξ)

3. V [T ′] < V [T ]∀ξ ∈ Ξ y V [T ′] = V [T ] si y solo si T ′ = T

Esto nos garantiza que la inferencia estadıstica basada en xN puede serreducida, sin comprometer la calidad del resultado, a inferencia basada sola-mente en x, la cual es una representacion de las observaciones.

Considerando con respecto a la observacion xN el punto con las coorde-nadas

η = x

Podemos ver que el estadıstico suficiente x de xN determina un puntoen η en S (Un punto cuyas coordenadas bajo el sistema coordenado η esx) Llamamos a este el punto observado cuando las siguientes propiedades secumplen:

Eθ[x] = η

Eθ[(xi − ηi)(xj − ηj)] =1

Ngij(θ),

lo que significa que η es un estimador eficiente de η.Del teorema del lımite central podemos observar que asintoticamente, η

se distribuye normal con media η y varianza N−1gij. Tambien podemos verque el punto observado es el estimador de maxima verosimilitud del modelo.Esto se deriva de que para cualquier θ tenemos

log pN(xN ; θ)− log pN(x

N ; θ) = N(θi − θi)xi − ψ(θ) + ψ(θ)

= ND(pθ ‖ pθ) ≥ 0,

donde θ es la coordenada θ del punto observado y D es la divergencia deKullback.

4.2. Familia exponencial curveada

Por familia exponencial curveada nos referimos a un conjunto de distri-buciones de probabilidad que forma una subvariedad suave dentro de una

4.2. Familia exponencial curveada 51

familia exponencial. Siendo n y m que denotan respectivamente las dimen-siones de la familia exponencial y la familia exponencial curveada, llamamosa esta una (n,m)-familia exponencial curveada.

Sea M una familia exponencial curveada con el sistema coordenado u =[ua], donde a = 1, . . . ,m. Entonces dado que la distribucion denotada por utambien pertenece a S, podemos escribir sus θ-coordenadas como

θ = θ(u)

Podemos considerar a esta como la parametrizacion de la subvariedadM dentro de S. Entonces las distribuciones de probabilidad en M puedenescribirse como

p(x; u) = exp θi(u)xi − φ(θ(u))

tambien podemos reescribir esto en terminos de las η-coordenadas como

η = η(u)

Ejemplo. Sea ε una variable aleatoria distribuida de acuerdo a la dis-tribucion normal estandar N(0, 1) con media 0 y varianza 1. Suponga queobservamos una senal de fuerza 1 con ruido ε, ambos escalados por un factoru:

x = u(1 + ε)

Entonces x se distribuye de acuerdo a una distribucion normal con mediau y varianza u2. Entonces los candidados que queremos considerar, dentrodel espacio dos dimensional de distribuciones normales S, son aquellas dis-tribuciones de probabilidad M = p(x; u) tal que

μ = u y σ2 = u2

M es una familia exponencial curveada (2, 1) parametrizada por el esca-lar u, y dentro del espacio de la familia exponencial S es una curva cuyasecuaciones definidas con respecto al sistema coordenado θ son

θ1 =1

uy θ2 = − 1

2u2

Mientras que con respecto al sistema coordenado η son:

η1 = u y η2 = 2u2

52 Capıtulo 4. Inferencia estadıstica y geometrıa diferencial

Suponga que los puntos x1, . . . , xN han sido observados. Esto determinaun punto η = x dentro de S cuyas coordenadas η sean x. Llamamos a esteel punto observado. Dado que x es un eastadistico suficiente para S, y porlo tanto para M tambien, es suficiente considerar funciones de η par losestimadores u = f(η) con la cual estimar el parametro u en la distribucionsubyacente p(x; u). En otras palabras, podemos representar un estimador conun mapeo de S a M :

f : S → M

Donde η �→ u = f(η)La inversa del estimador f , en otras palabras, el conjunto de todos los

puntos en S que bajo la aplicacion de la funcion estimadora van al mismopunto u, es en general una subvariedad (n−m)-dimensional de S. Sea

A(u) = f−1(u) = η|f(η) = u

Denote este espacio, recibe el nombre de subvariedad de estimacion co-rrespondiente al punto u en M . Entonces vemos que seleccionar un estimadordescompone el espacio S en una coleccion de subvariedades de estimacion. Sepuede ver que las caracterısticas de un estimador estan determinadas com-pletamente por el conjunto de subvariedades de estimacion y la forma delmodelo estadıstico M .

Capıtulo 5

Deformacion de formas en elplano hiperbolico

En [6], A.Peter y A. Rangarajan utilizan la metrica riemanniana deFisher-Rao para para estudiar representaciones de formas y deformaciones.Utilizan un modelo mezclado para representacion de formas. Esto es, unaforma con K puntos es representada como un Modelo de Mezclas Gaussia-nas(GMM) de K componentes, donde los puntos de la forma estan dadospor las medias de cada componente. Asumen ademas que cada componentetiene la misma varianza y que los pesos de cada gaussiana con iguales a 1/Kpara toda a ∈ {1, . . . K}. Por ultimo asumen que la correspondencia entrelos puntos de la forma incial y final se conocen. Ası la representacion estadada por:

p(x|θ) = 1

2Kπσ2

K∑a=1

exp{−||x− θa||22σ2

}

donde θ = {θ1, . . . , θK} y cada θi representa un punto de la forma yx ∈ R

2. De esta forma se asigna al espacio de K puntos en R2 una variedad

estadıstica, por lo que es natural pensar que la deformacion entre dosformas este dado por una geodesica de la metrica de Fisher-Rao enla variedad estadistica. Dada la representacion, el problema entonces con-siste en encontrar las geodesicas del espacio, lo que es equivalente a resolverla ecuacion geodesica

gkiθi + Γk,ij θiθj = 0.

Este, es un sistema de altamente no lineal de ecuaciones diferenciales

53

54 Capıtulo 5. Deformacion de formas en el plano hiperbolico

parciales que genericamente no es analıticamente soluble. Mas aun, una delas dificultades de este esquema es que las componentes de la metrica deFisher-Rao no se pueden obtener de manera analitica y el calculo numericoes complejo.

Las siguientes figuras muestran ejemplos de los resultados obtenidos porA.Peter y A. Rangarajan para deformacion de formas con este esquema deideas.

Rotacion de un cuadrado a traves de una geodesica con el modelo demezclas gaussianas.

Deformacion de una recta a traves de una geodesica con el modelo demezclas gaussianas.

55

Una observacion importante es que cuandoK = 1, es decir cuando se con-sidera un punto solamente, la metrica de Fisher-Rao para este modelo es pla-na. Mas aun, la generalizacion a un modelo de representacion n-dimensionaltambien es plana. Esto significa que si consideramos

p(x|θ) = 1

(√2πσ2)n

exp{−||x− θ||22σ2

}

donde θ ∈ Rn, entonces nuestro modelo estadıstico es equivalente a R

n

con la metrica Euclideana usual. Los resultados de A. Peter y A. Rangarajanmuestran que al considerar el Modelo de Mezclas Gaussianas la metrica quequeda no es plana para K > 1 y de hecho no es trivial entender geometrica-mente esta metrica.

Recordemos que si consideramos la metrica de Fisher-Rao en la variedadestadıstica de las distribuciones normales N(μ, σ) con parametros μ ∈ R σ ∈R

+, esta es una metrica hiperbolica en el semiplano superior, (ver la seccion2.1). Consideramos entonces el problema de representar y deformar formas deK puntos en el semiplano superior. Siguiendo las ideas anteriores, es naturaldar una representacion de una forma de K puntos en el semiplano superior atraves de un Modelo de Mezclas Gaussianas con parametros (μa, σa), dondea ∈ {1, . . . , k}. Es decir la representacion esta dada por

p(x|θ) = 1

K√2πσa

K∑a=1

exp{−(x− μa)2

2σ2a

}

donde x ∈ R.

Cuando K = 1 como sabemos la metrica es hiperbolica, y la geometrıaesta sumamente estudiada. Nos enfocamos a entender geometricamente comose ve la metrica de Fisher-Rao para el caso K = 2 es decir cuando se tienendos puntos y la metrica esta definida en el subconjunto de R

4 dado por

H×H = {(μ1, σ1, μ2, σ2) ∈ R4|σ1 > 0, σ2 > 0}

El problema importante aquı es encontrar las las geodesica, que represen-tan deformaciıones de formas en el plano hiperbolico.

En la siguiente figura se muestra la metrica de Fisher-Rao calculadanumericamente para los pares de puntos (−1/2, 1), (1/2, 1), (−1, 1), (0, 1) y

56 Capıtulo 5. Deformacion de formas en el plano hiperbolico

(−1, 1), (1, 1):

Metrica de Fisher-Rao en diferentes puntos.

Una propiedad interesante de esta metrica es que es invariante bajo trasla-ciones del la forma

Ta(μ1, σ1, μ2, σ2) = (μ1 + a, σ1, μ2 + a, σ2).

Se hizo un estudio numerico de las propiedades de la metrica. Se vio quela metrıca no es plana y ademas mover dos puntos a la misma altura desdeel punto (1, 1) y (−1, 1) a los puntos (1, 3) y (−1, 3) en linea recta no es lamanera mas rapida de hacerlo segun esta metrica. La siguiente figura muestraalgunas de las curvas utilizadas.

5.1. Directrices 57

Tres curvas que empiezan en los puntos (1, 1) y (−1, 1) y terminan lospuntos (1, 3) y (−1, 3).

La primer curva tiene una longitud aproximada de 1.49, la segunda curvatiene una longitud aproximada de 1.41 y la tercer curva tiene una longitudaproximada de 1.46.

Otra cosa que se observo es que la metrica que se obtiene de juntarlos puntos es la misma, asıntoticamente, que separarlos cada vez mas, serıainteresante darle una interpretacion a este hecho de manera geometrica otopologica.

5.1. Directrices

Se debe entender mas a fondo la geometrıa de este espacio tratando deresolver las ecuaciones geodesica numericamente o si es posible de maneracerrada. Un problema a abordar ver si se pueden encontrar una formulacerrada para la metrica lo que parece muy complicado.

Existen varias maneras de extender las ideas planteadas aqui y las ideas dePeter-Rangarajan. La primera directriz corresponde a generalizar el trabajode Peter-Rangarajan a dimensiones mas altas, considerando el mismo modelopero con vectores en R

n, como se plantea anteriormente. Una segunda ideaviene del hecho que si uno considera el modelo estadıstico dado por

p(x|θ, σ) = 1

(√2πσ2)n

exp{−||x− θ||22σ2

}

58 Capıtulo 5. Deformacion de formas en el plano hiperbolico

Donde consideramos θ ∈ Rn y σ ∈ R como parametros de nuestro modelo

estadıstico, entonces la metrica de Fisher-Rao hace al modelo isometrico alespacio hiperbolico n−dimensional y uno puede considerar el problema derepresentar y deformar formas en ese espacio.

Capıtulo 6

Conclusiones

La geometrıa de la informacion prueba ser una herramienta con muchopotencial para el analisis de datos en otras areas de estudio, las aplicacio-nes se pueden derivar a sistemas de informacion, redes neuronales, series detiempo, procesamiento de senales, estudios neurologicos, analisis de formas,entre otros. Tambien nos presenta una oportunidad de unificar la rama dela geometrıa con la de estadıstica. Es importante seguir trabajando con estaherramienta dada la posible utilidad que muestra, no solo dentro de la parteteorica, sino tambien demostrar si realmente puede generar un cambio en elanalisis de datos fuera del mundo abstracto o de su area de nacimiento quefue la neurociencia.

59

60 Capıtulo 6. Conclusiones

Bibliografıa

[1] Amari, S., Nogaoka, H., Methods of Information Geometry, Translationsof Mathematical Monographs, Volume 191 (2000)

[2] Amari, S., Differential-Geometrical Methods in Statistics. Springer Lec-ture Notes in Statistics, 28, Springer.(1985)

[3] Barndorff-Nielsen, 0. E. . Differential and integral geometry in statisticalinference. IMS Monograph, (1987)

[4] Beneddeti, R., Petronio, C., Lectures on Hyperbolic Geometry, Springer-Verlag Berlin Heidelberg, 1992.

[5] Jost, J., Riemannian geometry and geometric analysis, 5th ed., Univer-sitext, Springer-Verlag, Berlin, 2008.

[6] Peter A., Rangarajan A., Shape Analysis Using the Fisher-RaoRiemannian Metric: Unifying Shape Representation and Deforma-tion;Proceedings of the 2006 IEEE International Symposium on Bio-medical Imaging: From Nano to Macro, Arlington, VA, USA, 6-9 April2000

[7] Petersen P., Riemannian Geometry, Graduate Texts in Mathematics,Springer.

[8] Rao, C. R., Information and accuracy attainable in the estimation ofstatistical parameters. Bull. Calcutta. Math. Soc. 37, 81-91. (1945)

[9] Spivak M., A comprehesive Introduction to Differential Geometry, Pu-blish or Perish, Inc. 1999.

[10] Stillwell, J., Geometry of Surfaces, Universitext, Springer-Verlag, Berlin,1992.

61