Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

392

Click here to load reader

Transcript of Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

Page 1: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

Centro de Investigación en Matemáticas, A.C.

Julio 2016

PERSISTENCIA, PROBABILIDADE INFERENCIA ESTADÍSTICA PARAANÁLISIS TOPOLÓGICO DE DATOSMódulos: Fermín Reveles (Topología), Víctor Pérez Abreu (Probabilidad),Miguel Nakamura (Inferencia estadística), Rolando Biscay (Campos aleatorios)

Page 2: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...
Page 3: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

Persistencia, Probabilidad e InferenciaEstadıstica para Analisis Topologico de Datos

Modulos: Fermın Reveles (Topologıa), Vıctor Perez Abreu (Probabilidad),Miguel Nakamura (Inferencia estadıstica), Rolando Biscay (Campos aleatorios)

CIMAT, Guanajuato, Mexico

7 de julio de 2016

Page 4: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...
Page 5: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

Indice general

1. Topologıa y Geometrıa 13

1.1. Definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.1.1. Tipo de homotopıa y homeomorfismos . . . . . . . . . . . . . . . . . 18

1.1.2. Topologıa cociente . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

1.2. Distancias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

1.3. Complejos simpliciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

1.3.1. Nervio y Filtraciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

1.4. Homologıa simplicial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

1.4.1. Calculo de numeros de Betti . . . . . . . . . . . . . . . . . . . . . . . 37

1.5. Homologıa singular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

1.6. Variedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

1.6.1. Caracterıstica de Euler . . . . . . . . . . . . . . . . . . . . . . . . . . 43

1.6.2. Espacio tangente y distancia geodesica . . . . . . . . . . . . . . . . . 46

1.6.3. Variedades parametrizadas . . . . . . . . . . . . . . . . . . . . . . . . 48

1.7. Teorıa de Morse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

1.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

2. Persistencia 57

2.1. Homologıa persistente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

2.2. Persistencia topologica de una filtracion . . . . . . . . . . . . . . . . . . . . . 60

2.3. Diagramas de persistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

2.4. Persistencia de conjuntos de nivel . . . . . . . . . . . . . . . . . . . . . . . . 63

2.5. Panoramas de persistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

2.6. Codigos de barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

2.7. Estabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

2.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

3

Page 6: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

4 Indice general

3. Probabilidad 753.1. Elementos de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

3.1.1. Variables aleatorias y sus distribuciones . . . . . . . . . . . . . . . . . 773.1.2. Tipos de convergencia en probabilidad y resultados lımite universales 823.1.3. Aplicaciones al analisis de datos de altas dimensiones . . . . . . . . . 85

3.2. Construccion de medidas y variables aleatorias . . . . . . . . . . . . . . . . . 863.2.1. Construccion de medidas y aplicaciones a probabilidad . . . . . . . . 863.2.2. Existencia de variables aleatorias independientes . . . . . . . . . . . . 903.2.3. Distribucion conjunta y condicional de variables aleatorias . . . . . . 91

3.3. Probabilidad en variedades I: . . . . . . . . . . . . . . . . . . . . . . . . . . 933.3.1. Sobre la distribucion uniforme en probabilidad . . . . . . . . . . . . . 933.3.2. Medida uniformemente distribuida . . . . . . . . . . . . . . . . . . . 953.3.3. Medida de Lebesgue en Rd y distribucion uniforme en subconjuntos . 973.3.4. Medida normal estandar en un espacio euclidiano . . . . . . . . . . . 993.3.5. Probabilidad uniformemente distribuida en esferas . . . . . . . . . . . 993.3.6. Otras medidas en la esfera y el toro . . . . . . . . . . . . . . . . . . . 103

3.4. Integral de Lebesgue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1043.4.1. Funciones medibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1043.4.2. Construccion de la integral de Lebesgue y propiedades iniciales . . . . 1073.4.3. Espacios Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1113.4.4. Construccion de medidas a partir de la integral: la densidad . . . . . 114

3.5. Especificacion de modelos de probabilidad usando densidades . . . . . . . . . 1153.5.1. Transformacion de variables aleatorias, momentos y convergencia . . 1153.5.2. Medidas de referencia universales, ejemplos y su contexto . . . . . . 1183.5.3. Densidades conjuntas, marginales, condicionales e independencia . . 1213.5.4. Ejemplos de densidades en algunas variedades . . . . . . . . . . . . . 122

3.6. Probabilidad en variedades II: medida geometrica . . . . . . . . . . . . . . . 1253.6.1. Medidas definidas por restriccion a una cubierta abierta . . . . . . . . 1253.6.2. La medida geometrica (distribucion uniforme) . . . . . . . . . . . . . 1253.6.3. Distribucion uniforme vs probabilidad uniformemente distribuida . . 1273.6.4. Medida de Hausdorff . . . . . . . . . . . . . . . . . . . . . . . . . . . 1283.6.5. Jacobianos, cambio de variable y areas . . . . . . . . . . . . . . . . . 128

3.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

4. Simulacion de variables aleatorias en variedades 1314.1. Variables aleatorias en la esfera . . . . . . . . . . . . . . . . . . . . . . . . . 133

4.1.1. Distribucion cociente de una normal multivariada . . . . . . . . . . . 1334.1.2. Distribucion cociente con fuerzas de repulsion en la esfera . . . . . . . 135

Page 7: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

Indice general 5

4.1.3. Distribucion cociente de colas pesadas . . . . . . . . . . . . . . . . . 1384.2. Variables aleatorias en el toro . . . . . . . . . . . . . . . . . . . . . . . . . . 139

4.2.1. Distribucion uniforme como elemento en R2d y R3 . . . . . . . . . . . 1404.2.2. Fuerza de repulsion en el toro . . . . . . . . . . . . . . . . . . . . . . 1414.2.3. Otras distribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

4.3. Variables aleatorias en la botella de Klein y la banda de Moebius . . . . . . 1444.4. Variables aleatorias en otras variedades . . . . . . . . . . . . . . . . . . . . . 144

5. Inferencia Estadıstica 1455.1. Premisa principal de un problema de inferencia estadıstica . . . . . . . . . . 1455.2. Conceptos basicos de estadıstica matematica . . . . . . . . . . . . . . . . . . 146

5.2.1. Modelos estadısticos . . . . . . . . . . . . . . . . . . . . . . . . . . . 1465.2.2. Estadısticas y distribuciones muestrales . . . . . . . . . . . . . . . . . 1485.2.3. Funcion de verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . 149

5.3. Tipos de problemas estadısticos . . . . . . . . . . . . . . . . . . . . . . . . . 1515.3.1. Estimacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1515.3.2. Pruebas de hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . 152

5.4. Estimacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1535.4.1. Estimacion parametrica puntual . . . . . . . . . . . . . . . . . . . . . 1535.4.2. Estimacion por subconjuntos . . . . . . . . . . . . . . . . . . . . . . . 1555.4.3. Estimacion de otras cantidades: funcionales estadısticos . . . . . . . . 1585.4.4. Bootstrap computacional . . . . . . . . . . . . . . . . . . . . . . . . . 1615.4.5. Estimacion de densidades . . . . . . . . . . . . . . . . . . . . . . . . 163

5.5. Pruebas de hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1655.5.1. Consideraciones basicas . . . . . . . . . . . . . . . . . . . . . . . . . 1655.5.2. El concepto de p-valor . . . . . . . . . . . . . . . . . . . . . . . . . . 1685.5.3. Pruebas de hipotesis acerca de la media . . . . . . . . . . . . . . . . . 170

5.6. Aplicacion de principios de inferencia en literatura de ATD . . . . . . . . . . 1725.6.1. Pruebas de hipotesis para homogeneidad entre grupos de diagramas

de persistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1735.6.2. Subconjuntos de confianza para diagramas de persistencia . . . . . . 1755.6.3. Inferencia estadıstica basada en panoramas de persistencia . . . . . . 1785.6.4. Inferencia estadıstica robusta para diagramas de persistencia . . . . . 182

5.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186

6. Persistencia de campos aleatorios 1896.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1896.2. Teorıa fundamental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190

Page 8: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

6 Indice general

6.3. Campos aleatorios motivados por neuroimagenes . . . . . . . . . . . . . . . . 1956.4. Aproximacion de homologıa persistente de campos aleatorios . . . . . . . . . 197

6.4.1. Aproximacion de la media de un campo aleatorio . . . . . . . . . . . 1986.4.2. Aproximacion de funcion de regresion sobre una variedad . . . . . . . 200

6.5. Caracterıstica de Euler de codigos de barras de campos gaussianos estandar . 2016.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204

7. Estimacion de numeros de Betti y topologıa estocastica 2057.1. Topologıa de densidades parametricas . . . . . . . . . . . . . . . . . . . . . . 205

7.1.1. Intervalos de persistencia y esperanza de codigos de barra . . . . . . . 2077.1.2. Codigos de barra de ciertas densidades parametricas . . . . . . . . . . 2117.1.3. Estimacion estadıstica de codigos de barra . . . . . . . . . . . . . . . 220

7.2. Topologıa de densidades no–parametricas en variedades . . . . . . . . . . . . 2267.2.1. La nube de puntos como un proceso puntual y su topologıa . . . . . . 2267.2.2. Teoremas lımite: Casos subcrıtico, crıtico y supercrıtico . . . . . . . . 229

7.3. Topologıa de complejos aleatorios geometricos . . . . . . . . . . . . . . . . . 2347.4. Persistencia maximal en los ciclos de complejos aleatorios geometricos . . . . 243

A. Analisis de componentes principales (PCA) 251

B. Probabilidad en espacios metricos polacos 255

C. Variables aleatorias en espacios de Banach 261

D. Medidas de Poisson para conjuntos aleatorios de puntos 267

Algunos proyectos de alumnos del curso

I. Esqueleto de homologıa persistente para aproximar fronteras de objetos enuna imagen. Marıa Alejandra Valdez Cabrera, Omar Radhames Urquıdez Calvo.

II. Metodo para simular puntos uniformemente distribuidos sobre una super-ficie en Rn. Gilberto Flores Vargas, Yair Hernandez Esparza.

III. Analisis topologico de datos utilizando Mapper y complejos testigo (incluyeun tutorial de uso de software). Jesus Manuel Perez Angulo.

Page 9: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

Indice de figuras

1.1. Nube de puntos y complejo simplicial asociado . . . . . . . . . . . . . . . . . 171.2. Ejemplo de retracto por deformacion . . . . . . . . . . . . . . . . . . . . . . 191.3. Ejemplo de un complejo Vietoris–Rips . . . . . . . . . . . . . . . . . . . . . 201.4. Ejemplo de un ε–contrapeso . . . . . . . . . . . . . . . . . . . . . . . . . . . 251.5. Ejemplos de simplejos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281.6. Ejemplos de complejos simpliciales. . . . . . . . . . . . . . . . . . . . . . . . 291.7. Interseccion de abiertos y creacion de 1–simplejos. . . . . . . . . . . . . . . . 321.8. Ejemplo de complejo de Vietoris–Rips . . . . . . . . . . . . . . . . . . . . . . 331.9. Complejo de cadenas de homologıa . . . . . . . . . . . . . . . . . . . . . . . 361.10. Ejemplos de puntos crıticos de la funcion distancia . . . . . . . . . . . . . . 52

2.1. Emparejamiento de maximos y mınimos . . . . . . . . . . . . . . . . . . . . 582.2. Aproximacion de una funcion y su diagrama de persistencia . . . . . . . . . 582.3. Distancia cuello de botella . . . . . . . . . . . . . . . . . . . . . . . . . . . . 632.4. Panoramas de persistencia y relacionados . . . . . . . . . . . . . . . . . . . . 672.5. Codigo de barras e intervalos por clases de homologıa . . . . . . . . . . . . . 69

4.1. Distribucion uniforme sobre S2 . . . . . . . . . . . . . . . . . . . . . . . . . . 1344.2. Distribucion cociente de una distribucion normal bivariada con dependencia

en S1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1344.3. Distribucion cociente de una distribucion normal trivariada con dependencia

en S2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1354.4. Distribucion cociente GOE en S1 . . . . . . . . . . . . . . . . . . . . . . . . 1364.5. Distribucion cociente GUE en S1 . . . . . . . . . . . . . . . . . . . . . . . . 1374.6. Distribucion cociente GOE en S2 . . . . . . . . . . . . . . . . . . . . . . . . 1374.7. Distribucion cociente GUE en S2 . . . . . . . . . . . . . . . . . . . . . . . . 1384.8. Distribucion cociente Cauchy en S1 . . . . . . . . . . . . . . . . . . . . . . . 1394.9. Distribucion cociente Cauchy en S2 . . . . . . . . . . . . . . . . . . . . . . . 139

7

Page 10: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

8 Indice de figuras

4.10. Distribucion inducida por la uniforme en la inmersion de T2 en R3 . . . . . . 1404.11. Distribucion uniforme en el toro . . . . . . . . . . . . . . . . . . . . . . . . . 1414.12. Distribucion en T2 con distribucion marginal GOE en S1 . . . . . . . . . . . 1424.13. Distribucion en T2 con distribucion marginal GUE en S1 . . . . . . . . . . . 1424.14. Distribucion en T2 con distribucion marginal cociente bivariada en S1 . . . . 1434.15. Distribucion en T2 con distribucion marginal Cauchy en S1 . . . . . . . . . . 143

5.1. Interpretacion de franja de confianza para un diagrama de persistencia . . . 177

7.1. Comparacion entre nβ0(x, 0) y f(x) = − log(1− x) . . . . . . . . . . . . . . 2117.2. Arco-coseno con rango [−π, π) . . . . . . . . . . . . . . . . . . . . . . . . . . 2127.3. Arco-coseno con rango [π, 3π) . . . . . . . . . . . . . . . . . . . . . . . . . . 2127.4. Arco de cırculo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2147.5. Grafica de β0 cuando d = 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224

A.1. Ejemplo de componentes principales . . . . . . . . . . . . . . . . . . . . . . . 252

Page 11: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Introduccion

Estas notas constituyen un compendio de aspectos teoricos, tanto geometrico–topologicocomo de probabilidad e inferencia estadıstica, para el Analisis Topologico de Datos (ATD).Fueron desarrolladas a la par del curso Probabilidad e Inferencia Estadıstica para el ATD, quese impartio por vez primera durante el semestre enero-junio 2016 en el Centro de Investigacionen Matematicas A. C. (CIMAT). Las notas se adscriben al proyecto Analisis Topologico deDatos para Matematicas y Aplicaciones, CIMAT-ATD (http://atd.cimat.mx/).

El objetivo es presentar los principales conceptos y resultados de homologıa persistente,teorıa de probabilidad e inferencia estadıstica que permitan entender la creciente literaturaactual de investigacion en ATD y temas relacionados. Las notas estan dirigidas a estudiantesde licenciatura y posgrado con una solida formacion matematica basica. No se presuponenconocimientos previos en los temas que se abordan de topologıa, probabilidad y estadıstica.Se introducen conceptos primordiales en cada uno de estos temas, ası como una exposicionde los principales resultados y su relevancia para el ATD.

El Modulo I incluye material de geometrıa, topologıa y homologıa persistente que sepresenta en los Capıtulos 1 y 2. El Modulo II introduce elementos de teorıa de probabilidady simulacion de variables aleatorias en variedades, y corresponde al material contenido enlos Capıtulos 3 y 4, ası como en los Apendices B-D. El Modulo III incluye elementos deinferencia estadıstica y su aplicacion en literatura reciente de ATD, lo cual se presenta en elCapıtulo 5 y el Apendice A. El Modulo IV cubre el tema de campos aleatorios gaussianosy se presenta en el Capıtulo 6, en donde se mencionan numerosas aplicaciones del tema enneuroimagenes.

El Capıtulo 7 contiene material que se ha presentado durante el ultimo ano en algunas delas sesiones mensuales ATD del CIMAT y esta relacionado con el comportamiento asintoticode los numeros de Betti y una introduccion a la topologıa estocastica. La Seccion 7.1 fueescrita por Erik Amezquita (estudiante de licenciatura), la Seccion 7.2 por Fermın Revelesy las Secciones 7.3 y 7.4 por Erika Roldan (estudiante de doctorado).

9

Page 12: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

10 Introduccion

El curso conto con la participacion de estudiantes de la licenciatura en matematicasde la Universidad de Guanajuato y de los posgrados de ciencias de la computacion y deprobabilidad y estadıstica del CIMAT. Al final de estas notas se incluyen algunos reportesde proyectos finales del curso desarrollados por alumnos. Estos trabajos abordan aspectoscomplementarios del curso como la interpretacion de resumenes topologicos de algoritmosATD mediante varios ejemplos de diagramas de persistencia y codigos de barra; limitacionescomputacionales y algoritmos alternativos como Mapper y los complejos testigos; un tutorialsobre el uso de software diverso para ATD; aplicaciones en analisis de imagenes, y un metodogeneral para la simulacion de variables aleatorias en variedades basado en la medida deHausdorff, ejemplificado con la botella de Klein y la banda de Moebius.

Otros trabajos del curso (no incluidos en estas notas) abordaron aspectos de inferenciaestadıstica, ası como aplicaciones a una base de datos de mascaras prehispanicas del Insti-tuto Nacional de Antropologıa e Historia, la cual esta siendo estudiada en CIMAT mediantediversas tecnicas de topologıa, estadıstica y ciencias de la computacion. Tambien se cuentacon un tutorial desarrollado por el estudiante de maestrıa Rafael Gonzalez, que explica conherramientas de algebra lineal el calculo de numeros de Betti en Lenguaje R, mismo queesta disponible por solicitud en [email protected]. Una aplicacion interactiva para la visualiza-cion de la homologıa y su correspondiente codigo de barras puede consultarse en [129].

Al final de las notas se compila una lista amplia de referencias, tanto clasicas de los temasde topologıa, probabilidad y estadıstica, como de la literatura reciente en ATD, las cuales secontextualizan a lo largo de las notas. Se incluyen algunas referencias de aplicaciones—cadavez mas numerosas en la literatura de persistencia y ATD—, todas ellas motivadas por lanecesidad de analizar y modelar datos modernos, los cuales no resultan ser vectores sinoobjetos con una estructura peculiar y mas compleja. Como menciona Gunnar Carlsson—uno de los pioneros del ATD—“los datos tienen forma y esta forma importa”; ver tambien[90]. La gama de aplicaciones incluye areas como procesamiento de imagenes [26], [39], [87];aprendizaje de maquina [27]; oncologıa [5], [103]; estudios sobre irrigacion arterial en elcerebro [11], [116]; microbiologıa [69]; nichos ecologicos [60]; redes de sensores y rutas deevasion [101]; astronomıa [127]; y filogenetica [30], [31], [107], entre otras. Se recomienda [68]para una exposicion critica de los trabajos [31] y [107] a traves de un analisis detallado dela modelacion matematica y una introduccion a la filogenetica.

Al curso asistieron tambien varios estudiantes, posdoctorados e investigadores. Agradece-mos a quienes revisaron partes de estas notas, especialmente a Airam Blancas, Gerardo Ba-rrera, Israel Martınez, Joaquın Ortega, Erika Roldan y Carlos Vargas. Varios de los inscritos yasistentes a este curso habıan participado previamente en los cursos seminales de TopologıaComputacional y/o Topologıa para Computacion y Estadıstica que impartio Jose CarlosGomez Larranaga en semestres pasados.

Page 13: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Introduccion 11

La edicion y uniformizacion de las notas estuvo a cargo de Fermın Reveles. Estas iranevolucionando y actualizandose de manera intensa en la segunda edicion del curso duranteel semestre agosto-diciembre de 2017. Agradecemos tambien a Armando Domınguez quienya realizo una revision minuciosa de las mismas durante el IX Verano de Probabilidad yEstadıstica dedicado a ATD. Agradecemos los comentarios que el lector nos pueda propor-cionar.

Guanajuato, Gto., Mexico, julio de 2016.

Rolando Biscay, Miguel Nakamura, Vıctor Perez Abreu, Fermın Reveles.

Page 14: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Page 15: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Capıtulo 1

Topologıa y Geometrıa

En este capıtulo hacemos un repaso de los conceptos y tecnicas topologico–geometricascomunmente usadas en el ATD. En la mayorıa de los casos faltaran las demostraciones y seharan las referencias adecuadas. Esperamos con esto motivar la lectura fluida y continua,cargada de conceptos e ideas a utilizar posteriormente.

Para un estudio mas a fondo de topologıa y topologıa algebraica recomendamos los textosclasicos de Munkres [98], [99] y de Hatcher [65]. Desde la perspectiva del ATD y en relacional tipo de estudio que buscan develar estas notas, el lector puede consultar el libro en lıneade Ghrist [58] y el aun en curso [20] de Boissonat, Chazal e Yvinnec. Sin dejar de lado lostextos de Edelsbrunner y colaboradores [46] y [47]. Ası mismo, una introduccion al tema seencuentra en las notas de Espinoza [51]. La mayorıa de las imagenes en este capıtulo fuerontomadas de la tesis de Jose Marıa Ibarra [68].

Entendemos que para un estudio profundo de las herramientas de persistencia, es ne-cesario utilizar y comprender el lenguaje de homologıa, al menos en su version simplicialy con coeficientes en el campo de numeros binarios Z/2Z. Nuestro enfoque inicial es quedichas relaciones algebraicas pueden ser pensadas como propiedades geometricas de objetoscomputacionalmente tratables. Habra entonces un “salto” de percepcion a la suavidad delas variedades y los objetos usuales de la topologıa algebraica. Sin embargo, en nuestro caso,ambas percepciones seran identicas.

Esto nos permitira importar las ideas de teorıa de Morse de mediados del siglo pasado (ver[95]), para llevar un estudio en paralelo de las propiedades topologicas relevantes (asociadasa los numeros de Betti) y los puntos crıticos de funciones “tipo distancia”. Esperamos conello motivar un estudio futuro de topicos avanzados de topologıa algebraica y su relacion alanalisis de datos y aplicaciones.

13

Page 16: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

14 Capıtulo 1. Topologıa y Geometrıa

1.1. Definiciones

Una topologıa en un conjunto X, es una coleccion U de subconjuntos de X, tal que:

1. ∅ y X pertenecen a U .

2. Cualquier union de elementos de U pertenece a U .

3. Cualquier interseccion finita de elementos de U pertenece a U .

Llamamos abiertos a los elementos de U y al par (X,U) le decimos un espacio topologi-co. Tambien es posible definir una topologıa con subconjuntos cerrados, o subconjuntos dela forma X \ U , con U abierto. Si x ∈ X pertenece al abierto U , diremos que U es unavecindad de x.

Dos ejemplos de topologıas son los siguientes: la topologıa formada con la coleccion detodos los subconjuntos de X se llama la topologıa discreta. Dado cualquier subconjuntoY ⊂ X, la familia U ∩ Y : U ∈ U es una topologıa, llamada topologıa inducida.

La mayorıa de los espacios que trabajaremos satisfacen la propiedad deHausdorff .

Definicion 1.1.1. Un espacio topologico X es Hausdorff, si para cualesquiera x, y en X,existen vecindades U de x y V de y, tales que U ∩ V = ∅.

Usualmente sera complicado especificar todos los elementos de la topologıa U . En lamayorıa de los casos uno puede especificar una coleccion de subconjuntos de X mas pequenay definir la topologıa en terminos de ella.

Una base para una topologıa en el conjunto X es una coleccion B de subconjuntos de X,tal que:

(a) Para cualquier elemento x ∈ X, existe al menos un elemento B ∈ B tal que x ∈ B.

(b) Dados B1, B2 ∈ B y x ∈ X, si x ∈ B1 ∩B2 entonces existe un elemento B3 ∈ B tal que

x ∈ B3 ⊂ B1 ∩B2.

Los elementos de B se llamaran basicos. En el caso que B sea una base para una topologıaen X, la topologıa generada por B se define como sigue: Un subconjunto U de X es abiertoen X si para cada x ∈ U , existe un elemento basico B ∈ B tal que x ∈ B ⊂ U .

De manera alternativa la topologıa generada por una base esta descrita por el siguienteresultado.

Page 17: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

1.1. Definiciones 15

Lema 1.1.2. Sea B una base para una topologıa U en X. Entonces U es igual a la coleccionde todas las uniones de elementos de B.

Ejemplo 1.1.3. La coleccion de todos los intervalos abiertos

(a, b) := x ∈ R : a < x < b

es una base para los numeros reales R y la topologıa que genera se llama la topologıa estandaren R.

Para poder relacionar dos espacios topologicos usamos la nocion de continuidad. Unaaplicacion f : X −→ Y se dice una funcion continua si para cualquier abierto V de Y , laimagen inversa f−1(V ) = x ∈ X : f(x) ∈ V es un abierto de X.

Equivalentemente tenemos las siguientes afirmaciones:

• f : X −→ Y es continua si la imagen inversa de cualquier cerrado es un cerrado.

• f : X −→ Y es continua si X puede ser escrito como la union de conjuntos abiertos,X =

⋃Uα, tales que f |Uα es continua para cada α.

• f : X −→ Y es continua si para cada x ∈ X y cada vecindad V de f(x), existe unavecindad U de x en X tal que f(U) ⊂ V .

Si se satisface la ultima condicion diremos que f es continua en x. Ademas, las funcionesconstantes son continuas, ası como las aplicaciones de inclusion A → X con A ⊂ X y lacomposicion de funciones continuas.

Ejemplo 1.1.4. La definicion de una funcion continua f : R −→ R, es equivalente a ladefinicion usual con ε − δ. Dado x0 ∈ R y ε > 0, supongamos que f : R −→ R es continuaen x0, entonces el intervalo

V = (f(x0)− ε, f(x0) + ε)

es un abierto de R. Luego, f−1(V ) es abierto del dominio, o bien, existe (a, b) ⊂ R tal quex0 ∈ (a, b) ⊂ f−1(V ). Escogemos δ > 0 como el mas pequeno entre x0 − a y b − x0. Por lotanto, si

|x− x0| < δ,

x debe pertenecer a (a, b) y ası f(x) ∈ V , o

|f(x)− f(x0)| < ε.

Page 18: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

16 Capıtulo 1. Topologıa y Geometrıa

Dada una relacion de equivalencia ∼ en X, la topologıa cociente es por definicion latopologıa mas grande que hace a la aplicacion de proyeccion

π : X −→ X/ ∼

continua. Esto es, un subconjunto U de X/ ∼ es una coleccion de clases de equivalencias yπ−1(U) es la union de clases de equivalencia que pertenecen a U . Luego, un abierto tıpicodel cociente X/ ∼ es una coleccion de clases de equivalencia cuya union es un abierto de X.

La topologıa cociente es de importante relevancia debido a la construccion de ejemplosvistos como espacios o variedades cociente. Mas adelante daremos un breve repaso sobre lamisma y presentaremos algunos ejemplos clasicos.

En ocasiones, habra ciertas maneras “canonicas” de definir una topologıa, esto sucede enparticular cuando en el conjunto en cuestion se pueden medir distancias.

Una metrica o distancia en X es una aplicacion d : X ×X −→ [0,∞) tal que

1. para cualquier x, y ∈ X, d(x, y) = d(y, x),

2. para cualquier x, y ∈ X, d(x, y) = 0 si y solo si, x = y,

3. para cualquier x, y, z ∈ X,

d(x, z) ≤ d(x, y) + d(y, z).

El par (X, d) se dice un espacio metrico.La menor topologıa que contiene todas las bolas abiertas

B(x, r) := y ∈ X : d(y, x) < r

se llama la topologıa metrica inducida por d.

Algunos ejemplos de espacios topologicos son:

1. Los espacios euclidianos Rn con la topologıa estandar, la cual es la topologıa inducidapor la metrica de la norma d(x, y) = ||x− y||.

2. Los numeros complejos C vistos con la topologıa estandar de R2.

3. Espacios cociente como el cırculo T = R/Z, o el toro T 2 = R2/Z2 que estan inducidospor acciones de subgrupos discretos (tipo latices o retıculas).

4. En general, cualquier espacio que sea localmente euclidiano, como las variedades.

Page 19: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

1.1. Definiciones 17

5. Nubes discretas de puntos y sus realizaciones como complejos simpliciales.

Figura 1.1: Nube de puntos y complejo simplicial asociado

Decimos que un subconjunto K ⊂ X es compacto si para cualquier cubierta por abiertosde K, existe una subcubierta finita. Es decir, dada una coleccion de abiertos Ui : i ∈ Ital que K ⊆

⋃I Ui; existe un subconjunto finito de ındices J ⊂ I tal que K ⊆

⋃J Uj.

Para el caso de espacios metricos tenemos la siguiente caracterizacion de compactos:Un espacio metrico X es compacto si y solo si, para cualquier sucesion de X existe unasubsucesion convergente. En el caso de espacios euclidianos, por el teorema de Heine–Borel,un espacio K ⊂ Rd es compacto si y solo si, K es cerrado y acotado.

La mayorıa de los objetos con los que trataremos en estas notas seranespacios compactos dotados con una distancia.

Decimos que un espacio topologico X es conexo si no puede ser separado por dos abiertosdisjuntos. Esto es, dados cualesquiera abiertos U y V tales que X ⊆ U ∪ V y U ∩ V = ∅;entonces X ⊆ U o X ⊆ V . Equivalentemente, un espacio topologico X es conexo si y solosi, los unicos subconjuntos de X que son al mismo tiempo abiertos y cerrados son el vacıo yX mismo.

Un espacio topologico es arco–conexo si para cualesquiera x, y ∈ X, existe una aplicacioncontinua

γ : [0, 1] −→ X,

tal que γ(0) = x y γ(1) = y.

Page 20: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

18 Capıtulo 1. Topologıa y Geometrıa

1.1.1. Tipo de homotopıa y homeomorfismos

Decimos que dos espacios topologicos son el mismo si son homeomorfos.

Definicion 1.1.5. Dos espacios topologicos X, Y son homeomorfos si existe una apli-cacion continua biyectiva h : X −→ Y , tal que h−1 : Y −→ X tambien es continua. Laaplicacion h se llama un homeomorfismo.

Si el espacio X es compacto y Y es un espacio Hausdorff, entonces cualquier aplicacioncontinua y biyectiva entre X y Y es un homeomorfismo. Los espacios que son homeomorfosa la bola unitaria estandar en Rn, se llamaran bolas topologicas.

Decidir si dos espacios son homeomorfos es una tarea complicada. En general, trabaja-remos con una nocion mas debil que esta, la relacion de equivalencia homotopica.

Decimos que dos aplicaciones f0, f1 : X −→ Y son homotopicas, si existe una aplicacioncontinua

H : X × [0, 1] −→ Y

tal que para cada x ∈ X:

H(x, 0) = f0(x) y H(x, 1) = f1(x).

En tal caso escribiremos f0 ' f1.

Definicion 1.1.6. Dos espacios X y Y son homotopicamente equivalentes (tienen elmismo tipo de homotopıa) si existen aplicaciones continuas

f : X −→ Y y g : Y −→ X,

tales que f g ' idY y g f ' idX .Un espacio es contraıble si es homotopicamente equivalente a un punto.

Cuando Y es un subconjunto de X, podemos saber si existe una equivalencia homotopicaentre Y y X mediante el siguiente resultado.

Proposicion 1.1.7. Si Y ⊂ X y existe una aplicacion continua

H : X × [0, 1] −→ X,

tal que:

• Para cada x ∈ X, H(x, 0) = x,

Page 21: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

1.1. Definiciones 19

• para cada x ∈ X, H(x, 1) ∈ Y ,

• para cada y ∈ Y y para todo t ∈ [0, 1], H(y, t) ∈ Y .

Entonces X y Y son homotopicamente equivalentes.

Observacion 1.1.8. Si la ultima propiedad se reemplaza por la propiedad mas fuerte de quepara cada y ∈ Y y para todo t ∈ [0, 1], H(y, t) = y, entonces, decimos que H define unretracto por deformacion de X sobre Y .

Ejemplo 1.1.9. La esfera unitaria Sn es un retracto por deformacion del espacio euclidianoRn+1 \ 0. Consideramos la funcion

F : (Rn+1 \ 0)× [0, 1]→ Rn+1 \ 0,

definida por

F (x, t) = (1− t)x+ tx

||x||.

Dicha aplicacion va “encogiendo” gradualmente el rayo que emana del origen en Rn+1\0al punto donde intersecta la esfera. Como para cada y ∈ Sn, ||y|| = 1, tenemos que F (y, t) = ypara cada t ∈ [0, 1] y por lo tanto, F define un retracto por deformacion de Rn+1 \ 0 sobreSn.

Figura 1.2: El espacio R3 \ 0 se retrae en la esfera S2.

Page 22: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

20 Capıtulo 1. Topologıa y Geometrıa

En general, una nube discreta de puntos tendra asociada un complejo simplicial, el lla-mado complejo de Cech; o bien, el complejo de Rips (incluso el caso de los complejos α parados y tres dimensiones). Dicho complejo simplicial sera homotopicamente equivalente a unespacio metrico compacto formado por union de bolas cerradas. Este sera el contenido delllamado Lema del Nervio, que veremos posteriormente.

Para poder caracterizar las propiedades topologicas de un espacio buscamos invariantestopologicos, objetos matematicos como numeros, grupos, polinomios; tales que permanez-can el mismo entre espacios homotopicamente equivalentes.

Ejemplo 1.1.10. Los numeros de Betti βk(X) de un espacio X estan definidos por la di-mension del espacio vectorial

Hk(X,Z/2Z);

donde el k–esimo grupo de homologıa en este caso mide lazos, agujeros, vacıos en el espacioX. En general y dependiendo del modelo, se pueden utilizar los grupos de homologıa concoeficientes en Z, Q o R.

Mas adelante ahondaremos en la definicion formal de homologıa simplicial y singular,ası mismo extenderemos nuestro estudio a la homologıa persistente.

Figura 1.3: Ejemplo de un complejo de Vietoris–Rips asociado a una nube de puntos.

Page 23: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

1.1. Definiciones 21

1.1.2. Topologıa cociente

Las construcciones mas comunes en topologıa suelen ser espacios formados vıa identifica-ciones o “pegados”, los cuales en el lenguaje de topologıa suelen ser vistos como construccio-nes muy poco formales. En esta seccion veremos la teorıa detras de este tipo de ejemplos ypresentaremos algunos ejemplos importantes como el cırculo, la banda de Moebius, el planoproyectivo, el toro y la botella de Klein.

Como hemos mencionado anteriormente, la mayorıa de los espacios en la aplicacion satis-facen la propiedad de ser Hausdorff. Para el caso de las variedades, que veremos mas adelante,esta condicion mas la propiedad de ser segundo numerable son necesarias en la definicion.Para un estudio introductorio sobre variedades riemannianas recomendamos [126].

Recordamos que una relacion de equivalencia ∼ en un conjunto X es una relacion quees simetrica, reflexiva y transitiva. Se define la clase de equivalencia [x] de x ∈ X, comoel conjunto de los elementos de X equivalentes con x. Luego, una relacion de equivalenciaparticiona a un conjunto X en sus clases de equivalencia disjuntas. Denotamos por X/ ∼ alconjunto de clases de equivalencia y lo llamamos el espacio cociente deX por∼. Ası mismo,consideramos la aplicacion natural de proyeccion

π : X −→ X/ ∼,

que asigna a x ∈ X su clase [x] ∈ X/ ∼.Si X es ademas un espacio topologico, definimos una topologıa en el espacio cociente

X/ ∼ como sigue: U es abierto en X/ ∼ si y solo si, π−1(U) es abierto en X. Se observadirectamente que el vacıo y X/ ∼ son abiertos. Mas aun, como

π−1

(⋃α

)=⋃α

π−1(Uα) y π−1

(⋂i

Ui

)=⋂i

π−1(Ui),

entonces tambien se satisface que la coleccion de abiertos en X/ ∼ es cerrada bajo unionesarbitrarias e intersecciones finitas. Esta topologıa en X/ ∼ se llama la topologıa cociente.

Observar que con la topologıa cociente en X/ ∼ automaticamente la proyeccion π escontinua.

Supongamos que una funcion f : X −→ Y es constante en cada clase de equivalencia,entonces tenemos una aplicacion inducida f : X/ ∼−→ Y dada por f([x]) = f(x) parax ∈ X. Directamente de esta construccion podemos probar que f es continua si y solo si, fes continua.

Sea A ⊂ X un subespacio topologico de X, definimos la relacion de equivalencia ∼ en Xvia x ∼ x para cada x ∈ X y

x ∼ y, ∀x, y ∈ A.

Page 24: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

22 Capıtulo 1. Topologıa y Geometrıa

En este caso, decimos que el espacio cociente X/ ∼ se obtiene de X al identificar A a unpunto.

Ejemplo 1.1.11 (El cırculo). Sea I = [0, 1] el intervalo unitario cerrado e I/ ∼ el espaciocociente que se obtiene de I al identificar 0, 1 a un punto. Si S1 denota el cırculo en elplano complejo C, la funcion f : I −→ S1, dada por f(x) = exp(2πix), toma los mismosvalores en 0 y 1 y por lo tanto induce una funcion

f : I/ ∼−→ S1.

Claramente la funcion f es continua ya que f lo es y ademas es una biyeccion. ComoI/ ∼ es imagen continua de un compacto I, entonces tambien es compacto. Luego, tenemosuna funcion biyectiva continua del espacio compacto I/ ∼ al espacio Hausdorff S1; esto es,f es un homeomorfismo.

En general, la construccion de pasar al cociente no respeta las propiedades de ser Haus-dorff y segundo numerable, que son deseables en un espacio topologico. Supongamos queX/ ∼ es Hausdorff, entonces para cualquier x ∈ X, el conjunto de un solo punto π(x) escerrado en X/ ∼. Ası que π−1(π(x)) = [x] es cerrado en X. Lo cual nos da una condicionnecesaria para probar cuando X/ ∼ es Hausdorff.

Proposicion 1.1.12. Si el espacio cociente X/ ∼ es Hausdorff, entonces la clase de equi-valencia [x] es cerrada en X para cada x ∈ X.

Uno de los ejemplos mas importantes en el contexto de variedades no–orientables es elespacio proyectivo real. Consideramos una relacion de equivalencia en Rn+1 \ 0 mediante

x ∼ y ⇐⇒ y = tx para algun numero real t.

El espacio proyectivo real RP n es el espacio cociente Rn+1/ ∼. A la clase de equivalencia[x0, . . . , xn] ∈ RP n se le llama coordenadas homogeneas de RP n.

Observar que dos puntos que no son cero en Rn+1 son equivalentes si y solo si yacensobre la misma lınea a traves del origen. Como cada lınea a traves del origen en Rn+1 cortala esfera Sn en un par de puntos antipodales, y viceversa, entonces definimos la siguienterelacion de equivalencia ∼ en Sn:

x ∼ y ⇐⇒ x = ±y, x, y ∈ Sn.

Esto es, tenemos una biyeccion entre RP n y Sn/ ∼. En otras palabras, la aplicacion deproyeccion f : Rn+1 −→ Sn, dada por f(x) = x

||x|| , induce un homeomorfismo

f : RP n −→ Sn/ ∼ .

Page 25: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

1.1. Definiciones 23

Ejemplo 1.1.13 (La lınea proyectiva real). Cada lınea a traves del origen en R2 corta alcırculo S1 en un par de puntos antipodales. Luego RP 1 es homeomorfo a S1/ ∼, el cual eshomeomorfo al semicırculo superior cerrado, con los dos puntos finales identificados.

Ejemplo 1.1.14 (El plano proyectivo real). Sabemos que existe un homeomorfismo entreRP 2 y S2/ ∼ con la relacion de identificar puntos antipodales. Para puntos que no estan en elecuador, cualquier par de puntos antipodales tiene un unico punto en el hemisferio superior

H2 = (x, y, z) ∈ R3 : x2 + y2 + z2 = 1, z ≥ 0,

ası que existe una biyeccion entre S2/ ∼ y H2 identificando cada par de puntos antipodalesdel ecuador:

(x, y, 0) ∼ (−x,−y, 0), x2 + y2 = 1.

Consideremos ademas el disco unitario cerrado

D2 = (x, y) ∈ R2 : x2 + y2 ≤ 1.

Vemos que H2 y D2 son homeomorfos vıa

φ(x, y, z) = (x, y) y φ−1(x, y) = (x, y,√

1− x2 − y2).

En D2 definimos la relacion de equivalencia ∼ identificando puntos antipodales en el cırculofrontera:

(x, y) ∼ (−x,−y), x2 + y2 = 1.

Entonces, tenemos definidos los homeomorfismos

φ : H2/ ∼−→ D2/ ∼ y φ−1 : D2/ ∼−→ H2/ ∼ .

En conclusion, tenemos quizas la mejor manera de visualizar el plano proyectivo RP 2

como D2/ ∼, el cociente del disco cerrado D2 con puntos antipodales en la frontera identifi-cados.

Ejemplo 1.1.15 (La botella de Klein). Sea X = S1 × S1 el producto de dos crculos. Consi-deramos en X la relacion de equivalencia:

(z, w) ∼ (1/z,−w), (z, w) ∈ S1 × S1.

Notar que estamos pensando que S1 esta inmerso en el plano complejo C. Luego, estaaplicacion en el cociente, refleja sobre el eje x en el primer cırculo y rota 180 grados en elsegundo. Explıcitamente podemos considerar el homeomorfismo entre C y R2:

z := x+ iy 7−→ (x, y).

Page 26: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

24 Capıtulo 1. Topologıa y Geometrıa

De tal forma que la relacion de equivalencia en X se expresa ahora como

(x, y)× (u, v) ∼ (x,−y)× (−u,−v), (x, y)× (u, v) ∈ S1 × S1;

o bien, (x, y), (u, v) ∈ R2 con x2 + y2 = u2 + v2 = 1.El espacio topologico cociente K2 := X/ ∼ se llama la botella de Klein. Observar que

es un espacio topologico compacto.

Ejemplo 1.1.16 (La banda de Moebius). Sean a > 0 y X = (−a, a)×S1. En X consideramosla relacion de equivalencia:

(t, z) ∼ (−t,−z), (t, z) ∈ (−a, a)× S1.

El espacio topologico cociente Ma := X/ ∼ se conoce como la banda de Moebius de altura2a. Notar que si pensamos al intervalo (−a, a) como un subconjunto abierto de S1, Ma puedeser visto como parte de la botella de Klein K2.

Mas aun, si consideramos el cociente de R×S1, el resultado M∞ se conoce como la bandade Moebius de altura infinita.

1.2. Distancias

Dado un conjunto compacto K de Rn, definimos la vecindad tubular o contrapeso de Kde radio ε; como el conjunto de todos los puntos a distancia a lo mas ε de K:

Kε =

y ∈ Rn : ınf

x∈K||x− y|| ≤ ε

=⋃x∈K

B(x, ε).

Definicion 1.2.1. La distancia Hausdorff dH(K,K ′) entre dos conjuntos cerrados K,K ′

de Rn esta definida por:

dH(K,K ′) = ınfε ≥ 0 : K ⊂ (K ′)ε, K ′ ⊂ Kε

= max

(supy∈K′

( ınfx∈K||x− y||), sup

x∈K( ınfy∈K′||x− y||)

).

En general, dado un compacto K ⊂ Rn, se define la funcion distancia a K:

dK(x) := ınfy∈K

d(x, y) = ınfy∈K||x− y||, x ∈ Rn.

Page 27: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

1.2. Distancias 25

Observar que dicha funcion distancia es continua y 1–Lipschitz; i.e.

|dK(x)− dK(x′)| ≤ ||x− x′||.

Mas aun, K = d−1K (0) y el contrapeso de K de radio ε,

Kε = d−1K ([0, ε]) = x ∈ Rn : dK(x) ≤ ε,

es decir, Kε corresponde al subconjunto de nivel ε de dK .

Figura 1.4: Ejemplo de un ε–contrapeso de una nube de puntos.

Proposicion 1.2.2. Dados dos compactos K,K ′ ⊂ Rn, la distancia Hausdorff dH(K,K ′)entre K y K ′ esta definida por cualquiera de las afirmaciones siguientes:

1. dH(K,K ′) = max (supx∈K dK′(x), supx∈K′ dK(x)) .

2. dH(K,K ′) es el menor numero ε tal que K ⊂ K′ε y K ′ ⊂ Kε.

3. dH(K,K ′) = ||dK − dK′ || := supx∈Rn |dK(x)− dK′(x)|.

Page 28: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

26 Capıtulo 1. Topologıa y Geometrıa

En ocasiones, los espacios correspondientes no seran ambos subespacios de un espacio encomun. En tales casos se define la distancia Gromov–Hausdorff dGH(X, Y ) como sigue.Decimos que dos espacios metricos compactos (X, d), (Y, d′) son isometricos si existe unabiyeccion Φ : X −→ Y que preserva distancias.

Para un r > 0,dGH(X, Y ) < r

si y solo si, existe un espacio metrico Z y subespacios X ′, Y ′ de este, los cuales son isometricosa X, Y respectivamente y tales que

dH(X ′, Y ′) < r.

Intuitivamente, la distancia Gromov–Hausdorff es el ınfimo de la distancia Hausdorffsobre todas las posibles inclusiones isometricas de estos espacios sobre un espacio metricocomun.

Sin embargo, en ocasiones la distancia Hausdorff no sera una buena aproximacion entreconjuntos. Una medida con mas aproximacion a la similaridad de dos formas es la distanciade Frechet.

Definicion 1.2.3. Las distancia Frechet entre dos subconjuntos X, Y de Rn es

dF (X, Y ) = ınfh

supp∈X

d(p, h(p)),

donde h corre sobre todos los homeomorfismos entre X, Y .

La distancia de Frechet es mas fina para poder comparar conjuntos que la distancia Haus-dorff. Sin embargo, solamente nos permite comparar entre espacios que son homeomorfos.

Mas adelante trabajaremos con distancias tipo Wasserstein y usaremos esta idea dehomeomorfismo o “paridad” entre elementos de dos espacios, para definir distancias entrelos objetos que miden la persistencia topologica.

1.3. Complejos simpliciales

Antes de pasar al estudio de la homologıa simplicial, entenderemos la clase de espacios pa-ra la cual se define. Estamos hablando de los poliedros, espacios que son construidos a partirde “bloques” como segmentos de lıneas, triangulos, tetraedros y sus analogos en dimensionesmayores, a partir de pegar estos a lo largo de sus caras. En esta seccion estudiaremos estosbloques esenciales.

Page 29: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

1.3. Complejos simpliciales 27

La combinacion linealm∑i=0

λipi,

donde para cada ındice i, λi ∈ R y pi ∈ Rn, es una combinacion convexa si y solo si,

m∑i=0

λi = 1, λi ≥ 0, i = 0, . . . ,m.

Un subconjunto de Rn es convexo si contiene al segmento de lınea que une cualesquierados de sus puntos. La interseccion de dos conjuntos convexos es necesariamente convexa yel espacio ambiente Rn tambien lo es.

Definicion 1.3.1. Dado un conjunto finito de puntos P = p0, . . . , pm de Rn, la envol-vente convexa de P es el conjunto de todas las combinaciones convexas de puntos de P .

La envolvente convexa puede verse como la interseccion de todos los conjuntos convexosde Rn que contienen a P .

Un conjunto finito de puntos P = p0, . . . , pm en Rn se dice geometricamente indepen-diente si no esta contenido en un subespacio afın de dimension menor que m. Esto es, paracualesquiera numeros reales λi : 0 ≤ i ≤ m las ecuaciones

m∑i=0

λi = 0 ym∑i=0

λipi = 0,

implican que λ0 = λ1 = . . . = λm = 0.Equivalentemente, P es geometricamente independiente si y solo si,

pi − p0 : 1 ≤ i ≤ m

es un conjunto linealmente independiente en el sentido ordinario del algebra lineal. Trivial-mente un conjunto de un punto es geometricamente independiente, ası como dos puntosdistintos, tres puntos no co–lineales, cuatro puntos no co–planares y ası sucesivamente.

Definicion 1.3.2. El conjunto de combinaciones convexas de m+1 puntos geometricamenteindependientes [p0, . . . , pm] se dice un m–simplejo.

Un 0–simplejo es un punto, un 1– simplejo es un segmento de recta, un 2–simplejo es untriangulo, un 3–simplejo es un tetraedro, etc.

Page 30: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

28 Capıtulo 1. Topologıa y Geometrıa

Las caras de un simplejo con conjunto de vertices P , son los simplejos de dimensionmenor o igual que la dimension del simplejo, obtenidos como combinaciones convexas desubconjuntos de P . Por ejemplo, las caras del triangulo [p0, p1, p2] son los simplejos

∅, [pi], [pi, pj]i<j, [p0, p1, p2], i, j = 0, 1, 2.

Figura 1.5: Ejemplos de simplejos.

Observacion 1.3.3. Podemos inferir el numero de caras de un m–simplejo a partir deltriangulo de Pascal. Recordamos que este codifica la informacion de los coeficientes binomia-les, el numero de diferentes combinaciones de l elementos distintos tomados de m objetossin importar el orden en que se elijan, es decir

(ml

).

Tenemos que un m–simplejo tiene(m+1l+1

)caras de dimension l y en total

m∑l=−1

(m+ 1

l + 1

)= 2m+1

caras.

Si pensamos que el vacıo es una (−1)–cara de cualquier simplejo, entonces la j–esimafila del triangulo de Pascal nos dice el numero de caras de un (j− 2)–simplejo. Por ejemplo,el tetraedro o 3–simplejo tiene una (−1)–cara, cuatro 0–caras o puntos, seis 1–caras o lados,cuatro 2–caras o triangulos y una 3–cara o el mismo tetraedro. Tal como nos dice la quintafila del triangulo de Pascal.

Page 31: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

1.3. Complejos simpliciales 29

Un simplejo es por definicion un objeto muy grande. Para el caso del calculo digital estosobjetos se vuelven matematicamente intratables. Sin embargo, son muy uniformes y simplesen su estructura y por lo tanto nos proveen de un objeto ideal computacionalmente hablando.

Figura 1.6: Ejemplos de complejos simpliciales.

Definicion 1.3.4. Un complejo simplicial K es una coleccion finita de simplejos, talesque:

1. Cualquier cara de un simplejo de K es un simplejo de K.

2. La interseccion de cualesquiera dos simplejos de K es, o bien vacıa, o una cara comunde ambos simplejos.

Llamamos a los simplejos de K caras y su dimension sera la dimension mas alta entre sussimplejos. Un subconjunto de K que es un complejo simplicial por su cuenta sera llamadosubcomplejo de K.

El j–esqueleto de K, Skj(K), es el subcomplejo de K que consiste de los simplejos dedimension a lo mas j. Por ejemplo, el 0–esqueleto son los puntos del complejo y el 1–esqueletosera la grafica asociada al conjunto de puntos que forman el complejo.

Dado un complejo simplicial K como antes, definimos el espacio subyacente (o polıtopo)|K|, como el subconjunto de Rn que es la union de los simplejos de K. La topologıa de K esla topologıa inducida en |K| por la topologıa estandar de Rn.

Definicion 1.3.5. Decimos que un complejo simplicial K es una triangulacion del espaciotopologico X si

|K| = X.

Page 32: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

30 Capıtulo 1. Topologıa y Geometrıa

Observar que estamos considerando que los simplejos que definen el complejo estan in-mersos en algun espacio euclidiano; es decir, podrıamos decir que K es un complejo simplicialgeometrico.

Definicion 1.3.6. Sea P = p1, . . . , pn un conjunto finito de elementos. Un complejosimplicial abstracto K con conjunto de vertices P , es un conjunto de subconjuntos de Ptal que:

1. Los elementos de P pertenecen a K.

2. Si τ ∈ K y σ ⊆ τ , entonces σ ∈ K.

En este caso los simplejos de K no estan pensados como objetos geometricos en Rn, sinosolo como conjuntos de vertices. Si σ ∈ K tiene precisamente m + 1 elementos, entonces ladimension de σ sera m y llamaremos a σ un m–simplejo.

Un complejo simplicial K define naturalmente un complejo abstracto Ka: El conjunto devertices de Ka es el conjunto de vertices de K y los simplejos de Ka son los conjuntos devertices de simplejos de K.

Recıprocamente, dado un complejo simplicial abstracto K, se define un complejo simpli-cial geometrico Kg de la siguiente manera en un espacio euclidiano: Consideremos el simplejoestandar σ ⊂ Rn generado por los vectores unitarios e1, . . . , eN, donde N es el numerode vertices del complejo K. Sea v1, . . . , vN el conjunto de vertices de K. Entonces Kg esel subcomplejo de σ definido como sigue: [ei0 , . . . , eim ] es un m–simplejo de Kg si, y solo si,[vi0 , . . . , vim ] es un simplejo de K. Llamaremos a Kg la realizacion geometrica de K.

Dicho espacio euclidiano no sera unico y tenemos que todo complejo simplicial abstrac-to de dimension n, tiene una realizacion geometrica en R2n+1. Mas aun, cualesquiera dosrealizaciones geometricas Kg1 , Kg2 son homeomorfas.

Usualmente trabajaremos con complejos cuyos vertices estan en Rn.

1.3.1. Nervio y Filtraciones

Decimos que un espacio X es paracompacto si para cualquier cubierta abierta U de X,existe un refinamiento U ′ que es localmente finito; esto es, cualquier x ∈ X tiene una vecindadtal que intersecta solo un numero finito de Ui ∈ U ′. En particular, un espacio compacto esparacompacto.

Sea U = Uii∈I una cubierta abierta de X, consideramos el complejo simplicial asociadoC(U) con conjunto de vertices U , tal que

σ = [Ui0 , . . . , Uim ] ∈ C(U) ⇐⇒m⋂j=0

Uij 6= ∅.

Page 33: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

1.3. Complejos simpliciales 31

Dicho complejo C(U) se llama el complejo del nervio o complejo de Cech de la cubierta U .

Teorema 1.3.7 (Teorema del Nervio). Sea U = Uii∈I una cubierta abierta del espacioparacompacto X, tal que cualquier interseccion finita de los Ui es, o bien vacıa, o contraible.Entonces, X y C(U) son homotopicamente equivalentes.

Observacion 1.3.8. El teorema es cierto para cubiertas por cerrados con la condicion deque X sea homeomorfo a un complejo simplicial finito.

Una cubierta con las propiedades del teorema del Nervio se llama una buena cubierta.Dicho teorema es de gran relevancia para la inferencia topologico–geometrica y la topologıacomputacional, ya que nos permite reunir la topologıa del espacio X mediante un complejosimplicial, describiendo las propiedades combinatorias de una buena cubierta. En particular,cuando el espacio X es una union de bolas (o conjuntos convexos) en Rn, X sera homotopi-camente equivalente al nervio de la cubierta hecha por esta union.

Usualmente un complejo simplicial K vendra especificado con cierto orden de sus sim-plejos, esto tendra un rol importante en la inferencia geometrica.

Definicion 1.3.9. Una filtracion de un complejo simplicial finito K es una sucesion desubcomplejos F = K0, . . . , Km tal que:

1. ∅ = K0 ⊂ K1 ⊂ · · · ⊂ Km = K.

2. Ki+1 = Ki ∪ σi+1, donde σi+1 es un subcomplejo de K.

La segunda condicion es equivalente a que Ki es un subcomplejo de Ki+1. Analogamenteuna filtracion de un espacio topologico cualquiera X, puede ser vista como una sucesion desubespacios encajados cuya union es igual al espacio X.

Todo complejo simplicial geometrico K admite una filtracion estandar; esto es, escogiendoKj como el j–esqueleto de K, Skj(K).

Lema 1.3.10. ∅ = K0 ⊂ K1 ⊂ · · · ⊂ Km = K con Ki+1 = Ki ∪ σi+1 y σi+1 de dimensionm, es una filtracion de K si y solo si, para cualquier i = 0, . . . ,m− 1 todas las caras de σi+1

estan contenidas en Ki

En ocasiones, lo mas natural sera considerar el orden de los complejos usando una sucesioncreciente de valores reales αi ⊂ R:

∅ = Kα0 ⊂ Kα1 ⊂ · · · ⊂ Kαm = K.

Page 34: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

32 Capıtulo 1. Topologıa y Geometrıa

Esto dara pie a definir filtraciones por subconjuntos de nivel de funciones con valores realescomo las funciones “tipo distancia”.

Las filtraciones seran usadas para construir estructuras geometricas sobre conjuntos fini-tos de puntos. Dado un conjunto finito de puntos P en Rn, el ε–contrapeso de P , o nervio

C(P, ε) =⋃p∈P

B(p, ε) = d−1P ([0, ε]),

define una filtracion mientras ε va de 0 a ∞. Esta filtracion se llama la filtracion de Cechconstruida sobre P .

Los 0–simplejos de C(P, ε) son los puntos de P y los otros simplejos estan caracterizadospor

σ = [p0, p1, . . . , pm] ∈ C(P, ε) ⇐⇒m⋂j=0

B(pj, ε) 6= ∅.

Observacion 1.3.11. El computo del complejo de Cech para dimensiones mayores que 3se vuelve rapidamente intratable. En geometrıa computacional se usan los complejos α, loscuales estan asociados a celulas de Voronoi (ver [46]). En la actualidad se busca una gene-ralizacion de estos objetos a dimensiones mayores.

Figura 1.7: Interseccion de abiertos y creacion de 1–simplejos.

Page 35: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

1.3. Complejos simpliciales 33

Otra filtracion usada comunmente es la del complejo de Vietoris–Rips, cuyos simplejosR(P, ε) construidos sobre P estan definidos por

σ = p0, . . . , pm ∈ R(P, ε) ⇐⇒ ||pi − pj|| ≤ ε, ∀i, j ∈ 0, . . . ,m.

El complejo de Vietoris–Rips es el complejo mas grande que tiene como 1–esqueleto elcomplejo de Cech. Este complejo es menos costoso desde el punto de vista computacional queel complejo de Cech. La razon es debido a que el complejo de Vietoris–Rips es un complejobandera; es decir, es maximal entre todos los complejos simpliciales que tienen dicho 1–esqueleto. De tal forma que las combinaciones del 1–esqueleto completamente determinan elcomplejo y el complejo de Vietoris–Rips puede ser guardado como una grafica.

Figura 1.8: Complejo de Vietoris–Rips.

Al convertir una nube de datos en un complejo simplicial como hasta ahora, la elec-cion adecuada del valor ε sera crucial. Es decir, para valores muy pequenos de ε el espaciosera discreto y para valores muy grandes sera un unico simplejo de dimension alta. Tenemosen particular lo siguiente.

Lema 1.3.12. Sea P un subconjunto finito de puntos de Rn, para cualquier α ≥ 0,

R(P, α) ⊆ C(P, α√

2) ⊆ R(P, α√

2).

Page 36: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

34 Capıtulo 1. Topologıa y Geometrıa

Esto implica que cualquier propiedad topologica que persiste bajo la inclusion

R(P, α) → R(P, α′)

es de hecho una propiedad topologica del complejo de Cech cuando

α′/α ≥√

2.

Es decir, las propiedades asociadas en topologıa y/o geometrıa de dicha inclusion, revelaninformacion que no es visible (inmediatamente) a partir de los estadios en α y α′ respecti-vamente.

El complejo de Vietoris–Rips es usado en aplicaciones, sin embargo su computo se vuelveintratable para dimensiones altas. Otra opcion serıa cambiar el modelo topologico.

1.4. Homologıa simplicial

En general, para el estudio posterior de la homologıa persistente, basta estudiar la ho-mologıa para un complejo finito K ⊂ Rn.

A partir de ahora, restringiremos nuestro estudio a la homologıa con coeficientes en elcampo Z2 = Z/2Z, lo cual como veremos adelante tiene una interpretacion geometrica muyparticular. Un tutorial desarrollado en el Lenguaje R por el estudiante de maestrıa RafaelGonzalez, explica con herramientas del algebra lineal el calculo de la homologıa simplicialcon dichos coeficientes. Este se encuentra disponible bajo pedido a [email protected]. Ademas,una aplicacion interactiva para la visualizacion de la homologıa y su codigo de barras puedeser consultada en [129].

Cabe mencionar que la teorıa es analoga para cualquier otro tipo de coeficientes, usual-mente el tipo de coeficientes depende del modelo o el tipo de estimacion que se requierarealizar, otros coeficientes usualmente considerados son los campos Q, R y el anillo Z.

Dado cualquier entero no negativo m, definimos el espacio de m–cadenas Cm(K), comoel Z2–espacio vectorial de las sumas formales de simplejos m–dimensionales de K; i.e.,

Cm(K) =

c =

k∑i=1

riσi : ri = 0, 1

donde σ1, . . . , σk es el conjunto de m–simplejos de K. Observar que la suma y el productopor escalar en Cm(K) estan definidas en los coeficientes usando suma y multiplicacion modulo2:

c+ c′ =k∑i=1

(ri + r′i)σi y λc =k∑i=1

(λri)σi.

Page 37: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

1.4. Homologıa simplicial 35

Notar ademas que los m–simplejos de K forman una base de Cm(K). Mas aun, las cadenascon coeficientes en Z2 tienen una interpretacion geometrica especıfica: Como cualquier m–cadena puede ser escrita unicamente como una suma de m–simplejos c = σi1 + · · · + σik ,entonces c es pensado como la union de los simplejos σij y la suma de dos m–cadenas sera sudiferencia simetrica.

Dado un m–simplejo σ = [v0, . . . , vm] definimos la frontera de σ como la (m− 1)–cadenaformada por sus (m− 1)–caras; i.e.,

∂(σ) =m∑i=0

[v0, . . . , vi, . . . , vm]

donde [v0, . . . , vi, . . . , vm] denota el (m− 1)–simplejo formado al remover el vertice i–esimo.Podemos extender linealmente esta nocion al conjunto de m–cadenas.

Definicion 1.4.1. El operador frontera es la aplicacion lineal definida por

∂ : Cm(K) −→ Cm−1(K)

c 7−→ ∂(c),

donde

∂(c) =∑σ∈c

∂(σ).

Observacion 1.4.2. En general, si consideramos cualquier dominio de ideales principalescomo conjunto de coeficientes, el conjunto de m–cadenas Cm(K) sera un grupo libre generadopor los m–simplejos de K. Mas aun, el operador frontera ∂ : Cm(K) −→ Cm−1(K), definidosegun convenga, sera un homomorfismo de grupos.

Calculando sobre cualquier m–simplejo obtenemos que la composicion del operador fron-tera con el mismo se anula. Esto es ∂∂ ≡ 0. De hecho, el operador frontera define aplicacioneslineales entre espacios de cadenas.

Definicion 1.4.3. El complejo de cadenas asociado a un complejo simplicial K de di-mension m es la sucesion de operadores lineales

∅ −→ Cα(K)∂−→ Cα−1(K)

∂−→ · · · ∂−→ C1(K)∂−→ C0(K) −→ ∅.

Page 38: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

36 Capıtulo 1. Topologıa y Geometrıa

Figura 1.9: Complejo de cadenas de homologıa hasta grado tres.

Para cualquier m ∈ 0, . . . , α, sean

Zm(K) := ker(∂ : Cm −→ Cm−1) = c ∈ Cm(K) : ∂(c) = 0

el conjunto de m–ciclos y

Bm(K) := im(∂ : Cm+1(K) −→ Cm(K)) = c ∈ Cm(K) : ∃c′ ∈ Cm+1(K), ∂(c′) = c

el conjunto de m–fronteras.Tal como se observa en la imagen anterior 1 Zm(K) y Bm(K) son subespacios de Cm(K)

yBm(K) ⊂ Zm(K) ⊂ Cm(K).

Ası, de acuerdo con la observacion anterior podemos definir lo siguiente.

Definicion 1.4.4. El m–esimo grupo de homologıa de K es el espacio vectorial cociente

Hm(K) =Zm(K)

Bm(K),

cuyos elementos son las clases de homologıa de K.La dimension de Hm(K),

βm(K) := dimHm(K)

es el m–esimo numero de Betti de K.

La clase de homologıa de c ∈ Zm(K) es por definicion el conjunto

c+Bm(K) = c+ b : b ∈ Bm(K).

Luego, dos ciclos c y c′ se dicen homologos si estan en la misma clase de homologıa; es decir,existe b ∈ Bm(K) tal que

c′ − c = c′ + c = b.

1Imagen tomada de [131]

Page 39: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

1.4. Homologıa simplicial 37

1.4.1. Calculo de numeros de Betti

Sean K,L dos complejos simpliciales finitos y

f : Sk0(K) −→ Sk0(L)

una funcion entre los vertices, tal que si el conjunto de vertices v0, . . . , vm forma un simplejoen K, entonces [f(v0), . . . f(vm)] tambien es un simplejo en L. Decimos que g : K −→ L esel mapeo simplicial inducido por f si

g

(m∑i=0

λivi

)=

m∑i=0

λif(vi).

Notar que la funcion g es continua.Las inclusiones respectivas de una filtracion son mapeos simpliciales, ası como la compo-

sicion de dos mapeos simpliciales. Ademas, si la aplicacion f entre los vertices es biyectiva,tendremos que el mapeo simplicial inducido sera un homeomorfismo.

Un mapeo simplicial f : K −→ L induce un homomorfismo de grupos

f∗ : Hm(K) −→ Hm(L).

Mas aun,(f g)∗ ≡ f∗ g∗ y (idK)∗ ≡ idHm(K).

En particular, estamos interesados en estudiar las imagenes de los mapeos inducidos porinclusiones en una filtracion.

Sea K un complejo simplicial finito de dimension n y

F = ∅ = K0 ⊂ K1 ⊂ · · · ⊂ Kα = K

una filtracion de K con la condicion que

Ki+1 = Ki ∪ σi+1;

con σi+1 un m–simplejo cuyas caras estan todas contenidas en Ki, para cada i. Este tipo defiltraciones se llaman planas y son de utilidad para los ejemplos en topologıa computacionalen R2 y R3 (ver [46]).

En ocasiones, ademas de esta condicion sobre la filtracion pedimos que los simplejos dedimension menor precedan a los de dimension mayor, siguiendo la manera en que incluimoslos simplejos σi, podemos inferir entonces la “evolucion” de la topologıa de la filtracionmediante sus numeros de Betti.

Page 40: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

38 Capıtulo 1. Topologıa y Geometrıa

Supongamos que se han calculado los numeros de Betti para Ki−1 y que se agrega el(m+ 1)–simplejo σi para obtener Ki. Dado que como hemos mencionado, todas las caras deσi estan en Ki−1, entonces σi no puede ser frontera de un (m+ 2)–simplejo en Ki. Tenemosdos opciones: σi pertenece a un (m+ 1)–cıclo o no lo hace.

Lema 1.4.5 (Nacimiento o Muerte). Si σi esta contenido en un (m+1)–cıclo en Ki, entonces

βm+1(Ki) = βm+1(Ki−1) + 1.

En caso contrario,βm(Ki) = βm(Ki−1)− 1.

Demostracion. En primer lugar, asumamos que σi esta contenido en un (m + 1)–cıclo c enZm+1(Ki). Luego, c no puede ser homologo a algun (m+1)–ciclo c′ en Zm+1(Ki−1), pues en talcaso c+c′ ≡ ∂d, para alguna (m+2)–cadena d. Esto contradice lo mencionado anteriormentepues entonces σi esta contenido en c + c′ y es frontera de un (m + 2)–simplejo en Ki.Consecuentemente, c crea una nueva clase de cohomologıa que es linealmente independientede las clases creadas por los ciclos en Ki−1, i.e.

βm+1(Ki) ≥ βm+1(Ki−1) + 1.

De hecho, la igualdad se satisface ya que el agregar el (m + 1)–simplejo σi a Ki−1 solopuede aumentar la dimension del (m+1)–esimo grupo de homologıa por uno: Si consideramosdos (m+ 1)–ciclos c y c′, tales que contienen a σi, entonces por definicion

c+ c′ ∈ Zm+1(Ki−1)

y ası, c′ esta contenido en el subespacio lineal generado por Zm+1(Ki−1) y c. Esto es,

dimZm+1(Ki) ≤ dimZm+1(Ki−1) + 1.

Pero como ademas para cada m, Bm(Ki−1) ⊂ Bm(Ki) tenemos que

βm+1(Ki) ≤ βm+1(Ki−1) + 1.

En el caso en que σi no este contenido en un (m + 1)–ciclo en Ki, tenemos que el m–cıclo ∂σi no es frontera de algun ciclo c en Ki−1, pues si se observa que ∂σi ≡ ∂c, entonces∂(σi+c) = 0; o bien, σi+c es un (m+1)–ciclo en Ki que contiene a σi, lo cual no es posible.De tal forma que ∂σi se vuelve una frontera en Ki, i.e.

βm(Ki) ≤ βm(Ki−1)− 1.

La igualdad se sigue usando un argumento similar al usado en el primer caso.

Page 41: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

1.5. Homologıa singular 39

Resulta ser que dichos simplejos seran de relevancia a la hora de definir la homologıapersistente.

Definicion 1.4.6. Dada una filtracion plana de K, decimos que un simplejo σi es positivosi pertenece a un (m+ 1)–cıclo en Ki y negativo en otro caso.

Observacion 1.4.7. El m–esimo numero de Betti es igual a la diferencia entre m–simplejospositivos y (m+ 1)–simplejos negativos.

El procedimiento anterior para decidir sobre los numeros de Betti, requiere el saber si elsimplejo en cuestion es positivo o negativo, responder a esta pregunta es uno de los propositosde la homologıa persistente. Mas aun, el procedimiento calcula los numeros de Betti de K yde todos los subcomplejos Ki en la filtracion.

1.5. Homologıa singular

Tanto los numeros de Betti como los grupos de homologıa son invariantes topologicos ; estoes, si K y K ′ son dos complejos simpliciales cuyos soportes geometricos son homeomorfos,entonces sus grupos de homologıa son isomorfos y sus numeros de Betti iguales. De hecho,este resultado sigue siendo cierto si los espacios subyacentes |K| y |K ′| son homotopicamenteequivalentes. Enunciaremos este resultado a continuacion, para lo que requeriremos la nocionde homologıa singular.

Consideremos el simplejo estandar ∆m en Rm+1; esto es,

∆m = [e1, . . . , em+1]

donde ei es la base canonica de Rm+1. Dado un espacio topologico X, un m–simplejosingular σm, es una aplicacion continua

σm : ∆m −→ X.

Analogamente al caso simplicial, definimos el espacio vectorial de m–cadenas singularesCm(X) como las sumas formales de m–simplejos singulares. La frontera ∂σm de un com-plejo singular es la suma de la restriccion de σm a cada (m− 1)–cara de ∆m.

Mas aun, tenemos un operador frontera (singular)

∂m : Cm(X) −→ Cm−1(X),

tal que ∂m−1 ∂m ≡ 0 y se definen de manera analoga los m–ciclos y las m–fronteras:

Zm(X) = ker ∂m y Bm(X) = im∂m+1,

respectivamente.

Page 42: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

40 Capıtulo 1. Topologıa y Geometrıa

Definicion 1.5.1. El m–esimo grupo de homologıa singular de X es el espacio vec-torial cociente

Hm(X) =Zm(X)

Bm(X).

Ası mismo, su dimension βm(X) sera llamada el m–esimo numero de Betti de X.

Una primera observacion importante es que a diferencia de complejos simpliciales finitos,los numeros de Betti pueden no ser finitos. En los casos que nos ocupan podremos usar sindistincion entre homologıa singular y simplicial.

Sea X un espacio topologico que es homeomorfo al soporte de un complejo simplicial K,entonces los grupos de homologıa singular de X y los grupos de homologıa simplicial de Kseran isomorfos.

Teorema 1.5.2 (Isomorfismo). Sea K un complejo simplicial finito. Entonces

Hm(|K|) ∼= Hm(K), m ≥ 0.

Es decir,βm(|K|) = βm(K), m ≥ 0.

Observacion 1.5.3. Si es el caso de que X es una superficie y tenemos dos triangulacionesK y K ′ de X, entonces Hm(K) es isomorfo a Hm(K ′) y los numeros de Betti son los mismosque los de X.

Como en el caso de aplicaciones simpliciales, una aplicacion continua entre espacios to-pologicos induce un homomorfismo a nivel de sus grupos de homologıa. Sea f : X −→ Ycontinua y σ : ∆m −→ X un simplejo singular en X, entonces f σ : ∆m −→ Y es un sim-plejo singular en Y . Ası, f induce una aplicacion lineal entre espacios de cadenas singularesen X y Y , que ademas preserva ciclos y fronteras. Es decir, f induce un homomorfismo

f? : Hm(X) −→ Hm(Y ).

Mas aun, si f es un homeomorfismo entre X y Y , entonces f? es un isomorfismo yf−1? = (f−1)?.

Aun en el caso en que f sea una equivalencia homotopica tenemos el mismo resultado.

Teorema 1.5.4. Sean X, Y espacios topologicos homotopicamente equivalentes yf : X −→ Y continua con inversa homotopica g : Y −→ X. Entonces,

f? : Hm(X) −→ Hm(Y )

es un isomorfismo con inversa g?.

Por lo tanto, dos espacios que son homotopicamente equivalentes tienen los mismos nume-ros de Betti.

Page 43: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

1.6. Variedades 41

1.6. Variedades

Las variedades son la extension de los espacios topologicos familiares del calculo, comolas curvas o superficies, a dimensiones mas altas.

Definicion 1.6.1. Una n-variedad (topologica) M es un espacio localmente homeomorfoa Rn. Esto es, existe una cubierta por abiertos U = Uα de M , junto con homeomorfismos

φα : Uα −→ Rn.

Comunmente se requiere que las variedades sean suaves, de tal forma que puedan serutilizadas todas las herramientas del calculo. Es decir, pedimos ademas que las aplicaciones

φβ φ−1α : φα(Uα ∩ Uβ) −→ φβ(Uα ∩ Uβ),

sean infinitamente diferenciables o suaves, siempre que Uα ∩ Uβ 6= ∅.Los pares (Uα, φα) se llaman cartas, las cuales generan un atlas maximal de cartas que

especıfica una estructura suave en M .

Ejemplos de 1–variedades son las curvas suaves. Cualquier curva conexa es difeomorfa aR o al cırculo S1; es decir, la compacidad distingue cualquiera de los dos.

Para el caso de 2–variedades, o superficies, tenemos otros dos parametros: Las superfi-cies compactas pueden ser orientables o no–orientables. Ademas, los agujeros o asas estancapturados en el invariante topologico llamado genero.

Ejemplo 1.6.2. La esfera S2 es la superficie orientable de genero cero. Esto es,

S2 = (x, y, z) ∈ R3 : x2 + y2 + z2 = 1.

Podemos definir seis cartas en S2 correspondientes a seis hemisferios y sus respectivas pro-yecciones:

U1 = (x, y, z) ∈ S2 : x > 0, φ1(x, y, z) = (y, z),

U2 = (x, y, z) ∈ S2 : x < 0, φ2(x, y, z) = (y, z),

U3 = (x, y, z) ∈ S2 : y > 0, φ3(x, y, z) = (x, z),

U4 = (x, y, z) ∈ S2 : y < 0, φ4(x, y, z) = (x, z),

U5 = (x, y, z) ∈ S2 : z > 0, φ5(x, y, z) = (x, y),

U6 = (x, y, z) ∈ S2 : z < 0, φ6(x, y, z) = (x, y).

Page 44: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

42 Capıtulo 1. Topologıa y Geometrıa

Estas cartas definen un atlas maximal sobre S2.Mas aun, se puede generalizar este ejemplo para dotar de un atlas maximal a cualquier

esfera n–dimensional,

Sn = (x1, . . . , xn+1) ∈ Rn+1 : x21 + · · ·+ x2

n+1 = 1.

Para poder ver ejemplos de variedades producto necesitamos el siguiente resultado.

Proposicion 1.6.3. Sean Uα, φα y Vi, ψi dos atlas de cartas suaves para las variedadesM y N , de dimensiones m y n, respectivamente. Entonces, la coleccion de cartas

(Uα × Vi, φα × ψi : Uα × Vi −→ Rm × Rn)

forma un atlas suave en la variedad producto M ×N . Por lo tanto M ×N es una variedadsuave de dimension m+ n.

Ejemplo 1.6.4. El toro T2 = S1 × S1 es la superficie orientable de genero uno. Por elresultado anterior, el toro es una variedad de dimension 2.

Las contrapartes no–orientables de los ejemplos anteriores son el plano proyectivo RP 2

y la botella de Klein K2.

Ejemplo 1.6.5. Consideremos las coordenadas homogeneas [x0, x1, x2] del plano proyectivoRP 2. Observar que al menos algun xi es distinto de cero, luego hace sentido definir las 3cartas estandar en RP 2:

U0 = [x0, x1, x2] : x0 6= 0 φ0([x0, x1, x2]) =

(x1

x0

,x2

x0

),

U1 = [x0, x1, x2] : x1 6= 0 φ1([x0, x1, x2]) =

(x0

x1

,x2

x1

),

U2 = [x0, x1, x2] : x2 6= 0 φ2([x0, x1, x2]) =

(x0

x2

,x1

x2

).

Notar que dichas aplicaciones tienen inversas continuas bien definidas, por ejemplo para elcaso de φ0 tenemos que

(x, y) 7−→ [1, x, y]

define su inversa. Esto es, RP 2 es localemente como R2 y (Ui, φi) : i = 0, 1, 2 es un atlasmaximal para RP 2.

Page 45: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

1.6. Variedades 43

Teorema 1.6.6 (Clasificacion de Superficies). Cualquier superficie compacta es difeomorfaa la superficie orientable o no–orientable, de algun genero fijo g ≥ 0.

El resultado anterior ademas puede interpretarse en un sentido practico como “pegados”de dos superficies elementales. Esto es, cualquier superficie compacta es o bien una sumaconexa de g toros, o una suma conexa de g planos proyectivos. Ası, al especificar lo que unasuma conexa es, estamos dotando de cartas naturales para cualquier superficie compacta.

Presumiblemente, el universo espacial es una 3–variedad.

En general, todas las herramientas del calculo pueden ser utilizadas en variedades. Sedefinen por ejemplo los espacios tangentes a un punto, derivadas, operadores gradientes,hessianos y laplacianos sobre variedades. Ademas de las herramientas propias de la geometrıariemanniana como el transporte paralelo, la curvatura, el alcance, etc. Para un estudio masgeneral pero exhaustivo ver el trabajo de Ghrist ([58]).

1.6.1. Caracterıstica de Euler

Uno de los invariantes topologicos mas simples es la caracterıstica de Euler, en esteapartado veremos su definicion en poliedros, complejos simpliciales y variedades en general.

Dado un conjunto finito P , la caracterıstica de Euler de P es justo la cardinalidad

χ(P ) = |P |.

Utilizando una estructura simplicial, si conectamos dos puntos de P por medio de un 1–simplejo o lado, entonces la caracterıstica de Euler decrecera por uno. Esto es, al contar unoa uno vemos que este invariante nos cuenta vertices con peso +1 y lados con peso −1.

Sin embargo, esto deja de suceder cuando un lado crea un nuevo cıclo de dimension uno.Para poder volver a la analogıa de contar componentes conexas, tendrıamos que agregar lacara o 2–simplejo cuya frontera es el 1–cıclo. Es decir, la caracterıstica de Euler asigna un pesode +1 a las caras. Procediendo de manera inductiva vemos como definir combinatoriamentela caracterıstica de Euler de cualquier espacio X, que se descomponga de alguna formasimplicial (o celular).

Definicion 1.6.7. Sea X un espacio tal que se puede escribir como la union disjunta dem–simplejos,

X =⊔α

σα,

se define la caracterıstica de Euler de X como

χ(X) :=∑α

(−1)dimσα .

Page 46: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

44 Capıtulo 1. Topologıa y Geometrıa

Dicha cantidad es invariante respecto a la descomposicion escogida, luego es invariante ba-jo homeomorfismos. No es homotopicamente invariante en el caso de espacio no–compactos,ası χ((0, 1)) = −1 y χ([0, 1]) = 1.

Ejemplo 1.6.8. La caracterıstica de Euler de un poliedro K (solido en tres dimensionescon estructura simplicial) se define como

χ(K) = V − L+ C,

donde V denota el numero de vertices, L el numero de aristas o lados y C el numero decaras.

En particular, el tetraedro ∆3 = [p0, p1, p2, p3] tiene caracterıstica de Euler

χ(∆3) = 4− 6 + 4 = 2.

Al igual que el cubo, el dodecaedro, el octaedro y el icosaedro. De hecho, cualquier poliedroconvexo tiene caracterıstica de Euler igual a 2.

Observacion 1.6.9. En el caso de espacios compactos la caracterıstica de Euler es uninvariante homotopico. Por lo tanto, podemos determinar el tipo de homotopıa de una graficaG. Por ejemplo, G es un arbol si χ(G) = 1.

Para superficies compactas orientables tenemos que la caracterıstica de Euler puede sercalculada a partir de su genero; esto es,

χ(Mg) = 2− 2g;

donde Mg es una superficie orientable de genero g. Por lo tanto:

χ(S2) = 2 y χ(T2) = 0.

Mas aun, como toda superficie es triangulable, podemos calcular que la caracterıstica deEuler para el plano proyectivo es igual a 1 y para la botella de Klein es igual a 0. Mas aun,cualquier subconjunto compacto convexo de Rd tiene caracterıstica de Euler igual a 1.

Con este analisis podemos ver ahora una definicion que involucra los calculos en homo-logıa. Esto es, dada una variedad compacta M de dimension n, consideremos sus numerosde Betti βm(M)nm=0, entonces

χ(M) =n∑i=0

(−1)iβi(M).

En otras palabras, la caracterıstica de Euler es un resumen de los numeros de Betti en unnumero entero. Mas adelante veremos que esta definicion tambien es equivalente usando losllamados puntos crıticos de ındice m de una funcion “tipo Morse”.

Page 47: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

1.6. Variedades 45

Curvatura

Aun cuando no hablaremos con detalle acerca de integracion en variedades, por medio dela caracterıstica de Euler podemos dar una primera aproximacion, cuyo sabor es puramentegeometrico.

Sea M una superficie suave inmersa en R3. Dado cualquier punto en M , podemos hablarde sus direcciones tangentes o normales. La aplicacion de Gauss es la aplicacion

γ : M −→ S2,

que asocia a cada punto de M la direccion de su vector normal unitario en R3. La curvaturade Gauss κ = det(Dγ) es el determinante de la derivada de dicha aplicacion γ.

En este sentido la curvatura es un invariante de transformaciones rıgidas y rotaciones,pero cambia al ser M deformada en alguna forma.

Teorema 1.6.10 (Gauss–Bonnet). Para una superficie suave compacta y orientable M enR3, la integral de curvatura de Gauss con respecto a la medida de area en M es igual a∫

M

dκ =

∫M

κdA = 2πχ(M).

Si pensamos en que M tiene una descomposicion simplicial (o celular), quizas con fronterasuave por pedazos, entonces la cantidad 2πχ(M) puede dividirse como M :

• En 2–simplejos, dκ significa curvatura de Gauss multiplicado por el elemento de area, kdA.

• En 1–simplejos, dκ significa curvatura geodesica multiplicado por el elemento de longitud,kgdλ.

• En 0–simplejos, dκ significa defecto de angulo.

Por lo tanto, la integral respectiva se divide en tres integrales sobre cada dimension delos simplejos.

Como consecuencia inmediata de este resultado vemos que la curvatura de Gauss esconstante, no importa como deformemos la superficie. Mas aun, usando la caracterıstica deEuler podemos medir y sumar angulos para los llamados triangulos geodesicos. Esto es, dκse anula a lo largo de los lados geodesicos y la suma de los angulos del triangulo es igual aπ mas la integral de la curvatura de Gauss sobre la cara del triangulo.

Page 48: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

46 Capıtulo 1. Topologıa y Geometrıa

1.6.2. Espacio tangente y distancia geodesica

En ocasiones, la distancia intrınseca de las variedades sera de mayor relevancia que ladistancia extrınseca heredada de algun espacio euclidiano. Estamos hablando de la distanciageodesica. Para poder definir esta, definiremos brevemente el espacio tangente a un punto ysu producto interno asociado. Queremos hacer enfasis en la estructura geometrica de estosespacios (euclidianos).

Sea M una variedad de dimension k, de tal forma que sus cartas son de clase Cm, conm ≥ 1. En general podemos pensar que M es una subvariedad inmersa en Rd con k ≤ d. Seap ∈M cualquier punto y γ : (−ε, ε) −→M una curva de clase C1 tal que γ(0) = p. Observarque si M no esta inmersa en un espacio euclidiano, la nocion de derivada γ′(0) podrıa noestar bien definida.

Sin embargo, el comportamiento de la curva se puede traducir localmente. Sea (U, φ) unacarta de M alrededor de p, la aplicacion φ γ es una curva de clase C1 en Rk y el vectortangente v = (φ γ)′(0) esta bien definido. Pero puede ser el caso que diferentes curvas nosden el mismo vector tangente.

Definimos la siguiente relacion de equivalencia en el conjunto de curvas que pasan por p.Dos curvas de clase C1, γ1 : (−ε, ε) −→ M y γ2 : (−ε, ε) −→ M , con γ1(0) = γ2(0) = p, sedicen equivalentes si y solo si, existe una carta (U, φ) en p tal que

(φ γ1)′(0) = (φ γ2)′(0).

Es un ejercicio interesante observar que dicha relacion de equivalencia es independiente dela eleccion de la carta.

Definicion 1.6.11. Un vector tangente de M en p es una clase de equivalencia de curvasde clase C1 que pasan por p. El conjunto de todos los vectores tangentes se denota por Tp(M)y se llama el espacio tangente de M en p.

De la definicion observamos que Tp(M) es un espacio vectorial y ademas se puede probarque es de dimension k; de hecho, Tp(M) es homeomorfo al espacio euclidiano Rk. Mas aun,no existe una relacion (a priori) entre Tp(M) y Tq(M) para p 6= q ∈ M , con M unavariedad arbitraria. En el caso particular en que M = Rk, se tiene que Tp(M) y Tq(M) sonhomeomorfos vıa una traslacion por q − p.

Observacion 1.6.12. Existe una manera de definir el espacio tangente usando “germenesde funciones en p”, la cual explicita claramente el uso de la diferenciabilidad o clase Cm de lavariedad. Sin embargo, la definicion es un poco mas engorrosa e innecesaria por el momento.

Usando los espacios tangentes en un punto podemos definir una metrica muy especial enestos puntos.

Page 49: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

1.6. Variedades 47

Definicion 1.6.13. Una metrica en un punto p de M es una aplicacion

gp : Tp(M)× Tp(M) −→ R

tal que satisface las siguientes condiciones:

1. gp es bilineal; es decir, si up, vp y wp estan en Tp(M) y a, b ∈ R, entonces

gp(aup + bvp, wp) = agp(up, wp) + bgp(vp, wp)

ygp(up, avp + bwp) = agp(up, vp) + bgp(up, wp).

2. gp es simetrica:gp(up, vp) = gp(vp, up), up, vp ∈ Tp(M).

3. gp es no–degenerada; esto es, para cualquier vector tangente no cero up ∈ Tp(M) lafuncion Tp(M) −→ R definida por

vp 7−→ gp(up, vp),

no es cero en todos lados, i.e. existe wp ∈ Tp(M) tal que gp(up, wp) 6= 0.

En particular, tenemos un “tensor de metrica” g : M −→ R, de tal forma que asigna acada punto p ∈ M una metrica gp que varıa de manera suave con respecto al punto p ∈ M .Con estos elementos disponibles, definimos una distancia sobre M de la forma siguiente.

Definicion 1.6.14. Consideremos una variedad M de dimension k y g un tensor de metricacomo antes. Si γ : [a, b] −→M es una curva de clase C1, se define la longitud de γ mediante

`(γ) =

∫ b

a

[gγ(t)(γ

′(t), γ′(t))]1/2

dt.

La distancia geodesica dg : M ×M −→ R+ se define como

dg(p, q) = ınfγ:[a,b]−→M

`(γ) p, q ∈M,

donde el ınfimo se toma sobra todas las curvas γ continuas, continuamente diferenciablespor pedazos en [a, b] tales que γ(a) = p y γ(b) = q. Una geodesica en M es una curva quelocalmente minimiza distancias.

Page 50: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

48 Capıtulo 1. Topologıa y Geometrıa

1.6.3. Variedades parametrizadas

Es de interes particular poder conocer medidas de referencia sobre variedades. Es decir,maneras de medir usando propiedades geometricas de objetos localmente euclidianos. Parapoder definir adecuadamente medidas de volumen o medidas geometricas sobre variedadesocupamos el concepto de variedades parametrizadas que veremos a continuacion. Para unestudio detallado sobre el tema recomedamos el trabajo de Tjur [125].

Sean X y Y subconjuntos abiertos de Rd y Rk, respectivamente. Una transformacioncontinuamente diferenciable

T : X −→ Y

se dice suprayectivamente regular si la diferencial

DT (x) : Rd −→ Rk

es una aplicacion lineal suprayectiva para cualquier x ∈ X. De manera similar se define unatransformacion inyectivamente regular. Como T solo puede ser suprayectivamente regularcuando d ≤ k e inyectivamente regular para d ≥ k, mas el hecho de que para d = k ambascondiciones son equivalentes, sin problema alguno diremos que una transformacion T esregular si satisface alguna de las propiedades anteriores.

Definicion 1.6.15. Dado un conjunto abierto M ′ ⊂ Rk con k ≤ d, una parametrizacion

p : M ′ −→ Rd

es una aplicacion (inyectivamente) regular, la cual es uno a uno y lleva M ′ de manerahomeomorfa en su imagen.

Una variedad parametrizada Mp ⊂ Rd de dimension k con k ≤ d, es la imagen

Mp = p(M ′)

de una parametrizacion p definida sobre M ′ en Rk.Ademas, una variedad de dimension k, M en Rd, es un subconjunto M ⊆ Rd que

es localmente una variedad parametrizada de dimension k. Es decir, para cualquier x ∈M ,existe una vecindad Ux relativa a Rd, tal que M ∩ Ux es una variedad parametrizada dedimension k.

Para el caso particular de transformaciones T : X −→ Y como antes, los conjuntos

T−1(y) y ∈ Y,

se llaman superficies de nivel de T . Tenemos el siguiente resultado, el cual puede serprobado usando el teorema de la funcion implıcita.

Page 51: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

1.7. Teorıa de Morse 49

Proposicion 1.6.16. Sean X, Y abiertos de Rd y Rk respectivamente y T : X −→ Y (sup.)regular. Entonces, las superficies de nivel T−1(y) son variedades de dimension d − k paracada y ∈ Y .

1.7. Teorıa de Morse

La teorıa de Morse es uno de los lugares donde se unen los complejos simpliciales y lasvariedades. Tomemos la teorıa de Morse sobre variedades, la cual usa la funcion altura parafacilitar el conteo en homologıa. Para una breve introduccion recomendamos el trabajo deJ. A. Gonzalez [59], donde ademas se hace un estudio extenso de la teorıa de Morse discretay aplicaciones en el ATD.

Sea M una variedad compacta sin frontera. La teorıa de Morse se ocupa de una funcioncon valores reales y la dinamica asociada a su flujo gradiente. Sea h : M −→ R una funcionsuave y consideremos el campo gradiente −∇h en M .

Tenemos una dinamica sencilla: Las soluciones del sistema asociado son o bien puntosfijos, es decir puntos crıticos de h,

∇h(p) = 0;

o el flujo va moviendose hacia abajo de un punto a otro. Pensamos ademas que los puntoscrıticos son no–degenerados, es decir que el hessiano tiene determinante no cero en estospuntos. Llamamos a h(p) ∈ R el valor crıtico de h en p.

Los puntos crıticos ademas tienen una manera de ser graduados, sea p en M un puntocrıtico, el ındice de Morse µ(p) es el numero de valores propios negativos del hessiano deh en p. El cual mide que tan inestable es un punto crıtico: Los mınimos tienen el ındice maspequeno, los maximos el mas grande.

Observacion 1.7.1. El ındice de un punto crıtico p es la dimension de la variedad inestableasociada al campo vectorial −∇h en p;

µ(p) = dimW u(p).

La teorıa de Morse clasica estudia los conjuntos de nivel de funciones de Morseh : M −→ R sobre una variedad compacta:

Mα := h−1((−∞, α]) = x ∈M : h(x) ≤ α ⊂M, α ∈ (−∞,∞).

Teorema 1.7.2. Si no existen valores crıticos de h en el intervalo (a, b], entonces Ma y Mb

son homotopicamente equivalentes. En particular, tienen la misma homologıa.

Page 52: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

50 Capıtulo 1. Topologıa y Geometrıa

Podemos decir un poco mas dependiendo de como pasamos de un nivel crıtico a otro.

Lema 1.7.3. Supongamos que p ∈ M es un punto crıtico de h, de ındice de Morse igual am y sea v = h(p) el valor crıtico respectivo. Dado ε > 0, tenemos que se satisface alguna delas siguientes:

βm(Mv+ε) = βm(Mv−ε) + 1,

oβm−1(Mv+ε) = βm−1(Mv−ε)− 1.

En otras palabras, al pasar un nivel crıtico, o bien se forma un nuevo vacıo m–dimensional,o un vacıo (m− 1)–dimensional se llena. Es decir, Mv+ε es homotopicamente equivalente alresultado de pegar a lo largo de la frontera de Mv−ε un m–simplejo, donde m es el ındicecrıtico. Al igual que anteriormente, decimos que un punto crıtico es positivo en el primercaso y negativo en el segundo.

Ejemplo 1.7.4. Consideremos el toro T2 = S1 × S1, h : T2 −→ R la funcion que mide laaltura de cada punto p ∈ T2 y la filtracion por subconjuntos de nivel MαR. En este casomediremos la homologıa con coeficientes en Z, como es usual para el caso de variedades.

Observar que tenemos cuatro puntos crıticos sobre T2 y sean

vi : i = 1, . . . , 4

los valores crıticos asociados. Ademas, los ındices en los puntos crıticos respectivos son0, 1, 1, y 2.

Para cada t0 < v1 tenemos que Mt0 = ∅ y ası

Hm(Mt0)∼= 0, m ≥ 0.

En el nivel t = v1 tenemos un punto crıtico de ındice 0, un punto mınimo: Al pasar estenivel obtenemos una nueva componente conexa para Mt; o bien,

H0(Mt1)∼= Z v1 < t1 < v2.

En el nivel de v2 tenemos un punto crıtico de ındice 1, un punto silla: Al pasar este nivel unnuevo agujero de dimension 1 es creado para Mt; i.e.

H1(Mt2)∼= Z v2 < t2 < v3.

De manera similar, v3 corresponde a un punto silla y se obtiene que

H1(Mt3)∼= Z⊕ Z v3 < t3 < v4.

Page 53: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

1.7. Teorıa de Morse 51

Por ultimo, v4 corresponde a un punto maximo o de ındice 2. Al cruzar este nivel se completala superficie del toro, introduciendo un nuevo vacıo de dimension 2; esto es,

H2(Mt4)∼= Z v4 < t4.

Luego, el proceso para recuperar la homologıa esta terminado.

En este caso la persistencia se refiere a dar un “apareamiento” entre puntos crıticospositivos de ındice m y puntos crıticos negativos de ındice m + 1. La idea es que una clasede homologıa que nace en un tiempo particular, muere un tiempo despues o puede no morir.

Puntos crıticos de la funcion distancia

Sea P una coleccion finita de puntos en Rn. La funcion distancia a P ,

dP : Rn −→ Rx 7−→ mın

p∈P||x− p||

puede ser tratada analogamente a como una funcion de Morse, aun cuando no sea unaaplicacion suave.

Recordar que definimos el ε–contrapeso de P , como

C(P, ε) = d−1P ((−∞, ε]) := x ∈ Rd : dP (x) ≤ ε.

Para poder usar la teorıa de Morse tendremos una definicion analoga de puntos crıticospara dP (ver [18]). En primer lugar, los mınimos de la funcion distancia dP , los puntos de P ,seran llamados puntos crıticos de ındice 0. Para ındices superiores hacemos lo siguiente.

Definicion 1.7.5. Un punto c ∈ Rn es un punto crıtico de ındice m de dP , donde1 ≤ m ≤ n, si existe un subcojunto Y de m+ 1 puntos de P tales que:

1. Para cada y ∈ Y :dP (c) = ||c− y||

y para cada p ∈ P \ Y tenemos que

||c− p|| > dP (c).

2. Los puntos de Y son geometricamente independientes.

3. c pertenece al interior de la envolvente convexa de Y (el cual es un m–simplejo abiertoen este caso).

Page 54: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

52 Capıtulo 1. Topologıa y Geometrıa

Este sera un caso particular de importancia si pensamos que el conjunto P consta de unamuestra aleatoria sobre alguna variedad o algun espacio compacto euclidiano.

Observar que la primer condicion implica que en una vecindad pequena de c, dP ≡ dY . Lasegunda condicion nos dice que Y vive en una unica esfera (m−1)–dimensional Sm−1 = S(Y ).Mas aun, c es el centro de S(Y ) y el radio de la esfera r(Y ) es el valor crıtico de la funciondistancia. Consideremos

B(Y ) = Br(Y )(c)

como la bola abierta de Rn con radio r(Y ) y centro c. Observar que S(Y ) esta contenida enB(Y ) pero a menos que m = n, S(Y ) no es la frontera de B(Y ).

Decimos entonces que c es el unico punto crıtico de ındice m generado por los m + 1puntos del subconjunto Y . En la imagen se muestran puntos crıticos de ındice pequeno.2

Lema 1.7.6. Un subconjunto Y ⊂ P de m+1 puntos geometricamente independiente, generaun punto crıtico de ındice m si y solo si, se satisfacen las siguientes:

(a) c pertenece al interior de la envolvente convexa de Y .

(b) P ∩B(Y ) = ∅.

Figura 1.10: 3 puntos mınimos pi, 3 puntos silla ci y 1 punto maximo c4.

2Imagen tomada de [18]

Page 55: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

1.7. Teorıa de Morse 53

Con esta caracterizacion de puntos crıticos para la funcion distancia

dP : Rn −→ R,

el teorema principal de Teorıa de Morse en relacion a cambios en la homologıa del complejosimplicial C(P, ε) = d−1

P ([0, ε]) tambien se satisface. Es decir, al pasar un punto crıtico, obien se crea un nuevo agujero m–dimensional o un agujero (m− 1)–dimensional es llenado.

Page 56: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

54 Capıtulo 1. Topologıa y Geometrıa

1.8. Ejercicios

Ejercicio 1.8.1. Prueba que el conjunto

B = Bε(x) : x ∈ Rn, ε > 0;

dondeBε(x) = y ∈ Rn : ||x− y|| < ε,

define una base para la topologıa estandar de Rn.

Ejercicio 1.8.2. Encuentra ejemplos para cada caso; explica:

(a) Un espacio topologico X conexo que no sea arco–conexo.

(b) Una funcion f : X −→ Y continua y biyectiva que no es un homeomorfismo.

(c) Un espacio topologico X contraıble.

Ejercicio 1.8.3. Sean X un espacio topologico y A ⊂ X. Supongamos que para cada x ∈ A,existe un conjunto abierto U tal que

x ∈ U ⊂ A.

Demuestra que A es abierto en X.

Ejercicio 1.8.4. Sea X un espacio topologico. Prueba que:

1. ∅ y X son cerrados.

2. La interseccion arbitraria de conjuntos cerrados es cerrado.

3. La union finita de conjuntos cerrados es cerrado.

Ejercicio 1.8.5. Sea f : X −→ Y una funcion continua y biyectiva.

(i) Prueba que si X es compacto, entonces Y tambien es compacto.

Page 57: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

1.8. Ejercicios 55

(ii) Prueba que si X es conexo, entonces Y tambien es conexo.

Ejercicio 1.8.6 (?). Demuestra que la funcion

F : (−1, 1) −→ R 7−→ x

1− x2

es un homeomorfismo.

Ejercicio 1.8.7. Demuestra que cualquier subespacio (a, b) de R es homeomorfo a (0, 1).

Ejercicio 1.8.8. Sea X un segmento, o bien un subespacio de R homeomorfo a [0, 1], y Y unpunto de X. Prueba que X y Y son homotopicamente equivalentes pero no son homeomorfos.

Page 58: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Page 59: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Capıtulo 2

Persistencia

Sea f : R −→ R una funcion suave. Supongamos que x es un punto crıtico y f(x) esun valor crıtico si f ′(x) = 0. Decimos ademas que un punto crıtico es no–degenerado sif ′′(x) 6= 0. Supongamos que f tiene solamente puntos crıticos no–degenerados con valorescrıticos distintos. Luego, cualquier punto es o bien un mınimo local o un maximo local.

Para cada α ∈ R consideramos los subconjuntos de nivel

Rα = f−1((−∞, α]).

Mientras α crece hacia ∞, la conectividad de Rα permanece la misma excepto cuando pasa-mos un valor crıtico. En puntos mınimos locales surgen nuevas componentes y en los maximoslocales dos componentes se unen en una sola.

Hacemos un emparejamiento de los puntos crıticos de f como sigue: Cuando se introduceuna nueva componente conexa, se dice que el mınimo local que la crea representa dicha com-ponente. Ahora, cuando pasamos un maximo local y se unen dos componentes, emparejamosel maximo, con el mınimo local mas “joven” que representa esta componente. A partir deese momento, el otro mınimo local se vuelve el representante de la componente que resultede la union.

Observar que los puntos crıticos que estan emparejados pueden no ser adyacentes. Defi-nimos la persistencia del par (x, y) como f(y)−f(x). La persistencia se mide en el diagramade persistencia al llevar cualquier punto (x, y) al punto con coordenadas los valores crıticosrespectivos,

dgm(f) = (f(x), f(y)) ⊂ R2.

57

Page 60: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

58 Capıtulo 2. Persistencia

Figura 2.1: Emparejamiento de maximos y mınimos de una funcion.

En el diagrama de persistencia todos los puntos viven por encima de la diagonal y = xy ademas la persistencia es la distancia vertical a esta lınea diagonal. Usualmente siempreadjuntaremos esta lınea al diagrama de persistencia.1

Si reemplazamos la funcion f por una aproximacion (polinomial por ejemplo) “cercana”g, de tal forma que el numero de pares de g es mas grande que el de f . Sin embargo, lamayorıa de estos corresponderan a intervalos pequenos, o puntos cercanos a la diagonal. Lospares con intervalos mas grandes estan proximos a los de f .2

Figura 2.2: Aproximacion de una funcion y su diagrama de persistencia.

Es decir que las propiedades topologicas que tienen mayor persistencia se preservan bajoperturbaciones. Mientras que aquellas que representan menor persistencia son claramentecreadas por la perturbacion. Este sera un fenomeno general: Dos funciones cercanas tendran

1Imagen tomada de [20]2Imagen tomada de [20]

Page 61: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

2.1. Homologıa persistente 59

diagramas cercanos. Las propiedades de estabilidad de los diagramas de persistencia son deimportancia fundamental para usar la persistencia topologica en el analisis topologico dedatos.

El resto de este capıtulo se dedica al estudio general de la persistencia. En particularusaremos la homologıa persistente para ir mas alla de componentes conexas y aprovecharemoslas ideas previamente vistas para hacer persistencia de subconjuntos de nivel.

2.1. Homologıa persistente

La idea basica de la homologıa persistente es reunir en una unica estructura toda lainformacion topologica relevante de un espacio filtrado por subespacios. En primer lugardescribiremos el caso para un complejo simplicial finito K y la homologıa simplicial concoeficientes en Z/2Z.

Consideremos una filtracion de K:

F = ∅ = K0 ⊂ K1 ⊂ . . . ⊂ Kα = K.

Para cada i ≤ j tenemos que Ki es un subcomplejo de Kj. Luego podemos definir lasinclusiones o aplicaciones inyectivas

ϕi,j : Ki −→ Kj.

Las cuales a su vez pueden ser extendidas a los m–ciclos:

ϕi,jm : Zm(Ki) −→ Zm(Kj).

Esto define las aplicaciones lineales inducidas en homologıa

(ϕi,jm )∗ : Hm(Ki) −→ Hm(Kj),

que son en general no–inyectivas.

Especıficamente, sea c ∈ Hm(Ki) y γ ∈ Zm(Ki) un cıclo representativo de la clase c.Entonces, (ϕi,jm )∗(c) es la clase en Hm(Kj) que contiene a ϕi,jm (γ). Notar que la definicion nodepende de la eleccion del representante.

Por ejemplo, si γ “engloba” un vacıo en Ki, pero ese vacıo es llenado en Kj, tenemos quec es llevado a cero en Hm(Kj) vıa (ϕi,jm )∗.

Page 62: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

60 Capıtulo 2. Persistencia

Definicion 2.1.1. La imagen de (ϕi,jm )∗ en Hm(Kj),

H i,jm = (ϕi,jm )∗(Hm(Ki)),

se llama el m–esimo grupo de homologıa persistente.Decimos que la dimension de este subespacio

βi,jm = dimH i,jm ,

es el m–esimo numero persistente de Betti.

En general no indicaremos los ındices de persistencia, dependiendo del analisis diremostambien el (i, j)–esimo grupo de homologıa persistente. Este grupo contiene todas las clasesm–dimensionales a nivel j, que ya tenıan representantes presentes (vivos) en Ki.

El correspondiente numero persistente de Betti cuenta los vacıos m–dimensionales queexisten todo el camino desde Ki hasta Kj. Estamos interesados en clases particulares, comopor ejemplo la clase con el menor ındice i y mayor ındice j, tal que la clase es no–trivial entodo el intervalo completo de Ki a Kj.

Definicion 2.1.2. Decimos que una clase c ∈ Hm(Ki) nace en Ki si c no esta en H i−1,im .

Ademas, decimos que una clase c que nace en Ki muere entrando a Kj si (ϕi,j−1m )∗(c)

no esta en H i−1,j−1m , pero (ϕi,jm )∗(c) esta en H i−1,j

m .El ındice de persistencia es j − i.

Observar que una clase que nace puede no morir, o bien decimos que “muere en infinito”.Como hemos visto, en la mayorıa de las aplicaciones existe una funcion que gobierna la

evolucion (construccion) de la filtracion. En este caso llamamos persistencia a la diferenciaentre los valores de la funcion al nacimiento y muerte de una clase. Por ejemplo, para laconstruccion de la filtracion de Cech, usamos la funcion distancia dP a una muestra finitade puntos P de un espacio euclidiano.

2.2. Persistencia topologica de una filtracion

Consideremos el caso particular de un complejo de dimension finita. Nos interesa calcularla evolucion de la homologıa de los subcomplejos de la filtracion.

Sea K un complejo de dimension d y

F = ∅ = K0 ⊂ K1 ⊂ . . . ⊂ Kα = K,

Page 63: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

2.2. Persistencia topologica de una filtracion 61

una filtracion plana. Es decir,

Ki+1 = Ki ∪ σi+1, i = 0, . . . ,m− 1,

con σi+1 un simplejo.Para cada 0 ≤ n ≤ α, denotamos por

Cnm = Cm(Kn)

al conjunto de las m–cadenas de Kn. Observar que la restriccion del operador frontera

∂ : Cnm −→ Cn−1

m−1,

tiene imagen contenida en Cn−1m−1. Denotamos tambien por

Znm = Zm(Kn) y Bn

m = Bm(Kn)

a los m–ciclos y m–fronteras de Kn, respectivamente. Luego, tenemos el m–esimo grupo dehomologıa de Kn:

Hnm = Hm(Kn) =

Znm

Bnm

.

Usando esta notacion tenemos las inclusiones siguientes

Z0m ⊂ Z1

m ⊂ . . . ⊂ Znm ⊂ . . . ⊂ Zα

m = Zm(K),

B0m ⊂ B1

m ⊂ . . . ⊂ Bnm ⊂ . . . ⊂ Bα

m = Bm(K).

Definicion 2.2.1. Para p ∈ 0, . . . , α y l ∈ 0, . . . , α− p, el m–esimo numero persis-tente de Betti de K l es igual a la dimension del espacio vectorial

H l,pm =

Z lm

Bl+pm ∩ Z l

m

.

El m–esimo numero persistente de Betti de K l representa el numero de clases de homo-logıa independientes de m–ciclos en K l, que no son fronteras en K l+p. Es decir, un m–cıcloen K l que genera un elemento no–cero en H l,p

m es un cıclo que ha aparecido en la filtraciondesde el paso l + 1 y que aun no es una frontera al paso l + p.

La idea de la persistencia es emparejar los nacimientos y muertes de ciclos, dependiendode si se agrega un simplejo positivo o uno negativo en la filtracion.

Page 64: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

62 Capıtulo 2. Persistencia

2.3. Diagramas de persistencia

Como antes consideremos la filtracion F del complejo finito K. Para m ∈ N usaremos lanotacion

ci,jm ∈ Hm(Ki),

para referirnos al m–cıclo que nace en Ki y que muere en Kj. Sea

Cm(F) = ci,jm

el conjunto de m–ciclos. En caso de que un ciclo nazca en i pero no muera, escribiremos ci,∞m .

Definicion 2.3.1. Definimos el m–esimo diagrama de persistencia de F como el sub-conjunto de R2:

dgm(F) = (i, j) : ci,jm ∈ Cm(F) ∪ diag,

donde diag = (α, α) : α ∈ R es la diagonal de R2.

La introduccion de la diagonal en el diagrama de persistencia se debe a que estamospensando que la distancia a la diagonal nos da la persistencia de la clase. Ademas, estanincluidos puntos de la forma (i,∞), o bien con j representando ∞.

Dos diagramas de persistencia pueden ser comparados usando una distancia de empare-jamiento.

Definicion 2.3.2. Sean dgm1 y dgm2 dos diagramas de persistencia. La distancia delcuello de botella entre dgm1 y dgm2 se define como

dB(dgm1, dgm2) = ınfγ

supp∈dgm1

||p− γ(p)||∞;

donde γ corre sobre el conjunto de biyecciones entre los conjuntos dgm1 y dgm2.

Recordamos que la distancia infinito de p = (xp, yp) y q = (xq, yq) se define como

||p− q||∞ = max(|xp − xq|, |yp − yq|).

Con esta definicion de distancia queda ratificado el uso de la diagonal en la definiciondel diagrama de persistencia. Esto es, los puntos que estan cerca de la diagonal pueden seremparejados con puntos en la diagonal y considerados en el analisis como ruidos.

Page 65: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

2.4. Persistencia de conjuntos de nivel 63

Figura 2.3: La figura muestra dos diagramas de persistencia, (a) dgm1 y (b) dgm2. En (c) y(d) se denotan dos posibles biyecciones γ1 y γ2 entre los puntos de dgm1 y dgm2. En la figura,se cumple supz∈dgm1

‖z − γ2(z)‖∞ < supz∈dgm1‖z − γ1(z)‖∞ , para ilustrar que la biyeccion

optima que opera en la definicion de dB conlleva una busqueda sobre todas las posibles γ.

2.4. Persistencia de conjuntos de nivel

Consideremos ahora la persistencia usando las ideas de la teorıa de Morse. Sea M unavariedad n–dimensional y f : M −→ R una funcion, la cual puede no ser suave. Para cadaa ∈ R consideramos los subconjuntos de nivel

Ma = f−1((−∞, a]) = p ∈M : f(p) ≤ a,

y la filtracion asociada a las inclusiones

ϕa,b : Ma −→Mb, a ≤ b.

Page 66: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

64 Capıtulo 2. Persistencia

Esto es, ϕa,b induce una aplicacion en homologıa

(ϕa,bm )∗ : Hm(Ma) −→ Hm(Mb), m ≥ 0.

La imagen de (ϕa,bm )∗ es el m–esimo grupo de homologıa persistente de a a b, denotadopor Ha,b

m . Seaβa,bm = dimHa,b

m ,

el m–esimo numero persistente de Betti. El cual cuenta las clases de homologıa independien-tes que nacen en tiempo a y mueren despues del tiempo b.

Definicion 2.4.1. Decimos que v ∈ R es un valor crıtico homologico de f , si para ε > 0suficientemente pequeno la aplicacion

(ϕv−ε,v+εm )∗ : Hm(Mv−ε) −→ Hm(Mv+ε)

no es un isomorfismo.Ademas, f se dice mansa si tiene un numero finito de valores crıticos homologicos, y

para cada a ∈ R, Hm(Ma) es de dimension finita.

En particular, cualquier funcion de Morse sobre una variedad compacta es mansa.

Supongamos que f : M −→ R es una funcion mansa y escojamos ε > 0 mas pequeno quela distancia entre dos valores crıticos homologicos. Para cada par de valores crıticos a < b,definimos su multiplicidad µa,b como el numero de clases de homologıa independientes quenacen en a y mueren en b. Explıcitamente:

µa,b = βa+ε,b−ε − βa−ε,b−ε − βa+ε,b+ε + βa−ε,b+ε.

Luego, la homologıa persistente puede codificarse en el diagrama de persistencia de f .

Esto es, consideremos dgm(f) como el conjunto de los pares (a, b), junto con sus multipli-cidades µa,b. Como anteriormente, queremos agregar al diagrama el conjunto de pares quenacen y mueren al mismo tiempo.

Definicion 2.4.2. Se define el diagrama de persistencia de f como la union

dgm(f) = dgm(f) ∪ diag,

donde los elementos de la diagonal tienen multiplicidad “igual” a infinito.

Mas aun, el conjunto de diagramas de persistencia puede pensarse como un espaciometrico con la siguiente distancia.

Page 67: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

2.5. Panoramas de persistencia 65

Definicion 2.4.3. La distancia cuello de botella entre los diagramas de persistenciadgm(f) y dgm(g) se define como

dB(dgm(f), dgm(g)) = ınfγ

supp∈dgm(f)

||p− γ(p)||∞;

donde el ınfimo se toma sobre todas las posibles biyecciones

γ : dgm(f) −→ dgm(g)

y estamos considerando la norma del supremo para funciones.

Dicha distancia fue introducida por Cohen–Steiner, Edelsbrunner y Harer ([40]), ademasde obtener el siguiente resultado

dB(dgm(f), dgm(g)) ≤ ||f − g||∞,

donde f, g : M −→ R son funciones mansas. El cual enunciaremos con detalle mas adelante.

2.5. Panoramas de persistencia

En adelante pensaremos la persistencia de manera mas general, ejemplos de esto pue-den encontrarse en el trabajo de P. Bubenik, F. Chazal, H. Edelsbrunner, entre otros. Enparticular, tomamos el material de esta seccion del trabajo de P. Bubenik [22].

El objeto algebraico mas general que estudia el analisis topologico de datos es el modulode persistencia.

Definicion 2.5.1. Un modulo de persistencia V = Va, va,b es un conjunto de espacios

vectoriales y aplicaciones indexados por R; esto es, Va es un espacio vectorial para cadaa ∈ R y existen aplicaciones lineales

va,b : Va −→ Vb, a ≤ b,

tales que va,a es la aplicacion identidad y para cada a ≤ b ≤ c:

va,c ≡ vb,c va,b.

Ademas, diremos que el modulo de persistencia V es q–manso si el rango de va,b esfinito siempre que a < b.

Page 68: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

66 Capıtulo 2. Persistencia

Por ejemplo, la construccion del complejo de Cech o el complejo de Rips, junto con lasrespectivas aplicaciones en homologıa simplicial definen un modulo de persistencia. Observarque en este tipo de filtraciones se calcula la homologıa singular del espacio formado poruniones de bolas, mediante el calculo en homologıa simplicial del complejo respectivo. Eneste caso, existen algoritmos eficientes para calcular la homologıa persistente (Edelsbrunner,Milosavljevic, Chen y Kerber).

Otro tipo de construcciones de complejos son las del complejo “witness” (de Silva yCarlsson) o complejos construidos usando estimadores de densidad de kernel (Bubenik).

Dada una funcion f : X −→ R, la filtracion por subconjuntos de nivel define un modulode persistencia para cada m ∈ N ; o bien

Va = Hm(f−1((−∞, a])),

y va,b ≡ (ϕa,bm )∗ son las aplicaciones lineales respectivas. En particular, las funciones distanciaa una nube de puntos y distancia a un subconjunto compacto nos dan ejemplos de modulosde persistencia.

Sea V un modulo de persistencia y para cada a ≤ b consideramos el correspondientenumero de Betti de V:

βa,b = βa,b(V) = dim im(va,b).

Observar que para a ≤ b ≤ c ≤ d:βb,c ≥ βa,d,

ya que va,d = vc,d vb,c va,b.

Consideremos la funcion rango λ : R2 −→ R dada por

λ(b, d) =

βb,d, b ≤ d;0, en otro caso.

Hacemos el cambio de coordenadas

k =b+ d

2, h =

d− b2

,

para que la funcion resultante quede en el semi–plano superior. Es decir, tenemos la funcionrango reescalada λ : R2 −→ R:

λ(k, h) =

βk−h,k+h, h ≥ 0;0, en otro lado.

Queremos analizar el comportamiento de este tipo de funciones. En particular, tenemosla siguiente funcion importante.

Page 69: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

2.5. Panoramas de persistencia 67

Definicion 2.5.2. El panorama de persistencia es una funcion

λ : N× R→ [−∞,∞],

donde [−∞,∞] son los numeros reales extendidos. De manera alternativa, tenemos la suce-sion de funciones λn : R −→ [−∞,∞]:

λn(t) = λ(n, t) = sup(h ≥ 0 : βt−h,t+h ≥ n).

En la siguiente imagen se ilustra la construccion de un panorama de persistencia.3

Figura 2.4: Funcion rango arriba a la izquierda, funcion rango reescalada y correspondientecodigo de barras arriba a la derecha, panorama de persistencia y su version extendida abajo.

Ademas, para facilitar la grafica de la funcion extendemos un panorama de pesistencia λa λ : R2 −→ [−∞,∞] como sigue,

λ(x, t) =

λ(dxe, t) x > 0;0, x < 0.

En el trabajo de Bubenik [22] se definen los panoramas de persistencia y se observan lassiguientes propiedades:

λn(t) ≥ 0, λn(t) ≥ λn+1(t) y λn es 1–Lipschitz.

3Imagen tomada de [22]

Page 70: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

68 Capıtulo 2. Persistencia

Observacion 2.5.3. Los numeros de Betti dim(Vt) de un modulo de persistencia V puedenser leıdos en la diagonal de la funcion rango, en el eje k de la funcion rango reescalada y enel soporte del panorama de persistencia.

Es importante notar que la geometrıa del espacio de diagramas de persistencia se vuelvecomplicada de trabajar, por ejemplo este conjunto no necesariamente tiene una unica mediade Frechet. En contraste, el espacio de los panoramas de persistencia es bueno para trabajar,en particular tiene una unica media.

2.6. Codigos de barras

Informalmente, el diagrama de persistencia consiste en las “esquinas superiores izquier-da” de la funcion rango, viceversa λ(b, d) cuenta el numero de puntos en el diagrama depersistencia en el cuadrante superior izquierdo. Esto es, dado un diagrama de persistencia(bi, di) definimos

λn(t) = n–esimo valor mas grande de mın(t− bi, di − t)+,

donde c+ = max(c, 0).De manera similar, el codigo de barras consiste de las bases de los triangulos formados

en la funcion rango reescalada. Para el caso de los codigos de barras tenemos que son uninvariante de los modulos de persistencia (ver [28]). Enunciamos el teorema fundamental dela persistencia, que nos permite obtener el codigo de barras.

Teorema 2.6.1 (Fundamental de homologıa persistente). Dado un modulo de persistenciaq–manso V, existe una eleccion de bases para los espacios vectoriales Va, tal que cualquieraplicacion esta determinada por un emparejamiento bipartito de vectores basicos.

Es decir, si consideramos el modulo de persistencia asociado a una filtracion F :

Va = Hm(Ka), va,b = (ϕa,bm )∗.

Entonces los parametros que surgen de la base de Hm(F) a partir del teorema anterior,podemos pensarlos en una captura visual en la forma de un codigo de barras. O bien, unarepresentacion grafica de Hm(F) como una coleccion de segmentos de lınea horizontales enun plano, con eje horizontal correspondiendo a los parametros y eje vertical representandoun orden (arbitrario) de los generadores de homologıa.

Explıcitamente tenemos lo siguiente (ver [24]).

Page 71: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

2.6. Codigos de barras 69

Lema 2.6.2. Dado cualquier m–cıclo γ ∈ Zm(F), el conjunto de numeros a ∈ [−∞,∞]tales que la clase [γ] no esta en Hm(Ka) es o bien vacıo, o un intervalo.

Definicion 2.6.3. Sean γ ∈ Zm(F) e Iγ el m–esimo intervalo de homologıa persis-tente representado por γ que surge del lema anterior.

El m–esimo codigo de barras de Betti es el conjunto de intervalos

Jγ : γ ∈ S ⊂ Zm(F);

donde Jγ es un subintervalo de Iγ y para cada a ∈ [−∞,∞], [γ] : γ ∈ S, a ∈ Jγ formauna base para el espacio vectorial Hm(Ka).

Figura 2.5: Filtracion con codigo de barras e intervalos por clases de homologıa.

Tenemos la siguiente caracterizacion.

Teorema 2.6.4. El rango del m–esimo grupo de homologıa persistente Ha,bm es igual al

numero de intervalos en el codigo de barras de Hm(F) que generan el intervalo [a, b]. Enparticular, Hm(Ka) es igual al numero de intervalos que contienen a.

Page 72: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

70 Capıtulo 2. Persistencia

El conjunto de codigos de barras viene dotado con una metrica (ver [28]). Dado unintervalo J , denotamos por λ(J) su longitud. Si J y J ′ son dos intervalos, denotamos por∆(J, J ′) su diferencia simetrica o medida de dimension uno

∆(J, J ′) = λ(J ∪ J ′)− λ(J ∩ J ′).

Definicion 2.6.5. Dados dos codigos de barras Jαα∈S1 y J ′α′α′∈S2, un emparejamientoparcial entre S1 y S2 es un subconjunto m ⊂ S1 × S2, donde cada α y α′ aparece a lo masuna vez. Definimos la distancia entre codigos de barras

D(JαS1 , J ′α′S2) = mınm∈match

∑(α,α′)∈m

∆(Jα, Jα′) +∑

α∈S1\m1

λ(Jα) +∑

α′∈S2\m2

λ(J ′α′)

;

donde mi es la proyeccion de m en Si.

Dicha definicion de distancia define una “cuasi–metrica”, dado que su valor puede serinfinito, sin embargo puede ser convertida en una metrica.

Una de los aspectos importantes de los codigos de barras es la habilidad de distinguircualitativamente ruido topologico y capturar las propiedades significativas. Como hemosvisto, para el caso de filtraciones tipo Morse los codigos de barras son estables en la presenciade ruido.

2.7. Estabilidad

En general, los modulos de persistencia que son q–mansos son los objetos ideales detrabajo. En esta seccion culminamos enunciando los resultados de estabilidad en relacion ala persistencia.

Recordamos que un modulo de persistencia V es q–manso si el rango de va,b es finitosiempre que a < b.

Teorema 2.7.1. Si un modulo de persistencia es q–manso, entonces tiene un diagramade persistencia dgm(V) ⊂ [−∞,∞]2 bien definido. En particular, si V es el modulo depersistencia formado por la filtracion de un complejo simplicial finito, este diagrama coincidecon el definido anteriormente.

Page 73: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

2.7. Estabilidad 71

Dados dos modulos de persistencia V y U, con aplicaciones respectivas va,b, ua,b y ε ≥ 0.Un homomorfismo de grado ε es una coleccion de aplicaciones lineales

Ψ = ψa : Ua −→ Va+ε

tales queva+ε,b+ε ψa ≡ ψb ua,b, a ≤ b.

Escribimos Homε(U,V) para el conjunto de homomorfismos de grado ε de U a V y Endε(V)para los homomorfismos de grado ε de V en sı mismo.

Para ε ≥ 0, consideramos la aplicacion de desplazamiento

1εV ∈ Endε(V),

la cual es la coleccion de aplicaciones va,a+ε. En particular, si Ψ es un homomorfismo decualquier grado de U en V, entonces por definicion

Ψ 1εV ≡ 1εV Ψ.

Definicion 2.7.2. Dos modulos de persistencia U y V se dicen ε–intercalados si existenaplicaciones

Φ ∈ Homε(U,V), Ψ ∈ Homε(V,U),

tales queΨ Φ ≡ 12ε

U y Φ Ψ ≡ 12εV .

Con esta nocion tenemos el teorema fundamental de estabilidad de diagramas de persis-tencia.

Teorema 2.7.3 (Estabilidad de persistencia). Sean U y V dos modulos de persistencia q–mansos, que ademas son ε–intercalados para algun ε ≥ 0. Entonces

dB(dgm(U), dgm(V)) ≤ ε.

Este teorema nos permite obtener la estabilidad de los diferentes tipos de filtracionesconsideradas hasta ahora.

Dada una funcion f : X → R definida en un espacio topologico, consideramos la filtracionpor subconjuntos de nivel

Xα = f−1((−∞, α])Ry el modulo de persistencia Fm formado por los grupos de homologıa singular Hm(Xα) y lasaplicaciones inducidas por inclusion.

Sean dos funciones f, g : X −→ R tales que ||f − g||∞ < ε, entonces sus modulos depersistencia Fm y Gm son ε–intercalados. Para garantizar que ademas estos modulos depersistencia son q–mansos tenemos el siguiente resultado.

Page 74: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

72 Capıtulo 2. Persistencia

Proposicion 2.7.4. Si X es homeomorfo a un complejo simplicial finito y f : X −→ R escontinua, entonces Fm es q–manso para cualquier m ∈ N. En particular, dgm(Fm) esta biendefinido.

Luego, si Fm es q–manso para cualquier m ∈ N, obtenemos la definicion previamentedescrita de que f : X −→ R es mansa. Ası que usualmente dgm(f) denota el diagramade persistencia de Fm para cualquier m. Usando el teorema de estabilidad concluimos elsiguiente resultado.

Teorema 2.7.5. Sea X un espacio topologico homeomorfo a un complejo simplicial finito yf, g : X −→ R funciones continuas. Entonces

dB(dgm(Fm), dgm(Gm)) ≤ ||f − g||∞.

Para el caso de la funcion distancia tenemos lo siguiente. Si X ⊂ Rn es un espaciotopologico compacto y

dX(y) = ınfx∈X||x− y||

la funcion distancia a X. En particular, si X = P donde P ⊂ Rn es un subconjunto finitode puntos, tenemos la funcion distancia dP : Rn −→ R descrita anteriormente.

Proposicion 2.7.6. Sea X ⊂ Rn un subconjunto compacto. Entonces, la funcion distanciadX : Rn −→ R es mansa.

Por lo tanto, las funciones distancias a un subconjunto compacto tienen diagramas depersistencia bien definidos. Si C(P ) representa la filtracion de Cech de una nube de datostenemos lo siguiente.

Corolario 2.7.7. Sean X, Y ⊂ Rn dos subconjuntos compactos. Entonces

dB(dgm(dX), dgm(dY )) ≤ dH(X, Y ).

En particular, si P,Q ⊂ Rn son nubes finitas de puntos, entonces para cualquier m ∈ N

dB[dgm(Hm(C(P ))), dgm(Hm(C(Q)))] ≤ dH(P,Q).

Como consecuencia, los modulos de persistencia inducidos por subconjuntos de nivel dedP y la filtracion de Cech son 0–intercalados.

Page 75: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

2.8. Ejercicios 73

2.8. Ejercicios

Ejercicio 2.8.1. Considera las dos condiciones en la definicion de un complejo simplicial.

1. Da una pequena coleccion de simplejos que no satisface la primera condicion pero sı lasegunda.

2. Da una pequena coleccion de simplejos que no satisface la segunda condicion pero sı laprimera.

Ejercicio 2.8.2. Sea K un complejo simplicial finito.

1. Demuestra que K es arco–conexo si y solo si, su 1–esqueleto Sk1(K) es conexo.

2. Deduce que β0(K) es igual al numero de componentes conexas de K.

Ejercicio 2.8.3. Considera m–cadenas con coeficientes en Z/2Z y su interpretacion geometri-ca; esto es, una m–cadena c se escribe unicamente como c = σi1 + . . . + σik , donde los σijson m–simplejos, y por lo tanto c se ve como la union de los simplejos σij . Prueba que lasuma de dos m–cadenas es igual a su diferencia simetrica.

Ejercicio 2.8.4. Sea K un complejo simplicial de dimension 1 con vertices a, b, c, d, e ylados ab, ac, ad, be, ce, de.

1. Determina los rangos de C1(K), Z1(K) y B0(K) .

2. Deduce cuantas 1–cadenas tienen la misma frontera; en otras palabras, cuantos ele-mentos de C1(K) son llevados al mismo elemento de B0(K).

Ejercicio 2.8.5. Sea F una filtracion de un complejo simplicial finito K. Demuestra quetodos los vertices de K son positivos y que un segmento o lado σi es positivo si y solo si, losdos vertices finales de σi estan en la misma componente conexa de Ki−1.

Page 76: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Page 77: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Capıtulo 3

Probabilidad

El objetivo de este capıtulo es dar una breve introduccion a los conceptos y resultadosde la teorıa de probabilidad y la teorıa de medida e integracion de Lebesgue que son nece-sarios para estudiar variables aleatorias en variedades, la inferencia estadıstica y el analisistopologico de datos (ATD). Los conceptos y resultados se presentan en el orden que seconsidera conveniente - de acuerdo al expositor- para irse familiarizando con los elementosde analisis estadıstico de altas dimensiones, variables aleatorias en variedades y sus distribu-ciones de probabilidad. En particular, estamos interesados en entender un modelo usual enATD en donde las observaciones son del tipo M+σZ, con M una variable aleatoria con ciertadistribucion de probabilidad (usualmente uniforme) en una variedad en Rd, Z, el ruido, unvector gaussiano estandar y σ2 la varianza del ruido; ası como distribuciones de probabilidadalternativas para M y Z. Se hace especial enfasis en el caso de la esfera y el toro, y en elmarco teorico para simular elementos aleatorios en estas y otras variedades, lo cual es eltema del Capıtulo 4.

Para exposiciones introductorias de teorıa de la medida e integracion, puede consultar-se los libros clasicos de Bartle [9] y Halmos [65]. Para un enfoque unificado de medida yprobabilidad existen numerosos libros, entre ellos Billingsley [14] y Athreya y Lahiri [6]. Uncompendio rapido de medida y probabilidad se expone en las notas de Domınguez–Molina yPerez Abreu [44]. El libro de Klenke [85] contiene material avanzado de teorıa de probabili-dad en espacios topologicos y el libro de Federer [53] esta dedicado a la medida geometrica.Las demostraciones de los resultados clasicos de esta teorıa no se presentan, nos remitimosa cualquiera de estas referencias, o la favorita del lector.

Exposiciones en la literatura sobre variables aleatorias y probabilidad en variedades seiran mencionando cuando se aborden estos temas. En la tesis de maestrıa reciente de LiliaRivera [114] se presenta una motivacion para el analisis estadıstico sobre variedades, ası comosu relevancia y complejidad, mas alla del analisis topologico de datos.

75

Page 78: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

76 Capıtulo 3. Probabilidad

3.1. Elementos de probabilidad

En primer lugar, tenemos la nocion de probabilidad, de acuerdo a la axiomatizacion dadapor Andreı Kolmogorov en 1933.

Definicion 3.1.1. Un espacio de probabilidad es una terna (Ω,A,P) donde:

1. Ω es un conjunto no–vacıo.

2. A es una σ–algebra de subconjuntos de Ω; o bien,

Ω ∈ A, A ∈ A ⇒ AC ∈ A y∞⋃n=1

An ∈ A,

para toda sucesion de eventos Ai ⊂ A.

3. P es una medida de probabilidad; i.e.

P : A −→ [0, 1], P(Ω) = 1,

y dada una sucesion de eventos An tales que son disjuntos por pares An ∩ Am = ∅,n 6= m, entonces

P

(∞⋃n=1

An

)=∞∑n=1

P(An).

Pensamos a Ω como el espacio de muestra de un experimento y un conjunto A ∈ A sedice evento.

Dados dos eventos A,B ∈ A y P(B) > 0, definimos la probabilidad condicional de A dadoB como

P(A|B) =P(A ∩B)

P(B).

Notar que dado B ∈ A con P(B) > 0, la aplicacion

P( · |B) : A −→ [0, 1],

es una medida de probabilidad. Pero en general P(A| · ) no es medida de probabilidad yP(A|B) 6= P(B|A).

Ademas consideramos la regla del producto

P(A ∩B) = P(A|B)P(B).

Page 79: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

3.1. Elementos de probabilidad 77

Diremos ademas que los eventos A y B son independientes si

P(A ∩B) = P(A)P(B);

o bien, P(A|B) = P(A). Mas aun, una sucesion Ai finita de n–eventos son independientessi para cualesquiera 1 ≤ k ≤ n y i1 < . . . < ik ⊂ 1, ...n

P(Ai1 ∩ . . . ∩ Aik) = P(Ai1) · · ·P(Aik).

Asimismo, una coleccion arbitraria de eventos At son eventos independientes, si cualquiersubcoleccion finita esta formada por eventos independientes.

3.1.1. Variables aleatorias y sus distribuciones

En el contexto de topologıa consideramos lo siguiente. Dado un espacio topologico X,consideremos OX la coleccion de abiertos de X. Sea B(X) la menor σ–algebra generada porOX ; esto es, la interseccion de las σ–algebras que contienen a OX . Llamamos a B(X) laσ–algebra de Borel de X.

Definicion 3.1.2. Dado un espacio de probabilidad (Ω,A,P) y Y un espacio topologico. Unafuncion

Y : Ω −→ Y

se llama variable aleatoria (o funcion B(Y ) \ A–medible) si

∀A ∈ B(Y ) : Y−1(A) ∈ A.

La distribucion de Y es la probabilidad PY en (Y,B(Y )) dada por

PY(A) = P(Y−1(A)), A ∈ B(Y ).

Proposicion 3.1.3. Si Y = R tenemos que Y : Ω −→ R es una variable aleatoria si y solosi,

Y−1((−∞, x]) ∈ A, ∀x ∈ R.

Un hecho importante de mencionar es que la σ–algebra de Borel de R, B(R) es igual ala σ–algebra generada por varias clases de subconjuntos de R.

La funcion FY : R −→ [0, 1] definida por

FY(x) := P(Y ≤ x), x ∈ R,

se llama la funcion de distribucion de la variable aleatoria Y. En particular, F = FY

tiene las siguientes propiedades:

Page 80: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

78 Capıtulo 3. Probabilidad

1. F es no decreciente y 0 ≤ F (x) ≤ 1 para cada x ∈ R.

2.

F (−∞) = lımx→−∞

F (x) = 0 y F (∞) = lımx→∞

F (x) = 1.

3. F es continua por la derecha (y tiene lımites por la izquierda); i.e.

F (x) = F (x+) = lımy→x+

F (y), x ∈ R.

Cualquier funcion F : R −→ [0, 1] que cumple (1)− (3) se llama funcion de distribu-cion.

Teorema 3.1.4 (Kolmogorov). Dada una funcion de distribucion F , existe un espacio deprobabilidad (Ω,A,P) y una variable aleatoria Y : Ω −→ R en (R,B(R)) tal que Y tienefuncion de distribucion F .

Veremos mas adelante como demostrar este teorema el cual usaremos multiples veces.

Ejemplo 3.1.5. La funcion distribucion degenerada en a ∈ R,

F (x) =

0, x < a;1, x ≥ a.

Luego P(Y = a) = 1.

Ejemplo 3.1.6. La funcion de distribucion Bernoulli: sean a1, a2 ∈ R y 0 < p < 1, tal que

P(Y = a1) = p y P(Y = a2) = 1− p.

Si a1 < a2, se define

F (x) =

0, x < a1;p, a1 ≤ x < a2;1, x ≥ a2.

Ejemplo 3.1.7. La funcion de distribucion Normal N(µ, σ2), tal que µ ∈ R y σ2 > 0.Consideremos la funcion (de densidad)

φ(x;µ, σ2) =1

σ√

2πexp

(− 1

2σ2(x− µ)2

), x ∈ R.

Page 81: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

3.1. Elementos de probabilidad 79

Luego

F (x) :=

∫ x

−∞φ(t, µ, σ2)dt

es una funcion de distribucion. Una variable aleatoria con esta distribucion se llama variablealeatoria con distribucion normal N(µ, σ2); lo cual denotaremos por X ∼ N(µ, σ2). Decimosque una variable aleatoria Z tiene distribucion normal estandar si Z ∼ N(0, 1), en cuyo casola funcion de densidad es par (simetrica alrededor del cero)

φ(x) =1√2π

exp

(−1

2x2

), x ∈ R.

En particular, tenemos las siguientes implicaciones:

1. Si X ∼ N(µ, σ2), entonces Z = X−µσ∼ N(0, 1).

2. Si Z ∼ N(0, 1), entonces X = µ+ σZ ∼ N(µ, σ2).

3. Dadas n variables aleatorias independientes

Xi ∼ N(µi, σ2i ) ⇒

n∑i=1

Xi ∼ N

(n∑i=1

µi,n∑i=1

σ2i

).

En general, dada una funcion f : R −→ [0,∞) que integre uno, se definiran las distribu-ciones absolutamente continuas

F (x) =

∫ x

−∞f(t)dt.

En tal caso, F ′(x) = f(x) casi seguramente (como se explica mas adelante) y la variablealeatoria respectiva X satisface que

P(a ≤ X ≤ b) = F (b)− F (a).

Ejemplos de esto pueden encontrarse en las funciones de distribucion exponencial, gama,beta, t, Cauchy o χ2.

Las distribuciones absolutamente continuas son continuas.

Definicion 3.1.8. Una variable aleatoria Y es continua si su funcion de distribucion escontinua. En este caso P(Y = y) = 0 para cada −∞ < y <∞.

Una variable aleatoria es discreta si existe una sucesion de numeros nonegativos pnn≥0

con∞∑n=0

pn = 1, y un conjunto numerable ynn≥0 ⊂ R tal que

P(Y = yn) = pn, n ≥ 0.

Page 82: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

80 Capıtulo 3. Probabilidad

En el caso de distribuciones discretas es usual tomar ynn≥0 = N∪0. En este caso lafuncion de distribucion de Y es

F (x) =

0, x < 0;∑[x]

n=0 pk, x ≥ 0.

Ejemplos de distribuciones discretas son la Bernoulli, Binomial, Poisson, geometrica, bi-nomial negativa o hipergeometrica. Un ejemplo de especial interes es la distribucion uniformeen un conjunto finito de puntos.

Ejemplo 3.1.9 (Distribucion uniforme discreta). Sea Ω = w1, ..., wn un conjunto finitoarbitrario, A = 2Ω y la probabilidad P definida en los singletones wi como P(wi) = 1/n.Entonces para cualquier subconjunto A ⊂ Ω, P(A) = #(A)/n. Esta probabilidad se conocecomo probabilidad uniforme, ya que conjuntos con el mismo numero de elementos tienen lamisma probabilidad.

Definicion 3.1.10. Decimos que n variables aleatorias Y1, . . . ,Yn en Y son independientessi para cada k ≥ 1

P

(k⋂i=1

Y−1i (Ai)

)=

k∏i=1

P(Y−1i (Ai)),

con Ai ∈ B(Y ). Analogamente, si las variables aleatorias toman valores reales, decimos queson independientes si y solo si, para cada k ≥ 1:

P(Y1 ≤ x1, . . . ,Yk ≤ xk) = P(Y1 ≤ x1) · · ·P(Yk ≤ xk).

Teorema 3.1.11. Dada una sucesion de funciones de distribucion Fnn≥1 en R, existen unespacio de probabilidad (Ω,A,P) y variables aleatorias independientes Yj : Ω −→ R, j ≥ 1,tales que para cada n ≥ 1, Yn tiene funcion de distribucion Fn.

Sea X una variable aleatoria con funcion de distribucion F y g : R −→ R una funcionmedible; o bien, tal que para cada x ∈ R, g−1((−∞, x)) ∈ B(R). Si ademas∫

R|g(x)|F (dx) <∞,

definimos la esperanza de g(X) como

Eg(X) =

∫Rg(x)F (dx).

Page 83: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

3.1. Elementos de probabilidad 81

En particular, dada una distribucion F , X variable aleatoria con esta funcion de distri-bucion y p > 0, si ∫ ∞

−∞|x|pF (dx) <∞,

se define el p–esimo momento de X como

µp = E|X|p =

∫ ∞−∞|x|pF (dx) <∞.

Usualmente denotaremos por µ a la esperanza o primer momento µ1, ademas el p–esimomomento central se define como E(|X− µ|p).

Definimos la varianza de la variable X como

Var(X) = σ2 = E(X− µ)2 = EX2 − (EX)2,

siempre que σ2 <∞. Esto es,

Var(X) =

∫ ∞−∞

(x− µ)2F (dx).

Dadas n variables aleatorias Xi y n constantes ci, tenemos las siguientes propiedadesimportantes:

1.

E

(n∑i=1

ciXi

)=

n∑i=1

ciE(Xi).

2. Si ademas las variables aleatorias son independientes:

E

(n∏i=1

Xi

)=

n∏i=1

E(Xi),

3.Var(c1X + c2) = c2

1Var(X),

Sean X,Y variables aleatorias con medias µX, µY, y de varianza finita. Definimos lacovarianza entre X y Y como

Cov(X,Y) = E ((X− µX)(Y − µY)) = µXY − µXµY

Page 84: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

82 Capıtulo 3. Probabilidad

donde µXY = E(XY). Notar que si X y Y son independientes Cov(X,Y) = 0. Decimos queX y Y estan no correlacionadas si Cov(X,Y) = 0. El que dos variables aleatorias esten nocorrelacionadas no implica que sean independientes; es un ejercicio muy facil dar un ejemplo.

Mas aun,

Var(X + Y) = Var(X) + Var(Y) + 2Cov(X,Y)

y en general dadas n variables aleatorias Xi y n constantes ci, tenemos que

Var

(n∑i=1

ciXi

)=

n∑i=1

c2iVar(Xi) + 2

n∑j=1

∑i<j

cicjCov(Xi,Xj).

Por lo tanto, si las variables aleatorias Xi son independientes o no correlacionadas a pares

Var

(n∑i=1

ciXi

)=

n∑i=1

c2iVar(Xi).

Volveremos al tema de esperanza y momentos en la Seccion 3.5.1

3.1.2. Tipos de convergencia en probabilidad y resultados lımiteuniversales

Daremos ahora las nociones fundamentales de convergencia que se usan en probabilidad.Decimos que una sucesion de variables aleatorias Yii≥1 convergen a Y en probabilidadsi para cada ε > 0,

P(|Yn − Y| > ε) −→ 0, n −→∞.

En tal caso escribiremos

YnPr−→ Y.

Decimos ademas que convergen a Y con probabilidad 1 si existe un conjunto Ω′ ∈ A conP(Ω′) = 1 tal que para cada ω ∈ Ω′,

Yn(ω) −→ Y(ω), n −→∞.

Escribimos

Ync.p,1−→ Y.

En estos casos, el lımite es unico, modulo variables aleatorias que difieren en un conjuntode probabilidad cero.

Page 85: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

3.1. Elementos de probabilidad 83

Considerando las funciones de distribucion FYn asociadas a la sucesion de variables alea-torias como antes, decimos que Yn converge en distribucion o en ley si

lımn→∞

FYn(x) = FY(x),

para cada x que es punto de continuidad de FY. Escribimos

YnL−→ Y.

La distribucion lımite es unica.

Proposicion 3.1.12. 1. Sean Xn, n ≥ 1, X variables aleatorias, entonces

Xnc.p,1−→ X ⇒ Xn

Pr−→ X ⇒ XnL−→ X.

2. Si X es variable aleatoria degenerada, entonces XnPr−→ X ⇔ Xn

L−→ X.

3. Si Xnc.p,1−→ X (Xn

Pr−→ X) y g es una funcion continua, entonces g(Xn)c.p,1−→ g(X)

(g(Xn)Pr−→ g(X)).

Ademas tenemos el siguiente resultado, el cual es muy usado en probabilidad.

Teorema 3.1.13 (Slutsky). Sean Xn, Yn, Zn, n ≥ 1,X,Y,Z variables aleatorias y a, cconstantes. Si se satisfacen:

XnL−→ X, Yn

Pr−→ a, y ZnPr−→ c;

entoncesXnYn + Zn

L−→ aX + c.

Enunciamos ahora algunos de los resultados universales de la teorıa de probabilidad.

Teorema 3.1.14 (Ley Fuerte de los Grandes Numeros). Sean Yii≥1 variables aleatoriasindependientes con la misma distribucion, con primer momento EYi = µ. Sea Sn =

∑nj=1 Yj,

entonces

P(

lımn−→∞

Snn

= µ

)= 1.

Esto es, la convergencia es con probabilidad 1. Para el caso de convergencia en probabi-lidad tenemos lo siguiente.

Page 86: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

84 Capıtulo 3. Probabilidad

Teorema 3.1.15 (Ley Debil de los Grandes Numeros). Sean Yii≥1 variables aleatoriasindependientes con la misma distribucion, con primer momento EYi = µ y Var(Yi) = σ2 <∞. Entonces

a) Para cada ε > 0

P(∣∣∣∣Snn − µ

∣∣∣∣ > ε

)≤ σ2

nε2.

b) Snn

Pr−→ µ.

Teorema 3.1.16 (Teorema del Lımite Central). Sean Yii≥1 variables aleatorias indepen-dientes con la misma distribucion, con primer momento EYi = µ y Var(Yi) = σ2 < ∞.Entonces (

√nSnn− µσ

)L−→ Z;

donde Z es una variable aleatoria que tiene distribucion N(0, 1) con

Φ(z) = P(Z ≤ z) =1√2π

∫ z

−∞e−t

2/2dt.

En este ultimo resultado la convergencia es sobre la distribucion de variables aleatorias.

Ademas de la ley de grandes numeros y el teorema del lımite central, hay otros resultadoslımites universales, como la aproximacion de Poisson que se presenta en el Apendice D.

Por ultimo en esta lista de resultados tenemos el siguiente, el cual nos sera de muchautilidad.

Teorema 3.1.17 (Metodo Delta). Sean Yii≥1 variables aleatorias tales que existen µ ∈ Ry σ2 > 0 para las cuales

√n(Yn − µ)/σ

L−→ Z ∼ N(0, 1). Sea g : R −→ R una funcionmedible tal que g(1)(µ) 6= 0, entonces(√

ng (Yn)− g(µ)

g(1)(µ)σ

)L−→ Z,

con Z ∼ N(0, 1).

Page 87: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

3.1. Elementos de probabilidad 85

3.1.3. Aplicaciones al analisis de datos de altas dimensiones

Consideremos un vector aleatorio

Xd = (X1, . . . ,Xd),

con variables aleatorias independientes Xi con la misma distribucion y todos sus momentosfinitos. Dado p ≥ 1 por la LGN

1

d||Xd||pp =

1

d

d∑j=1

|Xj|pc.p,1−→ E|X1|p = µp. (3.1.1)

Es decir, con alta probabilidad, para d grande

||Xd||p ' (d)1/pµ1/pp ,

intuitivamente los numeros de Betti son cero salvo los casos β0 y βd−1 que son iguales a 1,para cualquier p ≥ 1.

Por el TLC con σ2p = Var(|X|p) tenemos que cuando d→∞√d

(||Xd||ppd− µp

)σp

L−→ Z ∼ N(0, 1).

Mas aun, por el Metodo Delta con g(x) = x1/p obtenemos:√d(||Xd||pd1/p

− µ1/pp

)µ1/p−1p

pσp

L−→ Z ∼ N(0, 1).

En consecuencia,

||Xd||p ' d1/pµ1/pp +

1

pµ1/p−1p σpd

1/p−1/2Z.

Esto es, la norma del vector tiene un ruido que se distribuye como N(0, k2pd

2/p−1). Ası pode-mos observar que para el caso p = 2 el ruido no depende de d y si sucede que p es muy grande,entonces este ruido tiene varianza pequena. En general, la dimension d es muy grande.

Observacion 3.1.18. La independencia de variables aleatorias no es algo particular delfenomeno anterior. Sean X1, . . . ,Xd eigenvectores de una matriz aleatoria Wd del Ensamble

Page 88: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

86 Capıtulo 3. Probabilidad

Gaussiano Ortogonal (GOE), ver Seccion 4.1.2. Estas variables aleatorias son “fuertementedependientes” y se tiene con una “convergencia rapida” lo siguiente

||Xd||p ' d1/p+1/2k′p + k′′

pd1/p−1/2Z.

La prueba no trivial de este hecho se basa en el Teorema de Wigner o Ley de Semicırculo-resultado pionero en la Teorıa de Matrices Aleatorias (ver [3])- y el estudio de fluctuacionesalrededor de la ley del semicırculo (ver por ejemplo [111]).

3.2. Construccion de medidas y variables aleatorias

3.2.1. Construccion de medidas y aplicaciones a probabilidad

El objetivo de esta seccion es dar los elementos necesarios de medida e integral de Lebes-gue para la construccion de medidas en espacios metricos.

Decimos que (X,A) es un espacio medible, si A es una σ–algebra de X. En general, dadauna coleccion C ⊂ X, una funcion

µ : C −→ [0,∞]

es σ–aditiva si siempre que Ai ∈ C, Ai ∩ Aj = ∅ y⋃Ai ∈ C entonces,

µ

(∞⋃i=1

Ai

)=∞∑i=1

µ(Ai).

Definicion 3.2.1. Una medida en A es una funcion σ–aditiva en A tal que µ(∅) = 0. Laterna (X,A, µ) se llama un espacio de medida.

Decimos que una medida µ es finita si

µ(A) <∞, A ∈ A.

Ademas, µ es σ–finita en C si existe una sucesion An de C tal que X =⋃An y µ(An) <∞.

El primer ejemplo de una medida es considerar µ como el numero de elementos de unconjunto X. La cual es una medida que no es finita si la cardinalidad de X no es finita y esσ–finita si y solo si X es numerable.

Dado un espacio de medida (X,A, µ), un conjunto A ∈ A es un atomo si

Page 89: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

3.2. Construccion de medidas y variables aleatorias 87

(i) µ (A) > 0, y

(ii) si B ⊂ A, y µ (B) < µ (A), entonces µ (B) = 0.

Dado un espacio de medida (X,A, µ), decimos que µ es una medida no atomica si notiene atomos.

En particular si µ es una medida no atomica, µ (i) = 0, ∀ i ∈ A.Consideremos el espacio de medida dado por X = 1, . . . , n, A =2X y µ = # (A).

Entonces µ tiene atomos en 1 , . . . , n.

Definicion 3.2.2. Una coleccion S de subconjuntos de X es una semi–algebra si se satis-facen:

1. ∅ ∈ S,

2. S es cerrada bajo intersecciones finitas,

3. si A ∈ S, entonces existen A1, . . . , Ak ∈ S tales que

Ac =k∑j=1

Aj, Ai ∩ Aj = ∅;

donde la notacion∑Aj indica la union disjunta o ajena de los Aj.

Definicion 3.2.3. Una coleccion A0 de subconjuntos de X es un algebra si se satisfacen:

1. X ∈ A0,

2. A ∈ A0 implica que Ac ∈ A0 y

3. A,B ∈ A0 implica que A ∪B ∈ A0.

En general, dada una semi–algebra S, la coleccion de todas las uniones finitas ajenas deelementos en S es un algebra A0(S).

Ejemplo 3.2.4. Si X es igual a R, el conjunto

S(R) = ∅, (a, b], (b,∞) : −∞ ≤ a < b <∞,

es una semi–algebra. Observe que a cualquier subconjunto en S(R) le podemos medir unalongitud λ y ademas S no es un algebra.

Page 90: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

88 Capıtulo 3. Probabilidad

Para A ∈ S(R), A =∑k

j=1Aj, Ai ∩ Aj = ∅, la longitud de A se define como

λ(A) =k∑j=1

λ(Aj).

La cual esta bien definida y para cualesquiera A,B ∈ A0(S) ajenos

λ(A ∪B) = λ(A) + λ(B).

En particular, la σ–algebra generada por S(R) es igual a la σ–algebra de Borel B(R)

Ejemplo 3.2.5. Sean (X1,A1) y (X2,A2) dos espacios medibles, el conjunto

S2 = A1 × A2 : A1 ∈ A1, A2 ∈ A2

es una semi–algebra de X1 × X2. Si X1 = X2 = R y A1 = A2 = B(R), se tiene que

σ(S2) = B(R2).

Este ejemplo se puede generalizar para cualquier producto finito de espacios medibles.

Sean µ1 y µ2 dos medidas en (R,B(R)), para A = A1×A2 con A1, A2 en B(R), definimosla medida producto

µ1 × µ2(A) = µ1(A1)µ2(A2).

Tenemos el siguiente resultado importante el cual usaremos varias veces.

Teorema 3.2.6 (Teorema de Extension). Sea µ una funcion σ–aditiva en un algebra A0,con µ(∅) = 0. Entonces, µ se extiende a una medida µ en σ(A0). Si ademas, µ es σ–finitaen A0, la extension es unica.

En general, probar la σ–aditividad de µ en el algebraA0 es el paso difıcil y puede dependerde la topologıa de X.

Definicion 3.2.7. Una coleccion C de subconjuntos de X es un Π–sistema si ∅ ∈ C y dadoscualesquiera A,B ∈ C, A ∩B ∈ C.

Para probar la igualdad de medidas basta verificar que son iguales en un Π–sistema.

Teorema 3.2.8 (Unicidad). Sean µ1 y µ2 dos medidas σ–finitas en (X,A) y C un Π–sistemade X tal que σ(C) = A. Si para cada A ∈ C, µ1(A) = µ2(A); entonces µ1 ≡ µ2.

Una aplicacion del Teorema de Extension es la construccion de medidas en (R,B(R)).

Page 91: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

3.2. Construccion de medidas y variables aleatorias 89

Teorema 3.2.9 (Lebesgue–Stieltjes). Sea F : R −→ R no decreciente continua por laderecha. Entonces, existe una unica medida µF en (R,B(R)) tal que

µF ((a, b]) = F (b)− F (a).

Este teorema puede ser demostrado usando el siguiente resultado.

Lema 3.2.10. Si µ es aditiva en A0, µ(∅) = 0, An ↓ A, µ(An) <∞ y

µ(A) = lımn→∞

µ(An);

entonces, µ es σ–aditiva.

Tenemos varios ejemplos de medidas que se construyen de esta forma:

1. La medida de Lebesgue λ en R esta asociada a F (x) = x. En este caso, para cualquierintervalo I ⊂ R, λ(I) es igual a la longitud de dicho intervalo I. De hecho, bastaobservar como se define esta medida en subconjuntos de la forma (a, b] con a < b ∈ R:

λ((a, b]) = b− a.

Observemos algunos casos basicos: Para cualquier a ∈ R y n ∈ N sea An = (a− 1n, a],

entonces λ(An) = 1n

y An ↓ a. Concluimos que

λ(An) −→ λ(a) ⇒ 1

n−→ 0,

es decir, λ(a) = 0. Mas aun, por la σ–aditividad de la medida, si A ∈ B(R) esnumerable, λ(A) = 0. Ademas tenemos que

λ([a, b]) = λ(a ∪ (a, b]) = λ(a) + λ((a, b]) = b− a

yλ((a, b]) = λ((a, b) ∪ b) = λ(a, b) + λ(b) ⇒ λ((a, b)) = b− a.

2. Dada una funcion de distribucion F , existe una unica medida de probabilidad P en(R,B(R)) tal que

P((a, b]) = F (b)− F (a).

Particularmente, existe una medida N en R tal que

N((a, b]) =1

∫ b

a

e−x2/2dx.

Page 92: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

90 Capıtulo 3. Probabilidad

O bien, consideramos la funcion de distribucion

F (x) =

∫ x

−∞

1√2πe−u

2/2du, x ∈ R.

Esta medida se llama la medida de probabilidad normal estandar en R como vimosantes. Observemos que F ′(x) = e−x

2/2/√

2π, ∀x ∈ R.

3. Dados −∞ < a < b < ∞ y σ([a, b]) = B(R) ∩ [a, b] se define la distribucion uniforme(continua) en [a, b] como la probabilidad

P(A) =λ(A)

b− a, A ∈ σ([a, b]).

En este caso

F (x) =

∫ x

−∞f(u)du, x ∈ R

con

f(x) =

1b−a , x ∈ (a, b);

0, x /∈ (a, b).

3.2.2. Existencia de variables aleatorias independientes

Veamos como a partir del Teorema de Extension podemos construir medidas en productoscartesianos y probar la existencia de variables aleatorias independientes con distribucionesdadas.

Teorema 3.2.11 (Kolmogorov). Dada una funcion de distribucion F , existe un espacio deprobabilidad (Ω,A,P) y una variable aleatoria Y : Ω −→ R en (R,B(R)) tal que Y tienefuncion de distribucion F .

Demostracion. Consideramos Ω = R, A = B(R) y P = µF , ademas la variable aleatoriaY : Ω −→ R, definida como la identidad Y(w) = w. En este caso, µF ((−∞, x]) = F (x).

Otra aplicacion del Teorema de Extension es la siguiente.

Teorema 3.2.12 (Medida Producto). Sean (Xi,Ai, µi), i = 1, ..., d espacios de medida σ-finita.

Page 93: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

3.2. Construccion de medidas y variables aleatorias 91

(a) La coleccion de conjuntos

Sd = A1 × · · · × Ad = A1 × A2 × · · · × Ad : Ai ∈ Ai, i = 1, ..., d

es una semi–algebra de X1 × · · · × Xd. σ(Sd) se conoce como la σ-algebra producto y sedenota por A1 ⊗ · · · ⊗ Ad.

(b) Existe una unica medida σ-finita µ1 × · · · × µd en A1 ⊗ · · · ⊗ Ad tal que

µ1 × · · · × µd(A1 × A2 × · · · × Ad) = µ1(A1) · · · µd(Ad).

Con el teorema anterior se prueba la existencia de variables aleatorias independientescon distribuciones dadas. Recordamos que un espacio metrico se dice polaco si es un espa-cio separable y completo; remitimos al lector al Apendice B para mayor informacion sobremedidas en espacios metricos polacos.

Teorema 3.2.13 (Existencia de variables aleatorias independientes). Sean µ1, ..., µd medidasde probabilidad en un espacio metrico polaco X con B(X) la σ–algebra de Borel. Existen unespacio de probabilidad (Ω,A,P) y variables aleatorias independientes X1, ...,Xd con valoresen X tales que Xi tiene distribucion µi.

Demostracion. Idea: Tomemos Ω = X× · · · × X,A = B(X)× · · · × B(X),P =µ1 × · · · × µdy para w = (w1, ..., wd) ∈ Ω, Xi(w) = wi, i = 1, ..., d.

En particular obtenemos el siguiente resultado, el cual es un teorema de Kolmogorov3.2.11 mas general para la existencia de un elemento aleatorio con una distribucion dada enun espacio topologico.

Proposicion 3.2.14. Dada una medida de probabilidad µ en un espacio metrico polaco Xcon B(X) la σ–algebra de Borel, existe un espacio de probabilidad (Ω,A,P) y una variablealeatoria X con valores en X tal que X tiene distribucion µ.

3.2.3. Distribucion conjunta y condicional de variables aleatorias

En general, no necesariamente en el caso de independencia, hablamos de distribucionesconjuntas en el siguiente sentido.

Page 94: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

92 Capıtulo 3. Probabilidad

Definicion 3.2.15. Sean X1, ...,Xd variables aleatorias en un espacio de probabilidad (Ω,A,P)y con valores espacio metrico separable X y sea X = (X1, ...,Xd).

La distribucion de X como elemento en Xd = X × · · · × X se llama la distribucionconjunta de las variables aleatorias X1, ...,Xd y es la probabilidad en (Xd,B(Xd)) dada por

PX(A1 × A2 × · · · × Ad) = P

(d⋂i=1

X−1i (Ai)

), Ai ∈ B(X), i = 1, ..., d.

Las distribuciones PXi de Xi se conocen como distribuciones marginales y se obtienende la siguiente manera

PXi(Ai) = PX(X× · · · × X× Ai × X · · · ×X), Ai ∈ B(X).

Una distribucion conjunta no esta definida por sus distribuciones marginales, a menosque se tengan variables aleatorias independientes. Existen distribuciones conjuntas con lasmismas marginales.

Si X1, ...,Xd son independientes

PX(A1 × A2 × · · · × Ad) =d∏i=1

P(X−1i (Ai)

), Ai ∈ B(X), i = 1, ..., d.

Dadas dos variables aleatorias X e Y en X en con distribucion conjunta PX,Y en (X2,B(X2))parece intuitivo definir la distribucion condicional PX|Y de X dado Y como la medida en(X,B(X)) dada por

PX|Y (A |B ) =PX,Y((A× X) ∩ (X×B))

PY(B)=

P(A ∩B)

PY(B)

para A,B ∈ B(X), con PY(B) > 0.

Observacion 3.2.16. (a) La definicion precisa de probabilidad no es trivial y se estudia encursos de probabilidad avanzada, ver por ejemplo [6, Capıtulo 12] o [125, Capıtulo 9] .

(b) En particular, es posible dar un significado preciso a la expresion P(X ∈ A |Y = y ) apesar de que Y sea una variable aleatoria continua, es decir P(Y = y) = 0.

En el caso X = R se tiene que la distribucion conjunta de X1, ...,Xd es

PX((−∞, x1]× (−∞, x2]× · · · × (−∞, xd]) = P

(d⋂i=1

Xi ≤ xi

), ∀xi ∈ R, i = 1, ..., d.

Page 95: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

3.3. Probabilidad en variedades I: 93

y la funcion FX : Rd → [0, 1] definida por

FX(x1, ..., xd) = PX((−∞, x1]× (−∞, x2]× · · · × (−∞, xd]), ∀xi ∈ R, i = 1, ..., d.

se llama la funcion de distribucion conjunta de X1, ...,Xd.Si X1, ...,Xd son independientes

FX(x1, ..., xd) = FX1(x1) · · · FXd(xd), ∀xi ∈ R, i = 1, ..., d.

Veremos mas adelante ejemplo de distribuciones conjuntas cuando las variables aleatoriasno son independientes.

Cuando X e Y son distribuciones discretas

P(X = x |Y = y ) =P(X = x,Y = y)

P(Y = y)

si P(Y = y) > 0. El caso de distribuciones continuas se presenta mas adelante.

3.3. Probabilidad en variedades I:

En este seccion queremos comenzar a dar sentido a la siguiente expresion muy usada enla literatura actual de ATD: Consideremos una variable aleatoria del tipo

X = M + σZ,

donde M es una variable aleatoria con distribucion uniforme en una variedad, Z es un vectoraleatorio con distribucion normal multivariada N(0, Id) y σ > 0 es una constante.

3.3.1. Sobre la distribucion uniforme en probabilidad

En la literatura el uso de probabilidad uniforme se usa en varios sentidos. Nos hemosencontrado ya con la distribucion uniforme discreta en el Ejemplo 3.1.9 y la distribucionuniforme continua en un intervalo [a, b] en el ultimo ejemplo de la Seccion 3.2.1. Este ultimoejemplo se puede generalizar a probabilidad uniforme en un conjunto compacto de Rd, endonde conjuntos con la misma superficie, area o volumen y su generalizacion a dimensionesmayores tienen la misma probabilidad, como veremos en la Seccion 3.3.3.

En el caso de medidas en variedades, distribucion uniforme se refiere a una medidaparticular de la variedad, conocida como medida geometrica. Esta concepto es el analogo k

Page 96: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

94 Capıtulo 3. Probabilidad

dimensional de las medidas de longitud en una curva de R2 o R3 y al area de una superficiede dimension dos en R3 y se presenta en la Seccion 3.6.2.

En la teorıa de distribuciones de probabilidad para vectores aleatorios o mas generalmentematrices aleatorias, distribucion uniforme se refiere a la probabilidad que es invariante bajotransformaciones ortogonales (o unitarias) por la izquierda en la llamada variedad de StiefelLdp: Sea Rd×p el espacio vectorial de las matrices d × p con entradas reales con norma dadapor

‖S‖2 :=1

dTr(S>S), S ∈ Rd×p,

entoncesLdp =

T ∈ Rd×p;T>T = Id

.

Observemos que Sd−1 = Ld1.Dada una medida µ en (Rq,B(Rq)), decimos que µ es invariante bajo transformaciones

ortogonales por la izquierda si para todo A ∈ B(Rq), se tiene que µ(OA) = µ(A) paracualquier matriz ortogonal O(q), con OA = Ox : x ∈ A. Recomendamos el libro de Eaton[45] para este tema.

En el estudio de grupos compactos, la distribucion uniforme es la medida de Haar, lacual es la unica medida invariante bajo acciones del grupo por la derecha y por la izquierda.Recomendamos la Tesis de Sandra Palau [106] para este tema la cual incluye numerosasreferencias clasicas.

Finalmente, el tema de la proxima seccion y de la Seccion 3.6.3 es la medida uniforme-mente distribuida en espacios metricos y algunos subconjuntos compactos, la cual se refierea una propiedad de invarianza de la medida en bolas del mismo radio. Es importante senalarque este concepto esta relacionado con una propiedad de la metrica del espacio ambiente yno a la metrica de la superficie o variedad.

En el caso de variedades suaves, como la esfera Sd y el toro Td, las distribuciones uniformescorrespondientes coinciden, como se vera en la Seccion 3.3.5. Esto permite elegir la construc-cion conveniente segun el enfoque de interes, lo cual es util especialmente en el aspecto desimulacion de variables aleatorias con distribucion uniforme, ası como con distribucionesalternativas como se vera en el Capıtulo 4.

Definicion 3.3.1. Sea µ una medida en un espacio metrico (X, ρ). Sea K ∈ B(X) tal que0 < µ(K) < ∞ y sea B(K) = B(X) ∩ K. Entonces la medida de probabilidad µ en B(K)definida por

µ(A) =µ(A)

µ(K), A ∈ B(K),

es µ-uniforme, es decir µ(A) = µ(B) si y solo si µ(A) = µ(B). Usualmente K se tomacompacto y µ una medida de Radon en el sentido del Apendice B.

Page 97: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

3.3. Probabilidad en variedades I: 95

3.3.2. Medida uniformemente distribuida

A lo largo de esta seccion vamos a considerar medidas sobre un espacio metrico polacoX con σ-algebra de Borel B(X) y metrica

ρ : X× X −→ [0,∞).

Se dice que una medida µ en (X,B(X)) es de Radon si cumple con las siguientes dospropiedades:

1. µ es de Borel, para cada x ∈ X existe 0 < r <∞ tal que µ(Br(x)) <∞,

2. µ es regular interior: para cada A ∈ B(X)

µ(A) = sup µ(K) : K ⊂ A,K compacto .

Para mayor informacion sobre medidas en espacios metricos polacos, remitimos al lectoral Apendice B de estas notas.

Cualquier medida de probabilidad en (X,B(X)) es una medida de Radon. Las medidasde Lebesgue-Stieltjes en (R,B(R)) son de Radon.

Dada una medida de Radon µ en (X,B(X)) se define el soporte de µ como

supp(µ) =⋂

µ(Cc)=0

C,

donde la interseccion se toma sobre los conjuntos cerrados C. Observe que esto esta biendefinido pues el conjunto X es cerrado y su complemento, el conjunto vacıo, tiene medidacero.

Definicion 3.3.2. Decimos que una medida de Radon µ en (X,B(X)) es uniformementedistribuida si

µ(Br(x)) = µ(Br(y)), ∀x, y ∈ supp(µ), 0 < r <∞, (3.3.1)

dondeBr(x) = y ∈ X : ρ(x, y) < r.

Teorema 3.3.3 (Christensen). Si µ1 y µ2 son medidas de Radon uniformemente distribuidasen (X,B(X)) con (X, ρ), entonces existe 0 < c <∞ tal que

µ1 = cµ2.

Page 98: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

96 Capıtulo 3. Probabilidad

Observacion 3.3.4. (a) Una probabilidad uniformemente distribuida en un espacio metricoes unica.

(b) La existencia de un elemento aleatorio X con valores en X esta garantizada por la Propo-sicion 3.2.14. Diremos que X tiene probabilidad uniformemente distribuida en el espaciometrico X.

(c) La probabilidad uniformemente distribuida esta ligada a la metrica ρ del espacio ambien-te.

El siguiente resultado sera usado frecuentemente.

Teorema 3.3.5. Sean X1 y X2 dos espacios metricos polacos con σ-algebras de Borel B(X1)y B(X2). Sean µ1 y µ2 medidas de Radon en (X1,B(X1)) y (X2,B(X2)) respectivamente.Entonces, la medida producto µ1×µ2 es uniformemente distribuida en X1×X2 con la topologıaproducto si y solo si, las marginales µ1 y µ2 son medidas uniformemente distribuidas en X1

y X2, respectivamente, en cuyo caso supp(µ1 × µ2) = supp(µ1)× supp(µ2).

Ejemplos de medidas uniformemente distribuidas son la medida de Lebesgue y la medidade Hausdorff, las cuales estudiaremos mas adelante. Otro ejemplo es la medida de conteo.

Ejemplo 3.3.6 (Medida de conteo). Sean X = R con la metrica usual y H un subconjuntofinito o numerable de X, usualmente H = N ∪ 0 o H = Z. Se define la medida de conteo cen B(R) como

c(A) = #(A ∩H), A ∈ B(R).

Esta medida es finita solamente cuando H es finito, de otra forma es σ-finita. Se tiene quec es medida uniformemente distribuida en R si supp(c) = Z pero no si supp(c) = N.

Observacion 3.3.7. (i) En la Proposicion 3.6.4 (c), se describen los posibles soportes demedidas uniformemente distribuidas en R.

(ii) La medida de Lebesgue en R es uniformemente distribuida.

Ejemplo 3.3.8. Usando el Teorema 3.3.5 se tiene que la medida producto ck tambien estauniformemente distribuida en B(Rk) con soporte Zk.

Observacion 3.3.9. Si µ es una medida de Radon uniformemente distribuida, la distribu-cion µ en la Definicion 3.3.1 no es medida uniformemente distribuida cuando K es compacto.Solo las bolas de radio r que se encuentren en el interior de K tendran la misma medidaµ, pero para algun 0 < r < ∞ habra bolas con centro en el interior de K que no estentotalmente contenidas en K y por lo tanto (3.3.1) no se cumple necesariamente.

Page 99: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

3.3. Probabilidad en variedades I: 97

En la Seccion 3.6.3 volvemos al tema de medidas uniformes en Rd.En lo que sigue vamos a considerar medidas en subespacios (X,B(X)) de (Rd,B(Rd)) con

B(X) = σ(X ∩ B(Rd)) = X ∩ B(Rd). En particular, explicitaremos los casos de la esfera,el toro y productos cartesianos finitos de cırculos. Notar que por el Teorema 3.3.5, bastaconstruir medidas para el cırculo S1 para obtener medidas en el toro T2 = S1 × S1 cuandose considera como elemento en R4.

Ahora construiremos la medida uniformemente distribuida en varios espacios metricosy en el caso de una probabilidad uniformemente distribuida veremos como se realiza lacorrespondiente variable aleatoria. Esto ultimo es importante cuando se desean hacer estudiosde simulacion.

3.3.3. Medida de Lebesgue en Rd y distribucion uniforme en sub-conjuntos

Consideramos la medida de Lebesgue λd en (Rd,B(Rd)); esto es, λd es la medida productoen (Rd,B(Rd)) que corresponde a F (x) = x (en el Teorema de construccion de medidas deLebesgue-Stieltjes 3.2.9) y es tal que

λd(A1 × · · · × Ad) = λ(A1)× · · · × λ(Ad),

para cada Aj ∈ B(R), donde λ es la medida de Lebesgue en (R,B(R)).Esta medida es de gran importancia, enunciaremos algunas de sus propiedades (ver por

ejemplo el libro de Jones [71]):

1. λd(A) > 0 si A es un conjunto abierto no vacıo de Rd.

2. λd no es medida finita, pero es σ–finita. Ademas, si E ∈ B(Rd) y 0 < λd(E) < ∞,entonces

m(A) =λd(A)

λd(E), A ∈ B(E) = E ∩ B(Rd)

es una medida de probabilidad en (E,B(E)), la cual es λd−uniforme en el sentido dela Definicion 3.3.1.

3. λd es la unica medida, modulo multiplicacion por una constante positiva, en (Rd,B(Rd))tal que es invariante bajo traslaciones, i.e.

λd(A+ x) = λd(A), x ∈ Rd, A ∈ B(Rd).

4. λd es una medida de Radon uniformemente distribuida.

Page 100: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

98 Capıtulo 3. Probabilidad

5. Sea T una matriz d× d con entradas reales y no singular. Entonces

λd(TA) = | det(T )|λd(A),

con TA = Tx : x ∈ A.

De esta ultima propiedad se obtiene de manera inmediata que para cada r > 0,

λd(rA) = rdλd(A)

donde rA = rx : x ∈ A. Ademas para cualquier matriz ortogonal O ∈ O(d),

λd(OA) = λd(A);

esto es, λd es invariante bajo transformaciones ortogonales por la izquierda.

Observacion 3.3.10. De las propiedades anteriores de la medida de Lebesgue se tiene quesi consideramos el disco

Dd =

(x1, . . . , xd) ∈ Rd :

d∑j=1

x2j ≤ 1

entonces

md(A) =λd(A)

λd(Dd), A ∈ B(Dd) = Dd ∩ B(Rd) (3.3.2)

define una probabilidad “uniforme de volumen” en el disco (Dd,B(Dd)), pero no en elsentido de la Definicion 3.3.2. De esta forma, la medida de un conjunto A ∈ B(Dd) en estedisco es el “volumen” normalizado del conjunto.

Se cumple que

λd(Dd) = λd(B1(x)) =πd/2

Γ(d/2 + 1).

En general, para cualquier radio r > 0 se tiene que λd(Br(x)) = πd/2rd/Γ(d/2 + 1). Estadistribucion es uniforme en el disco, en el sentido de que conjuntos del mismo volumen tienenla misma probabilidad. Observemos la diferencia entre probabilidad uniformementedistribuida y probabilidad uniforme de volumen.

El vector aleatorio Xd = (X1, . . . ,Xd) con esta distribucion es tal que las variables alea-torias X1, . . . ,Xd no son independientes.

Page 101: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

3.3. Probabilidad en variedades I: 99

3.3.4. Medida normal estandar en un espacio euclidiano

Sea F la funcion de distribucion normal estandar y µF su medida en (R,B(R)). Entonces,µdF es una probabilidad en (Rd,B(Rd)) dada por la medida producto

µdF = µF × · · · × µF︸ ︷︷ ︸d

.

Un vector Xd = (X1, . . . ,Xd) con distribucion µdF se dice vector gaussiano con distribucionnormal multivariada N(0, Id). Se tiene que X1, . . . ,Xd son variables aleatorias independientescada una con distribucion normal F . Tal vector aleatorio existe por el Teorema 3.2.13.Veremos mas propiedades de esta medida mas adelante en la Seccion 3.5.4, como el hechoque N(0, Id) tambien es invariante bajo transformaciones ortogonales por la izquierda.

3.3.5. Probabilidad uniformemente distribuida en esferas

Construccion usando la medida de Lebesgue

Existen varias construcciones de medida de probabilidad uniforme en la esfera

Sd−1 =

(x1, . . . , xd) ∈ Rd :

d∑j=1

x2j = 1

.

A continuacion describiremos una construccion que es parte del folklore en la literatura,a partir de la medida de Lebesgue en Rd. Observemos que λd(Sd−1) = 0 lo cual lo hace unproblema no trivial.

Tambien veremos como se realiza un vector aleatorio R = (R1, . . . ,Rd) en Sd−1 con esadistribucion. La existencia de este vector es dado por la Proposicion 3.2.14, pero estamosinteresados en saber mas acerca de este vector aleatorio, principalmente con fines de simu-lacion.

Para fines de motivacion, en el caso de S0 = −1, 1 podemos definir una medida deprobabilidad en −1, 1 usando la medida de Lebesgue en R como sigue, sea

ω : B(S0) −→ [0, 1]

definida por

ω(1) =λ((0, 1])

λ[−1, 1]=

1

2, ω(−1) =

λ((−1, 0])

λ[−1, 1]=

1

2.

Esta distribucion se conoce como distribucion Bernoulli simetrica en −1, 1 , tambien lla-mada de Rademacher.

Page 102: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

100 Capıtulo 3. Probabilidad

Tambien observemos que si µ es la medida normal estandar en R, debido a la simetrıade la densidad normal alrededor de cero se tiene

ω(1) =µ((0, 1])

µ((−1, 1])=

1

2, ω(−1) =

µ((−1, 0])

µ((−1, 1])=

1

2.

En forma mas general, si µ es una medida en (R,B(R)) , tal que µ((0, 1]) = µ((−1, 0]),podemos definir la distribucion Bernoulli simetrica como en la ultima expresion.

La forma de realizar la distribucion Bernoulli, o sea una variable aleatoria R con distri-bucion ω es como sigue: Sea X una variable aleatoria con distribucion normal estandar (lacual toma el valor cero con probabilidad cero), entonces la variable R = X/ |X| tiene dis-tribucion ω. El mismo resultado se obtiene si se considera otra variable aleatoria que tomael valor cero con probabilidad cero y tiene distribucion simetrica, es decir X y −X tienenla misma distribucion. Sin embargo, debido a un Teorema de Poincare que enunciaremos acontinuacion, es conveniente considerar el usar variables aleatorias normales como punto departida para realizar la probabilidad uniformemente distribuida en una esfera.

En general, dada Sd−1 y la σ–algebra de Borel asociada B(Sd−1) = Sd−1 ∩ BRd), paraA ∈ B(Sd−1) definimos

A = tx : 0 < t ≤ 1, x ∈ A ∈ B(Rd)

y

ωd(A) =λd(A)

λd(B1(0)).

Entonces, ωd es una medida de probabilidad en (Sd−1,B(Sd−1)) que esta uniformemente dis-tribuida con soporte Sd−1 y para cualquier abierto no vacıo A en Sd−1, ωd(A) > 0. Ademas,ωd es invariante bajo transformaciones ortogonales por la izquierda. Estas ultimas propie-dades se obtienen facilmente de las correspondientes propiedades de la medida de Lebesgueλd.

Esta probabilidad coincide con la medida de probabilidad de volumen de la esfera, la cualse explica en la Seccion 3.6. Esto se sigue del hecho de que la distancia euclidiana entre doselementos de Sd−1 es proporcional a la distancia geodesica entre esos puntos.

Observacion 3.3.11. De las consideraciones anteriores tenemos que la distribucion uni-formemente distribuida en Sd−1 es la distribucion uniforme de “volumen”, y uniforme enel sentido de invariante bajo transformaciones ortogonales por la izquierda. La llamaremossimplemente distribucion uniforme en la esfera Sd−1.

Vectores aleatorios con probabilidad uniformemente distribuida en la esfera

Teorema 3.3.12. Existe una variable aleatoria con valores en Sd−1 que tiene distribucionωd.

Page 103: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

3.3. Probabilidad en variedades I: 101

Demostracion. Similar a la Proposicion 3.2.14: Consideramos el espacio ambienteΩ = Sd−1, la σ–algebraA = B(Sd−1), la medida de probabilidad P ≡ ωd y la variable aleatoriaX : Ω −→ Sd−1, dada por X(x) = x.

Tenemos el siguiente resultado importante. La convergencia en distribucion (3.3.3) serefiere a convergencia de distribuciones en Rk, en el sentido de la Definicion B.1.17 en elApendice B.

Teorema 3.3.13 (Poincare). Sean R = (R1, . . . ,Rd) una variable aleatoria en Sd−1 conprobabilidad uniforme ωd y d1, d2 con 1 ≤ d1 ≤ d2 fijos. Entonces

√d(Rd1 , . . . ,Rd2)

L−→ N(0, Id2−d1+1), (3.3.3)

cuando d→∞. Es decir, Rd1 , . . . ,Rd2 son asintoticamente independientes y con distribucionnormal estandar. En particular, para cada i = 1, 2, ..., fijo, cuando d→∞ se tiene

√dRi

L−→ N(0, 1). (3.3.4)

La historia de este resultado, su demostracion, aplicaciones en distintos ambitos y larazon de no atribuirlo a Poincare pueden consultarse en el artıculo de Diaconis y Freedman[42]. Ver tambien el libro clasico de Kac [74] y las aplicaciones a la fısica que presenta.

Como consecuencia importante, la probabilidad uniforme en Sd−1 puede ser realizada demanera “canonica” como sigue, lo cual es un resultado util para simular variables aleatoriascon distribucion uniforme en la esfera Sd−1. Podemos pensar tambien a este resultado comoun ejemplo de construccion de distribuciones en variedades (en este caso Sd−1) a partir de ladistribucion inducida por una variable aleatoria en el espacio ambiente Rd.

Proposicion 3.3.14. Si X1, . . . ,Xd son variables aleatorias independientes con distribucionnormal estandar N(0, 1) y Xd = (X1, . . . ,Xd), entonces la variable aleatoria

R =

(X1

||Xd||, . . . ,

Xd

||Xd||

)(3.3.5)

tiene distribucion uniforme en Sd−1. Ademas, la variable aleatoria ||Xd|| y el vector aleatorioR son independientes.

El resultado anterior es un caso particular de un resultado mas general en Eaton [45]pagina 237, el cual a su vez es un caso particular de un resultado para matrices aleatorias,tambien en [45], Proposicion 7.3. Se dice que la distribucion de un vector aleatorio Xd esinvariante bajo transformaciones ortogonales por la izquierda si OXd y Xd tienen la mismadistribucion para cualquier matriz ortogonal O ∈ O(d). (Abusando de notacion, cuandohagamos esta multiplicacion pensamos a los vectores, como vectores columna).

Page 104: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

102 Capıtulo 3. Probabilidad

Proposicion 3.3.15. Si Xd = (X1, . . . ,Xd) es un vector con distribucion invariante bajotransformaciones ortogonales por la izquierda. Entonces

(i) El vector aleatorio R dado por (3.3.5) tiene distribucion uniforme en Sd−1,

(ii) La variable aleatoria ||Xd|| y el vector aleatorio R son independientes.

(iii) E(R) = 0 y E(R>R) =1dId, pero las variables aleatorias (R1, . . . ,Rd) no son indepen-

dientes.

Mas aun, cuando las variables aleatorias X1, . . . ,Xd son independientes, estas deben tenernecesariamente una distribucion normal estandar para que R tenga probabilidad uniforme-mente distribuida. Esto lo probaremos de la siguiente manera usando el Teorema de Poincare,el Teorema de Slutsky y la Ley de Grandes Numeros (3.1.1).

Proposicion 3.3.16. Si existen variables aleatorias independientes X1, . . . ,Xd de tal for-ma que la variable aleatoria R = (R1, . . . ,Rd) definida como en (3.3.5) tiene distribucionuniforme en Sd−1, entonces necesariamente las variables Xi deben tener distribucion normalestandar.

Demostracion. Por la LGN (3.1.1) con p = 2 tenemos

1

d||Xd||2 =

1

d

d∑j=1

|Xj|2Pr−→ E|X1|2 = 1

y por lo tanto, usando la Proposicion 3.1.12(c),√d/||Xd||

Pr−→ 1. Finalmente, por el Teoremade Slutsky, para i = 1, 2, ..., fijo

√dRi =

√d

||Xd||Xi

L−→ Xi cuando d→∞.

Usando 3.3.4 en el Teorema de Poincare y la unicidad del lımite se concluye que Xi tienedistribucion normal N(0, 1).

Mas adelante en la Seccion 4 retomaremos la idea de construir variables aleatorias en laesfera Sd−1 usando (3.3.5) a partir de un vector aleatorio arbitrario Xd = (X1, . . . ,Xd) enRd.

Page 105: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

3.3. Probabilidad en variedades I: 103

Las distribuciones marginales

Si R = (R1, . . . ,Rd) es una vector aleatorio con distribucion uniforme en Sd−1, las dis-tribuciones marginales de R (las distribuciones de Ri) se conocen como distribucionesultraesfericas. Estas dependen de la dimension d como sigue:

1. Para d = 1, R1 se distribuye como una Bernoulli en −1, 1.

2. Para d = 2, Ri se distribuyen como una distribucion arcoseno en (−1, 1).

3. Para d = 3, Ri se distribuyen de manera uniforme en (−1, 1).

4. Para d = 4, Ri se distribuyen como una distribucion semicırculo en (−1, 1).

En general, para d ≥ 2, la distribucion de Ri esta dada por la densidad

fd(x) = cd(1− x2)(d−3)/21(−1,1)(x).

donde cd es una constante normalizadora de tal forma que fd integra uno en (−1, 1).

El material de esta seccion se puede ver, por ejemplo, en el libro de Kac [74] y el artıculode Kingman [82], los cuales no ofrecen mayores detalles. El calculo de esas distribucionesmarginales utiliza encontrar densidades de transformaciones multivariadas, los cuales soncalculos directos que requieren trabajo.

3.3.6. Otras medidas en la esfera y el toro

La idea de la construccion de la distribucion uniforme en Sd−1 puede generalizarse ala construccion de otras medidas en Sd−1 a partir de una medida de probabilidad µ en(Rd,B(Rd)) diferente a la medida de Lebesgue; es decir, si µ(B1(0)) > 0

νµ : B(Sd−1) −→ [0, 1], A 7−→ µ(A)

µ(B1(0))

es una medida de probabilidad en (Sd−1,B(Sd−1))Igualmente, como veremos en el Capıtulo 4, dado cualquier vector aleatorio Xd = (X1, . . . ,Xd)

con distribucion µ en (Rd,B(Rd)) tal que µ(||Xd||| = 0) = 0, es decir µ(X1 = 0, . . . ,Xd| =0) = 0, entonces

R =

(X1

||Xd||, . . . ,

Xd

||Xd||

)

Page 106: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

104 Capıtulo 3. Probabilidad

es una variable aleatoria en (Sd−1,B(Sd−1)) cuya distribucion es la medida inducida

µR(A) = µ(R−1(A)), A ∈ B(Sd−1).

Del Teorema 3.3.15 se tiene que si µ en (Rd,B(Rd)) es invariante bajo transformacionesortogonales por la izquierda, µR=νµ es la probabilidad uniforme en (Sd−1,B(Sd−1)). Engeneral este no es el caso.

Retomaremos este tema en el Capıtulo 4 que incluye simulacion de variables aleatoriasen la esfera Sd−1.

Probabilidades en el toro

A partir de la probabilidad uniformemente distribuida ωd en (Sd−1,B(Sd−1)) y comoconsecuencia del Teorema 3.3.5, podemos construir medidas de probabilidad uniformementedistribuidas en los productos cartesianos

T2 = S1 × S1, Tp = S1 × · · · × S1︸ ︷︷ ︸p

, Sd1 × · · · × Sdn︸ ︷︷ ︸n

,

con di numeros positivos arbitrarios, con sus correspondientes σ—algebra producto

B(T2) = B(S1)⊗ B(S1), B(Tp) = B(S1)⊗ · · · ⊗ B(S1)︸ ︷︷ ︸p

, B(Sd1)⊗ · · · ⊗ B(Sdn))︸ ︷︷ ︸n

.

Igualmente, podemos realizar elementos aleatorios independientes en estos espacios pro-ducto, cuyas marginales tienen probabilidad uniformemente distribuida en los respectivosespacios factores.

Dada cualesquiera medida de probabilidad µi en Sd−1 podemos inducir en B(Tp) la pro-babilidad µ1×· · ·×µd y las correspondientes variables aleatorias estan en Tp. Retomaremoseste tema en el Capıtulo 4 de Simulacion de variables aleatorias en variedades.

3.4. Integral de Lebesgue

3.4.1. Funciones medibles

Recordemos que (X,A) es un espacio medible si X es un conjunto no-vacıo y A es unaσ-algebra y que (X,A, µ) es un espacio de medida si (X,A) es un espacio medible y µ es unamedida en A.

Page 107: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

3.4. Integral de Lebesgue 105

Denotemos por B(R)

la σ-algebra de los reales extendidos, que contiene a B (R) , −∞y +∞ . Es facil probar que

B(R)

=B,B ∪ +∞ , B ∪ −∞ , B ∪ +∞ ∪ −∞ : B ∈ B

(R).

Definicion 3.4.1. Sean (X,A) y (Y, T ) espacios medibles y T : X −→ Y. Se dice que Tes A|T -medible si T−1T ⊂ A, es decir, T−1G ∈ A, para todo G ∈ T , es decir “la imageninversa de un medible es medible”. En particular si Y = R y f : X −→ R decimos que f esmedible si f es A|B

(R)-medible.

El siguiente resultado permite probar medibilidad de funciones en clases generadoras.

Proposicion 3.4.2. (a) Sean (X,A) , (Y, T ) espacios medibles y T una transformacion deX en Y. Sea G una clase de subconjuntos de Y tal que σ (G) = T . Entonces T esA|T -medible si, y solo si, T−1G ∈ A, para todo G ∈ G.

(b) Sea (X,A) un espacio medible y f : X −→ R. Entonces f es una funcion medible si, ysolo si,

f−1 (−∞) ∈ A, f−1 (∞) ∈ Ay

x ∈ X : −∞ < f (x) ≤ a = f−1 ((−∞, a]) ∈ A,para todo a real.

Ejemplos de funciones medibles(X,A) espacio medible.

1. f (x) = k, para todo x ∈ X es medible: Si a ≥ k, f−1 (a,∞) = ∅ ∈ A, si a < k,f−1 (a,∞) = X ∈ A.

2. La funcion indicadora o caracterıstica de un conjunto E ⊂ X.

χE (x) = 1E (x) =

1, x ∈ E,0, x /∈ E.

1−1E (a,∞) =

∅, a > 1,E, 0 < a < 1,X, a ≤ 0.

1E es medible si, y solo si, E ∈ A. Esto nos permite construir una funcion no medible,tomando 1E : R −→ R, donde E ⊂ R es no-medible.

Page 108: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

106 Capıtulo 3. Probabilidad

3. Si f : X −→ R es continua, entonces f es medible: f−1 (a,∞) es un abierto ya que(a,∞) es abierto y f es continua.

4. En general f−1 (OX) ⊂ OY si f es continua, f : X −→ Y.

5. Si X = R, A = B (R) , entonces cualquier funcion monotona es medible.

Las siguientes propiedades de funciones medibles son faciles de probar.

Proposicion 3.4.3. (a) Sea (X,A) un espacio medible y f, g : X −→ R funciones A|B (R)-medibles. Entonces las siguientes funciones son medibles:

(i) cf, para todo c ∈ R, (ii) f 2, (iii) f + g,

(iv) fg, fn para todo n ≥ 1, (v) |f | .

(b) Sean f : X −→ R,f+ (x) = max f (x) , 0 ≥ 0

yf− (x) = max −f (x) , 0 ≥ 0.

Entonces las siguientes funciones son medibles:

i)f = f+ − f−, ii) |f | = f+ + f−,

iii)f+ =1

2(|f |+ f) y iv)f− =

1

2(|f | − f) .

(c) f+ y f− son medibles si, y solo si, f es medible.

Proposicion 3.4.4. Sea fn : X −→ R una sucesion de funciones medibles y

f (x) = ınfnfn (x) , F (x) = sup

nfn (x) ,

f ∗ (x) = lımnfn (x) , F ∗ (x) = lım

nfn (x) .

(a) Entonces f, F, f ∗, F ∗ : X −→ R son medibles.

Page 109: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

3.4. Integral de Lebesgue 107

(b) Sea fn : X −→ R una sucesion de funciones medibles tal que1 fn −→ f. Entonces f esmedible.

Mas general que el concepto de convergencia con probabilidad uno en un espacio deprobabilidad tenemos la convergencia casi donde quiera.

Definicion 3.4.5. Sea (X,A, µ) es un espacio de medida. Sean f, f1, f2, ..., funciones me-dibles. Decimos que la sucesion (fn)n converge casi en todas partes (casi donde quiera) µ, y

escribimos fnc.t.p µ−→ f si existe un conjunto N ∈ A, con µ(N) = 0 y tal que

lımn→∞

fn(x) = f(x), ∀x ∈ X\N.

3.4.2. Construccion de la integral de Lebesgue y propiedades ini-ciales

Consideremos (X,A, µ) un espacio de medida. La integral de Lebesgue de funciones me-dibles f definidas en X y con valores reales se define por pasos.

Paso 1. Funciones simples no–negativas.Sea φ : X −→ [0,∞) una funcion medible simple no–negativa, es decir φ−1((−∞, x]) ∈ A

para cada x ∈ R y

φ(x) =k∑j=1

aj1Aj(x);

donde aj ≥ 0, los Aj ∈ A son ajenos por pares , i = 1, ..., k, para algun k ≥ 1, y 1A es lafuncion indicadora o caracterıstica de A

1A =

1, x ∈ A;0, x ∈ X \ A.

Se define la integral de Lebesgue de φ con respecto a µ como∫φdµ =

k∑j=1

ajµ(Aj).

Notar que estamos usando implıcitamente que

µ(A) =

∫1Adµ.

1 lımn→∞

fn (x) = f (x) , x ∈ R.

Page 110: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

108 Capıtulo 3. Probabilidad

En particular,

m : A −→ [0,∞), A 7−→ m(A) =

∫φ1Adµ :=

∫A

φdµ,

con φ funcion medible simple no–negativa, es una medida en (X,A).Se pueden probar las siguientes propiedades para la integral con respecto de µ:

1. Si φ, ϕ son funciones medibles simples no–negativas, entonces∫(φ+ ϕ)dµ =

∫φdµ+

∫ϕdµ.

2. Si c > 0, entonces ∫cφdµ = c

∫φdµ.

3. Si ademas cada x ∈ X, φ(x) ≤ ϕ(x), entonces∫φdµ ≤

∫ϕdµ.

Observacion 3.4.6. La integral de Lebesgue es un concepto distinto a la integral de Rie-mann. El ejemplo basico de esto es considerar X = [0, 1], A = B([0, 1]), µ = λ y A = Q∩[0, 1].En tal caso la integral de Lebesgue de f ≡ 1A se anula pero la integral de Riemann de f noexiste.

Paso 2. Funciones no–negativas.Para poder definir la integral con respecto a una medida para cualquier funcion medible

no–negativa f : X −→ [0,∞), aproximamos la integral de f mediante una sucesion defunciones simples que convergen a f . En general∫

fdµ := sup

∫φdµ, : 0 ≤ φ ≤ f, φ simple

.

Proposicion 3.4.7. Si f : X −→ [0,∞) es medible no–negativa, entonces existe una sucesionφn de funciones simples no–negativas tal que

1. φn ↑ φ, es decirφn(x) ≤ φn+1(x), x ∈ X,

Page 111: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

3.4. Integral de Lebesgue 109

2.lımn→∞

φn(x) = f(x),

3. ∫φndµ −→

∫fdµ.

Ademas se presentan las mismas propiedades (1)-(3) arriba, es decir, la integral de fun-ciones medibles no–negativas es lineal y preserva la monotonıa de funciones.

Paso 3. Funciones real valuadas.Para cualquier funcion medible f : X −→ R tenemos las funciones medibles no–negativas

f+(x) = max(0, f(x)), f−(x) = max(−f(x), 0),

tales quef = f+ − f−, |f | = f+ + f−.

Decimos que f es integrable con respecto de µ en el sentido de Lebesgue si ambas∫f+dµ <∞,

∫f−dµ <∞;

o bien, f ∈ L1(µ). En tal caso escribimos

I(f) =

∫fdµ =

∫f+dµ−

∫f−dµ.

Las propiedades (1)-(3) como antes se satisfacen siempre que consideremos las funciones aintegrar en L1(µ); esto es, para f, g ∈ L1(µ) y a ∈ R,

I(af + g) = aI(f) + I(g),

ademas, si f(x) ≤ g(x) para cada x ∈ X,

I(f) ≤ I(g).

Mas aun, dado A ∈ A, consideramos

IA(f) =

∫A

fdµ =

∫f1Adµ.

Luego, para cada A ⊂ B ∈ A se satisface que

IA(f) ≤ IB(f).

Page 112: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

110 Capıtulo 3. Probabilidad

Observacion 3.4.8. (i) Hay una funcion cuya integral impropia de Riemann existe, perono es integrable con respecto a la medida de Lebesgue λ en R:

f(x) =sin(x)

x.

(ii) En general, si las integrales de Riemann y de Lebesgue con respecto a λ existen, estasson iguales.

(iii) Si f es una funcion integrable en el sentido de Riemann en un intervalo (a, b) entoncesla integral de f1(a,b) con respecto a la medida de Lebesgue λ en R existe.

Enunciamos a continuacion tres teoremas fundamentales de la integral de Lebesgue loscuales permiten intercambiar la integral de lımites de funciones con el lımite de las integrales,para funciones en X con valores en R o posiblemente R.

Teorema 3.4.9 (Lema de Fatou). Si fn es una sucesion de funciones medibles no-negativas, entonces ∫

lım inf fndµ ≤ lım inf

∫fndµ.

Teorema 3.4.10 (Convergencia monotona). Si fn es una sucesion de funciones no-negativas tales que fn ↑ f , entonces∫

lımn→∞

fndµ = lımn→∞

∫fndµ.

Teorema 3.4.11 (Convergencia dominada). Sean fn una sucesion de funciones mediblesy f : X −→ R una funcion medible tal que para cada x ∈ X, fn(x) −→ f(x) cuando n→∞.Si existe una funcion medible g : X −→ R tal que |fn| ≤ g y g ∈ L1(µ); entonces, para cadan ≥ 1, fn ∈ L1(µ), f ∈ L1(µ) y ∫

fdµ = lımn→∞

∫fndµ.

Para el caso del producto de medidas tenemos el siguiente resultado que muestra comose efectua el intercambio de integrales.

Teorema 3.4.12 (Fubini). Sean (X1,A1, µ1) y (X2,A2, µ2) dos espacios de medida σ-finitasy sea µ1 × µ2 la medida producto en (X1 × X2,A1 ×A2).

Page 113: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

3.4. Integral de Lebesgue 111

Si la funcion f : X1 × X2 → R es integrable con respecto a µ1 × µ2, entonces∫X1×X2

fd(µ1 × µ2) =

∫X1

[∫X2

f(x1, x2)µ2(dx2)

]µ1(dx1)

=

∫X2

[∫X1

f(x1, x2)µ1(dx1)

]µ2(dx2).

En particular, Tonelli demuestra que estas identidades son validas en el caso de que fsea una funcion medible no negativa.

Tambien en el caso de una serie de funciones medibles no negativas tenemos el intercambioentre la integral y la suma.

Teorema 3.4.13 (Beppo–Levi). Si (fn)n≥1 son funciones medibles no negativas en un es-pacio de medida (X,A, µ) entonces∫ ∞∑

n=1

fndµ =∞∑n=1

∫fndµ.

3.4.3. Espacios Lp

Brevemente presentamos las funciones cuya potencia p es integrable y las desigualdadesmas importantes. Estos espacios son utiles para estudiar aproximacion de funciones, comose ilustra en el capıtulo de estadıstica.

Sea (Ω,A, µ) un espacio de medida. Decimos que dos funciones f y g son µ-equivalentes(o son iguales µ-c.t.p.) si

µ (x : f (x) 6= g (x)) = 0.

Vamos a considerar clases de µ-equivalencia de funciones:

[f ] = f : f es µ-equivalente .

A partir de ahora identificaremos [f ] con f.

Definicion 3.4.14. Para 0 ≤ p ≤ ∞ se definen los espacios Lp = Lp(Ω,A, µ) como

Lp =

f :

∫|f |pdµ <∞

, 0 ≤ p <∞;

esto es, Lp(Ω,A, µ) es el espacio que consiste de todas las clases de equivalencia de funcionesf : X −→ R con respecto a µ, tales que |f |p es integrable con respecto de µ. Tambien escomun Lp(µ) = Lp(Ω,A, µ).

Ademas tenemos

L∞ = L∞(Ω,A, µ) = f : µ(|f | > K) = 0, para algun K > 0.

Page 114: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

112 Capıtulo 3. Probabilidad

En particular, L1(Ω,A, µ) es el espacio de las funciones integrables con respecto de µ.Analogos resultados se obtienen para las funciones Lp; esto es, Lp es un espacio vectorialsobre R y si definimos la norma

||f ||p ≡(∫|f |pdµ

)1/p

,

entonces Lp es un espacio lineal normado para 1 ≤ p ≤ ∞. Si µ es la medida de conteo enR

Lp = `p.

Resumimos las propiedades mas importantes de la norma ||f ||p en el siguiente resultado.

Proposicion 3.4.15. (a) (Desigualdad de Holder). Sea f ∈ Lp y g ∈ Lq, p > 1, 1p

+ 1q

= 1

(o bien, p y q son ındices conjugados). Entonces fg ∈ L1 y ‖fg‖1 ≤ ‖f‖p ‖g‖q .

(b) (Desigualdad de Minkowski). Si f, h ∈ Lp, p ≥ 1, entonces f + h ∈ Lp y

‖f + g‖p ≤ ‖f‖p + ‖h‖p .

Decimos que una funcion h es una funcion escalonada si es de la forma

h =n∑i=1

ci1Ai ,

con n <∞, ci ∈ R y los Ai son intervalos acotados disjuntos. El siguiente es un teorema deaproximacion importante en espacios Lp.

Teorema 3.4.16. Sea f ∈ Lp(R,B(R), λ), y 0 < p <∞. Entonces para cada δ > 0, existenuna funcion escalonada h y una funcion continua g con soporte compacto (que se anula fuerade un conjunto acotado) tales que ∫

|f − h|pdλ < δ,∫|f − g|pdλ < δ.

Observacion 3.4.17. (a) (Fischer-Riesz) Lp(Ω,A, µ), 1 ≤ p < ∞, es un espacio de Ba-nach, es decir, es completo con respecto a ‖·‖p ; o bien, toda sucesion de Cauchy esconvergente.

Page 115: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

3.4. Integral de Lebesgue 113

(b) Si p = 2, L2(Ω,A, µ) es espacio de Hilbert, con producto interno

〈f, g〉 =

∫fgdµ, f, g ∈ L2,

donde 〈·, ·〉 cumple:

i) 〈f1 + f2, g〉 = 〈f1, g〉+ 〈f2, g〉 , f1, f2 ∈ L2.

ii) 〈αf, g〉 = α 〈f, g〉 , ∀α ∈ R.iii) 〈f, g〉 = 〈g, f〉 .iv) 〈f, f〉 ≥ 0 y 〈f, f〉 = 0 ⇐⇒ f = 0.

v) ‖f‖22 = 〈f, f〉 .

Decimos que f, g son ortogonales si:∫fgdµ = 0.

El producto interno 〈·, ·〉 cumple la ley del paralelogramo:

‖f + g‖22 + ‖f − g‖2

2 = 2 ‖f‖22 + 2 ‖g‖2

2 .

(c) El espacio L∞ = L∞(Ω,A, µ) consiste en todas las clases de equivalencia de funcionesreales que son acotadas µ-c.t.p.

Si N ∈ Ω, µ (N) = 0 definimos S (N) = sup |f (x)| : x /∈ N , y

‖f‖∞ = ınf S (N) : µ (N) = 0 .

Decimos que f es esencialmente acotada si ademas cumple lo siguiente:

i) ‖f‖∞ es norma.

ii) L∞ es espacio de Banach (Dual de L1).

iii) Si A < ‖f‖∞ , A > 0, entonces existe E ∈ Ω con µ (E) = 0 tal que |f (x) > a| , paracada x ∈ E.

Definicion 3.4.18 (Convergencia en Lp). Sean 1 ≤ p < ∞ y f, f1, f2, . . . funciones en

Lp(µ). Decimos que la sucesion (fn)n≥1 converge en Lp(µ) a f , y escribimos fnLp−→ f si

‖fn − f‖p −→ 0 cuando n −→∞.

Observamos que si fnLp−→ f y fn

Lp−→ g entonces f = g µ-c.t-p..Hablaremos de convergencia en Lp de variables aleatorias en la Seccion 3.5.1.En el Apendice C, sobre variables aleatorias en espacios de Banach, se presentan condi-

ciones para la separabilidad de los espacios Lp.

Page 116: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

114 Capıtulo 3. Probabilidad

3.4.4. Construccion de medidas a partir de la integral: la densidad

El siguiente resultado nos permite construir medidas en (X,A) a partir de funcionesintegrables con respecto a una medida µ en (X,A).

Teorema 3.4.19. Sea (X,A,µ) un espacio de medida y f : X→ [0,∞) una funcion medible.Para cada A ∈ A definimos

m(A) =

∫A

fdµ.

Entonces:

1. m es una medida en (X,A). En particular, si∫fdµ = 1, decimos que f es densidad

de m con respecto a µ en cuyo caso m es una medida de probabilidad.

2. Si µ(A) = 0 para A ∈ A, entonces m(A) = 0.

Una densidad es unica µ casi seguramente y en general supp(m) ⊂ supp(µ).

Definicion 3.4.20. Sean µ y ν dos medidas.

1. Decimos que ν es absolutamente continua con respecto a µ si µ (A) = 0⇒ ν (A) = 0,y escribimos que ν µ.

2. Si ν µ y µ ν, entonces decimos que ν y µ son equivalentes y escribimos µ ∼ ν.En este caso supp(ν) = supp(µ).

Cuando dos medidas no son equivalentes, es posible que sean singulares en el siguientesentido.

Definicion 3.4.21. Decimos que una medida µ esta concentrada en un conjunto A-medible E si µ(Ec) = 0.

Dos medidas µ y ν son mutuamente singulares (o simplemente singulares) u ortogo-nales si existe un conjunto A-medible E tal que µ esta concentrado en E y ν esta concentradaen Ec.

Uno de los teoremas mas relevantes sobre generacion de medidas a partir de medidasσ–finitas es el siguiente.

Teorema 3.4.22 (Radon-Nikodym). Sean ν, µ dos medidas σ-finitas en (X,A) tales queν µ. Entonces, existe una funcion medible f ≥ 0 (es unica µ−c.s.) tal que

ν(A) =

∫A

fdµ

se cumple.

Page 117: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

3.5. Especificacion de modelos de probabilidad usando densidades 115

La funcion f se conoce como la derivada de Radon-Nikodym de ν con respecto a µ y seescribe

f =dν

dµ.

Si se cumple que ν τ y τ µ, entonces ν µ y

dµ=dν

dµ,

Si µ ∼ νdµ

dν= (

dµ)−1.

3.5. Especificacion de modelos de probabilidad usando

densidades

De ahora en adelante consideraremos (Ω,A,P) un espacio de probabilidad, (X,ρ) unespacio metrico con σ-algebra de Borel B(X) y M subconjunto de X con σ-algebra de BorelB(M).

3.5.1. Transformacion de variables aleatorias, momentos y conver-gencia

Recordemos varios conceptos y resultados sobre variables aleatorias, algunos de los cualesse mencionaron anteriormente.

Definicion 3.5.1. X : Ω→M es variable aleatoria (v.a.) si

X−1(B(M)) ⊂ A.

La distribucion de X es la probabilidad PX en (M ,B(M)):

PX(A) = P(X−1(A)), A ∈ B(M).

Luego, (M ,B(M),PX) es otro espacio de probabilidad.Ademas podemos definir los momentos de una variable aleatoria como hemos mencionado

antes. Sea X v.a. en (Ω, A,P) con distribucion PX en (M ,B(M)) y h : M→R funcion mediblecon ∫

M

|h(x)|PX(dx) <∞.

Page 118: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

116 Capıtulo 3. Probabilidad

Se denota la Esperanza o media de h(X), cuando existe como:

E [h(X)] =

∫M

h(x)PX(dx).

Tres de las desigualdades en probabilidad mas usadas en donde aparece la esperanza sonlas siguientes. Las primeras dos son ejemplos de las llamadas desigualdades de concentracion

Lema 3.5.2 (Desigualdad de Markov). Sea h : M→ [0,∞) funcion medible.

(a) (Calculo de esperanza de variables nonegativas) Se cumple que∫ ∞0

P (h(X) > x) dx = E [h(X)] . (3.5.1)

(b) ∀ ε > 0

P (h(X) > ε) ≤ 1

εE [h(X)] . (3.5.2)

Sera comun tener θ ∈ Θ, con (Θ, dΘ) espacio metrico, g : Mn → Θ, p conveniente yentonces

P (dΘ(g(X1, ...,Xn), θ) > ε) ≤ 1

εE [(dΘ(g(X1, ...,Xn), θ))p] ,

y es usual tratar de probar que el lado derecho tiende a cero si n → ∞ por lo que laprobabilidad tambien tenderıa a cero.

Lema 3.5.3 (Desigualdad de Chebyshev). Sea X una variable aleatoria con media E(X) yvarianza Var(X) finitas. Entonces para todo ε > 0

P (|X−E(X)| > ε) ≤ 1

ε2Var(X).

Lema 3.5.4 (Desigualdad de Jensen). Sea X una variable aleatoria con E |X| < ∞. Siϕ : R→ R es una funcion convexa entonces

E [ϕ(X)] ≥ ϕ(EX).

De la teorıa de espacios Lp de la Seccion 3.4.3, tenemos como caso especial cuando elespacio de medida es un espacio de probabilidad.

Page 119: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

3.5. Especificacion de modelos de probabilidad usando densidades 117

Definicion 3.5.5 (Convergencia Lp de variables aleatorias). Cuando (Ω, A, µ = P) el corres-pondiente espacio Lp(Ω,A, µ), 1≤ p <∞ consiste de las variables aleatorias X con norma

||X||p ≡ (E |X|p)1/p<∞.

Esto nos permite definir convergencia de variables aleatorias en Lp(Ω,A, µ), como la con-vergencia con respecto a esta norma, e identificando variables aleatorias que difieren en unconjunto de probabilidad cero. Ası, decimos que la sucesion de variables aleatorias (Xn)n≥1

converge a la variable aleatoria X en p-media, y escribimos XnLp−→ X, si ‖Xn − X‖p −→ 0

cuando n −→ 0.

Las principales relaciones con otros tipos de convergencia vistos anteriormente se resumende la siguiente manera.

Propiedades 3.5.6. 1. Si 1 ≤ q < p <∞ y XnLp−→ X, entonces Xn

Lq−→ X.

2. Si XnLp−→ X, entonces Xn

Pr−→ X, para 1 ≤ p <∞.

3. Sea 1 ≤ p <∞ y Xn ∈ Lp, n ≥ 1. Si XnPr−→ X y existe Y ∈ Lp tal que

|Xn| ≤ Y µ− c.s.

Entonces X ∈ Lp y XnLp−→ X.

Sean (X,A, µ) un espacio de medida, (Y, C) otro espacio medible y g : X→ Y una funcionA/C− medible. La medida en (Y, C) inducida por g, denotada por µg−1, se define como

µg−1(A) = µ(g−1(A)), A ∈ C.

Teorema 3.5.7 (De la Transformacion). Sea h : Y → [0,∞] una funcion Borel medible.Entonces h es µg−1–integrable, si y solo si h g es µ-integrable, en cuyo caso∫

Yhd(µg−1) =

∫Xh gdµ.

Este teorema, junto con la medida de Lebesgue o la de conteo permiten calcular espe-ranzas de funciones para distribuciones que son absolutamente continuas con respecto a lamedida de Lebesgue o de conteo.

Nos remitimos a la Definicion 3.1.8 para los conceptos de distribuciones absolutamentecontinuas y discretas.

Page 120: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

118 Capıtulo 3. Probabilidad

Proposicion 3.5.8 (Formulas de calculo para esperanzas). Sea X una variable aleatoriacon funcion de distribucion F y sea h : R→ [0,∞] una funcion Borel medible.

1. Si F es absolutamente continua con densidad f , µF es absolutamente continua conrespecto a la medida de Lebesgue y cuando existe, la esperanza de h(X) esta dada por

Eh(X) =

∫Rh(x)µF (dx) =

∫Rh(x)f(x)dx.

2. Si F es una distribucion discreta dada por pnn≥0 , µF es absolutamente continua conrespecto a la medida de conteo c y, cuando existe, la esperanza de h(X) esta dada por

Eh(X) =

∫Rh(x)µF (dx) =

∞∑n=0

h(n)pn.

3.5.2. Medidas de referencia universales, ejemplos y su contexto

Generalmente µ sera una medida de referencia “universal” en (M,B(M)), usualmente unamedida uniformemente distribuida o una distribucion uniforme, f : M −→ [0,∞) sera unafuncion de densidad con respecto a µ:∫

M

f(x)µ(dx) = 1

y la probabilidad de interes esta dada de la siguiente manera:

ν(A) = PX(A) =

∫A

f(x)µ(dx), A ∈ B(M).

De esta manera se proponen modelos de probabilidad especificando una familia de densi-dades fθ(x) : θ ∈ Θ , con Θ un espacio de parametros, con respecto a la misma medida dereferencia µ. Si Θ ⊂ Rp para algun p, el modelo es parametrico. De otra forma el modeloes no-parametrico.

Veamos algunos ejemplos de modelos parametricos.

1. Ω = R, A = B(R) y P dada por una densidad f , con λ como medida de referencia

Page 121: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

3.5. Especificacion de modelos de probabilidad usando densidades 119

a) Modelo exponencial, θ ∈ Θ = [0,∞) (m := E [X] = θ)

fθ(x) =1

θe−x/θ1x≥0.

b) Modelo uniforme en [0, θ], θ ∈ Θ = [0,∞) (m = θ/2)

fθ(x) =1

θ10≤x≤θ.

c) Modelo gaussiano, θ = (m,σ2) ∈ Θ = R× [0,∞)

fθ(x) =1

σ√

2πexp

[− 1

2σ2(x−m)2

], x ∈ R,

con σ2 = EX2 − (m)2 la varianza.

2. Espacio de probabilidad en Rd: Ω = Rd, A = B(Rd), f = Rd→ [0,∞) densidadmultivariada ∫

Rdf(x)dx = 1.

Para A ∈ B(Rd)

P(A) =

∫A

f(x)dx =

∫A

f(x)λd(dx).

La medida de referencia es la de Lebesgue λd en Rd.

a) Modelo normal multivariado en Rd, Nd(m,Σ),

θ = (m,Σ) ∈ Θ = Rd × matriz d× d definida positiva ,

fθ(x) = c (d,Σ) exp

[−1

2(x−m)>Σ−1 1

2(x−m)

], x ∈ Rd,

con c (d,Σ) = (2π)−d/2 det(Σ)−1/2.

b) Σ = Id, m = 0 es la distribucion normal multivariada estandar Nd(0, Id).

Para el caso de modelos no–parametricos tenemos los siguientes ejemplos.

Page 122: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

120 Capıtulo 3. Probabilidad

1. Cuando el parametro a estimar es una probabilidad en (M ,B(M))

Θ = Q | medidas de probabilidad en (M,B(M)) .

2. Cuando el parametro a estimar es una densidad en (M ,B(M))

Θ =

f densidad :

∫M

‖Dpf(x)‖s ν(dx) <∞

en donde Dp denota la p-esima derivada de la funcion f . Este es el caso de estimacionde densidades, tema que se vera en el Capıtulo 5.

3. Cuando el parametro a estimar es el soporte (compacto) de una medida (probabilidad)µ.

Una herramienta importante en inferencia estadıstica es la “distancia de Kullback-Leibler”entre densidades.

Definicion 3.5.9 (Distancia de Kullback-Leibler). Sean f, g densidades con respecto a unamedida de referencia µ en una variedad M . Se define la distancia de Kullback-Leibler entref y g como

DKL(f, g) =

∫M

f(x) log

(f(x)

g(x)

)µ(dx). (3.5.3)

En realidad DKL no es una distancia, ya que solo se cumple que DKL(f, g) ≥ 0 yDKL(f, f) = 0, pero es una herramienta util.

Ejemplos de medidas de referencia y su contexto

En general, se especificamos modelos de probabilidad haciendo enfasis en ejemplos demedidas de referencia en (M ,B(M)) y su contexto como sigue:

M = N, Zd, medida de conteo c o cd.

• Modelos discretos clasicos, redes, graficas.

M = R, medida de Lebesgue en R.

Page 123: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

3.5. Especificacion de modelos de probabilidad usando densidades 121

• Modelos continuos clasicos.

M = Rd, medida de Lebesgue en Rd.

• Estadıstica multivariada clasica.

M = Rd×d, medida de Lebesgue en Rp, p ≤ d.

• Matrices aleatorias.

M ⊂ Rd variedad con distribucion geometrica (uniforme) en M (Sd−1,Td).

• Datos con direccion.

M espacio metrico compacto con distribucion uniforme en M .

• Propiedades geometricas y topologicas.

3.5.3. Densidades conjuntas, marginales, condicionales e indepen-dencia

Usando densidades podemos caracterizar la independencia de variables aleatorias. Sea(M ,B(M)) con distribucion de referencia µ uniforme. Ademas, sean νi medidas de proba-bilidad en (M ,B(M)), con i = 1, ..., d; tales que, νi << µ con funcion de densidad fi,i = 1, ..., d.

Consideramos el espacio producto (M ×· · ·×M,B(M)⊗ · · · ⊗ B(M), ν1×· · ·× νd), conla medida ν1×· · ·×νd << µd = µ×· · ·×µ y funcion de densidad f : M ×· · ·×M → [0,∞).

Si Xi son variables aleatorias en M con distribucion νi, i = 1, ..., d. decimos que X1, ...,Xd

son independientes si y solo si,

f(x1, ..., xd) = f1(x1) · · · fd(xd), µd–c.s.

La prueba de este resultado usa el teorema de Fubini.

En general, incluyendo el caso cuando las variables aleatorias no son independientes, lasdensidades marginales se obtienen a partir de la densidad conjunta f(x1, ..., xd): Una funcionno-negativa f : Md → [0,∞) es densidad conjunta de las variables aleatorias X1, ...,Xd si∫

Md

f(x1, ..., xd)µ(dx1) · · · µ(dxd) = 1

Page 124: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

122 Capıtulo 3. Probabilidad

y la distribucion de X = (X1, ...,Xd) (Definicion 3.2.15) se puede escribir como

PX(A) =

∫A

f(x1, ..., xd)µ(dx1) · · · µ(dxd), A ∈ B(Md).

Para i = 1, ..., d las distribuciones marginales PXi en (M,B(M)), (ver Seccion 3.2.3),tienen densidad fi con respecto a µ dada por la expresion

fi(xi) =

∫M × · · · ×M︸ ︷︷ ︸

d−1 veces

f(x1, ..., xd)µ(dx1) · · · µ(dxi−1)µ(dxi+1) · · · µ(dxd).

Finalmente, dadas las variables aleatorias X1 y X2 la distribucion condicional PX1|X2 deX1 dado X2 (ver Seccion 3.2.3) es tal que PX1|X2 es absolutamente continua con respecto aµ con densidad (llamada densidad condicional) fX1|X2 dada por

fX1|X2 (x, y) =f(X1X2)(x, y)

fX2(y)

suponiendo que fX2(y) > 0. Ademas

P (X1 |X2 = y ) =

∫A

fX1|X2 (x, y)µ(dx).

Reiteramos la observacion de que en cursos de probabilidad avanzada es posible darsentido a la expresion P (X1 |X2 = y ) aun cuando P (X2 = y) = 0.

3.5.4. Ejemplos de densidades en algunas variedades

Densidades en el cırculo y otras variedades aparecen de manera natural en el analisisestadıstica de datos circulares o direccionales. Referencias sobre el tema son los libros deBhattacharya y Bhattacharya [12], Fisher [54], Mardia y Jupp [92]. Se recomienda tambienla tesis de maestrıa de Lilia Karen Rivera [114].

En Rd

Distribucion normal multivariada En primer lugar consideramos la densidad Isotropi-ca normal en M = Rd,

fθ(x) =(2πσ2

)−d/2exp

[− 1

2σ2‖x−m‖2

], x ∈ Rd,

Page 125: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

3.5. Especificacion de modelos de probabilidad usando densidades 123

θ = (m,σ2) ∈ Θ = Rd × [0,∞) . En este caso

ν(A) =

∫A

fθ(x)dx, A ∈ B(Rd)

corresponde a la distribucion normal Nd(m,σ2Id). Observar que ν no es medida uniforme-

mente distribuida en (Rd,B(Rd)), es equivalente a la medida de Lebesgue λd en Rd y esinvariante bajo transformaciones ortogonales por la izquierda si m = 0.

Tambien podemos considerar la densidad Normal multivariada (o multidimensio-nal) en M = Rd,Nd(m,Σ), θ = (m,Σ) ∈ Θ = Rd× Σ > 0 . Si Z es Nd(0, Id),

X = Σ1/2Z +m ∼ Nd(m,Σ)

y viceversa. La prueba de este hecho usa el siguiente teorema.

Teorema 3.5.10 (Cambio lineal de variables de la integral de Lebesgue en Rd). Sea T unamatriz d×d invertible. Para cualquier funcion medible g en Rd, la funcion g T (x) = g(Tx)es medible y si g ≥ 0 ∫

g(x)dx = |detT |∫g(Tx)dx.

Si g es integrable con respecto a λd entonces g T tambien lo es y la igualdad anterior secumple.

El metodo anterior es util para simular v.a. Nd(m,Σ) y el teorema prueba la invarianzabajo transformaciones ortogonales por la izquierda de Nd(0, σ

2Id) tomando g como la densi-dad f(0,σ2)(x) ya que ‖Ox‖2 = ‖x‖2 para cualquier matriz ortogonal O ∈ O(d) y |detO| = 1.

Un teorema mas general de transformacion es el siguiente resultado, el cual es util paraconstruir medidas de volumen en variedades.

Teorema 3.5.11. Sea T : Rk → Rd un mapeo lineal inyectivo con k ≤ d y X = T (Rk). Paracualquier funcion medible g : Rd → R, la funcion g T (x) = g(Tx) es medible y si g ≥ 0∫

X

g(x)λd(dx) =∣∣detT>T

∣∣1/2 ∫Rkg(Tx)λk(dx).

La prueba de este resultado se encuentra en la Seccion 3.2 del libro de Tjur [125].

Con el Teorema 3.5.10 tambien se encuentra la funcion de densidad (multivariada) de ladistribucion Nd(m,Σ):

f(x) = (2π)−d/2 (det Σ)−1/2 exp

[−1

2(x−m)>Σ−1 (x−m)

], x ∈ Rd. (3.5.4)

La matriz de covarianza Σ = (σij) es tal que σij = Cov(Xi,Xj) donde X = (X1, ...,Xd) tieneesta distribucion.

Page 126: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

124 Capıtulo 3. Probabilidad

Distribuciones en la esfera

Uno de los ejemplos pioneros de densidades para variedades es el de von Mises-Fisheren M = Sd−1 =

x ∈ Rd

∣∣ ‖x‖ = 1

, con distribucion de referencia uniforme ωd

fθ(x) = c1 (κ) exp[κx>m

], x ∈ Sd−1,

θ = (m,κ) ∈ Θ = Sd−1 × [0,∞) y c1 (κ) constante. Dicha densidad fue especificada parad = 2 por von Mises en 1918, y para d ≥ 3 por R. Fisher en 1953. Esta distribucion se usa

en el estudio de datos direccionales y juega un papel similar al de la distribucion normal endatos lineales.

Ası, la medida inducida en (Sd−1,B(Sd−1)) es

ν(A) =

∫A

fθ(x)dx =

∫A

fθ(x)ωd(dx), A ∈ B(Sd−1).

El caso en que κ = 0 nos da la distribucion uniforme en Sd−1, f(x) = 1Sd−1(x).

Este ejemplo se puede generalizar a un von Mises-Fisher matricial en M = SO(d),

fθ(x) = c2 (κ) exp[κtr(x>m

)], x ∈ SO(d),

θ ∈ Θ = SO(d) × [0,∞), con respecto a la distribucion uniforme dada por la medida deHaar.

Watson propone ademas el ejemplo en M = Sd−1:

fθ(x) = c3 (κ) exp[κ(x>m

)2], x ∈ Sd−1,

θ = (m,κ) ∈ Θ = Sd−1 × [0,∞) .

Distribuciones en el toro

Mardia en 1975 estudia el caso de una distribucion von Mises bivariada en S1 × S1

como sigue. La densidad fθ(φ, ψ) : [0, 2π]× [0, 2π]→ [0,∞)

fθ(φ, ψ) ≈ exp [κ1 cos(φ− µφ) + κ2 cos(φ− µψ) + gΣ(φ, ψ)]

gΣ(φ, ψ) = (cos(φ− µφ), sin(ψ − µψ))Σ(cos(φ− µφ), sin(ψ − µψ))>;

donde φ, ψ ∈ [0, 2π] , Σ es una matriz 2× 2 (matriz de correlaciones), µφ, µψ son mediasmarginales y

θ = (κ1, κ2,Σ) ∈ Θ = [0,∞)× [0,∞)×M2×2.

La medida de referencia es la distribucion uniforme.

Page 127: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

3.6. Probabilidad en variedades II: medida geometrica 125

3.6. Probabilidad en variedades II: medida geometrica

3.6.1. Medidas definidas por restriccion a una cubierta abierta

En esta seccion presentamos un resultado de interes general, el cual es especialmente utilpara construir la medida geometrica. Dado un espacio de medida (X,A, µ) y un conjuntoA ∈ A se define la medida restriccion de µ a A como µ|A (·) = µ(A∩ ·). El Apendice B tieneinformacion sobre medidas en espacios metricos polacos.

Teorema 3.6.1. Sea X un espacio metrico polaco con σ−algebra de Borel B(X) y seaXi : i ∈ I una familia de subconjuntos abiertos de X tal que X = ∪i∈IXi. Supongamosque para cada Xi hay una medida de Radon µi tal que la siguiente condicion de consistenciase cumple

∀i, j ∈ I, µi|Xi∩Xj= µj|Xi∩Xj

. (3.6.1)

Entonces, existe una unica medida de Radon µ en B(X) tal que µi|Xi= µ para cada i ∈ I.

Este resultado se cumple para espacios localmente compactos, ver Teorema 2.61 en [125].

3.6.2. La medida geometrica (distribucion uniforme)

Vamos ahora a explicar como definir la medida geometrica en una variedad M de di-mension k en Rd. Siguiendo las ideas en la Seccion 3.4 del libro de [125], intuitivamente, lamedida geometrica es el analogo k−dimensional de las medidas de longitud en una curva deR2 o R3 y el area de una superficie de dimension dos en R3. La idea intuitiva es la siguiente:Como vimos en el Capıtulo 2, una variedad de dimension k en Rd es localmente casi isomorfaa un espacio euclidiano k−dimensional; es decir, una parametrizacion local puede ser apro-ximada por una transformacion lineal afın de un conjunto abierto de un espacio tangentek−dimensional. Entonces la medida geometrica es la medida que es localmente casi igual ala medida de Lebesgue en Rk.

Demos una definicion precisa de la medida geometrica en una variedad. Para ello usaremosel lenguaje de variedades parametrizadas visto en la Seccion 1.6.1.

Consideremos p : M ′ −→ Rd una parametrizacion de una variedad k–dimensional Mp =p(M ′). Esto es, M ′ ⊂ Rk es un subconjunto abierto y p es una aplicacion inyectivamenteregular. Luego, para poder usar el Teorema 3.5.11 necesitarıamos que p fuera un mapeoinyectivo lineal, en tal caso la medida geometrica (o medida de Lebesgue) serıa proporcionala la medida de Lebesgue transformada en M ′.

Page 128: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

126 Capıtulo 3. Probabilidad

En el caso general, p es una aplicacion “localmente casi lineal” con lo cual definimos lamedida geometrica en Mp como la medida que es “localmente proporcional” a la medida dep(M ′) con factor de proporcionalidad | detDp>Dp|1/2. Recordamos que Dp es la matriz dela aplicacion lineal que aproxima p localmente. Por lo tanto tenemos el siguiente resultado,consecuencia del Teorema 3.5.11.

Teorema 3.6.2 (Medida geometrica en variedades). Sea p : M ′ −→ Rd una parametrizacionde una variedad k–dimensional Mp = p(M ′), con k ≤ d. Para cualquier funcion medibleg : Rd −→ R+ se cumple que∫

Mp

g(x)λd(dx) =∣∣detDp>Dp

∣∣1/2 ∫M ′g(px)λk(dx).

Estamos sobreentendiendo que p : M ′ −→ Mp, por lo que esto define una medida sobreMp no sobre Rd. En [125] puede observarse con cuidado la demostracion de que esta definiciones independiente de la parametrizacion que elijamos.

Ası, ya que M puede ser cubierta por variedades parametrizadas, y cada una de esasvariedades tiene una medida geometrica, se puede comprobar que esas medidas en conjuntosabiertos de M , satisfacen la condicion de consistencia (3.6.1) del Teorema 3.6.1. Por lo tantoexiste una unica medida en (M,B(M)), tal que la restriccion a cualquier variedad parametri-zada es la medida geometrica. Esta construccion es independiente de la reparametrizacion.

Esta medida se llama la medida geometrica o de volumen de M y la denotaremospor λM . El soporte de λM es M .

Observacion 3.6.3. 1. La mayorıa de los trabajos en la literatura en analisis topologicoy geometrico de datos, se refieren a distribucion uniforme en el sentido de medidageometrica o de volumen, a la medida de probabilidad

P(·) =

∫·

dλMλM(M)

.

No siempre se tiene que λM sea la probabilidad uniformemente distribuida en el sentidoque lo hemos estado usando. Para que se de esta igualdad, la variedad M tiene quetener cierta “simetrıa” y depende de la curvatura, como el caso de la esfera.

2. En general no es facil integrar con respecto a la integral geometrica, ver por ejemplo elCapıtulo 3 del libro de Chavel [29], para una explicacion rapida en el caso de variedadesorientables, el Apendice B del libro de Bhattacharya y Bhattacharya [12], o el libroclasico de Santalo [118]. Un estudio sistematico de medida geometrica, incluyendo elcaso de variedades Riemannianas, se encuentra en el libro de Federer [53].

Page 129: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

3.6. Probabilidad en variedades II: medida geometrica 127

3. Mas adelante, en la seccion 3.6.4, se presentan las formulas para el calculo de la medidade volumen e integrales con respecto a ella.

4. El trabajo de Small ([122]), presenta con detalle la construccion de la medida geometri-ca, en el contexto de estadısticas sobre variedades y formas.

3.6.3. Distribucion uniforme vs probabilidad uniformemente dis-tribuida

Como se menciono en la Seccion 3.6.4 y en la Observacion 3.6.3, el termino distribuciono medida uniforme se emplea en la literatura de analisis topologico y geometrico de datospara referirse a la medida de volumen definida en la seccion anterior. No siempre se cumpleque esta medida es la misma que la probabilidad uniformemente distribuida en el sentido dela definicion 3.3.2.

El siguiente resultado nos da condiciones para que un conjunto sea el soporte de unamedida uniformemente distribuida en Rd; ver detalles en [38] o [84].

Teorema 3.6.4. 1. Un subconjunto compacto A de Rd con probabilidad uniformementedistribuida µ esta contenido en una esfera con centro en el centro de masa.

2. Si µ es una probabilidad uniformemente distribuida en Rk, entonces supp(µ) = H = 0,donde H : Rk → R es una funcion analıtica ( i.e. supp(µ) es variedad analıtica real).

3. El soporte de una probabilidad uniformemente distribuida en R es R, un conjuntodiscreto.

4. Hay tres clases de distribuciones uniformes con soporte acotado en R2:

i) El soporte de la medida es una esfera.

ii) El soporte esta formado por los vertices de un polıgono regular.

iii) El soporte esta formado por los vertices de dos n−polıgonos regulares teniendo elmismo centro y radio.

Hasta donde sabemos, resultados analogos a los incisos (c) y (d) no se conocen paraRd, d ≥ 3.

Finalmente, una propiedad interesante de una medida uniformemente distribuida en Rd

es la integracion de funciones radiales: Sea f una funcion Borel medible no-negativa y y, zen supp(µ), entonces ∫

Rdf(‖x− y‖d)µ(dx) =

∫Rdf(‖x− z‖d)µ(dx);

Page 130: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

128 Capıtulo 3. Probabilidad

ver [104].

3.6.4. Medida de Hausdorff

En esta seccion veremos brevemente como definir una medida mas general en Rd que lamedida de Lebesgue λd la cual es de utilidad para simular variables aleatorias en variedadescon respecto a la distribucion uniforme de volumen. Tres referencias sugeridas para estematerial son el reciente trabajo de Diaconis et al. [43], el libro de Morvan [96] y el trabajode Federer [53].

Para poder definir la medida de Hausdorff ocupamos la metrica euclidiana y el volumende la bola unitaria en Rm:

ωm = λm(B1(0)) =Γ(1

2)m

Γ((m2

) + 1).

Definicion 3.6.5. Sea A ⊆ Rd, se define la medida Hausdorff de dimension m de Amediante

Hm(A) = lımδ−→0

ınfA⊆∪Bi, diam(Bi)≤δ

∑ωm

(diam(Bi)

2

)m;

esto es, el ınfimo se toma sobre todas las cubiertas numerables Bi de A con diametromenor que δ.

A diferencia de la medida de Lebesgue, la medida de Hausdorff no es facil de comprender.Un hecho no trivial es que λd y Hd coinciden en B(Rd) en el sentido de que existe unaconstante kd > 0 tal que Hd = kdλ

d Ademas, si γ es una curva suave compacta inmersa enRd, su longitud desde el punto de vista de Lebesgue, es igual a la medida 1–Hausdorff; locual puede generalizarse como medida de area para subvariedades o subconjuntos de Rd.

Una observacion importante es que esta medida puede definirse para cualquier m ∈ R,siendo el caso particular en que m no es entero conocido como medida fractal de Hausdorff.

3.6.5. Jacobianos, cambio de variable y areas

En primer lugar, daremos las nociones basicas de geometrıa diferencial que ocuparemosen lo sucesivo.

Definicion 3.6.6. Dada una aplicacion f : Rk −→ Rd, si f es diferenciable en x ∈ Rk,definimos el jacobiano de dimension m de f en x, Jmf(x), como el maximo volumende dimension m de la imagen de Df(x) de un cubo unitario de dimension m en Rk; esto es

Jmf(x) = maxC

Vol(Df(x)(C));

Page 131: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

3.6. Probabilidad en variedades II: medida geometrica 129

donde C es un cubo unitario de dimension m.En particular, si el rango de Df(x) es menor que m, entonces Jmf(x) = 0. Ademas, si

k = d = m tenemos queJmf(x) = | detDf(x)|.

En general omitiremos el uso de los subındices y escribiremos simplemente Jf(x). Enun-ciamos entonces el teorema de cambio de variable para (Rd,B(Rd), λd), el cual es una rees-critura con jacobianos de los teoremas presentados anteriormente.

Teorema 3.6.7 (Cambio de variables). Sean U ⊂ Rd abierto y V ⊂ Rd abierto acotado.Si f : U −→ V es una funcion inyectiva diferenciable y f−1 : f(V ) −→ U es continua,entonces:

1. Para cualquier funcion Borel–medible g : Rd −→ R, la funcion φ(x) = g(f(x))Jf(x)es Borel–medible.

2. Ademas, tenemos el calculo respectivo en integrales:∫V

g(y)λd(dy) =

∫U

g(f(x))Jf(x)λd(dx).

Para cualquier A ⊂ Rk y y ∈ Rd escribimos N(f |A, y) para la cardinalidad de la fibra eny:

f−1(y) = x ∈ A : f(x) = y.

Usando la expresion de la integral en el resultado anterior podemos dar la siguiente formulade area.

Teorema 3.6.8 (Formula de area). Si f : Rk −→ Rd es una funcion Lipschitz con k ≤ d.Entonces:

1. Si A ∈ B(Rk): ∫A

Jkf(x)λk(dx) =

∫RdN(f |A, y)Hk(dy).

2. Si ademas g : Rk −→ R es cualquier funcion integrable:∫A

g(f(x))Jkf(x)λk(dx) =

∫Rdg(y)N(f |A, y)Hk(dy) =

∫Rd

∑x∈f−1(y)

g(x)Hk(dy).

Page 132: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

130 Capıtulo 3. Probabilidad

3.7. Ejercicios

Ejercicio 3.7.1. Demuestra que la σ–algebra generada por

S(R) = ∅, (a, b], (b,∞) : −∞ ≤ a < b <∞

es igual a la σ–algebra de Borel B(R).

Ejercicio 3.7.2. Si X1 = X2 = R y A1 = A2 = B(R), demuestra que

σ(S2(R)) = B(R2).

Ejercicio 3.7.3. Dado un subespacio metrico (X,B(X)) de (Rd,B(Rd)), si A ∈ B(X) de-muestra que

OA = Ox : x ∈ A ∈ B(Rd)

para cualquier matriz ortogonal O ∈ O(d).

Ejercicio 3.7.4. Considera la medida de Lebesgue λd en (Rd,B(Rd)). Verifica los siguientes:

1. λd es σ–finita.

2. λd es invariante bajo traslaciones.

3. λd(Sd−1) = 0.

Ejercicio 3.7.5. Prueba el Teorema 3.3.5.

Ejercicio 3.7.6. Demuestra que

λd(Dd) = λd(B1(x)) =πd/2

Γ(d/2 + 1).

Mas aun, para cualquier radio r > 0 se tiene que

λd(Br(x)) =πd/2rd

Γ(d/2 + 1).

Page 133: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Capıtulo 4

Simulacion de variables aleatorias envariedades

En la literatura de ATD, cada vez son mas los trabajos, especialmente los de estadısti-ca, que hacen estudios de simulacion para obtener intuicion sobre los modelos y metodospropuestos, ası como evaluar su comportamiento ante diversas situaciones. Ello requiere depoder simular variables aleatorias con distribuciones de probabilidad en una variedad.

La simulacion estocastica fue creada por John von Neumann hace ya mas de 65 anosy consiste en la generacion en la computadora de pseudo datos en base a un modelo deprobabilidad, o el uso de un modelo a partir de una base de datos. Tambien se conoce como elMetodo Monte Carlo y actualmente es una herramienta importante en matematicas, ası comoen finanzas, ciencias naturales, ciencias de la computacion, ingenierıa y ciencias sociales. Paraaplicaciones contemporaneas en probabilidad, estadıstica y matematicas en general se puedenconsultar los libros de Devroye [41], Jones [72], Roberts y Casella [115] y Thompson [124].

Un aspecto primario en la simulacion estocastica es la generacion de variables pseudoaleatorias con una distribucion de probabilidad dada, para lo cual es esencial un algoritmogenerador de una variable aleatoria U con distribucion uniforme en [0, 1]. El metodo masusual, conocido como metodo de congruencias (propuesto inicialmente por G. Marsaglia),se construye usando teorıa de congruencias de numeros y disenando y aplicando pruebas adhoc de “aleatoriedad”. Una excelente exposicion para estos fundamentos se encuentra en ellibro de Knuth [86]. Con ello, dada una funcion de distribucion F en R y su funcion cuantilF−1, F−1(U ) tiene distribucion F. En forma mas general, a partir del generador de variablescon distribucion uniforme se puede usar el llamado metodo de aceptacion-rechazo paragenerar variables aleatorias en modelos mas generales de probabilidad, el cual, si bien es deaplicacion general, no siempre es eficiente; ver [72], [115], [124].

Hoy en dıa los softwares comerciales y libres incluyen rutinas para generar variables

131

Page 134: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

132 Capıtulo 4. Simulacion de variables aleatorias en variedades

aleatorias con diversas distribuciones, en particular la paqueterıa de R, la cual es usada enlos libros [72], [115].

En el caso de ATD, los modelos de probabilidad a generar son, por ejemplo, variablesaleatorias en variedades mas un error aleatorio, como se menciona en los Capıtulos 3 y 5. Lapaqueterıa de ATD en R incluye (a la fecha de hoy) la generacion de variables aleatorias condistribucion uniforme en la esfera y el toro. El tema de generacion de variables aleatoriascon distribucion uniforme en variedades (usando la construccion de la medida de Hausdorffen la Seccion 3.6.4 y el metodo de aceptacion-rechazo) ha sido expuesto recientemente enDiaconis et al. [43], en donde se ejemplifica el caso de la esfera y el toro inmerso en R3.

El proyecto de los alumnos Gilberto Flores y Yair Hernandez al final de estas notasejemplifican el metodo en [43] tambien en el caso del toro. Incluyen ademas los casos de labotella de Klein -usando una parametrizacion en Franzoni [56]- y la banda de Moebius.

El trabajo reciente de Kent et al. [80] hace una revision de los mejores metodos desimulacion de distribuciones parametricas de datos direccionales en variedades, incluyendoel caso de la esfera, el plano proyectivo, la variedad de Stiefel, el grupo ortogonal especial,entre otras. Entre las distribuciones parametricas consideradas en [80] se incluyen algunasde las presentadas en la Seccion 3.5.4.

En este capıtulo se exponen algoritmos distintos para generar variables aleatorias envariedades los cuales tienen la ventaja de ser facilmente adaptables cuando se considerandistribuciones diferentes a la uniforme y las familias parametricas. El caso de la distribucionuniforme en Sd fue propuesto por Muller [97] en 1959 y popularizado por Marsaglia [93] y sesabe que es un metodo lento. El objetivo, sin embargo, es contar con modelos de probabilidadsencillos que hagan enfasis en el soporte no uniforme de la variedad, lo cual tiene dos ventajas.La primera es que se trata de distribuciones que permiten una interpretacion a la realizacionde variables aleatorias con esa distribucion las cuales estan sujetas a efectos de repulsion,correlaciones o colas pesadas. La segunda es que son alternativas faciles de implementarque permiten analizar y comparar los diversos metodos de ATD ante supuestos distintos a ladistribucion uniforme y explorar acerca de la robusticidad de estos metodos ante desviacionesde las suposiciones.

Esto ultimo se muestra en el Proyecto del alumno Jesus Perez Angulo, al final de estasnotas, en donde tambien se exponen los algoritmos Mapper y complejos testigos para ATD. Elproyecto incluye un estudio de simulacion amplio para analizar caracterısticas homologicas,geometricas y de costo computacional para comparar estos y los metodos usuales de ATDante diversos escenarios de distribuciones, consideraciones de error y tamano de muestra, enlos casos de las variedades S1,S2 y T2.

Page 135: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

4.1. Variables aleatorias en la esfera 133

4.1. Variables aleatorias en la esfera

El metodo usual para generar variables aleatorias con distribucion uniforme en S1 esconsiderar S1 =

eiθ : 0 ≤ θ ≤ 2π

y generar a θ como una variable aleatoria con distribu-

cion uniforme en [0, 2π]. Distribuciones alternativas sugieren usar una distribucion en [0, 2π]distinta a la uniforme.

Esto es equivalente a considerar la parametrizacion de la esfera (cos θ, sin θ), con θ ∈[0, 2π]. Sin embargo no siempre se cumple que considerar distribucion uniforme en los parame-tros de una variedad nos dara la distribucion uniforme en la variedad.

En esta seccion presentamos un metodo diferente para generar variables aleatorias condistintas distribuciones en Sd−1 y sus productos cartesianos, lo cual permite considerar as-pectos alternativos de modelacion con distribuciones de facil interpretacion a la realizacionde variables aleatorias con estas distribuciones. Recordemos de la Seccion 3.3.6, que dadocualquier vector aleatorio Xd = (X1, . . . ,Xd) con distribucion µ en (Rd,B(Rd)) y tal queP(| ‖Xd‖ = 0) = 0 se tiene que

R =

(X1

||Xd||, . . . ,

Xd

||Xd||

)(4.1.1)

es una variable aleatoria en (Sd−1,B(Sd−1)) cuya distribucion es la medida inducida

µR(A) = µ(R−1(A)), A ∈ B(Sd−1).

En particular, como se menciono en la Seccion 3.3.5, si Xd = (X1, . . . ,Xd) tiene distribu-cion normal N(0, Id), R tiene probabilidad uniformemente distribuida en Sd−1.

Nos referimos a esta construccion como distribucion cociente Rd/Sd−1 de variables alea-torias o simplemente distribucion cociente.

Estamos interesados en distribuciones alternativas a la uniforme que ofrezcan posibili-dades diversas de modelacion y permitan una interpretacion a la realizacion de variablesaleatorias con estas distribuciones. En particular en las siguientes secciones describimos ca-sos de modelacion con variables aleatorias que exhiben correlacion, fuerza de repulsion ycolas pesadas.

4.1.1. Distribucion cociente de una normal multivariada

Consideremos el vector aleatorio Xd = (X1, . . . ,Xd) con distribucion normal multivariadaNd(m,Σ) y funcion de densidad (3.5.4) y tomemos m = 0. Cuando Σ = Id, R tiene laprobabilidad uniformemente distribuida en Sd−1.

Page 136: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

134 Capıtulo 4. Simulacion de variables aleatorias en variedades

En la siguiente figura se muestra una simulacion de mil variables aleatorias con distribu-cion uniforme en S2.

Figura 4.1: Simulacion 1000 variables aleatorias con distribucion uniforme en S2.

Si la matriz de covarianza Σ = (σij) no es un multiplo de la identidad, la distribuciontiende a concentrarse en partes de la esfera dependiendo de las correlaciones σij. En lassiguientes graficas se muestran nubes de puntos para diversas posibilidades de eleccion deΣ y los correspondientes efectos en la distribucion de puntos en S1 y S2. Existen zonas quetienen una mayor concentracion de puntos.

Figura 4.2: Simulacion 300 variables aleatorias con distribucion cociente de una distribucionnormal bivariada con dependencia en S1.

Page 137: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

4.1. Variables aleatorias en la esfera 135

Figura 4.3: Simulacion 1000 variables aleatorias con distribucion cociente de una distribucionnormal trivariada con dependencia en S2.

4.1.2. Distribucion cociente con fuerzas de repulsion en la esfera

El modelo de esta seccion es util para describir fenomenos en donde las observacionesen la nube de puntos estan sujetos a una fuerza de repulsion. El modelo esta basado en elcomportamiento de valores propios de matrices aleatorias.

Consideremos la matriz aleatoria simetrica Z = (Zij) d× d, donde Zij, 1 ≤ i ≤ j ≤ d sonvariables aleatorias independientes y cada Zij tiene distribucion normal N(0, 1 + δij). Se diceque Z es una matriz GOE (Gaussian Orthogonal Ensemble).

La densidad multivariada f de los eigenvectores X1, ...,Xd de la matriz Z es bien conocidaen la teorıa de matrices aleatorias; ver por ejemplo el Teorema 2.5.2 y la Observacion 2.5.3en el libro [3]. Su formula explıcita es

f(x) = cd exp(−1

4‖x‖2)

∏i<j

|xj − xi| , x = (x1, ...xd) ∈ Rd (4.1.2)

donde cd > 0 es una constante que solo depende de la dimension d.

Observe que esta densidad es estrictamente positiva, por lo que no solo los eigenvectoresno coinciden, sino que estos se repelen. Ademas, debido a la caracterizacion de independenciaen terminos de densidades que se presento en la Seccion 3.5.3, los eigenvectores X1, ...,Xd no

Page 138: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

136 Capıtulo 4. Simulacion de variables aleatorias en variedades

son independientes. Esto ultimo era de esperarse, pero de (4.1.2) observamos que estos sonfuertemente dependientes y tienen una fuerza de repulsion.

De hecho, una dependencia mas fuerte se observa en los valores propios de una matrizGUE (Gaussian Unitary Ensemble): Sea Z = (Zij) una matriz hermitiana d × d , dondeReZij, ImZij, 1 ≤ i, j ≤ d son variables aleatorias independientes y ReZij, ImZij tienen dis-tribucion normal N(0, 1

2(1 + δij)). En este caso la densidad conjunta de los valores propios

X1, ...,Xd de la matriz Z es

f(x) = cd exp(−1

2‖x‖2)

∏i<j

|xj − xi|2 , x = (x1, ...xd) ∈ Rd (4.1.3)

donde cd es una constante positiva que solo depende de d.Es de esperarse que en ambos casos la distribucion de puntos inducida por

R = (X1, . . . ,Xd) /| ‖Xd‖

en Sd−1 refleje esta fuerza de repulsion.A continuacion se muestran graficas de nubes de puntos generados con estas distribucio-

nes, donde se observa el fenomeno de repulsion en el caso de las correspondientes distribu-ciones en S1 y S2, partiendose en semiesferas y cuartos de esferas que se repelen.

Figura 4.4: Simulacion 300 variables aleatorias con distribucion cociente GOE en S1.

Page 139: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

4.1. Variables aleatorias en la esfera 137

Figura 4.5: Simulacion 300 variables aleatorias con distribucion cociente GUE en S1.

Figura 4.6: Simulacion 1000 variables aleatorias con distribucion cociente GOE en S2.

Page 140: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

138 Capıtulo 4. Simulacion de variables aleatorias en variedades

Figura 4.7: Simulacion 1000 variables aleatorias con distribucion cociente GUE en S2.

Cuando se consideran los valores propios ordenados X1 < . . . < Xd la densidad corres-pondiente es d! veces (4.1.2) (o 4.1.3) considerada sobre la camara de Wely −∞ < x1 <· · · < xd <∞.

En general, los modelos de repulsion no son particulares de los eigenvectores de unamatriz con entradas gaussianas. Numerosos modelos de las matrices aleatorias presentaneste fenomeno, pero la densidad tiene una expresion amigable en el caso GOE y GUE.

4.1.3. Distribucion cociente de colas pesadas

Finalizamos con un modelo que es util cuando se consideran fenomenos con colas pesadas,es decir la probabilidad de observaciones mayores que un numero grande es alta.

Consideremos la densidad de Cauchy univariada

f(x) =1

π

1

1 + x2, x ∈ R.

Esta es una densidad con colas pesadas, en el sentido de que si X es una variable aleatoriacon esta distribucion, entonces P(X > r) no decae rapidamente cuando r →∞. Por ejemplola distribucion normal no tiene colas pesadas, pues estas decaen exponencialmente. Sea Xd =(X1, . . . ,Xd) con X1, . . . ,Xd variables aleatorias independientes con la misma distribucion deCauchy. En este caso la distribucion de ‖Xd‖ tambien tiene colas pesadas y el efecto en ladistribucion de puntos de R = (X1, . . . ,Xd) /| ‖Xd‖ en S1 es que los puntos tienen mayorconcentracion en los puntos cardinales, y en el caso de S2 ocurre un fenomeno similar. Estose ilustra en la siguientes figuras.

Page 141: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

4.2. Variables aleatorias en el toro 139

Figura 4.8: Simulacion 300 variables aleatorias con distribucion cociente Cauchy en S1.

Figura 4.9: Simulacion 1000 variables aleatorias con distribucion cociente Cauchy en S2.

4.2. Variables aleatorias en el toro

Recordemos que por el Teorema de medida producto y la construccion de variables alea-torias independientes de la Seccion 3.3.6, el construir distribuciones en la esfera Sd−1 nospermite construir variables aleatorias con distribucion la medida de probabilidad producto

Page 142: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

140 Capıtulo 4. Simulacion de variables aleatorias en variedades

en espacios de productos cartesianos de la esfera, en particular en el toro T2 = S1 × S1, omas generalmente en Td = S1 × · · · × S1.

De esta manera, si R1, ...,Rd son variables independientes con cierta distribucion µ enS1, el vector aleatorio

Td = (R1, ...,Rd) (4.2.1)

tiene distribucion µd = µ× · · · × µ︸ ︷︷ ︸d

en Td como elemento de R2d.

4.2.1. Distribucion uniforme como elemento en R2d y R3

En particular, Td tiene distribucion uniforme en Td (la cual el uniformemente distribuidapor el Teorema 3.3.5) si cada Ri tiene distribucion uniforme en S1.

Como se aprecia en la siguiente grafica, la medida inducida por la inmersion de T2 enR3 es ligeramente distinta de la distribucion uniforme. Una pregunta natural es ¿que distri-bucion deben tener las variables aleatorias T2 = (R1,R2) para que esta inmersion tenga ladistribucion uniforme? La respuesta en el caso del toro se encuentra en el trabajo de Diaconiset al. [43].

Figura 4.10: Simulacion 1000 variables aleatorias con distribucion inducida por la uniformeen la inmersion de T2 en R3.

Page 143: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

4.2. Variables aleatorias en el toro 141

Figura 4.11: Nube de puntos en el toro con distribucion uniforme.

Usando un metodo directo en Diaconis et al. [43], el proyecto de los alumnos GilbertoFlores y Yair Hernandez muestra como generar variables aleatorias directamente en el toroen R3. Este es el metodo que usa la librerıa de R. La siguiente imagen muestra una nubede puntos en el toro con distribucion uniforme, generada con este metodo.

4.2.2. Fuerza de repulsion en el toro

Si R1, ...,Rd son variables independientes con distribucion con fuerza de repulsion µ enS1, como en la Seccion 4.1.2, el vector Td dado por (4.2.1) tiene una distribucion µd quepresenta tambien fuerzas de repulsion. En el caso d = 2, esta repulsion se observa en ladistribucion inducida por la inmersion de T2 en R3, como se puede apreciar en las siguientesimagenes.

Page 144: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

142 Capıtulo 4. Simulacion de variables aleatorias en variedades

Figura 4.12: Simulacion 1000 variables aleatorias con distribucion en T2 con distribucionmarginal GOE en S1.

Figura 4.13: Simulacion 1000 variables aleatorias con distribucion en T2 con distribucionmarginal GUE en S1.

4.2.3. Otras distribuciones

Con la misma idea se pueden generar variables aleatorias Td en el toro Td a partir decualquier distribucion µ en S1. A continuacion se pueden apreciar los casos T2 cuando µ es

Page 145: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

4.2. Variables aleatorias en el toro 143

una distribucion cociente multivariada y de Cauchy en S1 como en las Secciones 4.1.1 y 4.1.3respectivamente.

Figura 4.14: Simulacion 1000 variables aleatorias con distribucion en T2 con distribucionmarginal cociente bivariada en S1.

Figura 4.15: Simulacion 1000 variables aleatorias con distribucion en T2 con distribucionmarginal Cauchy en S1.

Page 146: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

144 Capıtulo 4. Simulacion de variables aleatorias en variedades

4.3. Variables aleatorias en la botella de Klein y la ban-

da de Moebius

Como se menciono anteriormente, cuando se tiene una variedad parametrizada, no siem-pre se cumple que considerar distribucion uniforme en los parametros nos dara la distribucionuniforme en la variedad. Un metodo general para generar variables aleatorias con distribu-cion uniforme en una variedad se presenta en Diaconis et al. [43], el cual se basa en la medidade Hausdorff y el metodo de aceptacion-rechazo. Esto es el tema del proyecto de los alumnosGilberto Flores y Yair Hernandez, quienes presentan los casos de la botella de Klein y labanda de Moebius.

Con respecto a generacion de variables aleatorias con otras distribuciones en estas varie-dades, en la direccion de las distribuciones alternativas consideradas en la esfera y el toro enlas secciones anteriores, es un tema en el que estamos trabajando y pensamos incluirlo enestas notas en un futuro.

4.4. Variables aleatorias en otras variedades

Queda por explorar la generacion de variables aleatorias en el plano proyectivo, en pega-dos de variedades y en variedades 2-estratificadas. Abordaremos este tema en un futuro.

Page 147: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Capıtulo 5

Inferencia Estadıstica

El objetivo de este capıtulo es definir los elementos basicos y establecer notacion y no-menclatura de inferencia estadıstica. Todo ello es pertinente en el contexto de ATD, debido aque la razon de ser de ATD es de facto el descubrimiento de propiedades desconocidas de unobjeto con base en el analisis de una nube de puntos. Veremos que esto plantea de entradaun problema formal de inferencia, y que el reto principal de esta parte sera como cuantificarla incertidumbre de la aseveracion que se hace respecto a dicha propiedad desconocida. Enefecto, los diagramas de persistencia (o los codigos de barras) son instrumentos de inferencia,y sera deseable poder complementar su calculo con nociones que informen sobre la calidado precision del resultado, o bien de la incertidumbre en la que se incurre cuando se utilicenpara hacer alguna afirmacion. En la practica esto equivale a reconocer que un diagramade persistencia incluye ruido e incertidumbre, y este es el objeto de estudio de inferenciaestadıstica. La teorıa de probabilidad del capıtulo anterior sera fundamental.

Para exposiciones introductorias de estadıstica matematica, puede consultarse Roussas[117] y Wasserman [128].

5.1. Premisa principal de un problema de inferencia

estadıstica

Se observa una realizacion de un fenomeno aleatorio, digamos X. Este puede ser unelemento aleatorio de varios tipos: numero (variable aleatoria), un vector de dimension finita(vector aleatorio), una funcion, etc.

La premisa principal es que el caracter aleatorio de X se concibe como una realizacion deun fenomeno aleatorio que tiene una distribucion de probabilidad P, donde la distribucion P

145

Page 148: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

146 Capıtulo 5. Inferencia Estadıstica

es desconocida ya sea en su totalidad o en algun detalle especıfico (por ejemplo, su soporte,su media, etc.). Es de interes conocer P. Si la medida de probabilidad P fuese conocida,entonces no hay problema estadıstico propiamente, pues el problema estadıstico tiene quever con inferir la propiedad desconocida de P con base en X.

La observacion X esta dada, por lo que no hay incertidumbre tal como la hay en la teorıade probabilidad desarrollada anteriormente en el curso. Antes, fue concebida una estructura(Ω, F ,P) para enfrentar el que haya incertidumbre acerca del valor de X. En el problemaestadıstico, el valor de X ha sido observado, y la incertidumbre radica en otro punto: Radicaen que existe duda acerca de cual P es la que produjo el valor X. En algunas ocasionesse utilizan los terminos incertidumbre estocastica e incertidumbre inductiva para distinguirestos dos tipos. Es comun que estos se confundan entre sı, porque en estadıstica matematicala teorıa de probabilidad constituye tambien una de las maneras naturales de afrontar lacuantificacion de incertidumbre inductiva. En cualquier caso, el concebir a P como medidade probabilidad es la base para formular soluciones a la incertidumbre inductiva. Con estelenguaje, probabilidad y estadıstica son problemas diferentes y de cierta manera inversos.Teorıa de probabilidad tiene que ver con cuantificar incertidumbre acerca de X y teorıaestadıstica con cuantificar incertidumbre acerca de P a la luz de haber ya observado X.

5.2. Conceptos basicos de estadıstica matematica

5.2.1. Modelos estadısticos

El primer paso para abordar un problema estadıstico es concebir el conjunto de medidasde probabilidad que pudieran contener a P. Pudiera decirse que se trata de identificar unconjunto de medidas “sospechosas” o “posibles”. Tiene analogıas directas con concebir unconjunto de causas que producen los sıntomas X en medicina, o concebir un conjunto desospechosos que hayan podido producir las pruebas X en una investigacion policial. Enambos casos, el problema planteado es de inferencia.

Definicion 5.2.1. Un modelo estadıstico M es un conjunto de medidas de probabilidad.

Como una medida de probabilidad puede especificarse por diversos dispositivos, es comundenotar un modelo estadıstico como un conjunto de funciones de densidad, funciones dedistribucion, funciones generadoras de probabilidad, u otros medios por aparte de medidasde probabilidad propiamente dichas. Matematicamente un modelo estadıstico no es mas queun subconjunto de medidas de probabilidad, pero en la practica la eleccion de M puede noser inmediata. La idea es seleccionar M de tal manera que sea lo mas chico posible pero

Page 149: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

5.2. Conceptos basicos de estadıstica matematica 147

que el riesgo de excluir a la medida desconocida P es muy bajo. En lo general, esta elecciones arte-ciencia, como lo es la formulacion de cualquier modelo matematico en la practica.(En la practica medica, la nocion analoga a modelo se llama diagnostico diferencial, y en lainvestigacion judicial el conjunto analogo suele llamarse lıneas de investigacion). La eleccionM como todas las medidas de probabilidad posibles, es posible pero no conveniente. La razonheurıstica es que la incertidumbre inductiva tiende a ser mayor entre mayor o mas complejosea M.

Definicion 5.2.2. Se dice que un modelo estadıstico es parametrico si puede escribirse co-moM =

Pθ | θ ∈ Θ ⊂ Rk

. En este caso, θ recibe el nombre de parametro y Θ el de espacio

parametrico. Notar que si el modelo es correctamente especificado, entonces la presunciones que existe un valor de θ tal que P = Pθ. En caso de no ser posible esta representacion,entonces se dice que el modelo es no-parametrico. Se dice que el modelo parametrico esidentificable, si θ 6= θ′ implica Pθ 6= Pθ′.

Algunos ejemplos de modelos parametricos son modelos tıpicamente introducidos aun encursos elementales de probabilidad: Ber(p), N(µ, σ2), Poisson(λ), etc. Por otro lado, dentrode los modelos no-parametricos tenemos como ejemplos f | f(x) es simetrica ,f | f tiene media µ , etc.

En ocasiones suele utilizarse el termino semi-parametrico para denotar un modelo que po-see componentes parametricas y no-parametricas. Un ejemplo de un modelos semi-parametri-co es f | f(x) es simetrica con media µ . El modelo de un vector aleatorio

X = αM + (1− α)N(0, I)

vista en el modulo anterior, es tambien semi-parametrico en este sentido, ya que no hayespecificacion parametrica para la probabilidad sobre M pero sı la hay para la componentemezclante, N(0, I).

Ejemplo 5.2.3 (Ejemplo parametrico de juguete). Se observa X = (X1,X2, . . . ,Xn), dondelas entradas son observaciones independientes cada una con distribucion Ber(p). El valor dep se presupone desconocido. La densidad para el vector aleatorio X esta dada por

f(x1, x2, . . . , xn; p) =n∏i=1

pxi(1− p)1−xi = p∑xi(1− p)n−

∑xi .

El parametro es p, y el espacio parametrico (unidimensional) es Θ = (0, 1). El modeloestadıstico es

M =p∑xi(1− p)n−

∑xi | p ∈ (0, 1)

.

Page 150: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

148 Capıtulo 5. Inferencia Estadıstica

Como se ha escrito, el modelo parametrico es identificable. Si se describiera como

M =(q2)∑xi (1− q2)n−

∑xi | q ∈ (−1, 1)

,

el modelo no serıa identificable.

Este modelo se identifica con la situacion del lanzamiento de una moneda n veces, o conla encuesta electoral con respuesta binaria aplicada a n personas. Debido a ello, el ejemploes muy facil de interpretar y entender, y por lo mismo sera utilizado en lo subsiguiente parailustrar diversos conceptos a proposito de estadıstica matematica.

5.2.2. Estadısticas y distribuciones muestrales

Definicion 5.2.4. Una funcion (medible) T de X con valores en Rd recibe el nombre deestadıstica.

La idea es que T (X) es una cantidad observable y calculable con los datos observados X,pues no depende de cantidades desconocidas tales como θ. Otro modo de pensar en T (X) esque es un resumen de los datos. Como X es elemento aleatorio, entonces T (X) tambien loes. Tiene sentido entonces hablar de la distribucion de T (X).

Definicion 5.2.5. La distribucion de T (X) recibe el nombre de distribucion muestral dela estadıstica T.

Es claro que la distribucion muestral de T en general depende de la distribucion que rigea X, digamos P, y que en general tambien pudiera ser desconocida. En el caso de un modeloparametrico para X dado por Pθ , la distribucion muestral de T dependerıa de θ. Hayocasiones en que una funcion de X y θ posee una distribucion que no depende de θ. Estomotiva la definicion de una cantidad pivotal; ejemplos de esta nocion y su importancia seransenalados en lo que sigue.

Definicion 5.2.6. Sea X un vector aleatorio y Pθ un modelo parametrico que lo descri-be. Una funcion C(X,θ) cuya distribucion no depende de θ recibe el nombre de cantidadpivotal.

Ejemplo 5.2.7. En el ejemplo juguete, T (X) =∑

Xi es una estadıstica con valores en R,y su distribucion muestral es Bin(n, p).

Ejemplo 5.2.8. En el ejemplo juguete, sea C(X,p) = (∑

Xi − p) /√

p(1−p)n

. Por el teorema

central del lımite, si n es grande, entonces la distribucion de C(X,p) es aproximadamenteN(0, 1). Esto no es mas que decir que C(X,p), si bien no es una estadıstica, sı es un pivotalasintotico.

Page 151: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

5.2. Conceptos basicos de estadıstica matematica 149

Ejemplo 5.2.9. Con esta nomenclatura, y adelantandonos a una concepcion que se hara masadelante, si X es una nube de puntos, y T (X) es el diagrama de persistencia, entonces T (X)es una estadıstica. En la literatura de ATD, de hecho es usual referirse a tal diagrama comoun resumen topologico, y el significado de la palabra resumen es identico a la acepcion quese acaba de mencionar. La unica diferencia es que el valor de T (X) no radica en Rd sino enun espacio de mayor complejidad.

5.2.3. Funcion de verosimilitud

Definicion 5.2.10 (Verosimilitud). Sea X la observacion, y el modelo estadıstico parametri-co dado por la familia de densidades f(x; θ) . La funcion de verosimilitud es la funcion

L : Θ −→ R

dada por L(θ; X) = f(X; θ).

Como X es aleatorio, la funcion de verosimilitud de facto es un proceso estocastico indexa-do por θ. En estadıstica matematica la funcion de verosimilitud juega un rol muy importante,y explica la razon por la cual la densidad de probabilidad en el capıtulo anterior ocupa unlugar destacado. Uno de los empleos de la funcion de verosimilitud es definir estadısticas conbuenas propiedades.

Definicion 5.2.11. El estimador maximo verosımil de θ, denotado por θMV esta dadopor

θMV = arg supθL(θ; X).

Notar que θMV es una estadıstica, pues es una funcion medible de X. En ocasiones, hayformulas explıcitas para θMV, y en ocasiones el maximo es calculable solo numericamente(pero sigue siendo de cualquier forma estadıstica en el sentido de que no depende de θ sinode X exclusivamente).

Ejemplo 5.2.12. En el ejemplo juguete, la funcion de verosimilitud es

L(p; X) = p∑

Xi(1− p)n−∑

Xi , para 0 ≤ p ≤ 1;

esto es, un polinomio en p. Para maximizar esta funcion, notar que

log [L(p; X)] =(∑

Xi

)log p+

(n−

∑Xi

)log(1− p)

Page 152: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

150 Capıtulo 5. Inferencia Estadıstica

y que

∂plogL(p) =

∑Xi

p− n−

∑Xi

1− p= 0⇒ (1− p)

∑Xi − p

(n−

∑Xi

)= 0

⇒∑

Xi − p∑

Xi − pn+ p∑

Xi = 0

⇒ θMV =

∑Xi

n.

Se trata de un maximo, y coincide con la llamada proporcion muestral.

La estadıstica T (X) constituye un resumen de datos. Sin embargo, ¿Cuando es efectivoun resumen de los datos? Existen nociones disenadas para poder establecer con precision siexiste alguna perdida de informacion por el hecho de utilizar T en lugar de la informacioncompleta, X.

Definicion 5.2.13. Sea f(x; θ) | θ ∈ Θ un modelo estadıstico parametrico. Decimos queuna estadıstica T es suficiente para el parametro θ si existen dos funciones h, g ≥ 0 talesque f(x; θ) = h(T (x), θ)g(x).

Una observacion inmediata es que el estimador maximo verosımil es funcion de la es-tadıstica suficiente. Para ayudar a entender el significado ulterior de suficiencia, es interesantesenalar el siguiente resultado, que da una condicion equivalente que dota de una interpreta-cion alternativa y probabilıstica a T.

Teorema 5.2.14 (Fisher-Neyman). T es suficiente para θ ⇐⇒ P(X | T ) no depende de θ.

Ejemplo 5.2.15. En el ejemplo juguete, la estadıstica T (X1, . . . ,Xn) =∑

Xi es suficientepara p. En efecto, poniendo h(t, p) = pT (1 − p)n−T y g(x) ≡ 1 se verifica la definicion.Tambien se verifica, para x = (x1, x2, . . . , xn) tal que

∑xi = t :

P(X = x | T = t) =P(X1 = x1, . . .Xn = xn,

∑Xi = t)

P(∑

Xi = t)

=P(X1 = x1, . . .Xn−1 = xn−1,Xn = t−

∑n−1i=1 xi)

P(T = t)

=pt(1− p)n−t(nt

)pt(1− p)n−t

=1(nt

) ,lo cual no depende de p. Notar, de paso, que en este caso se trata de la distribucion uniformesobre valores posibles de x.

Page 153: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

5.3. Tipos de problemas estadısticos 151

La interpretacion coloquial es que si T es suficiente para θ, entonces el conocimiento deX no aporta mayor informacion sobre θ que la que ya aporta por sı misma la estadıstica T .En el contexto de ATD, una pregunta interesante es la siguiente: el diagrama de persistencia,visto como una estadıstica T (X), funcion de una nube de datos, X, ¿es suficiente para algunparametro θ? Similarmente, los numeros de Betti calculados para el elemento t de unafiltracion, ¿son suficientes para algun parametro θ?

5.3. Tipos de problemas estadısticos

La premisa principal de las secciones anteriores es que se observa X ∼ P, y que la medidade probabilidad P es desconocida. Antes de comenzar a plantear conceptos (y soluciones)a problemas de estadıstica, es importante reconocer que puede haber distintos grados dedesconocimiento acerca de P, ası como distintas caracterısticas de P que son de interes bajodistintas circunstancias. Existen, correspondientemente, varios tipos de problemas estadısti-cos. En este modulo se abordaran dos problemas especıficos concretos: El problema conocidocomo de estimacion, y el llamado problema de prueba de hipotesis. Existen varios otrosproblemas (clasificacion, prediccion, ordenamiento, agrupamiento, de diseno experimental,y otros), pero nos limitaremos a estimacion y pruebas de hipotesis en virtud de que unagran mayorıa de las aplicaciones de estadıstica abarcan estos dos grandes tipos—incluyendoproblemas de inferencia estadıstica que figuran en la literatura actual de ATD.

5.3.1. Estimacion

El problema de estimacion es aquel en el cual el interes radica en usar X para inferirel valor de alguna cantidad numerica que se quiere conocer para algun contexto dado. Di-cha cantidad numerica pudiera ser el valor θ tal que P es la distribucion Pθ en un modeloparametrico, o el valor (desconocido) de algun funcional estadıstico τ(P) (detalles sobre fun-cionales estadısticos mas adelante). En cualquier caso, la incertidumbre inductiva radica enel valor numerico que posee el valor desconocido.

Ejemplo 5.3.1. Un ejemplo de estimacion en el ejemplo juguete. Supongamos que el interesradica en inferir el valor numerico de p. Se trata de un problema de estimacion parametrica.

Ejemplo 5.3.2. Supongamos que el interes radica en estimar la funcion de distribucionF (x) para un valor fijo de x. Se plantea entonces un problema de estimacion. Si el modeloa considerar es parametrico, dado por F (x; θ), entonces esto se parafrasea en terminos deuna estimacion de θ, pues θ determina F (x; θ).

Page 154: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

152 Capıtulo 5. Inferencia Estadıstica

Ejemplo 5.3.3. Un ejemplo en ATD. Supongamos que el interes radica en inferir el valornumerico de numeros de Betti β0, β1, y β2. Se trata de un problema de estimacion. Losnumeros de Betti serıan caracterısticas numericas que corresponden a la medida de probabi-lidad P que esta dando lugar a la nube de datos observada, X. En particular, tendrıan quever con el soporte de P.

5.3.2. Pruebas de hipotesis

Ahora, para describir el llamado problema de pruebas de hipotesis, supongamos que existeun modelo estadıstico H predeterminado y con un significado notable bajo el contexto dado.Si el interes se limita a inferir acerca del hecho (desconocido) P ∈ H con base en X, se planteaun problema de prueba de hipotesis. La incertidumbre inductiva radica en las posibilidadesP ∈ H (sı o no). El el contexto de modelos parametricos, las hipotesis se pueden parafrasearen terminos de subconjuntos del espacio parametrico Θ. En este ultimo caso es comun usarla notacion “dos puntos”, consistente en anotar el subconjunto concreto de valores de θ queintegran la hipotesis. Ejemplos de esta notacion son H : θ ≤ 2, H : 1 ≤ θ < 2, y H : θ = 2.

Ejemplo 5.3.4. En el ejemplo juguete (visto como encuesta electoral). Si un partido no logra2.5 % pierde su registro. El interes radica en inferir si p < 0.025. La pregunta previa a laeleccion no es “¿Cuanta votacion obtendremos?” sino mas bien “¿Perderemos el registro?”.En terminos del modelo parametrico, la hipotesis es

H =p∑

Xi(1− p)n−∑

Xi : p ∈ (0, 0.025),

lo cual es mas sucinto representar en terminos del subconjunto (0, 0.025) ⊂ Θ, y la notacionH : 0 < p < 0.025. Algo muy importante en este ejemplo es destacar que la hipotesis(0, 0.025) es “predeterminada y con un significado notable”.

Ejemplo 5.3.5. Ejemplo en ATD. Se observa un diagrama de persistencia D. Una preguntade prueba hipotesis serıa “¿D proviene de un objeto que posee diagrama diagonal?”. Notarque esta pregunta difiere de “¿Cual es D?”.

Ejemplo 5.3.6. Otro ejemplo en ATD. “¿El objeto tiene mas de una componente conexa?, oequivalentemente ¿β0 > 1?” Quien haya planteado tal pregunta, otorga un significado notablea esa condicion.

Ejemplo 5.3.7. Otro ejemplo en ATD. Se obtienen diagramas D1, D2, . . . , DN vıa muestrasindependientes de varios individuos. Si la pregunta es “¿Todos los diagramas provienen delmismo objeto topologico?” se plantea una pregunta de prueba de hipotesis. Tendrıa significadonotable por ejemplo, si se trata de pacientes sanos y la topologıa se esta utilizando paradetectar cambios de formas de organos para cierta patologıa.

Page 155: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

5.4. Estimacion 153

Los dos problemas mencionados son fundamentalmente diferentes en estadıstica ma-tematica en virtud de que la incertidumbre inductiva reside en espacios diferentes. La re-levancia de ello sera que para cuantificar incertidumbre inductiva—de lo cual no hemoshablado todavıa—los conceptos y los metodos seran ad hoc para cada situacion. Es comunrazonar que si se resuelve un problema de estimacion, que entonces la solucion al problemade hipotesis vendrıa dada de manera gratuita. El razonamiento es que si infiero el valor de θentonces sabrıa si Pθ ∈ H es cierto o no lo es. Este razonamiento es falaz debido a una razonmuy sutil: Que la respuesta a la pregunta de estimacion no es determinıstica, o 100 % certera.Se trata de una inferencia que contiene posible error ineludible, que serıa retransmitido haciael intento de responder en el segundo paso la pregunta de prueba de hipotesis.

5.4. Estimacion

5.4.1. Estimacion parametrica puntual

Asumiremos por el momento que el objetivo legıtimo es estimacion de θ en un modeloparametrico, para fines de motivar e ilustrar conceptos, resultados matematicos, y ejemplos.Hay varias propuestas en estadıstica matematica para abordar el problema de estimacion.Nos limitaremos a dos ideas primordiales (por ser ideas que ya aparecen empleadas en lite-ratura de ATD): estimacion puntual y estimacion vıa intervalos de confianza.

Definicion 5.4.1. Un estimador puntual para el parametro θ es una estadıstica T (X)con valores en Θ. Es una funcion general de X. Si T (X) es un estimador de θ, es usual quese emplee la notacion θ en lugar de T (X).

Cuando se calcula T (X) para la muestra especıfica observada, su valor numerico se de-nomina estimacion puntual. En tal caso, se suele utilizar la notacion T (x) para reforzar elque se trata de una observacion numerica especıfica de X. De esta manera, T (X) es unvector aleatorio en Rd, mientras que T (x) es un vector en Rd. Similarmente, esta notacion“mayuscula vs. minuscula” se aplica a la funcion de verosimilitud: L(θ; X) es un procesoestocastico indexado por θ, mientras que L(θ; x) es una funcion fija de θ.

A un estimador puntual se le pueden requerir una o varias propiedades deseables. Debidoa que algunas de estas propiedades involucran un tamano de muestra, n, es tambien usualque se denote un estimador puntual como Tn o como θn.

Definicion 5.4.2 (Propiedades clasicas de estimadores). Decimos que la estadıstica Tn ba-sada en n observaciones es consistente si

TnPr−→ θ, ∀θ ∈ Θ.

Page 156: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

154 Capıtulo 5. Inferencia Estadıstica

Decimos que la estadıstica Tn es insesgada para θ si

E(Tn) = θ, ∀θ ∈ Θ.

Decimos que Tn es asintoticamente normal si

√nTn − θsn(θ)

L−→ N(0, 1)

para alguna funcion sn > 0.

Ejemplo 5.4.3. En el ejemplo juguete, la estadıstica∑

Xi/n, obtenida en su momento comoel llamado estimador maximo verosımil para p, es insesgada, consistente, y asintoticamentenormal. En efecto:

E(∑

Xi

n

)= p,∑

Xi

n

Pr−→ p

por la ley de los grandes numeros y

√n

(∑Xin− p)

√p(1− p)

L−→ N(0, 1)

por el teorema central del lımite.

De hecho, en estadıstica matematica las propiedades de consistencia y asintoticidad nor-mal que se han verificado para el estimador maximo verosımil no son privativas de este ejem-plo en particular. Uno de los resultados importantes para el estimador maximo verosımil esel siguiente.

Proposicion 5.4.4. Para una muestra aleatoria i.i.d. de tamano n proveniente de un modeloestadıstico f(x; θ) | θ ∈ Θ con ciertas condiciones tecnicas de regularidad (que incluyenque el soporte de f(x; θ) no dependa de θ, e intercambialidad entre diferenciacion y valor

esperado), sea θn el estimador maximo verosımil. Entonces θnPr−→ θ y

√n(θn − θ

)L−→

N(0, I−1 [θ]), donde I (θ) = −E(∂2

∂2θlog f [X; θ]

).

La cantidad I (θ) recibe el nombre de Informacion de Fisher. La demostracion del resul-tado recurre a expansiones de Taylor y resultados de convergencia tales como la ley de los

Page 157: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

5.4. Estimacion 155

grandes numeros, el teorema central del lımite, y el teorema de Slutsky. El resultado indica

como consecuencia que√n(θn − θ

)/√I−1 [θ] es asintoticamente una cantidad pivotal.

Con relacion a este ejemplo juguete, puede enunciarse un resultado adicional interesanterespecto al estimador pn =

∑Xi/n :

Proposicion 5.4.5. Si S(X1, . . . ,Xn) es cualquier otra estadıstica que de lugar a un esti-mador insesgado para p (por ejemplo X1 o (X1 + X2)/2), entonces

Var

(∑Xi

n

)≤ Var(S).

Se dice entonces que∑

Xi/n es un estimador insesgado de varianza mınima, y esto cons-tituye un ejemplo del concepto de optimalidad en estadıstica matematica. El significado deello es que pn tiene la menor variabilidad teoricamente posible, o bien la menor incertidumbreinductiva. El resultado se sigue de un teorema conocido como cota inferior de Cramer-Rao(ver Roussas [117] o Wasserman [128]), y en su formulacion matematica precisa juega un roltambien la misma Informacion de Fisher antes mencionada.

El valor T (X) invocado como estimacion de θ tiene necesariamente incertidumbre induc-tiva, debido a la aleatoriedad de X. Es decir, T (X) puede bien ser distinto a θ. Un asuntoimportante es como poder cuantificar la magnitud de esta incertidumbre, o bien la “cali-dad” del valor T (X). El reto es poderlo hacer sin tener que recurrir al valor desconocidode θ (porque si se conociera θ no tendrıa interes en inferir su valor, y si lo conociera unopudiera simplemente calcular |T (X)− θ| para cuantificar de manera retrospectiva el errorcometido). El comentario anterior acerca de estimacion insesgada de varianza mınima sirvetambien para ilustrar que la varianza es en sı misma un criterio para evaluar la precision delestimador puntual T . A menor varianza, mayor precision.

5.4.2. Estimacion por subconjuntos

El concepto de estimar θ con un solo valor T (X) (estimacion puntual) es en ocasionesutil y necesario. Sin embargo, a la luz de que hay presente incertidumbre inductiva, es masinterpretable un concepto de estimacion por intervalos (o mas generalmente en dimensionesmayores que uno, por regiones). En lugar de desarrollar la teorıa general, procederemos porvıa de ilustracion en el ejemplo de juguete.

Teorema 5.4.6. Sean X1,X2, . . . ,Xn observaciones independientes con distribucion Ber(p).Sea p = (1/n)

∑Xi (el estimador maximo verosımil para p). Sea α ∈ (0, 1) fijo, Φ la funcion

Page 158: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

156 Capıtulo 5. Inferencia Estadıstica

de distribucion normal estandar dada por Φ(x) =∫ x−∞

1√2π

exp(−u2/2) du y sea zα/2 tal que

Φ(zα/2) = 1− α/2. Definir el intervalo (aleatorio) dado por

In =

(p− zα/2

√p(1− p)

n, p+ zα/2

√p(1− p)

n

).

Entonces

P(In 3 p) −→n→∞

1− α, ∀p.

Demostracion. Por consistencia sabemos ya que pPr−→ p y por asintoticidad normal sabemos

que para todo p,

(p− p)/√p(1− p)

n

L−→ Φ.

Por un teorema de Slutsky obtenemos tambien que para cada p,

(p− p)/√p(1− p)

n

L−→ Φ.

Esto lo que quiere decir es que

P

(−zα/2 < (p− p)/

√p(1− p)

n< zα/2

)−→ 1− α.

Pero el evento −zα/2 < (p− p)/√

p(1−p)n

< zα/2 es equivalente a

p− zα/2

√p(1− p)

n< p < p+ zα/2

√p(1− p)

n.

Al intervalo In, que depende solo de X, se le llama intervalo (asintotico, en este caso)de confianza 1 − α. La idea primordial es que uno puede fijar α, y provocar cobertura(es decir, que suceda el evento In 3 p) con probabilidad 1 − α no importa cual sea elvalor (desconocido) de p. Es muy importante destacar la importancia de que la aseveracionde cobertura se establece ∀p en la proposicion. La razon es que si fuese valida solo para unsubconjunto de valores en (0, 1) y no para los demas, entonces el resultado serıa inutil porque

Page 159: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

5.4. Estimacion 157

estamos bajo la premisa de que el valor de p es desconocido. Tras repasar la demostracion,uno se dara cuenta que estuvo basada en una importante nocion: Que

√n

(∑Xin− p)

√p(1− p)

es asintoticamente una cantidad pivotal.La interpretacion correcta es que de repetir muchas veces la obtencion de X, el intervalo

In cubre el verdadero valor de p con probabilidad 1−α. Todo junto, este dispositivo cumplela funcion de cuantificar incertidumbre acerca de p: El ancho del intervalo tiene que ver con laprecision de la estimacion, y la confianza tiene que ver con la seguridad que se tiene de haberestimado p dentro de esos lımites de precision. No es posible lograr muy alta seguridad y granprecision simultaneamente, porque ambos se encuentran relacionados entre sı. El intervaloformado por I = [0, 1] darıa lugar a un intervalo de confianza 100 % pero la precision queresulta de tomarlo no es util ni informativa. En el otro extremo estarıa un intervalo muyangosto, digamos de semiancho 0.00001, con lo cual la confianza resultarıa ser muy baja.

La forma en que se utilizo la asintoticidad normal para hacer una aseveracion acerca de pda cuenta de porque dicha asintoticidad es una propiedad deseable en un estimador puntual,que en este caso fue para habilitar la construccion de un intervalo de confianza. En general,una region de confianza es un conjunto aleatorio, que depende solo de X, que cumple lacondicion de cobertura. Lo que hemos ilustrado con el ejemplo de juguete es una region deconfianza en dimension uno; de allı que lo hayamos denominado apropiadamente intervalode confianza.

Observacion 5.4.7. Una observacion sutil, pero importante para la plena comprension deeste instrumento conocido como intervalo de confianza. Para describir la propiedad de co-bertura, se ha escrito con toda intencion In 3 p en lugar de p ∈ In. Lo primero se lee “elintervalo In cubre a p” y lo segundo “p cae en In”. Lo segundo no es del todo correcto, debidoa que p es una constante fija, desconocida, que no tiene la capacidad de “caer” en ningunaparte. Mas bien, In contiene o no contiene a p, y es el sujeto gramatical en la aseveracionIn 3 p.

En estadıstica matematica existe el llamado enfoque bayesiano, que con ciertas premisasproduce interpretaciones muy distintas para los instrumentos de inferencia. La metodologıabayesiana no sera abordada en el presente modulo. A la fecha no ha sido desarrollada paraabordar problemas en ATD.

Definicion 5.4.8. Si θ ∈ Θ ⊂ Rd es un parametro d-dimensional, decimos que un subcon-junto R(X) de Θ es una region de confianza 1− α si para todo θ se cumple

P(θ 3 R) = 1− α.

Page 160: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

158 Capıtulo 5. Inferencia Estadıstica

Si se cumple solo P(θ 3 R) −→ 1− α cuando n→∞ decimos que es una region asintoticade confianza. La notacion R(X) enfatiza que la region solo depende de X y que no dependede cantidades desconocidas.

5.4.3. Estimacion de otras cantidades: funcionales estadısticos

Lo expuesto respecto a estimacion esta fraseado en terminos de una cantidad de interesque es el parametro real, θ, de un modelo parametrico. Las nociones de estimacion tambiense aplican para cantidades que son de otra ındole.

Definicion 5.4.9. Sea P una medida de probabilidad. Un funcional estadıstico τ es unafuncion de P en R. Escribimos τ(P), y si la medida P esta caracterizada por una funcionde distribucion F, escribimos τ(F ) abusando de notacion (de la misma manera en que nosreferimos a un modelo estadıstico M como un conjunto de medidas de probabilidad o unconjunto de funciones de distribucion).

Ejemplos de funcionales estadısticos:

τ(F ) =∫x dF (x) (la media asociada a F ).

Mas generalmente, τ(F ) =∫xk dF (x) (el k-esimo momento).

τ(F ) =∫ [x−

∫xdF (x)

]kdF (x) (el k-esimo momento central).

τ(F ) = F (x) para x ∈ R fijo.

τ(F ) = F−1(p) para p ∈ (0, 1) fijo (el p-esimo cuantil).

En ocasiones, un parametro θ es ya directamente un funcional estadıstico. Por ejemplo,si el modelo estadıstico es Poisson(λ) | λ > 0 , entonces λ es el primer momento (ası comoel segundo momento central) de la distribucion que corresponde al valor parametrico λ.

La pertinencia de haber hecho hincapie en funcionales en un contexto de ATD viene de losiguiente: Que los numeros de Betti, βi, a la resolucion t (i.e. los ingredientes fundamentalesde un diagrama de barras) no son parametros, sino funcionales. El diagrama de persistenciateorico es algo similar a un funcional, aunque con valores en un espacio de diagramas depersistencia.

Page 161: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

5.4. Estimacion 159

Definicion 5.4.10. Si X1,X2, . . . ,Xn es una muestra de variables aleatorias, definimos lafuncion de distribucion empırica como

Fn(x) =1

n

n∑i=1

1(Xi≤x)

para x ∈ R.

Existe una definicion mas general para cuando la muestra es de vectores aleatorios yx ∈ Rd. Se relaciona con la llamada distribucion empırica, y tiene que ver con la medida deprobabilidad que asigna probabilidad 1/n a cada uno de los valores contenidos en la muestra.(Este concepto de distribucion empırica sı aparece en literatura de ATD, como en Chazal[35]). En lo que sigue, continuamos con la restriccion al caso d = 1 por facilidad.

Teorema 5.4.11. Sean X1,X2, . . . ,Xn variables aleatorias independientes, cada una confuncion de distribucion F. Entonces:

1. Para todo x ∈ R y n ∈ N fijos,

nFn(x) ∼ Bin [n, F (x)] ,

y por consiguiente

E[Fn(x)

]= F (x)

y

Var[Fn(x)

]=F (x) [1− F (x)]

n.

2. Para todo x ∈ R, Fn(x)Pr−→ F (x), y

√n

Fn(x)− F (x)√F (x) [1− F (x)]

L−→ N(0, 1).

Un resultado de convergencia, mucho mas fuerte que el anterior formulado para cadax fija, es el siguiente. Algunos autores se refieren a el como el teorema fundamental deestadıstica matematica. La razon es que muestra que el problema de inferir una funcion dedistribucion desconocida siempre posee solucion. Ver Shorack & Wellner para formulacionesaun mas generales que la que se enuncia enseguida.

Page 162: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

160 Capıtulo 5. Inferencia Estadıstica

Teorema 5.4.12 (Glivenko-Cantelli). Si X1,X2, . . . ,Xn son variables aleatorias indepen-dientes, cada una con funcion de distribucion F , entonces

supx

∣∣∣Fn(x)− F (x)∣∣∣ c.s.−→ 0.

Si Fn(x) estima de alguna manera a F (x), y el interes radicara en realizar estimacion deuna cantidad τ = τ(F ), entonces la siguiente definicion es natural para producir un estimadorde τ. Serıa posible preguntarse por nociones de consistencia, insesgadez, y asintoticidadnormal que fueron discutidas para estimacion de un parametro θ.

Un resultado interesante que da un detalle acerca de la velocidad con la que se consiguela convergencia en probabilidad implicada por el resultado anterior es el siguiente. En Was-serman (2005) se explica su relevancia para la construccion de bandas de confianza para lafuncion de distribucion F (x), que son conceptualmente similares a la estimacion por vıa desubconjuntos descrita—los subconjuntos son de funciones.

Teorema 5.4.13 (Dvoretzky-Kiefer-Wolfowitz). Si X1,X2, . . . ,Xn son variables aleatoriasindependientes, cada una con funcion de distribucion F , entonces para cualquier ε > 0,

P(

supx

∣∣∣Fn(x)− F (x)∣∣∣ > ε

)≤ 2e−2nε2 .

Definicion 5.4.14. Sea τ = τ(F ) un funcional estadıstico. El estimador de τ definido porτ = τ(Fn) recibe el nombre de estimador bootstrap de τ .

Ejemplo 5.4.15. 1. Si τ(F ) =∫x dF (x), entonces τ = 1

n

∑Xi = Xn. Este estimador

se llama media muestral.

2. Mas generalmente, si τ(F ) =∫xk dF (x), entonces τ = 1

n

∑Xki . Este estimador se

llama k-esimo momento empırico.

3. Si τ(F ) =∫ [x−

∫x dF (x)

]2dF (x), entonces τ = 1

n

∑(Xi−Xn)2, estadıstica conocida

como varianza muestral.

4. Si τ(F ) = F−1(p), τ se llama el p-esimo cuantil empırico. Nota: Si F no es una funcioninvertible, de cualquier forma se define F−1(p) como ınf x ∈ R | F (x) ≥ p .

5. Si τ(F ) =∫etx dF (x) para t en una vecindad de 0, τ se llama funcion generadora de

momentos empırica en t.

Page 163: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

5.4. Estimacion 161

6. Si τ(F ) = var(Xn) y X1,X2, . . . ,Xn son i.i.d. entonces se calcula por teorıa de proba-bilidad que τ(F ) = σ2/n, donde σ2 = Var(Xi). El estimador bootstrap de esta cantidadserıa τ = 1

n2

∑(Xi − Xn)2.

7. Si τ(F ) = Var(sen[Xn

]+ max [X1, . . . ,Xn]

), entonces no serıa facil dar con una ex-

presion analıtica cerrada para τ . ¿Como calcular entonces τ(Fn)?

Se esperarıa que τ(Fn) fuera consistente para τ(F ) si el funcional τ es lo suficientementebien comportado. Esto constituye el objeto de estudio de una disciplina conocida como teorıade procesos empıricos (ver Shorack & Wellner [119]).

Uno generalmente relaciona la nocion de bootstrap con la computadora. En su concepcionbasica, la computadora no juega rol alguno si es que el funcional τ(Fn) es conocido, como lofue para algunos de los ejemplos anteriores, en los que el calculo de τ(Fn) se reduce a unasimple sustitucion. La conexion cultural con la computadora viene en casos en los que τ(Fn)no es conocido analıticamente, o su calculo representa gran dificultad, como en el ultimo delos ejemplos anteriores.

5.4.4. Bootstrap computacional

El metodo conocido como bootstrap (ver Efron & Tibshirani [49]) viene motivado porel siguiente problema: Se cuenta con una muestra X, con distribucion F (desconocida), y elinteres radica en estimacion de la cantidad τ(F ) para algun τ de interes primordial. Si laforma analıtica de τ fuese conocida, entonces un estimador de τ(F ) se obtendrıa sencillamenteevaluando τ(Fn) para algun estimador de la funcion de distribucion F que fuese consistenteen algun sentido. (Para muestreo i.i.d. F, la funcion de distribucion empırica es un ejemplode tal estimador de F ). Sin embargo, si la forma de τ no es accesible ni conocida, el problemase convierte en como calcular τ(Fn).

Supongamos, para fines de ilustracion, que el interes radica en estimar

τ(F ) = Var [T (X1, . . . ,Xn)] ,

donde T es una estadıstica. Tambien pudiera ser tal cantidad de interes E(T ), o FT (x), oF−1T (p), o cualquier otra, pero para el discurso que sigue usaremos Var(T ).

Antes de postular el llamado proceso de bootstrap, hagamos una conexion entre el con-cepto de simulacion de Monte Carlo para calcular τ(F ) = Var(F ), suponiendo que X1, . . . ,Xn

son observaciones i.i.d. con funcion de distribucion fija (conocida) F . Un ejercicio academicode simulacion consistirıa de realizar el siguiente algoritmo:

1. Simular X∗1, . . . ,X∗n i.i.d. F, y calcular T ∗ = T (X∗1, . . . ,X

∗n).

Page 164: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

162 Capıtulo 5. Inferencia Estadıstica

2. Repetir el Paso 1 un numero grande de veces, M, para conseguir T ∗1 , . . . , T∗M .

3. Calcular τ ∗M = (1/M)∑M

i=1(T ∗i − TM)2, donde TM = (1/M)∑M

i=1 T∗i .

Por la ley de los grandes numeros y convergencia de momentos empıricos se tiene que

1

M

M∑i=1

(T ∗i − TM)2 Pr−→ Var(T ) = τ(F ).

La convergencia se cumple no obstante el valor τ(F ) sea desconocido.Para calcular aproximadamente τ(Fn) basta sustituir F por Fn en el algoritmo anterior

en el Paso 1, para obtener el llamado bootstrap no-parametrico:

1. Simular X∗1, . . . ,X∗n i.i.d. Fn, y calcular T ∗ = T (X∗1, . . . ,X

∗n).

2. Repetir el Paso 1 un numero grande de veces, M, para conseguir T ∗1 , . . . , T∗M .

3. Calcular τ ∗M = (1/M)∑M

i=1(T ∗i − TM)2, donde TM = (1/M)∑M

i=1 T∗i .

La clave radica en simular en la computadora muestras i.i.d. de tamano n de la distri-bucion empırica Fn. Tras pensar un poco, uno se da cuenta que esto es equivalente a quecada X∗i se obtiene de muestrar con distribucion uniforme y con reemplazo sobre los valoresobservados X1,X2, . . . ,Xn . Esto es como “muestrear de la muestra” y por ello el meto-do bootstrap es un metodo contenido en una metodologıa general llamada re-muestreo (verLunneborg [91]).

La idea pareciera ser paradojica, pues aparentemente se obtiene mas informacion que lamuestra original X1,X2, . . . ,Xn conlleva por medio de un proceso de obtencion de muestrasartificiales en la computadora. La paradoja se explica notando que no se trata mas que de unmetodo numerico para aproximar τ(Fn). Se invoca a τ(Fn) como un estimador consistente

de τ(F ), lo cual significa que τ(Fn)Pr−→

n→∞τ(F ). Por otra parte, la cantidad τ ∗M aproxima a

τ(Fn) en el sentido τ ∗MPr−→

M→∞τ(Fn) para todo n fijo. La paradoja nace del malentendido

τ ∗MPr−→

M→∞τ(F ).

Existe tambien la idea de bootstrap parametrico. Aplica cuando se tiene un modelo es-tadıstico F (x; θ) | θ ∈ Θ , y la muestra original da lugar a un estimador consistente de θdado por θ (por ejemplo, el estimador maximo verosımil de θ). El algoritmo se modificanuevamente en el Paso 1, generando muestras artificiales con la distribucion F (x; θ) en lugarde Fn :

Page 165: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

5.4. Estimacion 163

1. Simular X∗1, . . . ,X∗n i.i.d. F (x; θ), y calcular T ∗ = T (X∗1, . . . ,X

∗n).

2. Repetir el Paso 1 un numero grande de veces, M, para conseguir T ∗1 , . . . , T∗M .

3. Calcular τ ∗M = (1/M)∑M

i=1(T ∗i − TM)2, donde TM = (1/M)∑M

i=1 T∗i .

Ejemplo 5.4.16. En el ejemplo que hemos llamado juguete, supongamos que T = p yque el interes radica en estimar Var(p). Por razones teoricas hemos ya visto que Var(p) =p(1 − p)/n. Sin embargo, por motivos didacticos podemos suponer que tal formula no fueseconocida. Los metodos bootstrap aplicarıan para obtener estimaciones de Var(p) con baseen una muestra X1, . . . ,Xn. El no-parametrico conlleva simular mediante remuestreo de lamuestra original, mientras que el parametrico simularıa variables Bernoulli independientescon probabilidades p. En ambos casos, se obtendrıan cantidades que aproximan a p(1− p)/n.Mas aun, en esta situacion ambos metodos (parametrico y no-parametrico) consisten demecanismos equivalentes para generar observaciones X∗1, . . . ,X

∗n.

Si la caracterıstica de interes fuese otra diferente a la varianza utilizada en la ilustracion,entonces en el Paso 3 habrıa que sustituir por un estimador consistente de esa caracterıstica.Por ejemplo, si el interes fuese E(T ) se podrıa utilizar la media muestral de las T ∗i .

La nocion general de bootstrap sera utilizada por Chazal [35], y Fasy et al. [52] paraobtener estimaciones numericas de cantidades relacionadas con diagramas de persistencia enATD. La caracterıstica de interes en aquella situacion sera un cuantil de la distribucion decierta estadıstica T en el contexto de ATD y en el Paso 3 se utilizarıa un cuantil empıricode los valores T ∗1 , . . . , T

∗M . Algunos de esos detalles se veran en una seccion mas adelante.

5.4.5. Estimacion de densidades

Cambiamos a un problema estadıstico de estimacion que tiene aplicaciones en ATD muydirectas, especialmente para la construccion de filtraciones. Supongamos que X1, . . . ,Xn esuna muestra de puntos que tienen alguna densidad f(x) absolutamente continua que esdesconocida. El objetivo de la disciplina llamada estimacion de densidades (ver Silverman[121]), consiste del estudio de estadısticas que sean estimadores f(x) de f(x) para todo x.

Un histograma es de facto un estimador de densidad formal, no obstante su primeraintroduccion suele ocurrir aun en educacion elemental. En efecto, el estimador histogramano es mas que una funcion escalonada f(x) tal que si n → ∞ y el numero de clases con la

cual se construye tambien va a infinito, entonces f(x)Pr−→

n→∞f(x) ∀x.

La clase de estimadores kernel (o nucleo, en espanol) es una clase general muy util yconveniente de estimadores de densidad. Se describe a continuacion para dimension uno.

Page 166: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

164 Capıtulo 5. Inferencia Estadıstica

Definicion 5.4.17. Una funcion K : R→ R simetrica alrededor de cero, y tal que∫K(u) du = 1 recibe el nombre de kernel (o nucleo). Notar que no necesariamente se pide

K ≥ 0, por lo que no necesariamente es una funcion de densidad absolutamente continua.Sea X1, . . . ,Xn una muestra de variables aleatorias. Para toda x ∈ R se define el esti-

mador de densidad tipo kernel por

fK,h(x) =1

nh

n∑i=1

K

(Xi − xh

),

donde h > 0 es una constante llamada ancho de banda.

La heurıstica de este estimador es poner una masa de probabilidad de ancho h sobre cadauno de los puntos obtenidos en la muestra. Si K es continua, entonces el estimador kernel esuna funcion continua de x (cosa que no sucede con el estimador histograma). El parametroh juega el papel de un parametro de suavizamiento, en el sentido de que su valor controlael grado de rugosidad de la funcion fK,h(x) (valor alto de h corresponde a funcion suave, yvalor pequeno a funcion rugosa).

Una primera caracterıstica que puede analizarse facilmente es la nocion de consistencia:

Proposicion 5.4.18. Sean X1, . . . ,Xn observaciones independientes e identicamente dis-tribuidas con funcion de densidad absolutamente continua f(x) y x ∈ R fijo. Bajo ciertascondiciones sobre K y f se cumple que

fK,h(x)Pr−→

n→∞, h↓0f(x),

es decir, el estimador kernel es consistente para la densidad f(x).

Demostracion. Para x fijo, y h > 0 fijo, por la ley de los grandes numeros se cumple

1

nh

n∑i=1

K

(Xi − xh

)Pr−→

n−→∞E(

1

hK

[X− xh

])=

∫ ∞−∞

1

hK

(u− xh

)f(u) du

=

∫ ∞−∞

K(y)f(x+ hy) dy.

Tomando ahora el lımite cuando h ↓ 0, se obtiene que∫ ∞−∞

K(y)f(x+ hy) dy −→h↓0

∫ ∞−∞

K(y)f(x) dy = f(x)

∫ ∞−∞

K(y) dy = f(x)

por ser K un kernel. (Entre las premisas del resultado se ponen condiciones que permitanrealizar el intercambio entre integral y lımite aludido).

Page 167: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

5.5. Pruebas de hipotesis 165

En la teorıa de estimacion de densidades se estudian tambien metodos optimos para laseleccion del ancho de banda h, para la seleccion del kernel K, ası como modificaciones paratomar en cuenta diversas complicaciones.

La generalizacion a mayores dimensiones de un estimador kernel basado en una muestrade vectores aleatorios X1, . . . ,Xn de dimension d esta dada por

fK,H(x) =1

n |H|1/2n∑i=1

K(H−1/2 [x−Xi]

),

donde H es una matriz cuadrada, simetrica y definida positiva, y K es un kernel simetricomultivariado (lo cual significa

∫· · ·∫K(x1, . . . , xd)dx1 · · · dxd = 1). Cuando H toma la forma

diag(h21, . . . , h

2d), y K la forma K1(x1) · · ·Kd(xd), con cada Ki un kernel univariado, se obtiene

una forma frecuentemente utilizada dada por

fK,h(x) =1

nh1h2 · · ·hd

n∑i=1

K1

(Xi1 − x1

h1

)· · ·Kd

(Xid − xd

hd

).

La nocion de una densidad estimada con una nube de puntos ha sido invocada paraasuntos de ATD (ver Chazal, y Fasy et al.). Sea f(x) un estimador de densidad multivariadabasado en observaciones de una nube de datos P . Se definen los conjuntos de subnivel dadospor

Lu =x ∈ P | f(x) ≤ u

.

Claramente, Lu ⊆ Lu′ si u < u′, lo cual es afın con la nocion de filtracion. Luego, el estimadorde densidad es instrumental para construir filtraciones alternativas a las filtraciones obtenidaspor incrementar radios de bolas alrededor de puntos x ∈ P .

5.5. Pruebas de hipotesis

5.5.1. Consideraciones basicas

Pasamos ahora a considerar soluciones para el problema de cuantificar incertidumbreinductiva para el problema denominado prueba de hipotesis. Al igual que para estimacion,es un asunto controversial en teorıa estadıstica el establecer una forma correcta y unica parahacerlo. Existen diversas propuestas para abordarlo, y la razon inherente es debida a quepueden proponerse diversas filosofıas para realizar un razonamiento inductivo. Esto contrasta

Page 168: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

166 Capıtulo 5. Inferencia Estadıstica

con un razonamiento deductivo, en el cual no se suscita polemica porque el resultado de unadeduccion permanece invariante; lo unico que puede cambiar es la vıa de la deduccion. (Porejemplo, dos maneras diferentes para demostrar un mismo teorema.)

No es el proposito en este momento despertar ni atender dicha controversia. En estadısticamatematica ello da lugar a debates entre la escuela de Neyman-Pearson y la escuela baye-siana, por mencionar un ejemplo notable, historico y actual. En este modulo se abordarannociones con el objeto de ilustrar los tipos de razonamientos a la luz de incertidumbre in-ductiva, procurando cubrir conceptos que ya estan siendo utilizados en la literatura de ATD.En Robinson & Turner [116], esta metodologıa es referida como NHST (null hypothesissignificance testing) y las ideas generales seran expuestas a continuacion.

Supongamos que se ha planteado un problema legıtimo de prueba de hipotesis en el senti-do descrito con anterioridad en la Seccion 5.3. En esa ocasion, definimos una hipotesis comoun subconjunto de modelos estadısticos. Ahora nos restringiremos al caso llamado hipote-sis simple, que consiste en una hipotesis integrada por un solo elemento. La nomenclaturahistorica es hipotesis nula, para esta hipotesis simple. La nomenclatura proviene de hipotesishistoricamente formuladas para comparar dos tratamientos entre sı; la hipotesis de que am-bos tratamientos son iguales se traduce a que la diferencia entre ellos es cero (de allı hipotesisnula). El objetivo general es evaluar la plausibilidad de la hipotesis nula a la luz de datosobservados, X.

Ejemplo 5.5.1. En el ejemplo juguete, la hipotesis formada por el unico valor, p = 1/2 esuna hipotesis simple. La hipotesis formada por modelos indexados por el conjunto [0, 1/2]no serıa simple. Para entender la intencion de la palabra plausibilidad, podemos aprovechartambien este mismo ejemplo. Si la muestra observada resulta en

X = (1, 1, 1, 1, 0, 1, 1, 1, 1, 1)

entonces la plausibilidad de la hipotesis p = 1/2 es baja, mientras que si la muestra hubierasido

X = (1, 0, 1, 1, 1, 0, 0, 1, 0, 1),

entonces la hipotesis p = 1/2 pasarıa a ser mas plausible. El punto de la teorıa estadısticaes formalizar y cuantificar este razonamiento heurıstico.

Ejemplo 5.5.2. En el contexto de ATD, Robinson & Turner [116] formulan hipotesis enel lenguaje de diagramas de persistencia. La hipotesis formada por identidad entre dos omas grupos de diagramas de persistencia es una hipotesis simple porque contiene un soloelemento: la topologıa es la misma entre grupos. Notese el significado especial que tiene laidentidad entre grupos: que no hay diferencias entre pacientes sanos y enfermos, por ejemplo.

Page 169: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

5.5. Pruebas de hipotesis 167

Sea H una hipotesis nula simple. Los elementos basicos para realizar una prueba designificancia son dos (ver Sprott [123], Capıtulo 6, o Wasserman [128]):

Una estadıstica D(X) ≥ 0, que cumple tener la propiedad de ordenar muestras porgrado de evidencia en contra de la hipotesis nula. Esto significa, que si D(X1) ≥ D(X2)entonces la muestra X1 tiene mas evidencia en contra de H que la muestra X2.

Una funcion de distribucion de probabilidad para D bajo la presuncion de H. Estadistribucion se llama la distribucion nula de D, denotada por F0.

Cabe notar que el segundo ingrediente, la distribucion F0, no es mas que la llamadadistribucion muestral de D bajo H, segun la nomenclatura establecida en la Definicion 5.2.5.

Ejemplo 5.5.3. En el ejemplo juguete, supongamos que la hipotesis nula de interes esH : p = 1/2. Un ejemplo de una estadıstica D que ordena muestras serıa

D(X) =∣∣∣∑Xi −

n

2

∣∣∣ .Otro ejemplo serıa

D(X) = |p− 1/2| .

En palabras: D mide la discrepancia en el numero de aguilas respecto al valor n/2, el esperadobajo la hipotesis nula. La distribucion nula serıa la distribucion de D bajo la presuncion deque p = 1/2. El calculo de la distribucion nula

P1/2

(∣∣∣∑Xi −n

2

∣∣∣ ≤ x)

puede hacerse utilizando la distribucion Bin(n, 1/2), o bien utilizando aproximaciones a ladistribucion binomial por vıa de la distribucion normal.

Ejemplo 5.5.4. En ATD, sea la hipotesis nula el diagrama trivial y sea D(X) la distanciacuello de botella entre el diagrama de persistencia obtenido y la diagonal. La estadısticacumple la nocion de ordenar nubes de puntos en terminos de su grado de separacion de lahipotesis nula. ¿Cual serıa la distribucion de D bajo la premisa de que la nube de datosproviene de un objeto que no tiene mas que la homologıa trivial? Ello no es un problemateorico accesible y por ello seran pertinentes las ideas de bootstrap, en su momento.

Page 170: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

168 Capıtulo 5. Inferencia Estadıstica

5.5.2. El concepto de p-valor

Ante una hipotesis nula H, y definidos dos elementos constitutivos, una estadıstica D, yuna distribucion nula F0, el siguiente paso es definir alguna manera de cuantificar el conceptode plausibilidad de H a la luz de datos observados X.

Definicion 5.5.5. Ante la hipotesis nula H, para una observacion X, y estadıstica de pruebaD con distribucion nula F0 definimos el p-valor como

p := 1− F0 [D(X)] = P0 [D > D(X)] .

En palabras: Es la probabilidad bajo la hipotesis nula de que la estadıstica resulte mayor alvalor observado.

Se trata de cuantificar el lugar en el que se encuentra el valor obtenido de D(X) en laescala de valores de D que se obtendrıan bajo la premisa de que H es cierta. Siendo unaprobabilidad, el resultado es un numero entre cero y uno; tambien se ilustra la nocion de quela incertidumbre inductiva esta siendo abordada con un instrumento basado en probabilidad.La interpretacion es que entre mas pequeno sea el p-valor, mas evidencia representa X encontra de la hipotesis H. Es una cuantificacion de que tan extremo es el valor observado de Drespecto a los valores tıpicos que se obtendrıan para D si la hipotesis H fuese verdadera. Porrazones de logica, no es correcto la interpretacion contraria: Que un p-valor grande representeevidencia a favor de H (ver Sprott [123], Capıtulo 6).

A la luz de su popularidad, el concepto de p-valor ha sido sujeto a escrutinio y crıtica alo largo de los anos (fue introducido por R. Fisher en 1925). Las crıticas se dividen en dosgrupos: Crıticas de orden filosofico, respecto a su interpretacion matematica y contextual(por ejemplo, no representa “la probabilidad de que H sea verdadera”), y crıticas de ordenpractico. Las crıticas de orden practico versan sobre algunos asuntos primordiales:

Que usuarios de estadıstica en ciencias exactas y ciencias sociales recurren a un p-valoraun cuando el problema entre manos no es de prueba de hipotesis sino de estimacion (oalgun otro problema). Se trata de un uso y costumbre fuertemente establecido, siendoque significa la solucion a un problema incorrectamente planteado.

Que aun en el caso de que sı sea un problema legıtimo de prueba de hipotesis, se recurreal p-valor de manera obcecada, sin la consideracion de otras posibilidades para afrontarel mismo problema.

Que historicamente se ha transminado la nocion de que en la escala de p-valores, elvalor 0.05 es un valor de referencia universal, de tal forma que si p < 0.05 entonces la

Page 171: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

5.5. Pruebas de hipotesis 169

conclusion es “la hipotesisH es falsa” y en caso contrario “la hipotesis es verdadera”. Elvalor 0.05 se ha constituido de manera perniciosa y equivocada en la literatura cientıficaen otras disciplinas, como un valor de referencia bajo el cual se toman decisiones(inclusive existen ejemplos de polıtica editorial en revistas cientıficas en las que seinstruye que si el p-valor no es menor a 0.05, que entonces ni siquiera sera consideradoun manuscrito para su revision).

La Sociedad Estadıstica de Estados Unidos recientemente ha publicado una declaratoriarespecto a la postura frente al p-valor (ver [130]) debido a estas razones.

Ejemplo 5.5.6. En el ejemplo de juguete, supongamos que la hipotesis de interes es H :p = 1/2, que la estadıstica D esta dada por D(X) = |p− 1/2| , y que el valor observado deD es d. El p-valor serıa P0(|p− 1/2| > d), donde la notacion P0 indica que el calculo deprobabilidad se realiza bajo la presuncion p = 1/2.

En lugar de operar con la distribucion binomial en este ejemplo, aprovecharemos la apro-ximacion que implica la asintoticidad normal de la estadıstica p que hemos verificado en unejemplo anterior. En efecto, sabemos que

p− p√p(1−p)n

para n grande tiene aproximadamente distribucion normal estandar para cualquier valor dep, y en particular, si p = 1/2. Luego podemos realizar la siguiente aproximacion:

P0 (|p− 1/2| > d) = 1− P0 (−d ≤ p− 1/2 ≤ d)

= 1− P0

−d√1

4n

≤ p− 1/2√1

4n

≤ d√1

4n

≈ 1− Φ

d√1

4n

+ Φ

−d√1

4n

.

Si n = 100 y se observan 48 aguilas entonces d = |48/100− 1/2| = 0,02 y el p-valor serıa0.689, mientras que si se observan 8 aguilas entonces d = |8/100− 1/2| = 0.42 y el p-valorserıa 2,2× 10−17.

Ejemplo 5.5.7. En contexto ATD y diagramas de persistencia, supongamos que la hipotesisnula es que la nube de datos proviene de un objeto con un diagrama trivial, y que la estadıstica

Page 172: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

170 Capıtulo 5. Inferencia Estadıstica

de prueba es D = dB [d, dgm0] , donde dB es la distancia cuello de botella entre dos diagramasde persistencia, d = D(X) es el diagrama calculado con la muestra observada X y dgm0 esel diagrama trivial.

Para implementar el concepto de p-valor se requiere la distribucion de D bajo la presun-cion de que la nube de datos sı proviene de un objeto donde no hay persistencia alguna. Elreto es entonces encontrar P0(D > d). El gran problema es que aquı, no hay un resultadoanalogo al ejemplo anterior en el cual se conoce o se aproxima dicha probabilidad de maneraanalıtica. Por ello ingresaran al escenario otro tipo de metodos, incluyendo algunos basadosen el bootstrap.

Proposicion 5.5.8. Si la distribucion de D(X) bajo la hipotesis nula H es invertible, en-tonces la distribucion del p-valor es uniforme sobre (0, 1).

Demostracion. Sea F0(x) la funcion de distribucion de la estadıstica D(X) bajo la hipotesisnula. Primero notemos que F0 [D(X)] tiene distribucion uniforme en (0, 1).En efecto, para0 ≤ t ≤ 1,

F0(t) = P0 [D(X) ≤ t] = P0 [F0 D(X) ≤ F0 (t)] .

Ahora, por definicion p = 1 − F0 [T (X)] , y si F0 [T (X)] es uniforme, tambien lo es 1 −F0 [T (X)].

Este es un resultado sorprendente en un principio. Lo que dice es que cualquier desviacionde uniformidad en la distribucion del p-valor serıa interpretable como que la hipotesis H noes plausible. Un p-valor chico (especialmente si tiende a ocurrir en experimientos repetidos)es una de las maneras en que se rompe tal uniformidad. Tiene interpretacion clara el sentidoen que H no es plausible (D(X) es inusualmente alto para la muestra X). Otras maneras deviolacion a la distribucion uniforme no tienen interpretacion tan transparente (ver Sprott,Capıtulo 6 [123]).

5.5.3. Pruebas de hipotesis acerca de la media

El siguiente es un problema clasico en inferencia estadıstica: Se cuenta con una muestraaleatoria i.i.d. X1, . . . ,Xn, bajo la suposicion de un modelo N(µ, σ2), y la hipotesis nula deinteres esta dada por H0 : µ = µ0, donde la constante µ0 es conocida. Enunciaremos lastecnicas para abordar este problema no solo porque representa un ejemplo adicional parailustrar conceptos fundamentales (estadıstica de prueba y distribucion nula), sino porqueseran invocadas de primera mano para construir ciertos campos aleatorios en el Capıtulo 6.

Page 173: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

5.5. Pruebas de hipotesis 171

Definicion 5.5.9. La estadıstica dada por

T (X) =Xn − µ0

Sn−1/√n,

donde Xn =∑

Xi/n y S2n−1 =

∑(Xi − Xn

)2/ (n− 1), recibe el nombre de estadıstica de

prueba t de Student para la hipotesis µ = µ0.

Notar que en efecto, se trata de una estadıstica, en virtud de que el valor µ0 es conocidoporque la hipotesis nula de interes preexiste y se conoce. La notacion S2

n−1 se emplea para

hacer una distincion con la varianza muestral S2n =

∑(Xi − Xn

)2/n. No obstante existen

maneras de deducir o justificar la estadıstica t con base en optimalidad y otras consideracio-nes, no es ese el aspecto importante que aquı se desea resaltar. Basta notar que |T (X)| es unaestadıstica que efectivamente ordena muestras segun la evidencia en contra de H0 : µ = µ0,pues valores mayores de T se asocian con mayor contradiccion con H0. El ingrediente quefalta para poder implementar un p-valor como se ha visto, es la distribucion de T bajo lanula, es decir, su distribucion muestral. En este sentido, el siguiente resultado es conducente.

Definicion 5.5.10. Si X1, . . . ,Xn son i.i.d. N(µ, σ2), con n > 1, entonces la distribucion de

T (X) =Xn − µSn−1/

√n

se conoce como la distribucion t con n − 1 grados de libertad. La notacion a emplearsera T (X) ∼ t(n− 1).

Cabe notar que la distribucion de T (X) no depende de µ ni de σ2, esto es, T (X) es unacantidad pivotal. Es posible mostrar que la distribucion t con ν > 1 grados de libertad tienesoporte (−∞,∞) y una funcion de densidad, dada por

fν(x) =Γ(ν+1

2

)√νπΓ

(ν2

) (1 +x2

ν

)− ν+12

.

Se trata de una densidad simetrica, con forma de campana, aunque con colas mas pesa-das que una densidad normal estandar. El valor esperado (y la mediana) de esta densidades 0, para todo ν > 1, y la varianza esta dada por ν/ (ν − 2) para ν > 2. Si ν = 2,lavarianza es ∞. Cuando ν → ∞ la densidad t con ν grados de libertad converge a ladensidad normal estandar. La relevancia inmediata de conocer esta distribucion nula es

Page 174: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

172 Capıtulo 5. Inferencia Estadıstica

que para todo µ0, el calculo de un p-valor basado en un valor observado de la estadısticat(x) =

(Xn − µ0

)/ (Sn−1/

√n) para la hipotesis H0 : µ = µ0 se calcula como

p = Pµ0 (|T (X)| > |t(x)|) = 1− 2

∫ |t(x)|

0

fn−1(x) dx.

Tambien existe un resultado para explicitar la distribucion muestral de la varianza mues-tral, que aparece en el denominador de la estadıstica t. Su formulacion requiere de la distri-bucion conocida como χ2.

Definicion 5.5.11. Para k = 1, 2, . . . la funcion de densidad dada por

gk(x) =1

2k/2Γ (k/2)xk/2−1e−x/2

para x > 0 recibe el nombre de densidad ji-cuadrada con k grados de libertad. Lanotacion a emplear para la distribucion de probabilidad que se induce con esta densidadsera χ2

k.

El valor esperado de χ2k es k, y su varianza es 2k.

Proposicion 5.5.12. Si X1, . . . ,Xn son i.i.d. N(µ, σ2), con n > 1, entonces se cumple

(n− 1)S2n−1

σ2∼ χ2

n−1.

Ademas, las estadısticas S2n−1 y Xn son independientes.

En en lenguaje de la Definicion 5.2.6, esto no es mas que decir que

(n− 1)S2n−1

σ2

es tambien una cantidad pivotal. Ello tiene implicaciones si el interes fuese formular pruebasde hipotesis e intervalos de confianza para el parametro σ2.

5.6. Aplicacion de principios de inferencia en literatura

de ATD

A continuacion veremos como los principios generales de inferencia estadıstica expuestosse han invocado para abordar problemas de inferencia estadıstica en el contexto de ATD.Se hace una seleccion de artıculos en la literatura. Los materiales de inferencia estadısticaque se han elegido para presentar en secciones anteriores, en gran parte fueron ası definidosporque en esta literatura se esta presuponiendo cierta familiaridad con ellos.

Page 175: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

5.6. Aplicacion de principios de inferencia en literatura de ATD 173

5.6.1. Pruebas de hipotesis para homogeneidad entre grupos dediagramas de persistencia

La hipotesis que plantean Robinson & Turner ([116]) es la de homogeneidad de grupos(dos o mas) de diagramas de persistencia. La motivacion radica en la observacion de nubesde datos, digamos de individuos sanos y enfermos, para investigar si provienen de la mismaestructura. Motiva con la consideracion de n diagramas de persistencia divididos en dosgrupos de tamanos n1 y n2: X1,1, X1,2, . . . , X1,n1 y Y2,1, Y2,2, . . . , Y2,n2 . La hipotesis nula esque todos estos diagramas provienen del mismo objeto.

El trabajo recurre a la distancia 2–Wasserstein entre dos diagramas de persistencia, dadapor

W2(X, Y ) =

(ınf

φ:X→Y

∑x∈X

‖x− φ(x)‖22

)1/2

,

aunque el metodo aplica para cualquier otra distancia k–Wasserstein, en particular para ladistancia cuello de botella,

dB(C,D) := W∞(C,D) = ınfφ:C→D

supx∈C‖x− φ(x)‖∞ .

Recordar que bajo el paradigma de la prueba de significancia de una hipotesis simpleutilizando un p-valor, lo primero que se requiere es una estadıstica D, una funcion de losdiagramas observados, que ordene muestras en el sentido de medir apartamiento de la hipote-sis nula. Con una motivacion basada en pruebas convencionales en estadıstica (pruebas t,pruebas F en modelos lineales), se propone la siguiente estadıstica. Sea L un rotulamientode los n diagramas, una particion de los ındices 1, . . . n en dos grupos. El agrupamientooriginalmente observado da lugar a un rotulamiento especıfico LO, pero L sera en lo quesigue un rotulamiento arbitrario.

Para un k fijo en la distancia de Wasserstein, se define

σ2χ1,2

(L) =2∑

m=1

1

2nm(nm − 1)

nm∑i=1

nm∑j=1

Wk(Xm,i, Xm,j).

La motivacion o genesis de esta formula para la estadıstica de prueba es interesante,aunque no indispensable. Como nota para estadısticos, proviene de la comparacion de dosgrupos mediante varianzas muestrales. Es sabido que la expresion σ2

χ = 1n−1

∑(xi−x)2 puede

escribirse de manera alternativa como σ2χ = 1

2n(n−1)

∑∑(xi − xj)2, lo cual no depende de

un concepto de media muestral x sino solamente de comparaciones por pares. Como notaadicional para estadısticos, esta forma de escribir la varianza muestral constituye un caso

Page 176: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

174 Capıtulo 5. Inferencia Estadıstica

particular de una llamada U-estadıstica (originalmente Hoeffding [67]; resumido de maneraintroductoria en Serfling [120]), basada en un kernel (simetrico) de orden 2, que en generalse escribe como

U =1(n2

)∑i6=j

k(xi, xj).

Para el caso de la varianza muestral el kernel es k(x, y) = (1/2)(x− y)2.La estadıstica propuesta, de manera heurıstica, es la suma de varianzas por grupo. Lo

que es relevante reconocer en terminos de su posible utilizacion para calcular un p-valores que en efecto, un valor grande de σ2

χ1,2(L) denota mayor heterogeneidad entre los dos

grupos divididos segun L, es decir, que la hipotesis nula no se cumple. Una vez adoptada talestadıstica de prueba, es necesario calcular o aproximar P0(σ2

χ1,2(L) > l), donde l denota el

valor de la estadıstica observada σ2χ1,2

(LO), y P0 denota la medida de probabilidad bajo lapresuncion de la hipotesis de que los grupos son homogeneos.

A falta de una distribucion teorica para P0, lo que se propone es un concepto llamadoprueba de permutaciones (ver [61]), que tiene por objeto calcular empıricamente PO bajouna distribucion hipotetica generada. El algoritmo consiste de lo siguiente, tomando comoentradas n1 + n2 diagramas de persistencia con rotulamiento LO:

1. Calcular σ2χ1,2

(LO).

2. Clasificar al azar los diagramas en dos grupos de tamanos n1 y n2 para obtener elrotulamiento L.

3. Calcular σ2χ1,2

(L) y tomar nota acerca del hecho σ2χ1,2

(L) ≤ σ2χ1,2

(LO).

4. Repetir Pasos 2–3 N veces y calcular la proporcion de veces que se cumplio σ2χ1,2

(L) ≤σ2χ1,2

(LO).

El artıculo despues procede a ilustrar diversos ejemplos de datos simulados, para finesde verificar que en efecto, se obtienen p-valores pequenos en situaciones bajo las cuales sesabe que los grupos son heterogeneos. Varios resultados son congruentes con lo esperado.Por ejemplo, se inyecta ruido (normal), llega el momento en que el ruido no permite que elp-valor perciba diferencias. Complementa con un ejemplo de analisis de datos de referencia,acerca de formas (siluetas), y otro sobre datos de resonancia magnetica funcional. En amboscasos se ilustra que el concepto de p-valor es util para detectar diferencias entre grupos.

Para el caso de K > 2 grupos, la generalizacion natural de la estadıstica de pruebaesta dado por

σ2χK

(L) =K∑m=1

1

2nm(nm − 1)

nm∑i=1

nm∑j=1

Wk(Xm,i, Xm,j).

Page 177: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

5.6. Aplicacion de principios de inferencia en literatura de ATD 175

En la discusion del artıculo, se menciona que serıan posibles otras posibilidades para laestadıstica de prueba, incluyendo la varianza de Frechet, cuya definicion se menciona masadelante.

5.6.2. Subconjuntos de confianza para diagramas de persistencia

El objetivo propuesto en Fasy et al. ([52]) es aplicar razonamientos estadısticos paradiferenciar puntos en el diagrama de persistencia que pudieran considerarse como “ruidotopologico”, en contraste con “senal topologica”. Como veremos, la solucion radica en laconstruccion de subconjuntos de confianza para diagramas de persistencia.

El planteamiento comienza con ver los diagramas de persistencia como asociados a unafuncion de distancia. Si A es un subconjunto de RD, un ejemplo de tal funcion de distancia esdA(x) = ınfy∈A ‖y − x‖2 . A su vez, la distancia da lugar a los llamados conjuntos de subnivel,dados por Lt = x | dA(x) ≤ t. Cuando el conjunto A es una nube de puntos observadaS, entonces los subconjuntos de nivel son Lt = ∪x∈SB(x, t), dando lugar a una filtracioncomun a la cual se aplica la nocion de homologıa persistente. La notacion dgm(f) se empleapara denotar el diagrama de persistencia construido con la distancia f , y la distancia L∞ seinvoca tambien, dada por ‖f − g‖∞ = supx |f(x)− g(x)|.

Se repasan varias nociones que fueron tratadas durante el primer modulo. La llamadaestabilidad de la distancia cuello de botella se cumple para funciones continuas f ,g y seescribe como

W∞ [dgm(f), dgm(g)] ≤ ‖f − g‖∞ . (5.6.1)

La distancia de Hausdorff, dH entre dos subconjuntos compactos de RD se define de variasmaneras equivalentes (ver Seccion 1.2.2). Si M es una d-variedad encajada en un subconjuntocompacto X de RD, y S ⊂M , entonces

W∞ [dgmS, dgmM ] ≤ ‖dS − dM‖∞ = dH(S,M). (5.6.2)

Sea dgm0 el diagrama de persistencia teorico (desconocido) y sea dgm el diagrama depersistencia construido con la nube de datos observada Sn = X1, . . . ,Xn. Para una cons-tante α ∈ (0, 1) predeterminada, la clave de la propuesta es encontrar una estadıstica, cn =cn(X1, . . . ,Xn) tal que que se cumpla

P[W∞(dgm, dgm0) > cn

]≤ α

para todo dgm0. La relevancia es que si ello es cierto, entonces se cumple que

P[W∞(dgm, dgm0) ≤ cn

]> 1− α.

Page 178: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

176 Capıtulo 5. Inferencia Estadıstica

Implıcitamente en esta ultima relacion, se encuentra un concepto generalizado de “regionde confianza” mencionado en una seccion anterior. En efecto, si uno define

Cn =

dgm | W∞(dgm, dgm) ≤ cn

,

lo que se obtiene es un conjunto de confianza para el diagrama de persistencia dgm0, en elsiguiente sentido: P [Cn 3 dgm0] > 1− α, sin importar quien sea dgm0.

Notar que no se escribe igualdad con 1−α, sino mayor que 1−α. Esto es lo que se conocecomo un intervalo conservador. Uno quisiera especificar α para construir un conjunto conprobabilidad de cobertura exactamente 1 − α, pero en ocasiones es difıcil encontrarlo ası yuno se conforma con que sea mayor que 1−α. Muy malo serıa que uno pretenda 1−α y quela probabilidad de cobertura pudiese ser en realidad menor que 1− α para algunos valoresde dgm. Esto ultimo no serıa nada sensato, pues no ofrecerıa garantıa alguna sobre el controlde incertidumbre inductiva respecto a dgm que uno pretende ejercer.

Una parte importante y conveniente que se aporta en el artıculo es la manera de repre-sentar graficamente parte de la informacion contenida en el conjunto de confianza Cn. Dichoconjunto radica, en efecto, en el espacio de diagramas de persistencia, D, y serıa difıcil devisualizar. Para entender una interpretacion, es util concebir el diagrama de persistenciavacıo, denotado aquı por dgm∅. El diagrama vacıo consiste de un diagrama diagonal, con lainterpretacion de que no hay homologıa interesante. En la Figura ?? se muestra de maneraabstracta lo que el conjunto Cn cumple en terminos de cobertura. Tambien se ilustra la per-tinencia de la distancia cuello de botella, en el sentido de que las vecindades de radio cn deun punto z en el plano cartesiano son cuadrados de lado 2cn.

En lugar de intentar graficar el conjunto Cn, lo que se hace es identificar los puntos deldiagrama de persistencia observado dgm tales que provocan W∞(dgm, dgm∅) > cn. En ladistancia cuello de botella participa la nocion de apareamientos optimos (biyecciones) entre

los puntos de dgm y de dgm∅. Los puntos z de dgm causantes de que W∞(dgm, dgm∅) > cnson exactamente aquellos cuya vecindad cuadrada de radio cn no intersectan la diagonal.Esto sugiere que si se traza una franja con distancia

√2cn perpendicular a la diagonal, que

entonces los puntos z causantes de que W∞(dgm, dgm∅) > cn corresponden exactamentecon aquellos que estan fuera de esa franja (ver Figura ??). Con este dispositivo, en lugar debuscar graficar Cn, lo que se representa es el conjunto de puntos z del diagrama de persistenciaque producirıan que el diagrama dgm∅ no sea cubierto por el conjunto de confianza Cn. Aestos puntos z se les denomina como portadores de una senal topologica, y los puntos que seencuentran dentro de la franja como ruido topologico (principio de la Seccion 4 del artıculo).Es importante senalar que este rotulamiento de senal vs. ruido esta subordinado a la confianza(1− α)× 100 %. No se trata de una aseveracion determinıstica, sino probabilıstica.

Page 179: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

5.6. Aplicacion de principios de inferencia en literatura de ATD 177

Figura 5.1: Interpretacion de franja de confianza para un diagrama de persistencia. Losdiagramas de Venn ilustran como universo el conjunto de todos los diagramas de persistencia,D. El punto dgm representa el diagrama construido con la nube de datos observada; dgm0 esel diagrama real desconocido; y dgm∅ el diagrama vacıo, cuya grafica consiste exclusivamente

de una diagonal. El conjunto de confianza definido por Cn =

dgm | W∞(dgm, dgm) ≤ cn

se

denota por el subconjunto delineado con trazo punteado. Los paneles (a) y (b) representancasos en los que el conjunto Cn ha sido existoso para cubrir a dgm0. La constante cn hasido seleccionada para que esto ultimo ocurra con probabilidad 1 − α. Sin embargo, existeuna probabilidad α de que no se logre cobertura, como ha ocurrido por azar en el panel(c). Si se quisiera hacer disminuir α, entonces los conjuntos Cn tendrıan que ser de mayorextension, produciendo mayor grado de incertidumbre. En el panel (d) se muestra que unafranja dibujada a distancia perpendicular

√2cn de la diagonal funciona como dispositivo

grafico para rotular puntos que son una senal, en el sentido de que la posicion de un puntoprovoca que W∞(dgm, dgm∅) > cn. En tal caso Cn resulta no cubrir al diagrama vacıo dgm∅,como ocurre en los paneles (b) y (c). Por lo tanto, los puntos localizados por dentro de dichafranja diagonal pueden interpretarse con confianza (1−α)× 100 % como que no representanuna caracterıstica relevante, debido a que no son causales de una diferencia significativa conrelacion al diagrama vacıo, dgm∅. Correspondientemente, a estos puntos en la franja se lesatribuye una variacion debida solo a ruido provocado por muestreo.

Page 180: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

178 Capıtulo 5. Inferencia Estadıstica

Ası, un punto fuera de la franja descrita debera ser interpretado meramente como sos-pechoso de ser una cualidad real sugerida por la nube de datos, mas no una aseveracioncon certeza absoluta. La nocion de cualidad real en este sentido, se entiende como algo quedifiere del diagrama vacıo dgm∅.

Ahora bien, con base en la desigualdad 5.6.2, de hecho lo que se aborda en el artıculo esuna estadıstica cn tal que P [dH(Sn,M) > cn] ≤ α, o equivalentemente P [dH(Sn,M) ≤ cn] >

1 − α. Esto se debe a que dH(Sn,M) ≤ cn implica W∞(dgm, dgm0) ≤ cn, de donde seobtendrıa la desigualdad

P[W∞(dgm, dgm0) ≤ cn

]≥ P [dH(Sn,M) ≤ cn] > 1− α.

El artıculo de facto considera cuatro estadısticas cn(X1, . . . ,Xn) y demuestra para ellosque asintoticamente P [dH(Sn,M) > cn] ≤ α. Lo hace con base en suposiciones tecnicas rigu-rosas sobre la medida de probabilidad P (Seccion 3 del artıculo). Los metodos estan basadoen diversas propuestas de aproximacion (remuestreo, concentracion de medida, metodo deshells, y estimacion de densidades), y el artıculo contiene detalles tecnicos para demostrarque cada propuesta produce un cn que en efecto cumple la cota de probabilidad de cobertura(Seccion 4 del artıculo y apendices). Las tecnicas probabilısticas para establecer la proba-bilidad de cobertura estan basadas en resultados variados que versan sobre propiedades dedH(Sn,M). El acceso a estos resultados, y la estabilidad, permitieron trabajar propiedades

de dH(Sn,M) en lugar de W∞(dgm, dgm0).

El hecho de que la desigualdad P[W∞(dgm, dgm0) ≤ cn

]> 1−α puede no ser “ajustada”

(ver Definicion B.1.14 en Apendice B), es un asunto mencionado en Chazal et al. (2014), delcual se deriva una idea basada en bootstrap directamente sobre valores de W∞ en lugar de dH .Ver la Seccion 6 (“Bottleneck bootstrap”, de ese artıculo). La librerıa TDA de R contieneuna funcion para realizar bootstrap, y graficar la lınea paralela a distancia perpendicular√

2cn aquı expuesta. Un comentario interesante en Chazal es que este esquema de bootstrappermite tomar en cuenta diagramas de persistencia de una dimension de interes, en lugarde todas las dimensiones juntas, lo cual darıa lugar a valores de cn mejor sintonizados y quecorresponden a cotas mas “ajustadas” para la cobertura.

5.6.3. Inferencia estadıstica basada en panoramas de persistencia

Bubenik ([22]) presenta y desarrolla la idea de un resumen topologico alternativo a losdiagramas de barras y diagramas de persistencia. Se trata del panorama de persistencia(persistence landscape), presentado en la Seccion 2.6. En lo que sigue se hara enfasis en las

Page 181: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

5.6. Aplicacion de principios de inferencia en literatura de ATD 179

ventajas que ello ofrece, y en particular, en como se explotan para abordar algunos problemasde inferencia estadıstica utilizando principios generales expuestos con anterioridad.

El panorama de persistencia λn(t) = λ(n, t) es una funcion aleatoria, de N × R+ aR (ver Seccion 2.6) o bien de R2 × R+ a R si se extiende el valor n a todo R mediantedne. Este concepto contrasta fuertemente con el diagrama de persistencia, que es un objetoaleatorio con valores en el espacio de diagramas de persistencia. Este ultimo espacio esgeometricamente engorroso; es un espacio metrico (con la metrica Wasserstein, o cuello debotella), pero no es espacio lineal ni espacio completo (Mileyko et al. [94]). La informacioncodificada en un diagrama de barras, uno de persistencia, o uno de panoramas es equivalente.En el diagrama de persistencia, el diagrama de barras se relaciona con las bases de lostriangulos isosceles, el diagrama de persistencia con las cuspides de las “montanas”.

Cuando se recurre al diagrama de persistencia (o el diagrama de barras), el primer defectodesde una perspectiva de estadıstica es la carencia de una nocion operativa de media. Comohemos visto, la nocion de media es crucial para que muchos problemas de inferencia estenbien definidos. Por ejemplo, hemos visto ya que los problemas de estimacion y de pruebasde hipotesis pueden parafrasearse en terminos de conceptos de medias. La definicion mismade una observacion aberrante (outlier) tiene que ver con una discrepancia respecto a lamedia de una distribucion de probabilidad. Tambien, que la consistencia de un estimadorpuntual inherentemente presupone que el lımite al cual se converge es unico; de otra manerano serıa claro que significa que “un estimador es consistente”. En el espacio de diagramasde persistencia no existe la nocion de “diagrama medio” como caracterıstica probabilıstica.Sı existe en un sentido de media de Frechet, como sigue.

Definicion 5.6.1 (Media y varianza total de Frechet). Sea M un espacio metrico con metricad, y X1, X2, . . . , Xn una coleccion de puntos sobre M. Definimos la funcion

G(x) =n∑i=1

d2(x,Xi).

Una media de Frechet se define por

m = arg mınx∈M

G(x).

La varianza total de Frechet se define por v = G(m).

Como comentario, en estadıstica elemental, cuando el espacio metrico es R, se obtienenmedias comunes:

1. Si d(x, y) = |x− y| , la media de Frechet es la media aritmetica.

Page 182: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

180 Capıtulo 5. Inferencia Estadıstica

2. Si d(x, y) =√|x− y| se obtiene una mediana muestral.

3. Si M = R+ y d(x, y) = |log(x)− log(y)| se obtiene la llamada media geometrica dadapor m = n

√X1 · · ·Xn.

4. Con la metrica d(x, y) = |1/x− 1/y| se obtiene la media armonica, m = n/∑

(1/Xi) .

Es importante notar que la media de Frechet puede no ser unica, ni en ejemplos cuandoM = R ni cuando M es el espacio de diagramas de persistencia (En Bubenik, Figura 3, semuestran dos ejemplos simples y especıficos para ilustrarlo). Por ello, la media de Frechetno es un buen candidato para formalizar nociones de consistencia.

El hecho de que el panorama de persistencia habita en un espacio de funciones, permitede inmediato recurrir a la nocion de norma. Para habilitar un enfoque probabilıstico, seconcibe que λ es un elemento aleatorio sobre el espacio (S,A, µ), con λ : S −→ R y S oN× R o R× R. Para 1 ≤ p <∞ se define

‖λ‖p =

(∫|f |p dµ

)1/p

.

Usando la medida producto de conteo (sobre N) y Lebesgue (sobre R), se obtiene

‖λ‖p =

(∞∑k=1

‖λ(k, t)‖pp

)1/p

si λ es un panorama de persistencia, λ : N× R→ R.Esto a su vez da lugar a que los panoramas tengan una estructura de espacio de Banach,

Lp(S), para lo cual es factible desarrollar teorıa de probabilidad (Ledoux & Talagrand [89]).La nube de datos se concibe como un elemento aleatorio de un espacio de probabilidad(Ω,F , P ) y el panorama de persistencia como un valor aleatorio en Lp(S). Si X1, X2, . . . , Xn

son nubes de datos aleatorios i.i.d., y λ1, λ2, . . . , λn los correspondientes panoramas, entoncesel panorama medio tiene una definicion muy natural:

λn = λn(k, t) =1

n

n∑i=1

λi(k, t).

Serıa deseable que este concepto de media tuviera convergencia en algun sentido. Ello darıamucha claridad a lo que significarıa “consistencia”.

La teorıa de probabilidad sobre espacios de Banach establece con claridad el significadode E (λ) (integral de Pettis), ası como lo que significa convergencia (en probabilidad, y casi

Page 183: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

5.6. Aplicacion de principios de inferencia en literatura de ATD 181

segura). En el Apendice C, se incluyen algunos elementos primordiales de probabilidad enespacios de Banach. Se derivan dos resultados ulteriores importantes, que generalizan loque sucede sobre Rk para variables aleatorias i.i.d. y que son explotados de manera crucialpara asuntos de inferencia estadıstica: una ley de los grandes numeros, y un teorema centraldel lımite. Parafraseados en terminos de panoramas, lo que estos resultados establecen sonpropiedades de convergencia. Consistencia significa

Λn(k, t)c.p,1−→ E(Λ),

y asintoticidad normal que√n[Λn − E (Λ)

]converge en distribucion a cierto proceso gaussiano. Nota: El artıculo esta recurriendo a laconvencion de que una letra mayuscula denota un elemento aleatorio (Λ) mientras que unaletra minuscula (λ) denota un valor observado calculado con la muestra observada.

Tambien es aplicable la nocion de funcionales del panorama, que son de la forma

Y =

∫fΛ.

Para tales funcionales pueden construirse intervalos de confianza (asintoticos) para E(Y ) dela forma

Yn ± zα/2Sn√n

donde S2n = 1

n−1

∑ni=1(Yi − Yn)2. La construccion es identica a la presentada a proposito

del ejemplo juguete (Teorema 5.4.6), en el cual la consistencia y la asintoticidad normal delestimador p fueron utilizadas para obtener un intervalo de confianza asintotico para p.

Estos resultados tambien habilitan algunas pruebas de hipotesis de manera inmediata.Como ejemplo, si se observan nubes de puntos sobre dos poblaciones y el interes radicara eninvestigar si es cierto que fΛ = fΛ′ para un funcional dado, entonces las ideas de p-valoresasintoticos basados en la estadıstica

Y − Y ′√S2Y

n+

S2X

n′

es aplicable. La asintoticidad normal permitirıa aproximar los p-valores, exactamente como sehizo para el ejemplo juguete. Nota para estadısticos: Se trata de la generalizacion inmediatadel tema de pruebas t para comparar las medias de dos poblaciones.

Page 184: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

182 Capıtulo 5. Inferencia Estadıstica

Como ejemplo de un funcional concreto, Bubenik ofrece el siguiente, tras mencionar quela seleccion de funcional obedece al entendimiento que se tenga acerca de los datos ası comoel objetivo especıfico. Suponer que el soporte del panorama es

1, 2, . . . , K × [−B,B].

Definiendof(k, t) = 1, (t ∈ [−B,B] y k ≤ K)

se obtiene

‖fΛ‖1 =K∑k=1

‖Λk‖1 ,

lo cual es imaginar que hay K componentes topologicas dominantes que juntas son capacesde distinguir diferencias entre una poblacion y otra.

El artıculo procede a mostrar ejemplos con datos simulados sobre anillos enlazados, torosvs esferas, etc. para fines de ilustrar que el panorama promedio se aproxima con promediosempıricos, y que el funcional anteriormente mencionado en efecto, es eficaz para detectardiferencias entre grupos de nubes de puntos.

Finalmente, el artıculo postula y demuestra en su Seccion 5 resultados de estabilidad.Se define la metrica entre dos diagramas de persistencia dgm y dgm′ con panoramas λ y λ′

comoΛp(dgm, dgm′) = ‖λ− λ′‖p .

Tambien se demuestra una cota inferior para la distancia cuello de botella:

Λ∞(dgm, dgm′) ≤ W∞(dgm, dgm′).

5.6.4. Inferencia estadıstica robusta para diagramas de persisten-cia

Chazal et al. ([35]) comienza por destacar que la construccion de diagramas de persis-tencia en general tienen el defecto de no ser robustos. Por ello se refiere a que una pequenamodificacion en la nube de datos puede resultar en un diagrama de persistencia muy diferen-te. Literalmente, se menciona que un solo punto modificado—denominado valor aberranteo outlier—puede alterar radicalmente el resultado. En este sentido, la robusticidad es unsubtema de inferencia estadıstica que tiene que ver con el estudio de procedimientos que nosean en extremo sensibles a valores aberrantes (ver Huber & Ronchetti, 2009).

Page 185: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

5.6. Aplicacion de principios de inferencia en literatura de ATD 183

En su parte introductoria, el artıculo recurre a la asociacion de un diagrama de persisten-cia con una funcion de distancia (al igual que lo hacen Fasy et al.) entre un conjunto S ⊂ Rd

y un punto x ∈ Rd, con la notacion ∆S(x) = supy∈S ‖x− y‖ . Ası mismo, se recuerdan lasideas de subconjuntos de nivel Lt = x | ∆S(x) ≤ t , la distancia cuello de botella W∞ entrediagramas de persistencia, y la estabilidad

W∞(dgm1, dgm2) ≤ supx‖∆S1(x)−∆S2(x)‖ .

Cuando el conjunto S consta de una nube de puntos observada, X1, . . . ,Xn , comoarranque para analizarse con ATD, la notacion se convierte en

∆(x) = mınXi‖x−Xi‖ ,

y se denomina funcion de distancia empırica. Esta notacion “gorro” es congruente con lasideas de parametro y estimador senaladas en la Seccion 5.4.1, y el calificativo “empırica”tiene el mismo empleo al aludido para la funcion de distribucion empırica. De hecho, seprocede a formular el siguiente resultado de consistencia, en un lenguaje muy propio deestadıstica:

P(

supx

∣∣∣∆(x)−∆S(x)∣∣∣ > ε

)−→n→∞

0, ∀ε > 0.

Los subconjuntos de subnivel basados en la distancia empırica se vuelven

Lt =x | ∆(x) ≤ t

=

n⋃i=1

B(Xit).

El artıculo reconoce explıcitamente un modelo para la distribucion de puntos contenidosen la nube observada. Es de la forma

P = πR + (1− π)(Q + Φσ),

donde π ∈ (0, 1) es una proporcion de mezcla, R es una distribucion para aberrantes, Q esuna distribucion con soporte S, y Φσ es una distribucion con ruido con escala σ (tıpicamente,y por ejemplo, Nd(0, σ

2I)). Se trata de modelos de probabilidad del tipo explorado en estasnotas, y en el lenguaje de la Seccion 5.2.1 se trata de un modelo semi-parametrico.

Chazal et al., para fines de evitar la falta de robusticidad, proceden a la propuesta dedistintas funciones de distancia (que a la postre definen los conjuntos de subnivel para fines

Page 186: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

184 Capıtulo 5. Inferencia Estadıstica

de calcular homologıa en ATD). La primera distancia alternativa es la DTM (distance tomeasure, de Chazal et al. [34]), denotada por δP,m. Se define como

δ2P,m(x) =

1

m

∫ m

0

F−1x (u) du,

donde 0 < m < 1 y Fx(t) = P(‖X− x‖2 ≤ t), y X es un vector aleatorio con distribucionP. Esta distancia posee varias propiedades (ver Chazal et al. [34], [35]). Aquı, bastara notarque una idea fundamental es que un solo punto en la nube no es por sı mismo un valoraberrante, sino que tiene que ocurrir con alta probabilidad para tener un efecto sobre ladistancia (y por ende, sobre el diagrama de persistencia que corresponde). La seleccion dela constante m es arbitraria, pero mas adelante en el artıculo se discuten algunos criteriospara su eleccion. Recurriendo a la distribucion empırica Pn, que asigna probabilidad 1/n acada punto observado Xi, se obtiene la distancia DTM empırica, dada por

δ2(x) := δ2Pn,m(x) =

1

k

∑Xi∈Nk(x)

‖Xi − x‖2 ,

donde k = dmne y Nk(x) = k vecinos mas cercanos a x de entre X1, . . . ,Xn . Se demues-tran propiedades de asintoticidad normal para la estadıstica δ2(x).

Con ideas similares a las aplicadas por Fasy et al. [52], se desarrolla una manera deobtener bandas de confianza para δ. Fijando α ∈ (0, 1), se define cα por

P(√

n||δ − δ||∞ > cα

)= α.

Supongamos que hay una estadıstica cα = cα(X1, . . . ,Xn) tal que cαPr−→ cα. Entonces se

obtendrıa

P(||δ − δ||∞ ≤

cα√n

)→ 1− α,

y debido a estabilidad, se deriva un conjunto de confianza conservador (Ver Seccion 5.6.2)para la distancia cuello de botella entre el diagrama real y el diagrama estimado, en virtudde que

P(W∞( ˆdgm, dgm) ≤ cα√

n

)≥ P

(||δ − δ||∞ ≤

cα√n

)−→ 1− α.

Para cn, Chazal et al. proponen el bootstrap no-parametrico, consistente en simularpseudo-obervaciones de la distribucion Pn (como vimos en la Seccion 5.4.4, se trata de

muestrear con reemplazo de la muestra observada) y calcular las cantidades∥∥∥δ∗ − δ∥∥∥

∞.

Page 187: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

5.6. Aplicacion de principios de inferencia en literatura de ATD 185

La propuesta de bootstrap se acompana de la demostracion formal de que el procedimientobootstrap funciona. Para referencia, esto quiere decir que para todo ε > 0

P[∣∣∣∣P(√n∣∣∣∣[δ∗]2

−[δ]2∣∣∣∣∞≤ t | X1, . . . ,Xn

)− P

(√n

∣∣∣∣[δ]2

− [δ]2∣∣∣∣∞≤ t

)∣∣∣∣ > ε

]−→ 0,

lo cual recoge de que el metodo numerico dictado por el bootstrap posee propiedades deconvergencia, condicional a la muestra original que se ha observado. En el artıculo tambiense propone un esquema diferente de bootstrap, denominado bootstrap cuello de botella, bajo

el cual en lugar de calcular y guardar valores de∥∥∥δ∗ − δ∥∥∥

∞, se realiza con W∞( ˆdgm

∗, ˆdgm).

Con esto ultimo, la esperanza es obtener un intervalo menos conservador, con una cota mascercana a 1− α.

En cuanto a la seleccion de la constante m, se propone una idea basada en “cantidad deinformacion significativa” (Guibas, et al. [62]). Para estadısticos, se presenta un fenomenosimilar al estira y afloje que hay con un parametro de suavizamiento: El valor optimo de mno resulta ser ni muy chico ni muy grande.

Chazal et al. tambien proponen una segunda distancia alternativa, basada en la nocionde un estimador de densidades tipo kernel (ver Seccion 5.4.5). El analogo de la distanciaempırica basada en esta idea esta dada por

DK(x) =

√√√√ 1

n2

n∑i=1

n∑j=1

Kh(Xi, Xj) +Kh(x, x)− 2

n

n∑i=1

Kh(x,Xi),

donde la eleccion mas comun para el kernel es

Kh(x, y) = exp

(−‖x− y‖

2

2h2

).

Se demuestra que los conjuntos de subnivel son aproximadamente x | ph(x) ≤ t , donde phes el estimador de densidad tipo kernel para X dado por

ph(x) =1

n(√

2πh)d n∑

i=1

Kh(x,Xi).

Esto reitera el papel que juega el tema de estimacion de densidades en ATD. De nuevo, nobasta que un solo dato aislado sea aberrante, sino que la distancia reacciona a un grupode ellos. Por ello se hereda una nocion de robusticidad tras esta propuesta. En el artıculotambien se demuestran propiedades analıticas que posee esta distancia basada en estimacionde densidades.

Page 188: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

186 Capıtulo 5. Inferencia Estadıstica

5.7. Ejercicios

Ejercicio 5.7.1. Si X1, . . . ,Xn son observaciones independientes cada una con distribucionN(µ, σ2), entonces una estadıstica suficiente para θ = (µ, σ2) esta dada por

T =(∑

Xi,∑

X2i

).

Ejercicio 5.7.2. Utiliza el teorema de factorizacion de Neyman-Fisher para demostrar quesi T es una estadıstica suficiente para θ, que entonces una funcion de T tambien lo es. Porotra parte, si g es una funcion uno a uno, entonces T es suficiente para g(θ).

Ejercicio 5.7.3. Si τ(F ) =∫xdF (x), entonces τ = τ(Fn) = 1

n

∑Xi = Xn.

Ejercicio 5.7.4. Si X1, . . . ,Xn son variables aleatorias i.i.d. N(µ, σ2) entonces la distribu-cion de Xn es N(µ, σ2/n) y la distribucion de

(Xn − µ

)/ (σ/

√n) es N(0, 1).

Esto ultimo es como decir que(Xn − µ

)/ (σ/

√n) es una cantidad pivotal. Nota: Otra

manera de percibir el teorema central del lımite es notando que hay condiciones, aunque nose trate de muestreo normal, para concluir que

(Xn − µ

)/ (σ/

√n) es asintoticamente una

cantidad pivotal.

Ejercicio 5.7.5. En el ejemplo que hemos llamado juguete, supongamos que T = p y que elinteres radica en estimar Var(p). Verifica que en esta situacion el remuestreo bootstrap pa-rametrico y no-parametrico da lugar a procesos equivalentes, y que ambos aproximan numeri-camente a la cantidad p(1−p)

n.

Ejercicio 5.7.6. En el ejemplo juguete, demuestra que

I (p) = −E(∂2

∂2plog f [X; p]

)= p(1− p),

con lo cual se verifica el teorema de asintoticidad normal para el estimador maximo verosımil.

Ejercicio 5.7.7. Para el caso de muestro i.i.d. bajo el modelo N(µ, σ2) verifica que

S2n =

∑(Xi − Xn

)2/n

es el estimador maximo verosımil para el parametro σ2 y que no es insesgado, mientras que

S2n−1 =

∑(Xi − Xn

)2/ (n− 1)

es insesgado para σ2.

Page 189: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

5.7. Ejercicios 187

Ejercicio 5.7.8. Sean X1, . . . ,Xn observaciones i.i.d. con varianza σ2 (no necesariamentenormal). Demuestra que S2

n−1 es insesgado para σ2.

Ejercicio 5.7.9. Sean X1, . . . ,Xn observaciones i.i.d. N(µ, σ2). Sea fν(x) la densidad t conn− 1 grados de libertad. Define la contante tα/2 > 0 por aquella que cumple∫ ∞

tα/2

fn−1(x) dx =alpha

2.

Demuestra que [Xn − tα/2Sn−1/

√n, Xn + tα/2Sn−1/

√n]

es un intervalo de confianza (1− α)× 100 % para µ.

Page 190: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Page 191: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Capıtulo 6

Persistencia de campos aleatorios

6.1. Introduccion

Utilizando la teorıa desarrollada hasta el momento, conceptualizaremos las ideas relativasa campos aleatorios y su relacion con persistencia.

En primer lugar, tenemos la siguiente tendencia a diversificar el espacio muestral.

Definicion 6.1.1. Una variable aleatoria X es una funcion medible

X : (Ω,A,P) −→ (X, µσ),

donde (X, µσ) es cualquier espacio medible y (Ω,A,P) es cualquier espacio de probabilidad.

Observar que a diferencia de la definicion de la Seccion 3.1, el espacio X puede ser cual-quier espacio con una medida asociada µσ. Tenemos entonces incluidos en esta definicion unagran cantidad de ejemplos como variables aleatorias discretas, escalares, vectores aleatoriosde dimension finita o matrices aleatorias. En estos casos, los espacios medibles van desde losdiscretos N, Z hasta los continuos R, Rq, Rm×n.

Un poco mas general, tenemos sucesiones aleatorias con espacio medible RN, funcionesaleatorias con espacio muestral R[0,1]; o bien, procesos a tiempo continuo X = (Xt)t∈[0,1]. Paralos casos mas particulares del analisis de datos tenemos las graficas aleatorias con espaciomuestral el conjunto potencia de 1, . . . , n2.

Mas aun, podemos considerar que las variables aleatorias tienen valores en una variedadM . Esto da pie a la nocion de objetos geometricos aleatorios en general como por ejemplocurvas aleatorias con espacio muestral (R3)[0,1].

189

Page 192: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

190 Capıtulo 6. Persistencia de campos aleatorios

Hasta este punto no estamos considerado la fuente de tales datos, como es que se toman lasmuestras o con que tipo de equipos de registro, etc. Ademas, tambien tenemos que considerarel aumento de complejidad al obtener los datos, en tales casos la informacion tiene un pesocomputacional y en ocasiones con cierta estructura. Todos estos ejemplos muestran que laidea de variable aleatoria y mas generalmente, la de campo aleatorio, estan en la base detodo tipo de procesamiento de datos. Dicha complejidad es notoria en el problema de ladimensionalidad de los objetos geometricos asociados.

Si tomamos el marco teorico visto hasta ahora en ATD, tenemos una nube de puntosaleatorios Pn = X1, . . . ,Xn con Xi variable aleatoria con valores en Rd. Luego, construimosun complejo simplicial aleatorio, por ejemplo para ε > 0 tenemos los complejos de RipsR(Pn, ε) o los complejos de Cech C(Pn, ε). Recordar que el caso del complejo de Rips es uncomplejo bandera, o bien, que su 1–esqueleto determina completamente el complejo. Estoes, volvemos a la nocion de grafica aleatoria.

Luego, el espacio muestral serıa la familia Cn de complejos simpliciales con n nodos. Lapregunta estriba en quien serıa la σ–algebra asociada a dicho conjunto, la cual se especificausando las funciones indicadoras y medibles 1||Xj−Xk||<ε para cada Xj,Xk en la muestra. Estoes, la preimagen de cada vertice, cada cara y cada simplejo de un complejo simplicial sonmedibles en (Rd)n. Por lo tanto, Cn es un espacio de medida con la topologıa discreta.

Observacion 6.1.2. En general, la observacion anterior esta presente en cada trabajo deATD que lo requiera sin hacer mencion al hecho “trivial” de que la topologıa de Cn es latopologıa asociada a la coleccion de todos los subconjuntos de Cn.

Podemos concluir que tenemos un proceso aleatorio (Kε)ε>0 indexado por R y con valoresen Cn.

Para esta seccion queremos remarcar que trabajaremos con el mecanismo especıfico ge-nerador de datos ATD aleatorios usando superniveles de campos aleatorios.

6.2. Teorıa fundamental

En este apartado consideraremos como mecanismo generador de persistencia los camposaleatorios. Formalmente tenemos la siguiente definicion.

Definicion 6.2.1. Dado un conjunto compacto U ⊂ Rd, un campo aleatorio sobre U esuna familia de variables aleatorias

(Xu)u∈U = (X(u))U ,

sobre un mismo espacio de probabilidad (Ω,A,P).

Page 193: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

6.2. Teorıa fundamental 191

Un campo aleatorio puede ser pensado como una variable aleatoria con valores trayecto-rias del tipo

ω ∈ Ω 7−→ (X(·)(w))U .

Para poder manejar este concepto utilizamos lo siguiente. Sean Fu1,...,um distribucionessobre Rm con m ∈ N, y u1, . . . , um ∈ U . Esta familia es consistente si

Fu1,...,um(x1, . . . , xm) = Fuσ(1),...,uσ(m)(xσ(1), . . . , xσ(m)),

con (x1, . . . , xm) ∈ Rm y σ una permutacion de m–elementos 1, . . . ,m.De tal forma que si consideramos una toma ω ∈ Ω y para cada u ∈ U , Xu(ω) es una

funcion en RU . Ası, usando el Teorema de Extension queremos encontrar una familia dedistribuciones consistentes que sea compatible con el modelo requerido. En general, conside-ramos la σ–algebra generada por conjuntos del tipo

g ∈ RU : (g(u1), . . . , g(um)) ∈ B;

donde u1, . . . , um ∈ U , m ∈ N y B ∈ B(Rm).Con estas nociones, podemos enunciar ahora la version mas general del Teorema de

Extension de Kolmogorov, uno de los teoremas mas importantes de la matematica del sigloXX.

Teorema 6.2.2 (Extension de Kolmogorov). Sea U un espacio Polaco, Fu1,...,um una familiade distribuciones consistente sobre U y m ∈ N. Entonces, existe un espacio de probabilidad(Ω,A,P), un campo aleatorio

Xu : (Ω,A,P) −→ Ry una medida Q sobre (RU , σ(RU)) tales que, la aplicacion

(Ω,A,P) −→ (RU , σ(RU), Q)

ω 7−→ (Xu(ω))U

es medible y (Xu1 , . . . ,Xum) tiene distribucion Fu1,...,um.

En particular, se puede tomar (Ω,A,P) = (RU , σ(RU), Q) con P = Q. Si C ∈ σ(RU) estal que P(C) = 1, trabajamos en lugar del espacio (RU , σ(RU),P) con el espacio

(C, σ(RU)|C ,PC),

con σ–algebra inducidaσ(RU) = A ∩ C : A ∈ σ(RU).

Tenemos pues con estos conceptos varias generalizaciones de conceptos previamente tra-tados.

Page 194: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

192 Capıtulo 6. Persistencia de campos aleatorios

Definicion 6.2.3. Sea (Xu)U un campo aleatorio sobre U . Definimos la funcion de valormedio µ : U −→ R como

µ(u) = E(Xu).

La funcion de covarianza σ : U × U −→ R se define como

σ(u, v) = Cov(Xu,Xv) = E[(Xu − µ(u))(Xv − µ(v))].

Tambien consideramos la funcion de correlacion ρ : U × U −→ R dada por

ρ(u, v) = Corr(Xu,Xv) =Cov(Xu,Xv)

Var(Xu)Var(Xv).

Teorema 6.2.4 (Caracterizacion). Una funcion σ : U2 −→ R de un campo aleatorio sobreU , es de convarianza, si y solo si, σ es funcion simetrica y la matriz que define es degeneradano-negativa; esto es

m∑i,j=1

βiβjσ(ui, uj) ≥ 0, u1, . . . , um ∈ U, β1, . . . , βm ∈ R.

Demostracion. La primera implicacion es inmediata de la definicion de una funcion de co-varianza σ.

Para el otro caso consideremos la familia de distribuciones

Fu1,...,um = Nm (0, (σ(ui, uj)1≤i,j≤m)) ,

la cual es consistente. Luego, por el Teorema de Extension, existe un campo aleatoro Xu contales distribuciones, de dimension finita y por tanto con tal funcion de covarianza σ.

Para la construccion de funciones de covarianza tenemos varios casos:

1. Para el caso multivariado Z ∼ N(0, hI), con h > 0,

σ(u, v) = e1h2||u−v||2 .

2. Si tenemos una funcion (tipo kernel) K : U × U −→ R con∫U

K2(u, s)ds <∞,

entonces

σ(u, v) =

∫U

K(u, s)K(u, v)dv.

Page 195: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

6.2. Teorıa fundamental 193

3. Sean gj : U −→ R una familia numerable de funciones y αj > 0, entonces definimos lafuncion de covarianza

σ(u, v) =∞∑j=1

αjgj(u)gj(v).

Vamos a considerar el espacio de funciones cuadrado integrables en U :

L2(U) =

g : U −→ R :

∫U

g2(u)du <∞.

El cual como hemos visto anteriormente (Seccion 3.4.3) es un espacio de Hilbert con elproducto punto

〈f, g〉 =

∫U

fgdλ,

con λ la medida de Lebesgue. De hecho podemos considerar tambien el espacio de Hilbert(aleatorio) L2(Xu) como sigue.

Definicion 6.2.5. Sea (Xu)U un campo aleatorio sobre U ⊂ RD, con E(Xu) = 0 y E(X2u) <

∞. Definimos

L2 = aiXu1 + · · ·+ amXum : a1, . . . am ∈ R, u1, . . . , um ∈ U ,

con el producto interno〈ψ, η〉 = E(ψ, η), ψ, η ∈ L2

y norma||η|| =

√E(η2), η ∈ L2.

Entonces, (L, 〈 , 〉) es un espacio euclidiano y su completacion L2(X) es el espacio deHilbert asociado al campo Xu.

Teorema 6.2.6 (Mercer). Sea U ⊂ Rd compacto y σ : U2 −→ R funcion de covarianzacontinua. Entonces, existen funciones gjj∈N ortonormales en L2(U) y constantes λj ≥ 0tales que

σ(u, v) =∞∑j=1

λjgj(u)gj(v)

donde la convergencia es absoluta y uniforme sobre U2. Ademas,∫U

σ(u, v)gj(v)dv = λjgj(u).

Page 196: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

194 Capıtulo 6. Persistencia de campos aleatorios

La demostracion de este resultado usa la descomposicion espectral de un operador linealcompacto sobre L2(U).

Usando este resultado se obtiene el teorema de desarrollo de Karhunen–Loeve.

Teorema 6.2.7 (Karhunen–Loeve). Bajo las mismas hipotesis tenemos que

Xu =∞∑j=1

Zjgj(u),

donde la convergencia es en media cuadratica (L2), las funciones gj son de Mercer y lasvariables

Zj =

∫Xugj(u)du, u ∈ U,

son no correlacionadas, E(Zj) = 0 y Var(Zj) = λj.

En el resultado anterior las integrales de las variables Zj son en el sentido de convergenciaen media cuadratica de sumas de Riemann. Llamamos a las funciones gj y a los escalares λj,autofunciones y autovalores de la covarianza σ respectivamente.

Observacion 6.2.8. El resultado anterior lo que quiere decir es que para generar un campoaleatorio, basta generar las variables aleatorias Zj con las propiedades del teorema.

Mas aun, dicho resultado funciona para el sistema coordenado cartesiano actual asociadoa Rd, e incluso para el sistema coordenado asociado a espacios de Hilbert de dimensioninfinita. La diferencia importante es que en este caso los coordenadas obtenidas son aleatoriasy son no correlacionadas.

Enunciamos ahora el caso particular en que estas componentes aleatorias se distribuyende manera normal.

Definicion 6.2.9. Un campo aleatorio (Xu)U se dice gaussiano si para cada u1, . . . , um enU y m ∈ N, se satisface:

(Xu1 , . . . ,Xum) ∼ Nm(·, ·).

De tal forma que usando los resultados anteriores, podemos definir campos aleatoriosgaussianos de una manera muy peculiar.

Proposicion 6.2.10. Si tenemos funciones ϕj : U −→ R y αj ≥ 0 tales que

∞∑j=1

√αj|ϕj(u)| <∞, ∀u ∈ U.

Page 197: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

6.3. Campos aleatorios motivados por neuroimagenes 195

Si ademas las variables Zj ∼ N(0, αj) son independientes, entonces

Xu =∞∑j=1

Zjϕj(u)

define un campo aleatorio gaussiano.

En general y dependiendo del contexto, usaremos las notaciones

(Xu)u∈U = (X(u))u∈U

para denotar a un campo aleatorio X sobre U ⊂ RD.

6.3. Campos aleatorios motivados por neuroimagenes

Un ejemplo de campo aleatorio lo tenemos con el concepto de “imagenes funcionales”.Dado cualquier dominio U y Xi campos independientes e identicamente distribuidos, o bienreplicas aleatorias de un mismo campo X,

(Xi(u))u∈U

se llaman (neuro)imagenes funcionales independientes.Supongamos ademas que los campos Xi son gaussianos con media µ(u) = E(Xi(u)) y

covarianza σ(u, v) = cov(X(u),X(v)). Para cada u ∈ U escribimos

X(u) :=1

n

n∑i=1

Xi(u)

y si ademas u esta fijo, un estimador consistente de la varianza del campo esta dado por

S2(u) = Var(X(u)) = σ(u, u) =1

n− 1

n∑i=1

(Xi(u)− X(u))2.

De tal forma que(n− 1)S2(u) ∼ χ2

(n−1);

esto es, (n− 1)S2(u) se distribuye como una variable aleatoria χ cuadrada con n− 1 gradosde libertad (ver Seccion 5.5.3).

Page 198: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

196 Capıtulo 6. Persistencia de campos aleatorios

Precisando, consideramos los campos aleatorios

ηj(u) = LTj (X1(u), . . . ,Xn(u)),

tal que los Lj son ortonormales. Entonces, usando el Teorema de Extension de Kolmogorovηj(u)U es una familia de campos gaussianos indepedientes y ademas

E(ηj(u)) = 0 y Var(ηj(u)) = 1.

Definicion 6.3.1. Un campo (Y(u))U se dice χ–cuadrado con l grados de libertad si

Yj(u) =l∑

j=1

η2j (u),

donde los campos (ηj(u))U son campos aleatorios gaussianos independientes y estandar.

Definicion 6.3.2. Un campo del tipo

T (u) =X(u)

S(u)

√n

se dice un campo t–student (con n− 1 grados de libertad). Ver la distribucion t–student enla Seccion 5.5.3.

Entonces podemos motivar con dos tipos de preguntas que provienen de estadıstica enneuroimagenes (campos) (X(u)):

1. (Activacion) ¿ Como es la funcion media µ(u) = E(X(u)) ?

2. (Conectividad) ¿ Como es la funcion de correlacion ρ(u, v) = Corr(X(u),X(v)) ?

En este modulo daremos una respuesta a la pregunta de como son topologicamente o ensu forma. Tenemos la siguiente proposicion.

Proposicion 6.3.3. Sean X1, . . . ,Xn son replicas de un campo aleatorio X : U −→ R, Usubconjunto compacto de RD, con media µ y funcion de covarianza σ : U2 −→ R. Entoncesse satisfacen:

1.X(u)

Pr−→ µ(u), u ∈ U.

Page 199: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

6.4. Aproximacion de homologıa persistente de campos aleatorios 197

2.

σ(u, v) =1

n

n∑i=1

(Xi(u)− X(u))(Xi(v)− X(v))Pr−→ σ(u, v), u, v ∈ U.

3. Si los autovalores λj asociados a σ son distintos, entonces

λj(u)Pr−→ λj y γj(u)

Pr−→ γj(u), u ∈ U.

La demostracion de este resultado se encuentra en la literatura de analisis de datosfuncionales (FDA por sus siglas en ingles).

Tambien podemos preguntaros por el nivel de significacion 0 < α < 1 para determinarun estimador A para el conjunto de activacion; es decir, queremos calcular

P∃u ∈ A : µ(u) = 0

≤ α

utilizandoA = u ∈ U : |T (u)| > c(α)

donde los c(α) satisfacen la definicion de la t–student anterior.Observar que esto ya nos da una conexion con la persistencia de subconjuntos (o supra-

conjuntos) de nivel y la teorıa de Morse. Ademas, estamos pensando que el dominio de uncampo aleatorio es continuo y que quizas nuestros estimadores en este caso pueden requerircierta suavidad sobre sus formas. Sin embargo, usando ciertas propiedades sobre la con-volucion podremos obviar estas consideraciones ya que las funciones seran infinitamentediferenciables.

6.4. Aproximacion de homologıa persistente de cam-

pos aleatorios

Dada f : U −→ R funcion con U compacto de Rd, usando las ideas anteriores definimoslas filtraciones por subcojuntos de nivel (o de Morse) asociadas como sigue,

Ur = u ∈ U : f(u) ≤ r

y las inclusiones entre subconjuntos de nivel

Ur ⊂ Ur′ (r ≤ r′).

Page 200: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

198 Capıtulo 6. Persistencia de campos aleatorios

La problematica general en homologıa persistente de campos aleatorios es considerar unaaproximacion de f como un campo aleatorio f : U −→ R y construir

Ur = u ∈ U : f(u) ≤ r.

Por lo tanto el problema es inferir la homologıa persistente de f sobre la base de homologıapersistente de f .

En particular, algunos ejemplos anteriormente vistos caen en este contexto, como es elcaso de una muestra aleatoria distribuida con cierta densidad, la cual esta soportada sobreuna variedad M ⊂ Rd. Tambien el caso de funciones tipo distancia asociadas a nubes depuntos sobre conjuntos compactos o variedades (muestreo discreto de objetos 3D o 2D yreconstruccion de variedades donde vivan vectores de rasgos Xi ∈ Rp. Otro ejemplo es elde neuroimagenes funcionales con alta resolucion espacial (fMRI) y la activacion (usando lamedia) o la conectividad (usando la correlacion).

6.4.1. Aproximacion de la media de un campo aleatorio

El modelo probabilıstico a considerar es el siguiente: Sean X1, . . . ,Xn replicas de uncampo aleatorio

X : U −→ R, U ⊂ RD compacto.

Ademas, para cada u ∈ U escribimos,

f(u) = µ(u) = E(X(u))

y

f(u) =1

n

n∑i=1

Xi(u) = X(u).

Luego, usando el teorema de estabilidad para diagramas de persistencia asociados a subcon-juntos de nivel de funciones, y con la misma notacion e hipotesis que hasta ahora, tenemosel siguiente resultado.

Teorema 6.4.1. Supongamos que la convarianza σ del campo X es continua y que las apli-caciones respectivas f , f son mansas (con probabilidad 1). Si ademas

E

(maxu∈U

|X(u)− f(u)|√σ(u, u)

)≤ L <∞

Page 201: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

6.4. Aproximacion de homologıa persistente de campos aleatorios 199

y los campos Xi son gaussianos. Entonces:

E(dB(dgm(f), dgm(f))) ≤ C√n

;

donde C = LmaxU√σ(u, u).

Demostracion.

E(dB(dgm(f), dgm(f))) ≤ E(||f − f ||) = E(maxU|X(u)− f(u)|)

= E

(maxU

√σ(u, u)√n|√n/√σ(u, u)(X(u)− f(u))|

)=

1√n

maxU

E(

maxU|√n/√σ(u, u)(X(u)− f(u))|

)=

1√nLmax

U

√σ(u, u).

Observacion 6.4.2. Usando ademas teorıa de maximos de campos aleatorios tenemos unacota de tipo exponencial, lo cual aproxima las probabilidades y por tanto nos dice que, conprobabilidad 1, el diagrama de persistencia de f converge al diagrama de persistencia de f .

En la tesis doctoral y el trabajo posterior de O. Bobrowski con R. Adler, se ofrecencondiciones suficientes para que una funcion sea mansa.

Para la gente que trabaja en estadıstica uno de los estimadores importantes es el delog–verosımil :

f(u) =1

nln(u) =

1

n

n∑i=1

ln g(Yi, u);

donde g es la densidad y las Yi se toman de una muestra aleatoria con respecto a g. Ası:

Ef(u) =

∫g(x, u) ln(g(s, u))ds = −K(·, ·).

Page 202: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

200 Capıtulo 6. Persistencia de campos aleatorios

6.4.2. Aproximacion de funcion de regresion sobre una variedad

En este apartado revisamos algunas partes del artıculo de Bubenik [23], en el cual seconsidera el modelo probabilıstico siguiente: Sea f : M −→ R una funcion suave y M unavariedad compacta de dimension d < D. Sean (Xi,Yi) ∈M × R con i = 1, . . . , n, tales que

Yi = f(Xi) + εi; E(εi) = 0, Var(εi) = σ2

y las variables εi independientes.Consideramos

f ∈ Λ(β, L) =g : M −→ R : |g(x)− g(x′)| ≤ Lρ(x, x′β)

;

con ρ la distancia geodesica sobre la variedad M . (Observar que esto generaliza las nocionesde Holder continuidad para variedades).

Definimos

ψn :=

(ln(n)

n

) β2β+d

y decimos que xi1 , . . . , xim un conjunto de puntos asintoticamente equidistantes si

ınfj 6=k

ρ(xij , xik) ∼λd(M)1/d

m

cuando m −→∞. Sea λ(m) el mayor entero tal que

n⋃j=1

B(xij , 1/λ(m)) = U.

Lema 6.4.3. Existe C1 tal quelımλ(m)−d ≤ C1.

Tomemos

m = m(n) = C1

(L(2β + d)m

δC0dψn

)d/β,

donde δ > 0 y

C0 = Ld/(2β+d)

(σ2λd(M)(β + d)d2

ωd−1β2

),

con ωd−1 el volumen de la esfera Sd−1.

Page 203: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

6.5. Caracterıstica de Euler de codigos de barras de campos gaussianos estandar 201

Definimos

f(x) =∑

aj1Aj(x),

Aj = x ∈M : dg(x, xij) = mın1≤k≤m

dg(x, xik)

y

aj =

∑ni=1K(xi, xij)Yi∑ni=1 K(xi, xij)

;

con

K(x, x′) = (1− τdg(x, x′β), τ =

(C0ψnL

−1/β).

En particular, se saben los siguientes resultados.

Lema 6.4.4.

E(||f − f ||∞) = O(C0ψn).

Teorema 6.4.5 (Bubenik). Con la notacion e hipotesis en esta seccion se satisface:

lımnE(dB(f , f)) ≤ C

(lnn

n

)β/2β+d

,

y

C = Ld/2β+dσ2λd(M)d2

β2ωd−1

.

6.5. Caracterıstica de Euler de codigos de barras de

campos gaussianos estandar

Por ultimo, vamos a analizar un caso mas del trabajo de Adler et al. El escenario proba-bilıstico es el siguiente.

Sea f : U −→ R un campo aleatorio gaussiano estandar, esto es f(u) ∼ N(0, 1) paracada u ∈ U . Mas aun, requerimos que f sea de clase C2 casi seguramente. Consideramosademas la distribucion conjunta de f y f ′′ tal que sea no degenerada y C la covarianza def ′′. Supongamos tambien que existen K,α > 0 tal que

|C(t, t) + C(s, s)− 2C(t, s)| ≤ K| ln dg(t, x)|−(1+α).

Page 204: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

202 Capıtulo 6. Persistencia de campos aleatorios

Del primer capıtulo sabemos que si U0 es una variedad de dimension d, una de las formasde definir la caracterıstica de Euler de U0 es:

χ(U0) =d∑

k=0

(−1)kβk.

Para el caso de los codigos de barras tambien podemos definir la caracterıstica de Euler.

Definicion 6.5.1 (Adler–Bobrowski). Sea PH∗ el codigo de barras asociado a una filtracion.Para cada barra B ∈ PH∗, sean b(B) el nivel en que nace la barra y d(b) el nivel en quemuere la barra. La caracterıstica de Euler del codigo de barras PH∗ se define como

χ(PH∗) :=∑

B∈PH∗

(−1)µ(B)`(B);

donde µ(B) es la dimension del grupo de homologıa asociado a la barra B y

`(B) = d(B)− b(B).

Dicha caracterıstica de Euler para codigos de barras esta vinculada a la distribucion demaximos de campos aleatorios, con el proposito de estudiar estimadores adecuados para χde una filtracion cualquiera.

Enunciaremos algunas formulas que se obtienen de resultados asociados a caracterısticade Euler.

En primer lugar, tenemos la formula gaussiana cinetica (Adler–Taylor 2007). Sea U unavariedad de clase C2 y ciertos supuestos adicionales debiles sobre U (i.e. U es una variedadestratificada).

Teorema 6.5.2. Usando la notacion y supuestos anteriores

E(χ(f−1(D)) =d∑i=1

(2π)−j/2Lj(U)Mγj (D),

con D = (−∞, a].

En el resultado anterior tenemos que Lj(U) es la curvatura “Lipschitz Killing” de U yMγ

j (D) es el funcional de Gauss–Minkowski de D.

Page 205: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

6.5. Caracterıstica de Euler de codigos de barras de campos gaussianos estandar 203

Teorema 6.5.3 (Bobrowski). Consideramos para cada a ∈ R los codigos de barras a nivela, PH∗(f, a) = PH∗(f

−1(−∞, a]). Se tiene que:

E(χ(PH∗(f, a))) = χ(U)[ϕ(a) + aΦ(a)] + ϕ(a)d∑j=1

(2π)−j/2Lj(U)Hj−2(a),

con ϕ la densidad, Φ es la funcion de distribucion gaussiana estandar y Hj−2 es una funcionde Hermite de orden j − 2.

Para la demostracion de este teorema se desarrolla una teorıa de integracion de funciones(reales) sobre una variedad con respecto a la “medida” dada por la caracterıstica de Euler∫

U

fddχe.

Page 206: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

204 Capıtulo 6. Persistencia de campos aleatorios

6.6. Ejercicios

Ejercicio 6.6.1. Definir otras medidas de probabilidad sobre Cn no generadas sobre nodosi.i.d. Xi, i = 1, . . . n.

Ejercicio 6.6.2. Hacer un analisis similar para v.a. con valores en complejos simplicialesde Cech con n nodos.

Ejercicio 6.6.3. Probar que el espacio subyacente o polıtopo |K| a un complejo simpliciales medible considerandolo en la familia de conjuntos compactos en Rd con la topologıa deBorel asociada a la metrica dH .

Ejercicio 6.6.4. Si Z es una variable aleatoria con valores en U y Z = −Z en ley, entonces

σ(u, v) = E(ei〈u−v,Z〉)

es simetrica no–negativa.

Page 207: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Capıtulo 7

Estimacion de numeros de Betti ytopologıa estocastica

7.1. Topologıa de densidades parametricas

El objetivo de esta seccion es describir los codigos de barra teoricos para los numeros deBetti de algunas densidades parametricas en la esfera que se presentaron en la Seccion 3.5.4.Estos codigos dependen de los parametros de la densidad. Se incluye el calculo de algunosvalores esperados de numeros de Betti, y la estimacion de maxima verosimilitud de ellos ylos codigos de barra. El material de esta seccion se tomo del artıculo de Bubenik y Kim [24],presentando varios calculos que en dicho artıculo se dan por hecho.

En concreto, primero se establecen las filtraciones a tratar, Cech y Morse, y se definela funcion β0(x, θ), los cuales constituiran la base de los calculos siguientes, especialmenteal enfocarnos en los codigos de barra Betti-0. De ahı se procede a trabajar con un ejemplode juguete, la distribucion uniforme en S1, aprovechando su sencillez para efectuar varioscalculos explıcitos y dar un sabor un poco mas concreto de la idea de calcular codigos debarra teoricamente sin necesidad de recurrir a calculos computacionales.

A partir de ahı se trabajaran dos ejemplos concretos, siendo las distribuciones von Misesy von Mises-Fisher en S1 y Sd−1 respectivamente. En ambos casos se calcularan sus codigosde barra y sus funciones β0 para el codigo de barra Betti-0. Finalmente, esto se utilizara paraacotar la distancia entre el codigo de barras actual teorico de la distribucion, y el codigo debarras obtenido a traves de la estimacion de parametros de la misma distribucion.

205

Page 208: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

206 Capıtulo 7. Estimacion de numeros de Betti y topologıa estocastica

Definiciones preliminares

Sea fθ, θ ∈ Θ una funcion de densidad en una variedad M con respecto a la distribucionuniforme µ. Para poder calcular la persistencia topologica como antes, consideramos dosfiltraciones particulares:

Filtracion de Morse: dada por conjuntos de excursion de subniveles,

M≤r= x ∈M | fθ(x) ≤ r , r ∈ R.

Filtracion de Cech: dada por conjuntos de excursion de superniveles,

M≥ 1r=

x ∈M | fθ(x) ≥ 1

r

, r ∈ R.

La filtracion de Morse ya fue tratada en la Seccion 6.4, mientras que en la filtracion deCech vemos que cuando r → 0, M≥ 1

r→ ∅, y cuando r → ∞, M≥ 1

r→ M . Notando que

a medida que r crece, M≥ 1r

se va conformando de los puntos de mayor densidad. Es decir,

las filtraciones consideran primero los conjuntos de puntos mas aglomerados (con mayordensidad en la variedad) y a medida que el tiempo r transcurre, va agregando puntos masdispersos. Esto coincide con la filtracion de Cech tratada en estas notas, pues en ella vimosque los subconjuntos de puntos con menor distancia entre ellos tienden a formar rapidamentecomplejos simpliciales, mientras que los puntos lejanos del resto tienden a ser los ultimos enser absorbidos por el complejo simplicial principal.

Sea X una muestra aleatoria de puntos con densidad fθ en una variedad M . El objetivoprincipal de nuestro trabajo sera deducir teoricamente el comportamiento de los codigos debarra si efectuasemos los calculos habituales de homologıa persistente a la nube de puntosX usando la filtracion de Morse o de Cech. Para ello nos sera de mucha utilidad hallar lafuncion Betti-0 β0

Para definirla, primero definimos la funcion gθ : [0,∞]→ [0, 1] como

gθ(r) =

∫M≥1/r

fθdθ.

Como fθ es una densidad, gθ es no decreciente para cada θ ∈ Θ, donde gθ(0) = 0 ygθ(∞) = 1. Definimos entonces la funcion Betti-0 β0 : (0, 1]×Θ→ [0,∞] como el cuantil degθ:

β0(x, θ) := ınfgθ(r)≥x

r.

Page 209: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

7.1. Topologıa de densidades parametricas 207

Si gθ es continua y creciente, notemos β0(x, θ) = g−1θ (x).

Intuitivamente, si efectuasemos nuestro calculo de persistencia usual y ordenamos losintervalos de persistencia de Betti-0 de manera vertical (en lugar de horizontal como seacostumbra) de menor a mayor, β0 describe la funcion determinada por las puntas superioresde cada intervalo. De ahı que estudiar el comportamiento asintotico de β0(x, θ) para θ fijoy x −→ 1 dira el comportamiento de los numeros Betti-0 a lo largo del tiempo dada unafiltracion (de Cech o de Morse). En otras palabras, la funcion nos indica la rapidez con lacual los puntos de X conforman un unico complejo simplicial conexo.

Para motivar las virtudes de este enfoque analıtico al momento de enfrentarnos a loscalculos de persistencia, desarrollaremos un ejemplo bastante sencillo pero ilustrativo.

Densidad uniforme en S1

Sea f la densidad uniforme en S1. Sea X = X1, . . . ,Xn una muestra aleatoria con estadensidad. Antes de proseguir con nuestro acercamiento teorico, debemos de desarrollar ciertovocabulario.

Sea α ∈ [0, 1) tal que X1 = e2πiα. Ası, para k = 2, . . . , n sea Uk ∈ [0, 1) tal queXk = exp(2πi(α + Uk)). Notemos que Uk ∼ Unif[0, 1). Estos son reordenados de modo que

0 := Un:0 < Un:1 < . . . < Un:n−1 < Un:n := 1.

Ası, reordenamos las Xk como Xn:k en correspondencia con las Un:k y para cadak = 1, . . . , n definimos Sk = Un:k−Un:k−1, siendo S = S1, . . . , Sn el conjunto de espaciadosentre cada par de puntos Xk, Xk+1 vecinos, los cuales finalmente ordenamos

0 := Sn:0 < Sn:1 < . . . < Sn:n−1 < Sn:n = 1.

7.1.1. Intervalos de persistencia y esperanza de codigos de barra

Consideremos la filtracion de Vietoris-Rips y la metrica de longitud de arco mas cortamultiplicada por 1

2πde modo que S1 tiene circunferencia 1. Recordemos que R(X, r) denota

el complejo Vietoris-Rips construido a partir del contrapeso de radio r para cada punto deX, como se detallo en la seccion 1.3.1.

Consideremos primero el comportamiento de los numeros Betti-0; es decir, el compor-tamiento de las componentes conexas en el complejo de Rips. Cuando r = 0, vemos queR(X, r) = X, teniendose n componentes conexas distintas. A medida que r incrementa, losprimeros dos puntos a unir (formar un 1-simplejo) en X seran los dos puntos mas cercanosentre sı, digamos Xk1 ,Xk2 . Puesto que la distancia entre dichos puntos es Sn:1, vemos quecuando Sn:1 ≤ r < Sn:2, R(X, r) es el complejo simplicial con cada Xi como 0-simplejo,

Page 210: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

208 Capıtulo 7. Estimacion de numeros de Betti y topologıa estocastica

ademas de unico 1-simplejo [Xk1 ,Xk2 ]. En este caso, ahora solo se tienen n− 1 componentesconexas distintas.

Ahora supongamos que la distancia entre Xl1 ,Xl2 es Sn:2, de modo que si Sn:2 ≤ r < Sn:3,R(X, r) es el complejo simplicial tendra a cada Xi como 0-simplejo, ademas de 1-simplejos[Xk1 ,Xk2 ], [Xl1 ,Xl2 ]. Ası, se tendran n − 2 componentes conexas distintas. Al proseguir, no-tamos que r ∈ [Sn:k, Sn:k+1]⇒ β0(R(X, r)) = n−k. En particular, cuando r ≥ Sn:n−1, vemosque R(X, r) consiste de una unica componente conexa. Entonces los intervalos de persistenciaBetti-0 son la coleccion

[0, Sn:i)n−1i=1 ∪ [0,∞].

Examinemos ahora el caso de los intervalos de persistencia Betti-1, en particular, quere-mos hallar el intervalo de persistencia Iτ donde τ es la 1-cadena dada por

τ := (Xn:1,Xn:2) + . . .+ (Xn:n−1,Xn:n) + (Xn:n,Xn:1),

el polıgono convexo circunscrito por S1. Mas aun, notemos que para cualquier otra 1-cadenaσ que se forma mientras r crece, al momento en que esta aparece, tambien aparece una2-cadena que la tiene como frontera. Es decir, el intervalo de persistencia de σ es trivial.

Para resumir el comportamiento de los intervalos Betti-1, tenemos un lema:

Lema 7.1.1. Si Sn:n <12, el codigo de barras de Betti-1 es un unico intervalo de persistencia

Iα = [Sn:n, s) con s ∈ [13, 1

2).

Observacion: Notemos que la mayor distancia posible entre dos puntos en S1 es 12. Si Sn:n ≥ 1

2,

entonces X se concentra en un semicırculo. Vemos que cuando r ≥ 12, todos los puntos se

unen con todos, formando instantaneamente un n-simplejo completo, el cual ciertamente notendra 1-ciclos. De ahı que exigimos Sn:n <

12.

Demostracion. Notemos que τ no se forma sino hasta que r ≥ Sn:n. Por la observacionprevia, vemos que r ≥ 1

2implica la desaparicion de τ .

Como Sn:n <12, la realizacion geometrica de τ es un n-agono que contiene al centro de

S1. Si r ≥ Sn:n, debe de existir una 2-cadena

σ :=∑i,j,k

[Xi,Xj,Xk]

tal que ∂σ = τ al triangular dicho n-agono.Debe de existir entonce un 2-simplejo [Xi,Xj,Xk] cuya realizacion geometrica contiene

al centro. Vemos que el r mas pequeo posible para que [Xi,Xj,Xk] pueda ser 2-simplejo enprimer lugar es r = 1

3, en el caso que [Xi,Xj,Xk] forma un triangulo equilatero.

Por ende, τ se vuelve una frontera cuando r = s, para algun s ∈ [13, 1

2).

Page 211: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

7.1. Topologıa de densidades parametricas 209

Observacion: Si Sn:n ≥ 13

es posible que s = Sn:n de modo que Iτ tambien es trivial. Porejemplo, consideremos X = X1,X2,X3 distribuidos como un triangulo equilatero.

Para saber que tan probable es que ocurran casos degenerados como los planteados enambas observaciones previas, recurrimos a un teorema clasico

Teorema 7.1.2 (Whitworth, 1897). Si S es un conjunto de n espaciados en S1 distribuidosde manera uniforme en [0, 1], entonces

P(Sn:n > x) =∑k≥1kx<1

(−1)k+1(1− kx)n−1

(n

k

), ∀ x > 0.

Usando Whitworth, vemos que P(Sn:n >12) = n

2n−1 y P(Sn:n >13) < n

(23

)n−1, las cuales

en ambos casos tienden a 0 muy rapidamente a medida que n crece, por lo que casi siemprepodremos ignorar ambas observaciones.

Continuando con la notacion anterior, ahora usaremos otro resultado

Teorema 7.1.3. Para 1 ≤ i ≤ n, el valor esperado de los espaciados es dado por

E(Sn:i) =1

n

i∑j=1

1

n+ 1− j=

n∑j=n+1−i

1

j.

Ası, el codigo de barras Betti-0 esperado consiste de los intervalos[0,

1

n

i∑j=1

1

n+ 1− j

)n−1

i=1

∪ [0,∞].

La funcion Betti-0

Para calcular la funcion Betti-0 a partir del codigo de barras consideremos

nβ0 := ESn:d(n−1)xe.

La funcion Betti-0(n) es una version normalizada de nβ0(x, 0) = cnnβ0(x, 0) de manera tal

que∫ 1

0 nβ0(x, 0)dx = 1. A partir de aquı haremos varias observaciones.Calculamos

nβ0(x, 0) =cnn

d(n−1)xe∑j=1

1

n+ 1− j=cnn

n∑j=n+1−d(n−1)xe

1

j.

Page 212: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

210 Capıtulo 7. Estimacion de numeros de Betti y topologıa estocastica

Como∫ 1

0ESn:d(n−1)xedx = 1

n−1ESn:1 + . . . + 1

n−1ESn:n−1 al ser la integral de una funcion

escalonada, vemos

cn =

(∑ESn:i

n− 1

)−1

=n− 1

1− ESn:n

,

pues

n∑i=1

Sn:i = 1⇒n∑i=1

ESn:i = 1⇒ ESn:n = 1−n−1∑i=1

ESn:1.

Notese que lımn→∞ ESn:n = 0, por lo que lımn→∞

cnn

= 1.

Ademas, cuando n es grande, d(n− 1)xe es muy parecido a (n− 1)x. Usando L’Hopitalcalculamos

lımn→∞

log

(n

n+ 1− d(n− 1)xe

)= log

(lımn→∞

1

1− x

)= − log(1− x).

Finalmente, observemos a partir de la definicion de integral que para todo 1 ≤ k ≤ n setiene:

1

n+ log

(nk

)=

1

n+

∫ n

k

dx

x<

n∑j=k

1

j<

1

k+

∫ n

k

dx

x=

1

k+ log

(nk

).

Tomando k = n + 1− d(n− 1)xe y combinandola con todas estas observaciones previaspodemos enunciar:

Teorema 7.1.4. Para 0 < x < 1, n→∞, obtenemos nβ0(x, 0)→ − log(1− x).

Por ultimo graficamos nβ0(x, 0) para n = 10 y n = 100 junto con f(x) = − log(1 − x)y corroboramos que en efecto, − log(1− x) refleja el comportamiento asintotico de los picosde cada intervalo de persistencia Betti-0, donde los intervalos fueron ordenados de menor amayor colocados verticalmente como se muestra en la figura 1.

1Imagen tomada directamente de [24]

Page 213: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

7.1. Topologıa de densidades parametricas 211

Figura 7.1: nβ0(x, 0) para n = 10 y n = 100 junto con f(x) = − log(1− x)

7.1.2. Codigos de barra de ciertas densidades parametricas

Una vez motivados por el ejemplo de juguete expuesto, procedemos a tratar de calcularteoricamente los codigos de barra de densidades un poco mas elaboradas y en otras varie-dades. En concreto, trataremos las densidades von Mises y von Mises-Fisher en S1 y Sprespectivamente, y sus codigos de barras bajo las filtraciones de Cech y Morse.

La distribucion von Mises

Sea M = S1 = eiθ| x ∈ [−π, π) el cırculo unitario y consideremos la densidad von Misesde parametros (m,κ) ∈ [−π, π)× [0,∞) dada por

fm,κ =1

I0(κ)exp[κ cos(θ −m)], x ∈ [−π, π),

con I0(κ) la funcion de Bessel modificada de primer tipo y orden 0, donde

Iα(κ) =(κ/2)α

Γ(α + 1/2)Γ(1/2)

∫ 1

−1

eκt(1− t2)α−1/2dt

y Γ es la funcion Gama. Supondremos ademas que m = 0 para simplificar el modelo, siendoası κ el unico parametro.

Page 214: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

212 Capıtulo 7. Estimacion de numeros de Betti y topologıa estocastica

Recordemos que S1≥ 1r

= θ ∈ S1| fκ(θ) ≥ 1r. Consideremos para r > 0

αr,κ = arc cos

[1

κlog

(r

c(κ)

)],

donde c(κ) es un constante dada por c(κ) = 1I0(κ)

. Vemos que αr,κ cumple fκ(αr,κ) = r.

Como | cos θ| ≤ 1, vemos que

max fκ =eκ

I0(κ), mın fκ =

1

eκI0(κ).

Aprovechando la forma de la grafica de arc cos, obtenemos facilmente el siguiente resul-tado que resume el comportamiento de S≥ 1

r,S≤r a lo largo del tiempo.

Figura 7.2: arc cos con rango [−π, π)

Figura 7.3: arc cos con rango [π, 3π)

Page 215: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

7.1. Topologıa de densidades parametricas 213

Lema 7.1.5. 1. Para 0 ≤ r < 1max fκ

, S1≥ 1r

= ∅ y para r < mın fκ, S1≤r = ∅.

2.1

max fκ≤ r <

1

mın fκ, S1≥ 1r

= θ : −α 1r,κ ≤ θ ≤ α 1

r,κ.

3. mın fκ ≤ r < max fκ, S1≤r = θ : αr,κ ≤ θ ≤ 2π − αr,κ.

4. r ≥ 1mın fκ

, S1≥ 1r

= S1 y r ≥ max fκ, S1≤r = S1.

Demostracion. 1. Si 0 ≤ r < 1max fκ

, vemos que fκ(θ) ≥ 1r⇒ fκ(θ) > max fκ. Si r <

mın fκ, ; fκ(θ) ≤ r ⇒ fκ(θ) < mın fκ. En ambos casos, es imposible que exista tal θ.

2. Notemos que fκ(0) =eκ

I0(κ)= max fκ y que mın fκ < f(α 1

r,κ) = f(−α 1

r,κ) = 1

r≤

max fκ. Por la geometrıa de arc cos, vemos que S1≥ 1r

son en efecto todos los puntos

entre α 1r,κ y −α 1

r,κ (como los marcados en la lınea azul en la figura 7.2)

3. Analogo al anterior, fκ(π) = [eκI0(κ)]−1 = mın fκ y mın fκ ≤ fκ(αr,κ) = fκ(2π−αr,κ) =r < max fκ de modo que S1

≤r consta de todos los puntos entre αr,κ y 2π − αr,κ (comolos marcados en la lınea naranja en la figura 7.3)

4. Observacion analoga al primer inciso de este lema.

Filtracion de Morse

Primero estudiemos los intervalos de persistencia bajo la filtracion de Morse. Del lemaanterior vemos que

1. r < mın fκ ⇒ S1≤r = ∅.

2. mın fκ ≤ r < max fκ ⇒ S1≤r es contraıble, pues el segmento naranja de figura 7.3 es

un segmento de arco de un cırculo, como en figura 7.4. Al ser contraıble su grupo dehomologıa de dimension 1 es trivial.

3. r ≥ max fκ ⇒ S1≤r = S1.

Page 216: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

214 Capıtulo 7. Estimacion de numeros de Betti y topologıa estocastica

Figura 7.4: Arco de cırculo

De ahı que el codigo de barras Betti-0 para la filtracion deMorse consiste de un unico intervalo

[mın fκ,∞] =

[1

eκI0(κ),∞]

y el codigo de Betti-1 es un unico intervalo

[max fκ,∞] =

[eκ

I0(κ),∞],

mientras que el resto de codigos de barra son triviales, pues loson en S1.

Filtracion de Cech y la funcion Betti-0

Ahora consideremos la filtracion de Cech. Para ello dividimos el analisis en dos casos:κ = 0 y κ > 0.

Si κ = 0, el caso de distribucion uniforme, entonces f0(θ) =1

I0(0)e0 = 1 pues

I0(0) =1

Γ(1/2)2

∫ 1

−1

(1− t2)−1/2 dt =1

π[arcsin(t)]t=1

t=−1 =1

π

2− −π

2

]= 1,

por lo que max fκ = mın fκ = 1. Aunando al lema anterior, vemos que

r <1

1⇒ S1

≥ 1r

= ∅ y r ≥ 1

1⇒ S1

≥ 1r

= S1.

Volviendo a la definicion de la funcion β0, vemos que

g0(r) =

∫S11r

f0(θ) dθ =

0, r < 1

1, r ≥ 1

por lo que β0(x, 0) = ınfg0(r)≥x

r = 1 ∀x ∈ (0, 1].

Si κ > 0, primero calculamos los intervalos de persistencia.

Page 217: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

7.1. Topologıa de densidades parametricas 215

1. r < 1max fκ

⇒ S1≥ 1r

= ∅.

2.1

max fκ≤ r <

1

mın fκ⇒ S1

≥ 1r

es contraıble, y su grupo de homologıa de dimension 1

es trivial.

3. r ≥ 1

mın fκ⇒ S1

≥ 1r

= S1.

De ahı que el codigo de barras Betti-0 para la filtracion de Morse consiste de un unicointervalo [

1

max fκ,∞]

=

[I0(κ)

eκ,∞]

y el codigo de Betti-1 es un unico intervalo[1

mın fκ,∞]

= [eκI0(κ),∞] ,

mientras que el resto de codigos de barra son triviales, pues lo son en S1.

Sea x ∈ [0, 1] y supongamos β0(x, κ) = r. Como κ > 0, gκ(r) =∫S1≥ 1r

fκ(θ) dθ es continua

y creciente. Ası,

x =

∫S1≥ 1r

fκ(θ) dθ.

Redefinimos ahora αr,κ ∈ [0, π] tal que fκ(ακ,r) = 1r. Entonces

r =1

fκ(αr,κ).

Para ψ ∈ [0, π], sea Fκ(ψ) =∫ ψ

0fκ(θ) dθ, la cual es creciente pues fκ es no negativa. Como

fκ es par,

x =

∫S1≥ 1

r

fκ(θ)dθ =

∫ αr,κ

−αr,κfκ(θ)dθ = 2Fκ(αr,κ).

Entonces αr,κ = F−1κ (x

2) y por ende

β0(x, κ) = r =1

fκ(F−1κ (x

2)).

Page 218: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

216 Capıtulo 7. Estimacion de numeros de Betti y topologıa estocastica

Como fκ, Fκ son suaves, por Teorema de la Funcion Inversa, F−1κ tambien lo es, de modo

que

β0(x, κ) = (F−1κ )′

(x2

).

Para corroborar, vemos que fκ → 1 cuando κ→ 0, de modo que en particular fκ(F−1κ (x

2))→

1 tambien. Entonces β0(x, κ)→ 1 = β0(x, 0) cuando κ→ 0.Tambien podemos describir la grafica de r = β0(x, κ) parametricamente como

hκ(t) =

(2Fκ(t),

1

fκ(t)

), t ∈ [0, π].

la cual al graficarse luce como se ve en la figura siguiente.2

La distribucion von Mises-Fisher

Sea ahora M = Sd−1, para d ≥ 3 y consideremos la densidad unimodal von Mises-Fisherdada por

fm,κ = c(κ)eκx>m, x ∈ Sd−1,

con parametros (κ,m) ∈ [0,∞)× Sd−1 y

c(κ) =(κ

2

)d/2−1 1

Γ(d/2)Id/2−1(κ)

2Imagen tomada directamente de [24]

Page 219: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

7.1. Topologıa de densidades parametricas 217

una constante normalizadora respecto a la medida uniforme.Una simple manipulacion algebraica

c(κ)

∫Sd−1

exp(κx>m) dx = 1⇒∫Sd−1

exp(κx>m) dx =

(2

κ

)d/2−1

Γ

(1

2

)Id/2−1(κ),

donde∫Sd−1

exp(κx>m) dx =

(2

κ

)d/2−1

Γ

(1

2

)(κ/2)d/2−1

Γ((d− 1)/2))Γ(1/2)

∫ 1

−1

eκt(1− t2)d/2−3/2 dt

=Γ(d−1

2+ 1

2)

Γ(d−12

)Γ(12)

∫ 1

−1

eκt(1− t2)(d/2−1)−1/2 dt,

y nos permite reescribir c(κ) como

c(κ) =

[∫Sd−1

exp(κx>m) dx

]−1

=B(d−1

2, 1

2)−1∫ 1

−1eκt(1− t2)(d/2−1)−1/2 dt

,

donde B(·, ·) es la funcion Beta, la cual es dada por:

B(x, y) =

∫ 1

0

tx−1(1− t)y−1 dt =Γ(x)Γ(y)

Γ(x+ y)

cuando Re(x), Re(y) > 0.En particular, dado que en general si w tal que Re(w) > −1

2, entonces∫ 1

−1

(1− t2)w−1/2 dt =

√πΓ(w + 1/2)

Γ(w + 1),

de modo que

c(0) =Γ(d−1

2)Γ(1

2)

Γ(d−12

+ 12)

[∫ 1

−1

(1− t2)d−32 dt

]−1

=Γ(d−1

2)√π

Γ(d−12

+ 12)

[√πΓ(d

2− 1

2)

Γ(d2)

]−1

= 1.

Por otro lado, de la desigualdad de Cauchy-Schwarz vemos que |xTm| = |〈x>m〉| ≤||x||||m|| ≤ 1, por lo que

max fκ = c(κ)eκ, mın fκ = c(κ)e−κ.

Page 220: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

218 Capıtulo 7. Estimacion de numeros de Betti y topologıa estocastica

Notemos que el maximo y el mınimo no dependen de m. De hecho, por simetrıa, lashomologıas no dependen de m. De ahı que nos preocuparemos unicamente por el parametroκ.

Al igual que en la densidad von Mises, dado mın fκ ≤ r ≤ max fκ fijo, consideremos

αr,κ =1

κlog

(r

c(κ)

)∈ [−1, 1]

la cual es creciente al fijar el parametro κ y ademas cumple

c(κ) exp(καr,κ) = r.

Filtracion de Morse

Similar al lema 7.1.5, establecemos

Lema 7.1.6. 1. r < mın fκ ⇒ Sd−1≤r = ∅.

2. r ≥ max fκ ⇒ Sd−1≤r = Sd−1.

3. mın fκ ≤ r < max fκ ⇒ Sp−1≤r = x ∈ Sd−1| x>m ≤ αr,κ.

Observacion: En el segundo caso, Sd−1≤r es la cerradura de Sd−1 menos un cono circular recto

con vertice 0 centrado en m. En particular, Sd−1≤r es contraıble, de modo que su grupo de

homologıa de dimension 1 es trivial.Combinando este ultimo lema junto con la observacion vemos que bajo la filtracion de

Morse, el codigo de barras Betti-0 es un unico intervalo [mın fκ,∞), el codigo de barrasBetti-(p− 1) es [max fκ,∞), mientras que el resto son vacıos, pues lo son en Sd−1.

Filtracion de Cech y la funcion Betti-0

Al igual que en la seccion anterior, deducimos facilmente el siguiente lema:

Lema 7.1.7. 1. 0 ≤ r < 1max fκ

⇒ Sd−1≥ 1r

= ∅.

2.1

max fκ≤ r <

1

mın fκ⇒ Sd−1

≥ 1r

= x ∈ Sd−1| x>m ≥ α 1r,κ.

3. r ≥ 1mın fκ

⇒ Sd−1≥ 1r

= Sd−1.

Page 221: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

7.1. Topologıa de densidades parametricas 219

Observacion: En el segundo caso notemos que Sd−1≥ 1r

es la interseccion de Sd−1 con un cono

circular de vertice 0 centrado en m. En particular, es contraıble por lo que su homologıa dedimension 1 es trivial.

Combinando este ultimo lema junto con la observacion vemos que bajo la filtracion deCech, el codigo de barras Betti-0 es un unico intervalo [ 1

max fκ,∞), el codigo de barras Betti-

(p− 1) es [ 1mın fκ

,∞), mientras que el resto son vacıos.

Continuando de manera analoga al caso von Mises, consideremos dos casos para deducirla funcion Betti-0.

Si κ = 0, entonces f0 = c(0) = 1 de modo que

Sd−1≥ 1r

=

∅, r < 1

Sd−1, r ≥ 1.

Entonces

gκ(r) =

∫Sd−1

≥ 1r

f0(x)dx =

0, r < 1

1, r ≥ 1

y por ende

β0(x, 0) = ınfgκ(r)≥x

r = 1,

lo cual coincide con nuestros calculos con la densidad von Mises.

Si κ > 0, mediante coordenadas polares, obtenemos

x = gκ(r) =

∫Sd−1

≥ 1r

fκ(ξ)dξ

= c(κ)sp−2

sp−1

∫ arc cos(− log(rc(κ))κ

)

0

eκ cos θ sinp−2 θdθ

donde sp−1 = 2πp2

Γ( p2

). Si κ > 0, gκ(r) es creciente de modo que β0(x, κ) = g−1

κ (x) para x ∈ [0, 1].

Page 222: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

220 Capıtulo 7. Estimacion de numeros de Betti y topologıa estocastica

Tambien podemos describir la grafica de β0 en terminos parametricos como

hκ(t) =

(c(κ)

sp−2

sp−1

∫ arc cos(− log(rc(κ))κ

)

0

eκ cos θ sinp−2 θdθ,e−κ cos t

c(κ)

)con t ∈ [0, π].

7.1.3. Estimacion estadıstica de codigos de barra

En esta ultima seccion daremos un par de resultados del comportamiento de los codigos debarra reales versus un codigo de barra estimado. Daremos cotas a las diferencias absolutasen los casos particulares cuando estamos trabajando con las densidades von Mises y vonMises-Fisher.

Estimando con la densidad von Mises-Fisher

Sean X1, . . . , Xn variables aleatorias en Sd−1 independientes identicamente distribuidascon densidad von Mises-Fisher f de parametros m,κ desconocidos. Si tenemos una muestraX = x1, . . . , xn, nos interesa estimar los parametros de la densidad. Para ello, consideremosla funcion de verosimilitud obtenida a partir de X,

L(m,κ;X) =n∏i=1

f(xi;m,κ) =n∏i=1

c(κ)eκx>i m.

Considerando el estadıstico r =∑n

i=1 xi, tenemos la funcion de log verosimilitud

l(m,κ;X) =n∑i=1

[log c(κ) + κx>i m] = n log c(κ) + κr>m.

Para obtener los estimadores de maxima verosimilitud, consideremos el multiplicador deLagrange

L(m,κ, λ) = n log c(κ) + κr>m+ λ(1−m>m)

y suponiendo que µ, κ son los maximos, obtenemos el sistema de ecuaciones

∂L∂m

= κr − λ(2m) = 0⇒ m =κ

2λr. (7.1.1a)

∂L∂κ

= nc′(κ)

c(κ)+ r>m = 0⇒ n

c′(κ)

c(κ)= −r>m. (7.1.1b)

∂L∂λ

= 1− m>m = 0⇒ m>m = 1. (7.1.1c)

Page 223: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

7.1. Topologıa de densidades parametricas 221

Tomando norma al cuadrado en ambos lados de la primera ecuacion

||m||2 =

2λ)

)2

||r||2 ⇒ 1 =κ

2λ||r|| ⇒ λ =

κ

2||r||.

Sustituyendolo en la primera ecuacion

κ

2(κ/2||r||)r =

r

||r||= m

de modo que al sustituir en la segunda ecuacion

c′(κ)

c(κ)= −||r||

n.

Por otro lado, para facilitar la notacion, sean s := d2− 1, ξ = 2sΓ(d

2), de modo que

c(κ) =κs

ξIs(κ).

Derivando respecto a κ,

c′(κ) =sκs−1ξIs(κ)− ξκsI ′s(κ)

[ξIs(κ)]2=

κ2

ξIs(κ)

[s

κ− κI ′s(κ)

ξIs(κ)2

]= c(κ)

[s

κ− κI ′s(κ)

ξIs(κ)2

],

es decir,

−c′(κ)

c(κ)=I ′s(κ)

Is(κ)− s

κ.

Ahora bien, aprovechando la igualdad (ver [1])

κIs+1(κ) = κI ′s(κ)− sIs(κ)

obtenemos

−c′(κ)

c(κ)=Is+1(κ)

Is(κ)+s

κ− s

κ=Is+1(κ)

Is(κ)=

Id/2(κ)

Id/2−1(κ)=: Ad(κ)

concluyendo ası en particular,

−c′(κ)

c(κ)= Ad(κ) =

||r||n

siendo ası los estimadores de maxima verosimilitud dados por

κ = A−1d

||r||n, m =

r

||r||.

Page 224: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

222 Capıtulo 7. Estimacion de numeros de Betti y topologıa estocastica

Al ser estimadores de maxima verosimilitud, tenemos el comportamiento asintotico (verProposicion 5.4.4)

√n(κ− κ)

L→ N(0, A′−1p )

donde N(µ, σ2) denota a la distribucion normal de media µ y varianza σ2 y A′p es la infor-macion de Fisher.

Si βMi , βCi denotan los codigos de barra para Betti-i bajo las filtraciones de Morse y Cech

respectivamente, enunciamos

Teorema 7.1.8. Para la distribucion von Mises-Fisher en Sd−1 y κ ∈ [κ0, κ1] con 0 < κ0 ≤κ1 <∞ fijos,

E(D[βMi (fκ), βMi (fκ)]) ≤ C(κ)n−

12 , n→∞ ∀ i,

E(D[βCi (fκ), βCi (fκ)]) ≤ C(κ)n−

12 , n→∞ ∀ i ≥ 1,

para alguna constante C(κ).

Observacion: Aprovechando que los intervalos en los codigos de barra de la distribucion vonMises-Fisher son sencillos, de la definicion de distancia D vemos que

D([a,∞), [b,∞)) = |a− b|.

Demostracion. Recordemos que los unicos codigos de barra no necesariamente triviales ocu-rren en las dimensiones i = 1 e i = d−1. De la observacion anterior y aprovechando nuestrasconstrucciones teoricas de codigos de barra en la seccion anterior, vemos que

1. d[βM0 (fκ), βM0 (fκ)] = |c(κ)e−κ − c(κ)e−κ|.

2. d[βMp−1(fκ), βMp−1(fκ)] = |c(κ)eκ − c(κ)eκ|.

3. d[βCp−1(fκ), βCp−1(fκ)] = |c(κ)−1eκ − c(κ)−1eκ|.

Enfoquemonos unicamente en la primera igualdad. Por teorema del valor medio, existe

Page 225: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

7.1. Topologıa de densidades parametricas 223

κ∗ entre κ y κ tal que

E|c(κ)eκ − c(κ)eκ| = E|(c(κ∗) + c′(κ∗))eκ∗(κ− κ)|

=

∫[(c(κ∗)− c′(κ∗)eκ∗(κ− κ)]κdf ]

≤[∫

[(c(κ∗)− c′(κ∗)eκ∗ ]2df ]

] 12[∫

((κ− κ)κ)2df

] 12

≤ C∗(κ)(E|κ− κ|2)12

≤ C(κ)n−12 .

Para las otras dos igualdades el resultado es completamente analogo.

Caso particular d = 3

Enfoquemonos ahora en el caso particular cuando d = 3 en la variedad S2. En este caso,muchos calculos pueden hacerse de manera explıcita.

Calculamos

c(κ) =B(1, 1

2)−1∫ 1

−1exp(κt) dt

=12

2 sinhκ/κ=

κ

sinhκ,

pues sinh x = 12(ex − e−x). Por otro lado, si sp−1 =

2πp2

Γ(p2), vemos que

s1 =2π

Γ(1)= 2π, s2 =

2π3/2

Γ(32)

= 4π.

de modo que s1s2

= 12. Ademas,∫

eκ cos θ sinp−2 θdθ = −exp(κ cos θ)

κ,

por lo que

gκ(r) = c(κ)s1

s2

∫ arc cos(− log(rc(κ))κ

)

0

eκ cos θ sin θdθ

= c(κ)1

2

[exp(κ)

κ− 1

κrc(κ)

]=

exp(κ)

2 sinhκ− 1

2rκ.

Page 226: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

224 Capıtulo 7. Estimacion de numeros de Betti y topologıa estocastica

Como β0(x, κ) = g−1κ (x) para x ∈ [0, 1], al invertir

gκ(r) = x =exp(κ)

2 sinhκ− 1

2rκ

⇒ 1exp(κ)2 sinhκ

− x=

2 sinhκ

exp(κ)− 2x sinhκ= 2rκ

⇒ r =2 sinhκ

2κ[exp(κ)− x[exp(κ)− exp(−κ)]

=exp(κ)− exp(−κ)

2κ[(1− x) exp(κ) + x exp(−κ)],

y ası

β0(x, κ) =exp(2κ)− 1

2κ[(1− x) exp(2κ) + x].

Notemos que β0(x, κ)→ 1 cuando κ→ 0 como era de esperar, pues por L’Hopital

exp(2κ)

[(1− x) exp(2κ) + x] + κ[2(1− x) exp(2κ) + x]→ 1

1 + 0= 1.

Finalmente, tambien notamos que β0(x, κ)→ 0 cuando κ→∞ para toda x ∈ (0, 1).

Figura 7.5: Grafica de β0 cuando d = 3

Y en este caso en particular podemos enunciar

Teorema 7.1.9. Para la distribucion von Mises-Fisher en S2 y κ > 0 fijo

E||β0(x, κ)− β0(x, κ)||∞ ≤ C(κ)n−1

cuando n→∞.

Page 227: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

7.1. Topologıa de densidades parametricas 225

Demostracion. Por Teorema del valor medio, existe κ∗ entre κ y κ tal que

β0(x, κ)− β0(x, κ) =∂

∂κβ0(x, κ∗)(κ− κ),

con∂

∂κ=−(1− x)e4κ + (1 + 2κ− 2x)e2κ + x

2κ2[(1− x)e2κ + x]2.

Para x ∈ (0, 1], vemos que la derivada es acotada por

e4κ + (1 + 2κ)e2κ + 1

2κ2.

Aprovechando que podemos calcular explıcitamente A3(κ) = cothκ − 1κ, se sigue un

razonamiento analogo al teorema previo.

Observaciones

El enfoque estadıstico a la persistencia ofrecido por [24] brinda una nueva manera deentender objetos vitales en el analisis topologico de datos, como lo son los intervalos depersistencia y los codigos de barra de numeros Betti. Es especialmente ilustrativo, comose reflejo en el ejemplo de la distribucion uniforme en el cırculo, pues a lo largo de sudesarrollo no depende de herramientas fuertes de topologıa o computacion, sino que brindauna perspectiva mas orientada a nociones de probabilidad y estadıstica. De ahı que esteenfoque pueda ser usado en conjunto al enfoque topologico-computacional usual para ampliarel publico potencial interesado en este tema.

El ejemplo de juguete presentado es sumamente didactico, pues permite los calculosexplıcitos de intervalos de persistencia y la esperanza de estos, permitiendo el posteriordesarrollo de la funcion β0 y compararla con su comportamiento asintotico. Esto es relevante,pues provee cierta intuicion de como enfrentarse a densidades menos sencillas en variedadesmenos simples, como lo es la von Mises-Fisher en Sd−1. Son estas construcciones teoricas lasque posteriormente nos dan material concreto para plantear una comparacion entre codigosde barra teoricos y codigos de barra obtenidos al estimar con maximos verosımiles. Estoultimo es relevante, pues ofrece una manera de resolver el problema de que objeto concretousar para determinar si una estimacion de codigos de barra es adecuada o no.

El trabajo [24] desarrolla otros ejemplos no tratados aquı, como lo son las densidadesBingham y Watson en Sd−1, y la densidad von Mises matricial en el grupo de Lie de ro-taciones en R3. Por ejemplo, serıa interesante tratar explıcitamente densidades en el toro,aprovechando quiza la medida producto de dos cırculos; o incluso podrıamos intentar den-sidades en otras superficies como la botella de Klein. Ello implicarıa tambien una revision

Page 228: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

226 Capıtulo 7. Estimacion de numeros de Betti y topologıa estocastica

quiza profunda en las propiedades analıticas y formulas utiles derivadas de cada densidad pa-ra deducir todos los calculos necesarios, que pueden ponerse pesados en una primera lectura,tal como se reflejo en el caso de la densidad von Mises-Fisher.

7.2. Topologıa de densidades no–parametricas en va-

riedades

El proposito de esta seccion es presentar algunos ejemplos de procesos puntuales sobrevariedades y estudiar la topologıa de las funciones de densidad (distribucion) asociadas adichos procesos. Nos referimos al trabajo de Bobrowski y Mukherjee ([18]).

Dada una nube finita de puntos P en un espacio euclidiano Rd, recordamos la funciondistancia a P ,

dP : Rd −→ Rx 7−→ ınf

p∈P||p− x||.

Ademas, tenemos el ε–contrapeso o nervio

C(P, ε) = d−1P ([0, ε]) =

⋃p∈P

B(p, ε).

En este apartado nos preguntamos como cambia la topologıa de dicha union de bolas y almismo tiempo como varıan los puntos crıticos de la funcion dP , conforme escojamos el tipode proceso puntual asociado a P , o bien al cambiar el tamano de la muestra.

7.2.1. La nube de puntos como un proceso puntual y su topologıa

Los procesos puntuales que estudiaremos a continuacion seran de dos tipos y estaransoportados sobre una variedad m–dimensional cerrada

M ⊂ Rd, (m < d).

Consideremos f : M 7−→ R una funcion de densidad de probabilidad (acotada y medible).Si X es una variable aleatoria en Rd con densidad f :

F (A) := P(X ∈ A) =

∫A∩M

f(x)dx (∀A ⊂ Rd).

Los modelos son los siguientes:

Page 229: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

7.2. Topologıa de densidades no–parametricas en variedades 227

1. Muestra aleatoria: Escogemos n puntos distribuidos a traves de f :

χn = X1, . . . ,Xni.i.d∼ f.

2. Proceso espacial de Poisson con intensidad λn := nf : Para cualquier region A ⊂M, elnumero de puntos en la region NA := |Pn∩A| se distribuye como una variable aleatoriaPoisson,

NA := |Pn ∩ A| ∼ Poisson(nF (A)).

Ademas, dadas cualesquiera dos regiones disjuntas A,B ⊂ M , las variables aleatoriasNA y NB son independientes.

Ambos modelos son muy similares, salvo que en el primer caso tenemos exactamenten puntos y en el segundo se distribuyen como Poisson(n). Dado que ademas los procesosde Poisson tienen ventajas computacionales, se enunciaran los resultados para este casoparticular. Sin embargo, bajo ligeros ajustes los resultados siguen siendo ciertos en el caso deχn. Mas aun, tambien se tienen resultados analogos para el caso en que la muestra se tomesobre un espacio euclidiano Rd (ver [15]).

Por lo tanto, los objetos estocasticos a estudiar seran las uniones de bolas C(Pn, ε) y lafuncion distancia dPn . Recordemos que al final del primer capıtulo vimos como definir puntoscrıticos de cierto ındice para la funcion distancia a una nube de puntos. Dada una sucesionrn de enteros positivos (radios), analizaremos dos tipos de variables aleatorias:

1. Numeros de Betti aleatorios: Para cada 0 ≤ k ≤ d − 1 consideramos el k–esimonumero de Betti de C(Pn, rn),

βk,n := βk(C(Pn, rn)).

2. Puntos crıticos locales aleatorios: Para cada 0 ≤ k ≤ d, sea Ck,n el conjunto depuntos crıticos de ındice k para la funcion dPn . Definimos el conjunto de puntos crıticoslocales

CLk,n := c ∈ Ck,n : dPn(c) < rn = Ck,n ∩ C(Pn, rn)

y su tamanoNk,n = |CLk,n|.

Sabemos que gracias a la teorıa de Morse las familias

βk,nd−1k=0 y Nk,ndk=0

Page 230: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

228 Capıtulo 7. Estimacion de numeros de Betti y topologıa estocastica

estan estrechamente relacionadas. En particular, queremos ver cual es su comportamientoconforme n −→∞ y rn −→ 0. Para el caso de los puntos crıticos de la funcion distancia enespacios euclidianos tenemos el trabajo de Bobrowski y Adler (ver [16]).

Recordamos que un punto p ∈ Pn es crıtico de ındice k si existe un conjunto Y de k + 1puntos, tal que, en una vecindad pequena de p, dPn ≡ dY . Ademas, Y vive en una unicaesfera de dimension k − 1. Escribiremos:

• S(Y) para la (k − 1)–esfera que contiene a Y ,

• r(Y) para el radio de dicha esfera y

• B(Y) para la bola abierta en Rd con centro p y radio r(Y).

Para el caso de puntos crıticos locales, la condicion a considerar serıa

r(Y) ≤ ε.

Para poder enunciar los resultados a continuacion, usaremos las siguientes funcionesindicadoras:

•hc(Y) := 1p ∈ conv(Y),

•hcε(Y) := hc(Y)1[0,ε](r(Y)),

•gcε(Y ,Pn) := hcε1Pn ∩B(Y) = ∅.

Observamos que la primer funcion nos indica si el punto p esta en el interior de laenvolvente convexa de los puntos en Y y por lo tanto es candidato a ser punto crıtico. Lasegunda nos indica la localidad y la ultima funcion nos indica si el punto p es un puntocrıtico local de ındice k.

Ademas de estas funciones, tendremos una funcion indicadora en subconjuntos Y detamano k + 2, la cual prueba si un subconjunto forma un k–cIclo:

hbε(Y) := 1βk(C(Y , ε)) = 1.

Page 231: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

7.2. Topologıa de densidades no–parametricas en variedades 229

7.2.2. Teoremas lımite: Casos subcrıtico, crıtico y supercrıtico

Similarmente al trabajo de Kahle sobre complejos geometricos aleatorios (ver [76]), elcomportamiento al lımite de las variables aleatorias se divide en tres regımenes, dependiendodel comportamiento sobre el numero esperado de puntos en una bola geodesica de radio rnsobre la variedad M . Esto es, dependiendo de que valores tome el lımite de nrmn , donde m es ladimension de M . Los casos son: subcrıtico cuando nrmn −→ 0, crıtico cuando nrmn −→ λ > 0y supercrıtico cuando nrmn −→∞.

En primer lugar, unas observaciones comunes:

• Los puntos crıticos de ındice 0, o mınimos, de dPn son precisamente los puntos de Pn. Obien,

N0,n = |Pn| ∼ Poisson(n).

• Si el radio rn es suficientemente pequeno el nervio C(Pn, rn) es homotopicamente equiva-lente a un subconjunto M ′ ⊂ M , vıa un retracto por deformacion. Luego βm(M ′) = 0,ası como βk(M) = 0 para k > m. Por lo tanto,

βk,n = 0, (k ≥ m).

Por la teorıa de Morse, tambien tenemos que

Nk,n = 0, (k > m).

Caso subcrıtico.

En el caso en que nrmn −→ 0 tenemos que el radio rn se va a cero con tanta rapidez,que es muy improbable para los puntos conectarse y C(Pn, rn) esta muy esparcido. Esta esla llamada “fase de polvo”. Veremos que β0,n domina los otros numeros de Betti, los cualesaparecen en ordenes descendente de magnitud.

Teorema 7.2.1. Si nrmn −→ 0, entonces:

1. Para 1 ≤ k ≤ m− 1:

lımn−→∞

Eβk,nnk+2r

m(k+1)n

= lımn→∞

Var(βk,n)

nk+2rm(k+1)n

= µbk;

donde

Page 232: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

230 Capıtulo 7. Estimacion de numeros de Betti y topologıa estocastica

µbk =1

(k + 2)!

∫M

fk+2(x)dx

∫(Rm)k+1

hb1(0,y)dy.

Ademas,

lımn−→∞

Eβ0,nn

= 1.

2. Para 1 ≤ k ≤ m:

lımn−→∞

ENk,nnk+1rmkn

= lımn→∞

Var(Nk,n)

nk+1rmkn= µck;

donde

µck =1

(k + 1)!

∫M

fk+1(x)dx

∫(Rm)k+1

hc1(0,y)dy.

En el resultado anterior estamos usando la notacion y = (y1, . . . , yk+1) ∈ (Rd)k+1, y

hbε(0,y) = hbε(0, y1, . . . , yk+1).

Como es usual en estos casos, encontrar una expresion mas nıtida de la integral anteriores una tarea complicada.

Observacion 7.2.2. Como nrmn −→ 0, tenemos que

EN0,n >> EN1,n >> EN2,n >> · · · >> ENm,n

Eβ0,n >> Eβ1,n >> · · · >> Eβm−1,n

yEβk,n ≈ ENk+1,n, (k ≥ 1).

Donde an >> bn significa que an/bn −→∞ y an ≈ bn significa que an/bn −→ c > 0.

En otras palabras C(Pn, rn) consiste principalmente de pequenas partıculas disconexascon relativamente pocos vacıos. Mientras el numero de puntos crece es muy improbable verun ciclo y lo es menos si la dimension aumenta.

De acuerdo al termino de control nk+1rmkn , la distribucion en el lımite de Nk,n sera lasiguiente.

Teorema 7.2.3 (Distribucion lımite). Supongamos que nrmn −→ 0 y sea 1 ≤ k ≤ m,

Page 233: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

7.2. Topologıa de densidades no–parametricas en variedades 231

1. Si lımnk+1rkn = 0, entonces

Nk,nL2

−→ 0.

Si ademas,∑nk+1rkn <∞, entonces

Nk,nc.s.−→ 0.

2. Si lımnk+1rkn = α > 0, entonces

Nk,nL−→ Poisson(αµck).

3. Si lımnk+1rkn =∞, entonces

Nk,n − E(Nk,n)

(nk+1rmkn )1/2

L−→ N(0, µck).

Observacion 7.2.4. El mismo teorema es cierto para βk,n, con el termino de ajuste nk+2rm(k+1)n

y la varianza lımite µbk. Ademas, para el caso del TCL en el tercer apartado se requiere que

nrmn ≤ n−ε, (para algun ε > 0).

Caso crıtico

En el caso anterior observamos que el numero de componentes conexas β0,n es de ordenn. En este caso tendremos que para cada k, este sera el caso y el calculo de numeros de Bettise vuelve complicado. Aun ası, tenemos lo ya mencionado.

Teorema 7.2.5. Si nrmn −→ λ ∈ (0,∞) y 1 ≤ k ≤ m− 1:

0 < lım infn−→∞

Eβk,nn

≤ lım supn−→∞

Eβk,nn

<∞.

Por otro lado, como un punto crıtico de ındice k esta siempre generado por k+ 1 puntos,podemos seguir aplicando tecnicas similares al caso anterior para concluir.

Teorema 7.2.6. Si nrmn −→ λ ∈ (0,∞) y 1 ≤ k ≤ m:

lımn−→∞

ENk,nn

= γk(λ),

Page 234: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

232 Capıtulo 7. Estimacion de numeros de Betti y topologıa estocastica

lımn−→∞

VarNk,nn

= σ2k(λ),

Nk,n − ENk,n√n

L−→ N(0, σ2k(λ));

donde

γk(λ) :=λk

(k + 1)!

∫M

∫(Rm)k

fk+1(x)hc1(0,y)e−λωmrm(0,y)f(x)dydx

y tenemos una expresion similar para σ2k(λ).

Donde ωm denota el volumen de la bola unitaria en Rm y r(0, y) es la funcion que asignael radio de la unica esfera que contiene a (0, y).

Para este caso no podemos dar lımites exactos para los numeros de Betti. Sin embargo,usando los puntos crıticos de la funcion distancia, podremos encontrar teoremas lımite parala caracterıstica de Euler de C(Pn, rn). Como hemos visto anteriormente, es un invariantetopologico muy simple y puede ser definido de varias maneras. Para nuestro caso tenemosque

χn = χ(C(Pn, rn)) =m∑i=1

(−1)kβk,n.

Luego, usando la teorıa de Morse, tambien podemos calcular χn mediante los puntos crıticosde la funcion distancia,

χn =m∑i=1

(−1)kNk,n.

Podemos concluir el siguiente resultado.

Corolario 7.2.7. Si nrmn −→ λ > 0, entonces

lımn−→∞

E(χn)

n= 1 +

m∑k=1

γk(λ).

Esto nos da una respuesta parcial, pues aunque no da lımites precisos para los numerosde Betti en particular, si lo hace para el “resumen” hecho por la caracterıstica de Euler. Masaun, usando el teorema anterior se pueden obtener resultados para otro tipo de funcionalesdistintos a la esperanza.

Experimentos numericos ([79]) parecen sugerir que a diferentes rangos del radio existe alo mas un solo grado de homologıa que domina los otros:

χn ≈ (−1)kβk,n.

Page 235: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

7.2. Topologıa de densidades no–parametricas en variedades 233

Si este resulta ser el caso, el resultado anterior podrıa darnos lımites para la esperanza delos numeros de Betti al menos en el grado dominante.

Caso supercrıtico

En cuanto λ del caso anterior va tendiendo a infinito, el complejo C(Pn, rn) se vuelvemas y mas conexo y menos poroso. Ya no sucede que encontremos mas y mas vacıos de cadaposible dimension, la escala a la cual mayores cambios ocurren es

nrmn ∝ log n.

Para este caso tendremos que suponer

fmin = ınfx∈M

f(x) > 0.

Intuitivamente si f(x) = 0, en una vecindad de x debera haber relativamente pocos puntosde Pn y quizas podrıa verse como en los casos anteriores. Como veremos, para cierto radioβk,n = βk(M)

Los lımites para los puntos crıticos siguen siendo muy similares.

Teorema 7.2.8. Si rn −→ 0 y nrmn −→∞, entonces para 1 ≤ k ≤ m:

lımn−→∞

ENk,nn

= γk(∞),

lımn−→∞

VarNk,nn

= σ2k(∞)

yNk,n − ENk,n√

n

L−→ N(0, σ2k(∞));

donde

γk(∞) := lımλ−→∞

γk(λ) =1

(k + 1)!

∫(Rm)k

hc(0,y)e−ωmrm(0,y)dydx.

El estudio de los numeros de Betti se vuelve igual de complicado que antes. Sin embargo,veremos que podemos encontrar un umbral para el cual βk,n = βk(M) para todo k ≥ 0. Esteumbral estara dado por

nrmn = (ωmfmin)−1 log n.

Usaremos los siguientes resultados.

Page 236: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

234 Capıtulo 7. Estimacion de numeros de Betti y topologıa estocastica

Proposicion 7.2.9 (Cobertura). Si nrmn ≥ C log n, entonces:

1. Si C > (ωmfmin)−1, entonces

lımn−→∞

P(M ⊂ C(Pn, rn)) = 1.

2. Si C > 2(ωmfmin)−1, entonces casi seguramente existe L > 0 (posiblemente aleatoria),tal que para cada n > L tenemos que M ⊂ C(Pn, rn).

Usando rn apropiadamente podemos observar que M es un retracto por deformacion deC(Pn, rn) y con un poco mas de maquinaria sobre los puntos crıticos de la funcion distanciaa Pn tenemos el resultado deseado.

Teorema 7.2.10 (Convergencia de los numeros de Betti). Si rn −→ 0 y nrmn ≥ C log n,entonces:

1. Si C > (ωmfmin)−1, entonces

lımn−→∞

P(βk,n = βk(M), ∀0 ≤ k ≤ m) = 1.

2. Si C > 2(ωmfmin)−1, entonces casi seguramente existe L > 0, tal que para n > L,

βk,n = βk(M), ∀0 ≤ k ≤ m.

Es importante notar que en el resultado anterior el punto exacto de convergencia L esaleatorio.

Con este teorema se da una respuesta a como inferir las propiedades topologicas de unavariedad M , a partir de una muestra aleatoria P tomada con cierta distribucion sobre M .

7.3. Topologıa de complejos aleatorios geometricos

En capıtulos anteriores los complejos simpliciales se han utilizado para dotar a una nu-be de puntos de una estructura topologica y algebraica para tratar de inferir propiedadessubyacentes del objeto geometrico o topologico del que se han tomado los datos. En par-ticular, para esta construccion se han utilizado los complejos de Cech y de Vietoris-Rips.Ambos complejos se pueden construir de manera abstracta o sobre puntos contenidos en unespacio metrico. En esta seccion puntualizaremos las diferencias y similitudes entre estas dos

Page 237: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

7.3. Topologıa de complejos aleatorios geometricos 235

maneras de construir estas estructuras y daremos algunas referencias para profundizar en elestudio de ambas.

En el Capıtulo 1 se dieron las definiciones de complejo simplicial y de complejo simplicialabstracto. En los resultados y artıculos que vamos a discutir en esta y la siguiente seccionse utiliza otra convencion, que comunmente se usa en la literatura de ATD y topologıaestocastica, para llamar a estas dos estructuras. Para facilitar la lectura de las referenciasa los lectores interesados, adoptaremos en estas dos secciones la siguiente convencion: Alos complejos simpliciales, contenidos en un espacio metrico especıfico, por ejemplo Rn, lesllamaremos complejos simpliciales geometricos; y a los complejos simpliciales abstractos seles llamara simplemente complejos simpliciales.

En estas notas, las estructuras de complejos que se han estudiado hasta este punto, siem-pre han estado contenidas en un espacio metrico por lo que han sido complejos simplicialesgeometricos. Sin embargo, fueron los complejos simpliciales (abstractos) los primeros que seestudiaron desde un punto de vista estocastico o probabilista por lo que es de suma impor-tancia conocer las diferencias y similitudes entre ambas estructuras y saber que ingredientesse necesitan al definir una estructura estocastica sobre complejos simpliciales (abstractos) osobre complejos simpliciales geometricos.

Complejos simpliciales aleatorios

El primer artıculo en el que se estudian y definen los complejos aleatorios dos dimen-sionales fue publicado en el ano 2006 bajo el tıtulo Homological connectivity of random2-complexes por Linial y Meshulam [102] . Posteriormente, en el 2009, Meshulam y Wallachpublican un artıculo [100] en el que se hace la generalizacion a complejos aleatorios de cual-quier dimension. En estos dos artıculos, tomaron como coeficientes para formar los gruposde homologıa (y cohomologıa) a Z2 y Zl (para cualquier numero primo l), respectivamente.El principal resultado del artıculo del 2006 y el primero que se conoce referente a complejossimpliciales aleatorios es el siguiente.

Teorema 7.3.1 (Linial–Meshulam 2003-6). Si ω : N→ R+ es una funcion tal quelımn→∞ ω(n) =∞ y tal que para toda n ∈ N se tiene 2 log n ≥ ω(n), entonces

lımn→∞

P[Y ∈ Y (n, p) | H1(Y ;Z2) = 0] =

0 p = 2 logn−ω(n)

n

1 p = 2 logn+ω(n)n

.

En este teorema, Y (n, p) representa al espacio de probabilidad que tiene como posiblesresultados todos los complejos simpliciales 2 dimensionales en n puntos tales que su ceroesqueleto y uno esqueleto estan completos, es decir, son los complejos simpliciales 2 di-mensionales construidos sobre la grafica completa Kn. Observar que el modelo Y (n, p) es

Page 238: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

236 Capıtulo 7. Estimacion de numeros de Betti y topologıa estocastica

el analogo al modelo de Erdos-Renyi G(n, p) (en el que cada arista estara presente en lagrafica, de manera independiente respecto a las otras, con una probabilidad p y ausentecon una probabilidad de 1− p, salvo que Y (n, p) esta definido para complejos simpliciales 2dimensionales).

Este resultado nos dice que para la estructura estocastica Y (n, p), hay un umbral fuerte obien definido para la propiedad de tener grupo de homologıa de dimension 2 (o β2,n) distintodel trivial; es decir, que para el cambio del caso subcrıtico al crıtico, la estructura Y (n, p)tiene un umbral fuerte. En general, es deseable tener resultados asintoticos en el que seencuentre un umbral fuerte o bien definido. Daremos enseguida una definicion precisa de loque es un umbral fuerte o bien definido.

Una funcion f es un umbral fuerte, o bien definido, para una propiedad Q, de unaestructura estocastica X(n, p), dependiente de los parametros n y p , si existe una funciong ≡ o(f) tal que

P[X(n, p) ∈ Q]→

1 : p ≥ f + g0 : p ≤ f + g.

No solo se ha estudiado la homologıa de la estructura estocastica Y (n, p); en el 2011

Babson et al. publicaron un resultado que involucra al primer grupo de homotopıa (paraconocer la definicion y algunos resultados elementales del grupo de homotopıa de un espaciotopologico, se puede consultar [98]).

Teorema 7.3.2. Sea ε > 0 fijo, entonces

lımn→∞

P[Y ∈ Y (n, p) | π1(Y ;Z2) = 0] =

1 p ≥ nε√

n

0 p ≤ n−ε√n

.

Como ya mencionamos, la generalizacion del modelo de Linial-Meshulam a dimensionesmayores es el modelo de Meshulam-Wallach [100]. En este modelo, para dimension d, sedefine Y d(n, p) como el conjunto que contiene a todos los complejos simpliciales sobre npuntos, con el (d − 1)-esqueleto completo y cada simplejo de dimension d estara presenteen el complejo con una probabilidad de exito p y ausente con una probabilidad de 1 − p.Representaremos al complejo simplicial en n puntos con el (d− 1)-esqueleto completo como

∆(d−1)n y al complejo simplicial en n puntos con el (d)-esqueleto completo como ∆

(d)n . El

principal resultado de [100] es el siguiente.

Teorema 7.3.3 (Meshulam–Wallach, 2009). Sea n ∈ N y l un numero primo (esto permi-

tira que Zl tenga estructura de campo). Si ∆(d−1)n ⊂ Y ⊂ ∆

(d)n , entonces

lımn→∞

P[Hd(Y ;Zl) = 0] =

0 p = d logn−ω(n)

n

1 p = d logn+ω(n)n

.

Page 239: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

7.3. Topologıa de complejos aleatorios geometricos 237

Observar que en este resultado no solo se generaliza la dimension de los complejos simpli-ciales sino que tambien se construyen los grupos de homologıa sobre cualquier campo Zl conl un numero primo. Este resultado aun se desconoce para el grupo de los enteros Z y no esposible deducirlo directamente del teorema de R. Meshulam y N. Wallach pues el problemaes que podrıa haber l-torsion si se deja crecer l respecto de n.

Como caso particular en el que d = 1, de este resultado recuperamos el resultado clasicode Erdos-Renyi [50] para el caso del modelo estocastico G(n, p), en el que la conectividadde una grafica coincide con que el grupo de homologıa de dimension cero tenga un sologenerador, que en este caso es Z2.

Teorema 7.3.4 ( Erdos y Renyi, 1959). Si ω : N→ R+ es una funcion tal que lımn→∞ ω(n) =∞ y tal que para toda n ∈ N se tiene log n ≥ ω(n), entonces

lımn→∞

P[G ∈ G(n, p) | G es conexa] =

0 p = logn−ω(n)

n

1 p = logn+ω(n)n

;

lımn→∞

P[G ∈ G(n, p) | G sin vertices aislados] =

0 p = logn−ω(n)

n

1 p = logn+ω(n)n

;

lımn→∞

P[G ∈ G(n, p) | H0(G;Z2) = Z2] =

0 p = logn−ω(n)

n

1 p = logn+ω(n)n

.

La cualidad del modelo Y (n, p) de que tiene su uno esqueleto completo (y en general en elmodelo de Meshulam-Wallach que tiene su (d−1)-esqueleto completo), es una particularidadque no es necesaria que se cumpla en un modelo mas general de complejos aleatorios. Unmodelo mas general de complejos simpliciales abstractos aleatorios se puede construir sobregraficas aleatorias, que por lo general pertenecen al modelo binomial (modelo de Erdos-Renyi) G(n, p), o al modelo uniforme G(n,m) (en el que cada grafica se elige de manera

uniforme de todas las((n2)m

)grafica en n vertices y m aristas). Definiremos en seguida una

estructura estocastica con estas caracterısticas que resulta en una generalizacion del modeloLinial-Meshulam-Wallach.

Un complejo bandera sobre una grafica H, denotado por X(H) se define como el complejomaximal que tiene a la grafica H como su uno esqueleto, es decir, las caras i-dimensionales deX(H) corresponderan a las subgraficas completas contenidas en H con i+1 puntos. Observarque este modelo usa una definicion parecida a la definicion del complejo de Vietoris-Rips,dada en el Capıtulo 1, salvo que no hay necesidad en este caso de determinar los elemen-tos del complejo mediante una funcion de distancia pues se esta trabajando con complejossimpliciales abstractos.

Page 240: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

238 Capıtulo 7. Estimacion de numeros de Betti y topologıa estocastica

Una vez que ya se sabe como se van a construir los complejos sobre una grafica determi-nada, podemos definir la estructura estocastica utilizando el modelo de Erdos-Renyi G(n, p).Definimos el complejo bandera aleatorio X(n, p) como el complejo bandera asociado a laestructura de graficas aleatorias G(n, p). Es decir, sobre cada grafica G obtenida con el mo-delo G(n, p) se construye un complejo bandera X(G). Como cualquier complejo simplicial eshomeomorfo a un complejo bandera (invitamos al lector a verificar por que se cumple esto),entonces con el modelo estocastico X(n, p) se logra tener un espacio de probabilidad queabarca muchas estructuras topologicas dependiendo de la n que se elija, en particular si sehace n→∞.

Los siguientes tres teoremas referentes a la estructura X(n, p), fueron tomados de losartıculos de Kahle [75], [77] y [79], este ultimo en coautoria con Meckes. El primer resultadoda un umbral para pasar del caso subcrıtico al crıtico; el segundo teorema establece unafuncion de crecimiento para la esperanza de los numeros de Betti en el caso crıtico (existe unresultado analogo que involucra la varianza de los numeros de Betti); y el tercer resultadoes un teorema de lımite central que caracteriza la distribucion al lımite de los numeros deBetti. Recomendamos, como ejercicio, comparar los siguientes resultados con los resultadosque se encuentran en las secciones anteriores en este capıtulo.

Teorema 7.3.5. Sea k ≥ 1 y α > 0 fija. Si p = n−α y X ∈ X(n, p), entonces

lımn→∞

P[Hk(X;Z) = 0] =

0 α < 1

(2k+1)

1 α > 1k

.

Teorema 7.3.6. Sea k ≥ 1 y 1k+1

< α < 1k

fija. Si p = n−α y X ∈ X(n, p), entonces

lımn→∞

E[βk](nk+1

)p(

k+12 )

= 1.

Teorema 7.3.7 (Kahle–Meckes). Sea k ≥ 1 y 1k+1

< α < 1k

fija. Si p = n−α y X ∈ X(n, p),entonces

βk − E[βk]√Var[βk]

L−→ N(0, 1).

Antes de pasar a analizar lo complejos simpliciales aleatorios geometricos, vamos a resu-mir las caracterısticas de los complejos simpliciales (abstractos) aleatorios desde un puntode vista estructural.

Para definir una estructura estocastica, sobre conjuntos de complejos simpliciales abs-tractos, es necesario primero determinar que caracterısticas tendran los complejos sobre losque se quiere definir el espacio de probabilidad.

Page 241: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

7.3. Topologıa de complejos aleatorios geometricos 239

Una de estas caracterısticas que hay que definir es el numero de puntos que tendra el ceroesqueleto (que se ha estado denotando por n). Para el caso de complejos aleatorios abstractospara determinar su cero esqueleto no es necesario dar mas informacion que su cardinalidad.Queremos hacer enfasis en que, como ya se dijo, en el caso de complejos simpliciales abstractosunicamente es necesario elegir una n y el cero esqueleto quedara totalmente determinadopor este numero; en cambio, en los complejos simpliciales geometricos esto no basta puesademas hay que determinar la posicion de los n puntos en el espacio metrico sobre el que seeste trabajando.

Una vez que se tiene definido el cero esqueleto, se tiene que establecer una forma dedeterminar que simplejos formaran parte del complejo. Por ejemplo, en el caso del mode-lo Linial-Meshulam-Wallach d-dimensional se trabaja con complejos que tengan el (d − 1)esqueleto completo y que esten contenidos en el d-esqueleto; en el caso de los complejos ban-dera que se construyen sobre una grafica, a los cuales no se les limita respecto a la dimensionmaxima que puedan alcanzar sus simplejos, su estructura queda totalmente determinada porla grafica subyacente que se elija.

El siguiente ingrediente que necesitamos es determinar el espacio de probabilidad adecua-do dependiendo del modelo que se quiera definir sobre el conjunto de complejos simplicialesque ya elegimos. Comunmente este dependera de dos parametros: de una variable que deter-mina el numero de puntos que habra en el cero esqueleto del complejo y una probabilidad pque determinara los simplejos que conformaran al complejo simplicial. Por ejemplo, en el ca-so del modelo Linial-Meshulam-Wallach d-dimensional, la probabilidad de exito p determinaque simplejos de dimension d estaran presentes en el complejo simplicial.

Una referencia para estudiar otros resultados importantes en torno a los complejos sim-pliciales abstractos es el artıculo de Kahle [78]. Para estudiar a los complejos simplicialesaleatorios 1-dimensionales, es decir, las graficas aleatorias, recomendamos el libro de Bollobas[21] y para conocer otras estructuras estocasticas definidas sobre estructuras de combinatoriay matematicas discretas recomendamos el libro de Alon y Spencer [2]. Ahora continuaremosanalizando el tipo de estructuras estocasticas que se pueden construir sobre complejos sim-pliciales geometricos.

Complejos simpliciales geometricos aleatorios

Primero veremos un ejemplo de complejos geometricos aleatorios (1-dimensionales) ydespues, analizando este ejemplo, se determinaran los ingredientes esenciales que permitencrear una estructura estocastica sobre complejos simpliciales geometricos.

La estructura estocastica que vamos a definir sera sobre las graficas geometricas; comen-cemos por definir lo que es una grafica geometrica. Para un conjunto de puntos X ∈ Rd

y un real positivo r definimos la grafica geometrica G(X, r) como la grafica con vertices

Page 242: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

240 Capıtulo 7. Estimacion de numeros de Betti y topologıa estocastica

V (G) = X y aristas E(G) = x, y | d(x, y) ≤ r. Observar que en esta definicion, para laconstruccion de la grafica geometrica, se parte de un conjunto de puntos X contenido en unespacio metrico y las aristas (o uno simplejos) que conformaran a la grafica (o al comple-jo simplicial 1-dimensional) se determinan por medio de la funcion distancia en el espaciometrico en el que se encuentren los puntos (en este caso es Rd).

En el caso de complejos aleatorios geometricos, para introducir la parte estocastica, encomparacion con los complejos simpliciales (abstractos), ya no hay una probabilidad deexito p que permita determinar que simplejos formaran parte del complejo. Como se ve en ladefinicion anterior de graficas geometricas, lo que determina si un simplejo forma parte delcomplejo es unicamente la posicion que los puntos guarden entre sı respecto a la distanciadel espacio metrico, y por supuesto, el parametro r que uno elija.

Pero entonces, ¿en donde esta la parte estocastica en estas estructuras geometricas?Aunque el lector ya conoce la respuesta (porque todas las estructuras que se han vistoen secciones anteriores son estructuras estocasticas definidas sobre complejos simplicialesgeometricos o sobre espacios mas generales como lo son los campos aleatorios estudiados enel Capıtulo 6), en lo que resta de la seccion, analizaremos con cuidado como es que se dota dela parte estocastica a una estructura de complejos geometricos que se quiera estudiar desdeun punto de vista probabilista. La intension de este estudio detallado (y en algun sentidorepetitivo con respecto al contenido previo de estas notas), es que se conozcan a detalle laspartes que conforman estas estructuras estocasticas y que en un momento dado, si algunaaplicacion en ATD ası lo requiere o por curiosidad matematica, el lector pueda crear suspropias estructuras estocasticas sobre complejos geometricos en los que este interesado enmodelar y entender.

Para responder a la pregunta que se hizo en el parrafo anterior en el caso particularde graficas geometricas, cuando los puntos se toman en R, necesitamos como ingredienteestocastico, elegir una funcion de densidad de probabilidad f : Rd → R y una sucesionde variables aleatorias que tomen valores en Rd y que sean independientes e identicamentedistribuidas x1, x2, ... con funcion de distribucion comun f . Ahora sı podemos definir unaestructura estocastica sobre las graficas geometricas. Para una n ∈ N y un real positivo r, lagrafica geometrica aleatoria G(Xn, r) es la grafica geometrica construida sobre los verticesXn. Observar que por la manera en la que definimos grafica geometrica, cada par de verticesx, y de G(Xn, r) estaran conectados mediante una arista si y solo si d(x, y) ≤ r. Es importantemencionar que (de forma analoga a las estructuras estocasticas sobre complejos aleatoriosgeometricos que se han estudiado en otros capıtulos de estas notas) la funcion de densidad fcon la que determinamos la nube de puntos sobre la que se va a construir la grafica aleatoria,

Page 243: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

7.3. Topologıa de complejos aleatorios geometricos 241

es una funcion Lebesgue medible, no–negativa, acotada y que cumple∫Rdf(x)dx = 1.

De manera esquematica y resumida, las graficas geometricas aleatorias las construimosdeterminando los siguientes tres elementos:

1. Se eligio un entorno geometrico, es decir, un espacio metrico que en este caso fue Rd.

2. Se decidio generar al conjunto de vertices (0-esqueleto) mediante una sucesion de xivariables i.i.d. en Rd con funcion de densidad f acotada y medible y para un n ∈ N setoma el conjunto Xn = x1, ..., xn como el conjunto de vertices.

3. Establecimos condiciones geometricas para poder decidir cuales aristas se incluiran enla grafica. Se eligio incluir aquellas cuyos vertices u, v cumplan d(u, v) ≤ r en donde res un numero positivo que se fija en la construccion de la grafica aleatoria.

La familia de espacios de probabilidad definidos sobre graficas geometricas que obtenemosson G(Xn; r). Es una familia de espacios de probabilidad porque se tendra un espacio paracada r ≥ 0 y cada n que se elija.

En general, ¿como se construye una estructura estocastica sobre un conjunto de complejossimpliciales geometricos?

1. Se elige el entorno geometrico. Por lo general un espacio metrico.

2. El conjunto de puntos (0-esqueleto) es generado con un proceso aleatorio definido enel espacio metrico elegido en 1. Aquı es necesario por supuesto tener una medida deprobabilidad o funcion de probabilidad definida en el espacio metrico. Este procesoaleatorio puede ser, por ejemplo, una sucesion de variables aleatorias i.i.d. definidas enel espacio metrico en el que va a vivir el complejo simplicial, o un proceso de Poissondefinido en dicho espacio. Estas dos estructuras se estudiaron en las primeras dossecciones de este capıtulo y se puede consultar tambien el Apendice D para conocermas a detalle los procesos de Poisson.

3. Se establecen condiciones geometricas para poder decidir cuales de los posibles sim-plejos que se pueden construir sobre el 0-esqueleto, ya elegido como en 2, se incluiranen el complejo simplicial. Aquı se utiliza por lo general la metrica del espacio (en laseccion anterior esta eleccion se hacia al fijar una radio r o rn) en combinacion conalguna manera de decidir cuales simplejos estaran contenidos en el complejo simplicial.Por ejemplo el complejo de Vietoris-Rips o el complejo de Cech.

Page 244: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

242 Capıtulo 7. Estimacion de numeros de Betti y topologıa estocastica

Esto permite construir espacios de probabilidad basados en conjuntos de complejos geometri-cos. Los casos que mas se han estudiado a lo largo de estas notas son los complejos geometri-cos aleatorios de Vietoris-Rips y de Cech, es decir, las familias de espacios de probabilidadR(Xn; r) y C(Xn; r).

Hacemos notar que uno de los objetivos principales del contenido estudiado en el Capıtulo3 y Capıtulo 4 fue construir medidas de probabilidad en algunas superficies o variedades enlas cuales se tiene una metrica. Esto dota al lector con un amplio catalogo de posibilidadespara definir el punto 2 al momento de construir una estructura estocastica en un conjuntode complejos simpliciales geometricos.

Es importante puntualizar que al resolver problemas planteados en ATD provenientes deuna nube de puntos, por lo general, se desconoce como se han elegido los tres puntos en lalista anterior. Por ejemplo, se puede desconocer el entorno geometrico del cual proviene el 0-esqueleto; en este caso, se busca hacer inferencia para determinar en que espacio metrico vivela nube de puntos que se tiene. Las herramientas mas usadas para inferir el espacio metricodel que se ha tomado el cero esqueleto fueron estudiadas en el Capıtulo 5 (por ejemplo, losdiagramas de persistencia). Tambien existe la posibilidad de desconocer la manera en la quese ha elegido el punto 2, es decir, desconocer la medida de probabilidad definida sobre elespacio metrico con la cual se genera el 0-esqueleto; en este caso la inferencia se harıa paradeterminar dicha distribucion.

En esto radica la importancia de explorar de manera teorica estructuras de complejossimpliciales geometricos variando cualquiera de los tres puntos de la lista anterior, paracontar con hipotesis nulas que permitan hacer inferencia sobre una gran gama de posiblesespacios metricos con alguna medida de probabilidad definida sobre ellos.

Para aquellos interesados en profundizar en el tema de graficas geometricas aleatorias,recomendamos el libro de Penrose [109]. En el se puede estudiar a detalle algunas carac-terısticas de graficas geometricas aleatorias que tambien se han generalizado a los complejosgeometricos aleatorios. Por ejemplo, la conexidad (medida en homologıa con β0) y los cuatroposibles casos, que son cualitativamente diferentes, que se mencionaron en la seccion anterior:caso subcrıtico, caso crıtico, caso supercrıtico y el regimen conectado. Consideramos que mu-chos otros de los resultados referentes a graficas geometricas aleatorias se pueden generalizara mayores dimensiones definiendo adecuadamente la estructura de complejos geometricosaleatorios (o alguna otra estructura estocastica segun sea el caso) que se necesite segun elmodelo que se quiera explorar.

En la siguiente seccion veremos los resultados publicados en un artıculo de Kahle, Bo-browsky y Skraba [19], en el que analizan una estructura estocastica, definida sobre complejosaleatorios geometricos, determinada por:

1. El espacio metrico: [0, 1]d.

Page 245: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

7.4. Persistencia maximal en los ciclos de complejos aleatorios geometricos 243

2. Como proceso probabilista para determinar el cero esqueleto: un proceso de Poissondefinido en [0, 1]d como se definio en este capıtulo.

3. Las condiciones geometricas para poder decidir cuales de los posibles simplejos que sepueden construir sobre el 0-esqueleto: los complejos simpliciales de Vietoris-Rips y elcomplejo de Cech.

Esta es justo la estructura que se estudio en la seccion anterior. La diferencia con los resul-tados que ya enunciamos radica en que definiremos una variable aleatoria que nos dara he-rramientas para entender el comportamiento probabilista de algunas caracterısticas de losdiagramas de persistencia que puedan ser generados con esta estructura estocastica.

7.4. Persistencia maximal en los ciclos de complejos

aleatorios geometricos

Hasta ahora, la manera que mas se ha utilizado en estas notas para resumir la informacionde una nube de puntos, para poder inferir la estructura topologica o geometrica que pudieratener, ha sido mediante los numeros de Betti. Nos hemos dado cuenta de que no es posibleasignar un solo numero de Betti a un diagrama de persistencia ya que su valor varıa dentrode un mismo diagrama segun el radio que se utilice para calcular los complejos simpliciales.La eleccion del radio al que se calculan los numeros de Betti, para hacer inferencia, se hacebuscando que aquellos elementos que mas perduran en el diagrama de persistencia seancaptados por el radio que se elija, es decir, se le da mayor importancia a aquellos elementosde los grupos de homologıa que perduran mas en el proceso de variar el radio con el cual seconstruyen los complejos simpliciales.

Serıa de gran utilidad poder asignar un solo valor real a un diagrama de persistencia quepudiera darnos informacion suficiente para poder hacer inferencia respecto a la nube de pun-tos que se este estudiando. Ademas, serıa deseable que este valor reflejara los elementos de losgrupos de homologıa que perudaran mas en el diagrama de persistencia, que tenga estabilidadprobabilistica (que para este valor se cumpliera algun teorema tipo lımite central o ley de losgrandes numeros) y que fuera computacionalmente calculable. En el 2015 Bobrowski, Khaley Skraba publicaron un artıculo [19] en el que definen y estudian la persistencia maximal delos ciclos k-dimensionales en complejos simpliciales aleatorios geometricos. Intuitivamente,con el valor real positivo que da la persistencia maximal de los ciclos k-dimensionales, sebusca medir el agujero k-dmensional mas grande y con esta medida poder hacer inferenciatopologica y geometrica sobre una nube de puntos, basandose en un solo valor que resumeal diagrama de persistencia k-dimensional.

Page 246: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

244 Capıtulo 7. Estimacion de numeros de Betti y topologıa estocastica

En esta seccion vamos a dar una introduccion a la propuesta que hacen Bobrowski, Khaley Skraba de resumir un diagrama de persistencia mediante persistencia maximal de los ciclosen complejos simpliciales geometricos aleatorios. Enunciaremos con detalle la definicion dela persistencia maximal de los ciclos y los resultados principales que obtuvieron respectoa sus propiedades probabilısticas. Mencionaremos tambien la manera en la que se puedeutilizar la persistencia maximal de los ciclos para hacer inferencia tpologica sobre una nubede puntos y comentaremos brevemente los resultados que se obtuvieron en [19], respecto a lapersistencia maximal de los ciclos, al hacer simulaciones bajo un modelo uniforme de Poissonde intensidad n definido en el cubo unitario d-dimensional.

Precisemos el modelo en que estaremos trabajando: vamos a elegir puntos en el cubod-dimensional [0, 1]d mediante un proceso aleatorio de Poisson homogeneo con intensidadn, que en secciones anteriores hemos estado representando como Pn. Sobre una nube depuntos ası elegida vamos a construir complejos simpliciales geometricos bajo los modelosde Vietoris-Rips y de Cech, los cuales hemos estado denotando por C(Pn, r) y R(Pn, r).Recordamos tambien del Capıtulo 1 que para una nube de puntos Pn, representamos porU(Pn, r) a la union de bolas d-dimensionales de radio r centradas sobre cada uno de lospuntos pertenecientes a Pn.

El resultado principal de [19] demuestra que para toda d ≥ 2 y toda 1 ≤ k ≤ d − 1, lapersistencia maximal de los ciclos k-dimensionales (que definiremos mas adelante, pero demanera intuitiva mide, como ya se comento, la persistencia del agujero k-dmensional masgrande ) bajo los modelos C(Pn, r) y R(Pn, r), tiene, con alta probabilidad cuando n→∞,persistencia del orden de

Θ

((log n

log log n

) 1k

).

Recordamos que dos funciones f , g cumplen que f es del orden de Θ(g) si existen n0 ∈ Ny k0, k1 numeros reales tales que k0g(n) ≤ f(n) ≤ k1g(n) para toda n ≥ n0.

Antes de enunciar la definicion precisa de la persistencia maximal de los ciclos k- di-mensionales, vamos a recordar las definiciones de diagrama de persistencia y su relacion conla homologıa persistente; esperamos resaltar con esto la importancia de estudiar de maneradetallada las estructuras algebraicas que se estan utilizando al hacer ATD.

Dado un conjunto de puntos P ∈ Rd, los conjuntos C := C(P , r)r=∞r=0 ,R := R(P , r)r=∞r=0

y U := U(P , r)r=∞r=0 , son ejemplos de filtraciones. Hemos visto que para cada r que se elijase pueden definir los grupos de homologıa asociados a C(P , r), R(P , r) o U(P , r). Tambiensabemos que al aumentar el parametro r los grupos de homologıa que resulten no seran losmismos para dos valores de r distintos.

En general, la estructura que nos permite tener en un solo objeto la informacion ho-

Page 247: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

7.4. Persistencia maximal en los ciclos de complejos aleatorios geometricos 245

mologica de cada uno de los elementos de una filtracion F , es la homologıa de persistenciaasociada a la filtracion F , que denotaremos en lo que resta de esta seccion como PH∗(F).En nuestros ejemplos, para las filtraciones C, R y U , obtenemos las homologıas persistentesrespectivas PH∗(C), PH∗(R) y PH∗(U).

Es importante tener en cuenta que dentro de la homologıa persistente PH∗(F), asociadaa una filtracion F , se tiene toda la informacion referente a la k-homologıa (en nuestro caso,esto se cumple para toda k que tenga sentido dependiendo del espacio metrico en el quese construyan los complejos simpliciales geometricos) de cada uno de los elementos de lafiltracion F ; esta informacion se encuentra en el conjunto de grupos de homologıa PHk(F).Tambien pertenecen a la estructura PH∗(F), todas las funciones simpliciales (correspondien-tes a la inclusion de dos elementos de la filtracion) definidas entre los grupos de homotopıaasociados a dos elementos de la filtracion. Una de las herramientas que mas se han utilizadoy estudiado en estas notas son los diagramas de persistencia cuya relacion con la homologıapersistente PH∗(F) asociada a una filtracion consiste en que para cada 1 ≤ k ≤ d − 1podemos asociar a PHk(F) un diagrama de persistencia. Recordamos que en el diagramade persistencia asociado a PHk(F) se encuentra la informacion del nacimiento y muerte decada uno de los k-ciclos pertenecientes a PHk(F) y es esta informacion la que jugara unpapel esencial en el concepto de persistencia maximal de los ciclos k- dimensionales.

Con esta notacion establecida y en base a la relacion que existe entre diagramas depersistencia y la homologıa persistente, ya podemos definir de forma precisa la persistenciamaximal de los ciclos asociados a complejos simpliciales geometricos. Comenzaremos pordar la definicion de lo que es la persistencia de un k-ciclo contenido en PHk(C), PHk(R) oPHk(U).

Definicion 7.4.1. Sea PHk(n) el conjunto de los k-grupos de homologıa asociados a cual-quiera de las filtraciones C, R o U . Para cada ciclo γ ∈ PHk(n) denotamos por γbirth y γdeathlos tiempos (es decir el radio r) de nacimiento y muerte asociados al ciclo γ. Definimos lapersistencia de γ como

π(γ) =γdeathγbirth

.

Observamos que esta manera de definir la persistencia de un ciclo γ, difiere de la definicionusual que consiste en calcular la diferencia entre los tiempos de nacimiento y muerte asociadosal ciclo, es decir, γdeath− γbirth. En el codigo de barras asociado al diagrama de persistencia,esta diferencia corresponde a la longitud de la barra asociada al k-ciclo γ. Los motivos quecomentan los autores (de [19]) para definir la persistencia de un ciclo con la razon de sunacimiento y su muerte en lugar de su diferencia son las siguientes:

Si para alguna k se tiene que para todos los k-ciclos o la mayorıa de los k-ciclos γse cumple que γdead = o(γbirth), lo cual ocurre para algunos modelos de complejos

Page 248: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

246 Capıtulo 7. Estimacion de numeros de Betti y topologıa estocastica

aleatorios geometricos, entonces no sera posible distinguir aquellos que tienen unapersistencia mayor mediante la diferencia γdeath − γbirth ya que en este caso γdeath −γbirth ≈ γdead.

La definicion de la persistencia de un ciclo dada por π(γ) = γdeathγbirth

, es invariante bajo elreescalamineto de los datos. Esta es una ventaja respecto a la definicion de persistenciadada por γdeath−γbirth que evidentemente no es invariante bajo reescalamiento. Esto esimportante ya que las propiedades topologicas que pretendemos medir con la homologıapersistente nos hablan de la forma de los objetos topologicos y no de su tamano.

Las construcciones de los complejos simpliciales que mas se utilizan en ATD dependende los complejos de Vietoris-Rips y de Cech que como se vio en el Capıtulo 2 estanrelacionados mediante un factor de proporcionalidad, es decir, su relacion se puededar mediante un factor multiplicativo. Por este motivo, al tomar la definicion de lapersistencia de un ciclo γ mediante la razon π(γ) = γdeath

γbirth, se tendra para ambos

complejos simpliciales (de Vietoris-Rips y Cech) cualquier resultado que se demuestrepara alguno de ellos (modificando las cotas encontradas por un factor multiplicativoadecuado).

Una vez que se tiene la definicion de persistencia para un k-ciclo contenido en PHk(n),podemos definir la persistencia maximal de los ciclos asociados a complejos simplicialesgeometricos.

Definicion 7.4.2. Sea PHk(n) el conjunto de los k-grupos de homologıa asociados a cual-quiera de las filtraciones C, R o U . Definimos la persistencia maximal de los k-ciclos, quedenotaremos por Πk, como el maximo de las persistencias de todos los k-ciclos contenidosen PHk(n), es decir,

Πk := maxγ∈PHk(n)

π(γ).

Es importante notar que pudimos usar en la definicion al maximo de todas las persis-tencias de los k-ciclos porque estamos construyendo a PH∗(n) sobre un conjunto finito depuntos que nos da el proceso de Poisson aleatorio Pn. Observar que Πk es un valor realpositivo que resume la homologıa persistente (y por ende el diagrama de persistencia juntocon el codigo de barras asociado a este) ya que toma en cuenta todos los posibles radios ry en este sentido no es una variable aleatoria que dependa de r; los numeros de Betti quehasta el momento se han estudiado como variables aleatorias sı dependen del radio que seelija y por ende no pueden resumir toda la informacion topologica contenida en PH∗(n).Ahora que ya tenemos la definicion precisa de lo que es la persistencia maximal en complejos

Page 249: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

7.4. Persistencia maximal en los ciclos de complejos aleatorios geometricos 247

simpliciales geometricos bajo los modelos C, R y U , podemos explorar un poco mas a detalleel resultado principal que demuestran en [19], que grosso modo afirma lo siguiente:

Πk(n) ∼(

log n

log log n

) 1k

.

Este resultado (segun [19] y hasta donde sabemos por nuestra propia investigacion bibliografi-ca) es el primer resultado que analiza probabilisticamente la homologıa persistente de com-plejos aleatorios geometricos.

Ya se han visto en capıtulos anteriores resultados probabilistas referentes a la homologıapersistente asociada a otras estructuras que no son complejos aleatorios geometricos. Porejemplo, en el Capıtulo 6 se vieron resultados que estudian la homologıa persistente (losdiagramas de persistencia) asociados a codigos de barras de campos aleatorios gaussianosestandar en los que se estudia la caracterıstica persistente de Euler. En el Capıtulo 5 se vieronvarios resultados referentes a la homologıa persistente de n puntos elegidos mediante variablesaleatorias i.i.d. en diferentes espacios metricos. Dentro de este esquema se encuentran losresultados del artıculo de P. Bubenik y P. Kim [24] (discutidos en la Seccion 7.1) en dondese toman las variables i.i.d en el cırculo y usan la estadıstica de oden para describir ladistribucion lımite de los diagramas de persistencia. Hasta donde sabemos, este es el primerartıculo publicado en el que se estudia la homologıa persistente en un sentido aleatorio.Invitamos al lector, a manera de ejercicio, a determinar en cada resultado que se ha enunciadoen estas notas si se refieren a la homologıa persistente o si se refieren a la homologıa una vezque se ha fijado un radio para la construccion de los complejos simpliciales.

El teorema principal de la persistencia maximal de los ciclos Πk

Ya que tenemos una idea clara de lo que significa tener resultados probabilistas que serefieran a la homologıa persistente de alguna estructura de topologıa estocastica, vamos aenunciar el teorema principal de [19] y a bosquejar la demostracion sin entrar en detallestecnicos. Definimos primero

∆k(n) =

(log n

log log n

) 1k

;

que, como comentamos al comienzo de esta seccion, cumple que con alta probabilidad Πk =Θ(∆k(n)). Esto se enuncia con mas formalidad en el siguiente teorema:

Teorema 7.4.3. Sea Pn un proceso de Poisson en el cubo unitario [0, 1]d y sea PHk(n)el k-esimo diagrama de persistencia de C(Pn, r) o de R(Pn, r). Entonces existen constantes

Page 250: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

248 Capıtulo 7. Estimacion de numeros de Betti y topologıa estocastica

positivas Ak y Bk tales que

lımn→∞

P[Ak ≤

Πk(n)

∆k(n)≤ Bk

]= 1.

Recordamos que el tema de Procesos de Poisson se explica con detalle en el Apendice D.

Conjeturan Bobrowski, Kahle y Skraba, en base en evidencias que obtuvieron en lassimulaciones que comentamos mas adelante, que Πk cumple algo mucho mas fuerte que esteresultado. Ellos conjeturan que se cumple una ley de los grandes numeros para Πk, es decir,que existen Ck tal que Ak ≤ Ck ≤ Bk tales que

lımn→∞

Πk(n)

∆k(n)= Ck.

La demostracion del Teorema 7.4.3 se puede dividir en dos partes principales. En la primerparte se demuestra que con alta probabilidad existe la cota superior a la razon Πk(n)

∆k(n). Para

encontrar esta cota superior se demuestra primero un lema que permite acotar los ciclos; estees un resultado no probabilista en el que solo intervienen propiedades topologico algebraicasde los complejos aleatorios geometricos que se estan construyendo basados en el proceso dePoisson homogeneo Pn en el cubo unitario [0, 1]d. Despues, en base al resultado obtenido eneste primer lema, se usa teorıa de probabilidad para poder obtener (en un segundo lema) lascotas en un sentido probabilista. En la segunda parte de la demostracion, de forma analogaa lo que se hizo para la cota superior, se prueba que con alta probabilidad existe la cotainferior a la razon Πk(n)

∆k(n).

Encontrando una cota superior para Πk(n)

Encontrar con alta probabilidad una cota superior para Πk(n), equivale a demostrar queexiste una constante Bk > 0 que depende solo de k y de d, tal que con alta probabilidad secumple

Πn(n) ≤ Bk∆k(n) = Bk

(log n

log log n

) 1k

.

Este resultado se sigue de los siguientes dos lemas:

Lema 7.4.4. Sea γ ∈ PHk(n) con γbirth = r y π(γ) = p. Entonces existe una constante C1

tal que C(n, r) contienne una componente conexa con por lo menos m = C1pk vertices. La

constante C1 depende de k y d unicamente.

Page 251: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

7.4. Persistencia maximal en los ciclos de complejos aleatorios geometricos 249

Lema 7.4.5. Sea α > 0 fijo. Entonces existe una constante C2 > 0 que depende solo de α yd, tal que si

nrd ≤ C2

(log n)α

y

m ≥ α−1 log n

log log n,

entonces con alta probabilidad C(n, r) no contiene componentes conexas con mas de m verti-ces.

Encontrando una cota inferior para Πk(n)

Encontrar con alta probabilidad una cota superior para Πk(n), equivale a demostrar queexiste una constante Ak > 0 que depende solo de k y de d, tal que con alta probabilidad secumple

Πn(n) ≥ Ak∆k(n) = Ak

(log n

log log n

) 1k

.

Para demostrar que existe esta cota basta con probar que con alta probabilidad existe unk-ciclo γ ∈ PHk(n) tal que π(γ) ≥ Ak∆k(n). Este resultado se sigue de los siguientes doslemas:

Lema 7.4.6. Si para cada 1 ≤ j ≤ m se tiene que | Si,j ∩ Pn |= 1, y | Qi ∩ Pn |= m.Entonces existe un k-ciclo γ ∈ PHk(n) tal que

π(γ) ≥ 1

4√d× L

l.

Lema 7.4.7. Sea nld = (log n)−α tal que α > dk

y sea L = Ak∆k(n)l en donde Ak ≤ (C4α)−1k .

Entonceslımn→∞

P(E) = 1.

El teorema principal de la persistencia maximal de los ciclos Πk bajo otras es-tructuras estocasticas y en otros espacios metricos

Aunque los resultados anteriores se tienen para el modelo de complejos aleatorios geometri-cos construidos sobre puntos obtenidos mediante un proceso de Poisson homogeneo Pn en elcubo unitario [0, 1]d, con los respectivos ajustes en las demostraciones de los cuatro lemasque acabamos de enunciar, es posible obtener los mismos resultados para puntos elegidos

Page 252: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

250 Capıtulo 7. Estimacion de numeros de Betti y topologıa estocastica

mediante un proceso de Poisson no homogeneo y para espacios metricos compactos que nosean necesariamente el cubo unitario [0, 1]d. Bajo estos nuevos esquemas la funcion de compa-racion ∆k(n) seguira cumpliendo los resultados anteriores pero las cotas superior e inferiordependeran del proceso estocastico con el que se obtenga la nube de puntos y el espaciometrico que se elija.

Simulaciones de Πk en el cubo unitario

En [19], dedican una seccion a los resultados que obtuvieron de simulaciones que reali-zaron para explorar el comportamiento de Πk(n) para el complejo de Cech en dimensionesd=2,3 y 4. Para generar el proceso de Poisson Pn, usaron la implementacion de MersenneTwister y el calculo de los diagramas de persistencia lo hicieron con la librerıa PATH.

En varios proyectos que los alumnos del curso desarrollaron, resulto ser computacional-mente muy costoso o imposible calcular los diagramas de persistencia para dimensiones d=2o d=3 incluso utilizando los complejos de Vietoris-Rips. Llama la atencion entonces que, enlas simulaciones que reportan, pudieran realizar los calculos de diagramas de persistencia pa-ra experimentos computacionales que involucraron entre 100 y 1,000,000 puntos. Esto les fueposible porque en los calculos de los diagramas de persistencia, para evitar el costo compu-tacional de calcular el complejo de Cech en dimensiones d=2 y 3, usaron la librerıa CGALpara calcular la filtracion α y los α-complejos (basados en las triangulaciones de Delaunay,tema abordado en un proyecto que desarrollo un equipo de alumnos que tomaron este curso)lo cual es homotopicamente equivalente a los complejos de Cech, por lo que se obtienengrupos de homologıa isomorfos a los obtenidos con los complejos de Cech y en consecuencialos diagramas de persistencia no son distintos a los que obtendrıan al usar los complejos deCech.

Referimos al lector a [105] para obtener mas informacion de las librerıas que hemosmencionado en los parrafos anteriores y en general para tener un panorama de las librerıasque mas se utilizan al realizar calculos computacionales en ATD.

Page 253: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Apendice A

Analisis de componentes principales(PCA)

Este es un tema tıpicamente cubierto en cursos de estadıstica multivariada. Una referenciaclasica recomendada es Jolliffe [70], para la consulta de mayores detalles. Aquı damos unbreve resumen de la tecnica aplicada a vectores aleatorios. La idea tambien se ha extendidopara datos funcionales (Ramsay & Silverman, 2005), y para datos sobre variedades, bajo elnombre de analisis de geodesicas principales (Fletcher [55]). Las tecnicas de componentesprincipales han sido referidas en la literatura de TDA. Como ejemplo, en Bendich et al. [11],las componentes principales (funcionales) se correlacionan con puntos crıticos de homologıade grados 0 y 1 para entender la estructura del sistema vascular en cerebros humanos.

El contexto elemental es que se cuenta con una muestra i.i.d. de vectores aleatorios dedimension d, o nube de datos, digamos X1,X2, . . . ,Xn, donde Xi = (Xi1 , . . . ,Xid)

T . Elobjetivo es encontrar una base ortogonal de un subespacio de Rd que posea una dimensionp con p < d, y tal que la nube de datos se concentre mayoritariamente sobre el subespaciode Rp correspondientemente generado. No siempre puede lograrse lo anterior con exito, perocuando es posible, se dice haber logrado una reduccion de dimensionalidad, en el sentido deque en lugar de estudiar una nube de datos en Rd, se simplifica a una nube de datos en Rp.Las p coordenadas de los puntos originales de Rd, que no son mas que combinaciones linealesde las entradas de cada Xi, reciben el nombre de componentes principales.

Un ejemplo artificial y sencillo, pero ilustrativo en R2, es el denotado en la Figura ??. Lanube de datos esta formada por puntos de la forma (X1, X2) que se concentran alrededor de larecta x2 = x1. La base ortonormal en R2 dada por

(1/√

2, 1/√

2), (−1/√

2, 1/√

2)

da lugaral sistema de ejes indicados con lıneas punteadas, rotulados en la figura como Y1 y Y2. Estosnuevos ejes cumplen con describir la nube de datos primordialmente a traves de la coordenadaY1, en el sentido de que las coordenadas Y2 resultan ser casi constantes. En este sentido se dice

251

Page 254: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

252 Apendice A. Analisis de componentes principales (PCA)

que la coordenada Y1 es una reduccion de dimensionalidad de (X1, X2). Matematicamente, loanterior se describe como la busqueda de un cambio de base (o transformacion ortonormal),que cumpla la siguiente condicion: Que la primera coordenada posee la mayor variabilidadposible, la segunda coordenada la segunda variabilidad posible, y ası sucesivamente. En lafigura, la orientacion de los nuevos ejes es tal que Y1 posee la mayor variabilidad posible.Haberlo hecho ası produjo que la segunda coordenada haya resultado con una variabilidadmuy reducida, debido a la estructura latente en la nube de datos original.

Figura A.1: Ejemplo de una nube de datos en R2, para los cuales una rotacion de ejes, de(X1, X2) a (Y1, Y2), es efectiva para reduccion de dimensionalidad. La direccion del eje Y1

produce la mayor varianza posible, mientras que la direccion ortogonal Y2 contiene ya muypoca variacion.

Lo anterior se formaliza y generaliza para cualquier d con la siguiente proposicion. Lademostracion (ver Jolliffe [70]) esta basada en conceptos elementales de algebra lineal, y enpropiedades generales de matrices de covarianza.

Proposicion A.1.8. Sean X = (X1, . . . ,Xd)T un vector aleatorio y Σ = (cov [Xi,Xj])1≤i,j≤d

su matriz de covarianza. Sean λ1 ≥ λ2 ≥ . . . ≥ λd los valores propios de Σ, y e1, e2, . . . , edlos correspondientes vectores propios, donde ei = (ei1, . . . , ei1)T . Sea el vector Y el vectoraleatorio en Rd formado por las combinaciones lineales

Y1 = e11X1 + · · ·+ e1dXd, (A.1.1)...

Yd = ed1X1 + · · ·+ eddXd.

Page 255: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

253

Entonces las variables aleatorias Y1, . . . ,Yd cumplen lo siguiente:

1. Var(Yi) = λi, i = 1, . . . , d.

2. Var(Y1) ≥ Var(Y2) ≥ · · · ≥ Var(Yd).

3. Cov(Yi,Yj) = 0 si i 6= j.

4. Cov (Y) = diag (λ1, . . . , λd) .

En notacion matricial, (A.1.1) puede escribirse como Y = V TX, donde V T en cada filacontiene los vectores propios de Σ. Esto es, las componentes principales resultan ser unarotacion de X.

El problema de componentes principales basado en una nube de datos se topa con ladificultad de que Σ no es conocida. Por esta razon, el tema de PCA es en el fondo unproblema de inferencia estadıstica. La idea es reemplazar la matriz Σ por una estimacionconsistente, la matriz de covarianza empırica, Σ. Supongamos que se cuenta con una muestraobservada de vectores aleatorios, x1, . . . ,xn, donde xi = (x1i, . . . , xdi)

T . Una aplicacion dePCA en la practica se afronta con el siguiente algoritmo, radicado por completo en la arenade calculos de algebra lineal:

1. Se calcula la media empırica en Rn, dada por x = (1/n)∑n

i=1 xi.

2. Se calcula la matriz de covarianza empırica. Con notacion matricial, esta dada por

Σ =1

n− 1

n∑i=1

(xi − x) (xi − x)T .

3. Se encuentran los valores propios λ1 ≥ λ2 ≥ . . . ≥ λd de Σ, y los correspondientesvectores propios e1, e2, . . . , ed.

4. Se calculan los vectores y1, . . . , yn con entradas

y1i = e11x1i + · · ·+ e1dxdi,...

ydi = ed1x1i + · · ·+ eddxdi,

para i = 1, . . . , n.

Page 256: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

254 Apendice A. Analisis de componentes principales (PCA)

Las variables yi se llaman las componentes principales, y los coeficientes eij las cargas dela i-esima componente principal. Por construccion, la primera componente principal recogela mayor varianza posible, la segunda componente la segunda varianza, y ası sucesivamente.Puesto que tr(Σ) =

∑di=1 λi, el cociente

λi

λ1 + · · ·+ λd

posee la interpretacion de ser la proporcion de varianza explicada por la i-esima componenteprincipal respecto a la variacion total. Si la proporcion

λ1 + · · ·+ λp

λ1 + · · ·+ λd≈ 1

para un valor de p considerablemente menor que d, se dice que se ha reducido la dimensio-nalidad.

En una aplicacion concreta, los valores calculados de las p componentes principales encaso de haber reducido la dimension, se utilizan para facilitar el analisis de datos. Mediante lautilizacion de los valores yji para j = 1, . . . , p en lugar de xji para j = 1, . . . , d, tıpicamente sesimplifican tareas estadısticas de prediccion, conglomeracion, clasificacion, etc. Sin embargo,tambien es posible buscarle interpretacion a los valores de cada vector de cargas, ei. Ası,por ejemplo hay veces que resulta que la primera componente principal se relaciona con unsubconjunto especıfico de variables al que se le puede otorgar una interpretacion con acuerdoen el contexto concreto.

Es muy pertinente mencionar—especialmente en el contexto de ATD que nos ocupa—quecuando la dimension d es grande y el numero de datos n, es comparativamente pequeno, quees bien sabido que la tecnica de componentes principales no arroja resultados utiles. Estasituacion se conoce en estadıstica como high dimension low sample size; ver Jung & Marron[73]. El origen del problema es que la matriz Σ resulta ser un muy mal estimador de la matrizΣ, aunque tambien participan razones geometricas que tienen que ver con alta dimension d,como se detallo en la Seccion 3.1.3.

La tecnica de analisis de componentes principales solo es adecuada para datos que estanen un espacio vectorial, aunque han habido extensiones para datos sobre variedades. La ideaprimordial consiste de encontrar subespacios lineales que concentren la nube de datos. Comohemos visto en el curso, el punto de ATD es analizar estructura sin tener que recurrir atal reduccion por vıa de subespacios, sino con herramientas de homologıa en la dimensionoriginal.

Page 257: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Apendice B

Probabilidad en espacios metricospolacos

Se presentan brevemente varios conceptos y resultados de probabilidad en espacios metri-cos y convergencia de variables aleatorias con valores en estos espacios. Si bien en muchasaplicaciones se trabaja en espacios euclidianos, hay situaciones en donde este no es el ca-so. Ponemos enfasis en los tipos de convergencia de las variables aleatorias, similar a losconsiderados para variables aleatorias reales en la Seccion 3.1.2.

En esta seccion (X, ρ) es un espacio metrico separable y completo (polaco), con σ–algebrade Borel B(X). Como antes, escribimos

Br(x) = y ∈ X : ρ(x, y) < r.

Regularidad de medidas

Para un espacio de medida arbitrario tenemos.

Definicion B.1.9. Dado un espacio de medida (X,A, µ), un conjunto A ∈ A es un atomosi

(i) µ (A) > 0, y

(ii) Si B ⊂ A, y µ (B) < µ (A), entonces µ (B) = 0.

Dado un espacio de medida (X,A, µ), decimos que µ es una medida no atomica si notiene atomos.

En particular, si µ es una medida no atomica, µ (x) = 0, ∀ x ∈ A.

255

Page 258: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

256 Apendice B. Probabilidad en espacios metricos polacos

Consideremos el espacio de medida dado por X = 1, . . . , n, A =2X y µ = # (A).Entonces µ tiene atomos en 1 , . . . , n.

En general, dada una distribucion discreta F , la medida de Lebesgue-Stieltjes µF tieneatomos en el conjunto de puntos donde la variable aleatoria tiene probabilidad positiva. Unadistribucion continua F es tal que µF no tiene atomos.

Definicion B.1.10. Sea (X, ρ) un espacio metrico Polaco, con σ–algebra de Borel B(X) ysea µ una medida σ−finita en (X,B(X)). Se dice que µ es:

(i) Localmente finita o de Borel si para cada x ∈ X existe 0 < r < ∞ tal queµ(Br(x)) <∞.

(ii) Regular interior si para cada A ∈ B(X)

µ(A) = sup µ(K) : K ⊂ A,K compacto ,

(iii) Regular exterior si para cada A ∈ B(X)

µ(A) = ınf µ(U) : A ⊂ U,U abierto ,

(iv) Regular si es regular interior y regular exterior,

(v) Medida de Radon si es regular interior y de Borel.

Definicion B.1.11. Consideremos los siguientes espacios de medidas en (X,B(X))

M+(X) := medidas de Radon en (X,B(X)) ,

M+f (X) := medidas finitas en (X,B(X)) ,

P(X) := medidas de probabilidad en (X,B(X)) .

Un primer resultado es el siguiente, cuya demostracion puede verse en [85].

Teorema B.1.12. Sea (X, ρ) un espacio metrico polaco, con σ–algebra de Borel B(X) y seaµ ∈M+

f (X). Entonces

(a) Para cada ε > 0, existe un compacto K ⊂ X con µ(X\K) < ε.

(b) µ es regular.

(c) En este caso M+f (X) ⊂M+(X), es decir, una medida regular finita es de Radon.

Page 259: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

257

Corolario B.1.13. Una medida de probabilidad en un espacio metrico polaco es de Radon.

Un concepto que nos encontraremos frecuentemente cuando hablemos de convergencia demedidas es el siguiente

Definicion B.1.14. Una familia de medidas F ⊂M+f (X) es tensa o apretada (tight) si

para ε > 0 existe un compacto K ⊂ X con

sup µ(X\K) : µ ∈ F < ε.

Tipos de convergencia en espacios metricos

Sea (Ω,A, µ) un espacio de medida σ-finita y (X, ρ) un espacio metrico polaco, con σ–algebra de Borel B(X). La desigualdad de Markov se escribe como sigue: Sean X,Y variabesaleatorias con valores en X y 0 < p <∞. Entonces, para cualquier ε > 0

P (d(X,Y)) > ε) ≤ 1

εpE [(d(X,Y))p] . (B.1.1)

Ademas ∫ ∞0

P (d(X,Y) > x) dx = E [(d(X,Y))] . (B.1.2)

Definiremos los conceptos de convergencia casi donde quiera, convergencia en medida yconvergencia de medidas.

Primero necesitamos asegurar que la funcion distancia asociada con las transformacionesmedibles es tambien medible.

Lema B.1.15. Sean f, g : Ω → X transformaciones medibles con respecto a A/B(X). En-tonces la transformacion H : Ω→ [0,∞), ω → d(f(w), g(w)) es A/B([0,∞))-medible.

Similar al caso real en la Seccion 3.1.2, tenemos los siguientes tipos de convergencia. Dehecho, comenzamos con un tipo de convergencia mas general que convergencia en probabili-dad.

Definicion B.1.16. Sean Yii≥1, Y funciones de Ω a X medibles con respecto a A/B(X).Decimos Yii≥1, converge a Y

(i) en µ-medida, y escribimos Ynµ−→ Y, si para cada A ∈ A con µ(A) <∞ y para cada

ε > 0µ (ρ(Yn,Y) > ε ∩ A) −→ 0, (n −→∞).

Page 260: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

258 Apendice B. Probabilidad en espacios metricos polacos

(ii) µ-casi en todas partes, y escribimos Ync.t.p.µ−→ Y, si existe un conjunto N ∈ A, con

µ(N) = 0 tal que

ρ(Yn(ω),Y(ω))→ 0, (n −→∞), ∀ω ∈ Ω \N.

Si µ es una medida de probabilidad, Yii≥1, Y son variables aleatorias. En este caso la

convergencia en medida se llama convergencia en probabilidad y escribimos YnPr−→ Y, y la

convergencia casi donde quiera se llama convergencia con probabilidad uno o convergencia

casi segura, y escribimos Ync.p,1−→ Y.

El hecho de que X es un espacio metrico polaco nos da la unicidad modulo funciones casidonde quiera de los lımites en medida y casi donde quiera.

Convergencia casi donde quiera implica convergencia en medida, pero el recıproco no escierto. Recomendamos el Capıtulo 6 del libro de Klenke [85] para un estudio sistematico deeste tema.

Con respecto a convergencia en distribucion o en ley de variables aleatorias y medidasen espacios metricos, tambien llamada convergencia debil de medidas, su definicion es comosigue.

Sea Cb(X) como el conjunto de todas las funciones continuas y acotadas de X en R. Re-cordemos de la Seccion 3.5.1 que si Y es una variable aleatoria en un espacio de probabilidad(Ω,A,P) con valores en X, su distribucion es la medida PY en (X,B(X)) dada por

PY(A) = P(Y−1(A)), A ∈ B(R).

Definicion B.1.17. Sea X un espacio metrico polaco.

(i) Sean µ, µ1, µ2, ...medidas en M+f (X). Decimos que (µn)n≥1 converge debilmente a µ y

escribimos µnw−→ µ, si

lımn→∞

∫fdµn =

∫fdµ, ∀f ∈ Cb(X).

(ii) Sean Y,Y1,Y2...variables aleatorias con valores en X. Decimos que (Yn)n≥1 converge

en distribucion o ley, y escribimos YnL−→ Y, si PYn

w−→ PY.

El hecho de que X es un espacio metrico polaco asegura la unicidad del lımite de conver-gencia debil y en distribucion.

En el estudio de este tipo de convergencia, la propiedad de familia de medidas tensas enel sentido de la definicion B.1.14 es esencial.

Como en el caso real, tenemos las siguientes relaciones entre tipos de convergencia.

Page 261: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

259

Proposicion B.1.18. (a) Sean Xn, n ≥ 1, X variables aleatorias en X, entonces

Xnc.p,1−→ X ⇒ Xn

Pr−→ X ⇒ XnL−→ X.

(b) Si X es variable aleatoria degenerada, entonces XnPr−→ X ⇔ Xn

L−→ X.

(c) Si Xnc.p,1−→ X (Xn

Pr−→ X) y g es una transformacion continua de X a otro espacio polaco

Y, entonces g(Xn)c.p,1−→ g(X) (g(Xn)

Pr−→ g(X)).

Asimismo, tenemos el correspondiente teorema de Slutsky similar al caso real.

Teorema B.1.19 (Slutsky). Sean Xn, Yn, n ≥ 1, X variables aleatorias con valores en X.

Si XnL−→ X y ρ(Xn,Yn)

Pr−→ 0 entonces YnL−→ X.

Para el estudio de convergencia debil de medidas de probabilidad en espacios metricos,la referencia clasica es el libro de Billingsley [13]. Existen referencias modernas como porejemplo el Capıtulo 13 del libro de Klenke [85].

Para hablar de sumas de variables aleatorias en X se requiere que este sea un espaciolineal. Esta es una de las razones del siguiente apendice.

Page 262: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Page 263: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Apendice C

Variables aleatorias en espacios deBanach

Este es un tema que pocas veces se presenta en cursos de probabilidad avanzada. En laliteratura de ATD se ha usado en el contexto de panoramas de persistencia como se explicaen la Seccion 5.6.3. A diferencia del material de probabilidad en espacios metricos vistosen el Apendice B, ahora estamos interesados en la estructura de espacio vectorial y poderconsiderar resultados asintoticos en probabilidad como ley de grandes numeros y teoremacentral del lımite, los cuales se refieren a lımites de sumas de variables aleatorias. La principaldificultad que se encuentra, es que en un espacio de Banach de dimension infinita la bolaunitaria no es compacta. Esto impacta en el hecho de que no se pueda tener una medidagaussiana con matriz de covarianza la identidad y por ello el teorema central del lımiteconsidera distribuciones normales con otras covarianzas, las cuales poseen la propiedad deser operadores traza, es decir cuya serie de valores propios es finita. Ası mismo, en los espaciosde Banach de dimension infinita no existe una medida de referencia universal, como es elcaso de la medida de Lebesgue y otras presentadas en la Seccion 3.5.2. En general, para eltema de probabilidad en espacios de Banach se recomienda el libro de Ledoux y Talagrand[89] y otros que mencionamos mas adelante.

Recordemos que un espacio de Banach es un espacio vectorial con norma ‖·‖ el cual escompleto, es decir, toda sucesion de Cauchy es convergente. Ejemplos de espacios de Banachson Rd con la norma euclidiana y los espacios Lp(µ), 1 ≤ p ≤ ∞ para una medida µ vistosen la Seccion 3.4.3.

261

Page 264: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

262 Apendice C. Variables aleatorias en espacios de Banach

Variables aleatorias en Rd

Consideremos primero el caso de variables aleatorias en Rd con la metrica euclidiana

‖A‖ =(tr(AA>

))1/2.

Sea (Ω,A,P) un espacio de probabilidad y X : Ω → Rd, X(ω) = (X1(ω), . . . ,Xd(ω)). En-tonces X es una variable (vector) aleatorio si X−1(A) ∈ A, ∀A ∈ B(Rd). En cursos deprobabilidad multivariada se prueba que X es variable aleatoria, sı y solo si cada Xi es unavariable aleatoria real, lo cual es tambien equivalente a que la funcional lineal 〈X,h〉 = Xh>

es una variable aleatoria real para cada h ∈B(Rd) no aleatoria. La esperanza de X existe siy solo si ∫

Ω

‖X‖ dP <∞,

lo cual es equivalente a que E |Xi| < ∞ para cada i = 1, ..., n, en cuyo caso la esperanza deX es el vector

EX = (EX1, . . . ,EXd).

Cuando

E ‖X‖2 =

∫Ω

‖X‖2 dP <∞,

se define la matriz de covarianza

Cov(X) = E[(X−EX)>(X−EX)

],

la cual es una matriz d× d definida nonegativa y cumple que

Cov(X)(h1,h2) = E [〈X−EX,h1〉 〈X−EX,h2〉] , ∀h1,h2 ∈ B(Rd).

Resumimos los teoremas lımites clasicos universales para sumas de variables aleatoriasindependientes con valores en el espacio euclidiano Rd.

Teorema C.1.20 (Ley Debil de los Grandes Numeros en Rd). Sean Yii≥1 variables alea-torias independientes e identicamente distribuidas con valores en Rd y con media EY yE ‖Y‖2 <∞. Si Sn =

∑nj=1 Yj, entonces

Snn

Pr−→ EY.

Page 265: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

263

Teorema C.1.21 (Ley Fuerte de los Grandes Numeros en Rd). Sean Yii≥1 variablesaleatorias independientes e identicamente distribuidas con valores en Rd, y con media EY.Si Sn =

∑nj=1 Yj, entonces

P(

lımn−→∞

Snn

= EY

)= 1.

Teorema C.1.22 (Teorema del Lımite Central en Rd). Sean Yi variables aleatorias in-dependientes e independientes con valores en Rd, con media EY y matriz de covarianza Σ.Sea Sn =

∑nj=1 Yj, entonces

1√n

Σ−1/2(Sn − EY)L−→ Z

donde Z es una variable aleatoria con distribucion gaussiana estandar Nd(0,Id). Es decir

1√n

(Sn − EY)L−→ ZΣ

donde ZΣ es una variable aleatoria con distribucion gaussiana multivariada Nd(0,Σ).

Variables aleatorias y momentos en un espacio de Banach

Consideremos ahora un espacio de Banach B de dimension infinita con norma ‖·‖ , σ-algebra de Borel B(B) y sea B∗ el espacio topologico dual de B, es decir el espacio de lasfuncionales lineales f : B→ R continuas. Sea (Ω,A,P) un espacio de probabilidad. En estecaso hablamos de dos tipos de medibilidad y esperanza: debil y fuerte, los cuales no siempreson los mismos.

Sea X :B→ R una funcion. Decimos que X es medible en el sentido debil si para todaf ∈ B∗, f(X) es una variable aleatoria real. Decimos que X es medible en el sentido fuerte siX−1(A) ∈ A, ∀A ∈ B(B). Si el espacio de Banach B es separable, los conceptos de medibilidaddebil y fuerte coinciden y decimos que X es variable aleatoria con valores en B. De ahora enadelante consideramos a B como un espacio de Banach separable. Se sigue facilmente quesumas de variables aleatorias en B y multiplicacion de escalares por una variable aleatoriason tambien variables aleatorias.

Decimos que una variable aleatoria X tiene media o esperanza, si E ‖X‖ < ∞ en cuyocaso se define la esperanza EX como el unico elemento de B dado por la integral de Pettisde X:

Ef (X) = f(EX) para toda f ∈ B∗.

Se cumple que ‖EX‖ ≤ E ‖X‖ .

Page 266: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

264 Apendice C. Variables aleatorias en espacios de Banach

Si E ‖X‖2 <∞ se define la covarianza de X como la forma simetrica nonegativa bilinealCov(X) en B∗ definida por

(Cov(X))(f1, f2) = E [f1(X−EX)f2(X−EX)] , f1, f2 ∈ B∗.

Se tiene que Cov(X) es una forma bilineal continua y se cumple que si X1 y X2 son inde-pendientes, entonces Cov(X1 + X2) = Cov(X1) + Cov(X2).

Teoremas lımite en un espacio de Banach

Los conceptos de convergencia casi segura, convergencia en probabilidad y convergenciadebil son los mismos que para elementos aleatorios en un espacio metrico polacos presentadosen el Apendice B, con la metrica ρ(·, ·) = ‖· − ·‖ . De hecho, dado que tiene sentido hablarde sumas de variables aleatorias en un espacio de Banach B, tenemos una version distintadel teorema de Slutsky que para espacios metricos polacos, en el caso en que ademas B esuna algebra de Banach, es decir existe una multiplicacion en B tal que si A,B estan en B,tambien AB esta en B.

Teorema C.1.23 (Slutsky). Sea B una algebra de Banach. Sean Xn,Yn,Zn, n ≥ 1,X,Y,Zvariables aleatorias en B y a, c constantes en B. Si se satisfacen:

XnL−→ X, Yn

Pr−→ a, y ZnPr−→ c;

entoncesXnYn+Zn

L−→ aX + c.

La ley de grandes numeros se cumple para sumas de variables aleatorias con valores enun espacio de Banach.

Teorema C.1.24 (Ley Debil de los Grandes Numeros). Sean Yii≥1 variables aleatoriascon valores en B, independientes y con la misma distribucion de la variable aleatoria Y enB, con media EY y E ‖Y‖2 <∞. Si Sn =

∑nj=1 Yj, entonces

Snn

Pr−→ EY.

Teorema C.1.25 (Ley Fuerte de los Grandes Numeros). Sean Yii≥1 variables aleatoriascon valores en B, independientes y con la misma distribucion de la variable aleatoria Y enB, con media EY. Si Sn =

∑nj=1 Yj, entonces

P(

lımn−→∞

Snn

= EY

)= 1.

Page 267: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

265

Un primer problema para el estudio del teorema central del lımite en espacios de Banachde dimension infinita, es la no existencia de una distribucion gaussiana estandar, es decir concovarianza la identidad. Esto se debe a la no compacidad de la bola unitaria de un espaciode Banach de dimension infinita.

Decimos que una variable aleatoria Z con valores en un espacio de Banach separable Btiene una distribucion gaussiana, si para cada f ∈ B∗, f(Z) tiene una distribucion gaussianareal con media cero. Se tiene que EZ = 0, E ‖Z‖2 <∞ y por lo tanto la covarianza Cov(Z)existe. En este caso

E exp if(Z) = exp

−1

2Φ(f, f)

, ∀f ∈ B∗

donde Φ(f, f) = Cov(Z))(f, f) = E [f 2(Z))]. Para un estudio sistematico de medidas gaus-sianas en espacios de Banach se puede consultar el libro de Kuo [88].

La validez de un teorema central del lımite en un espacio de Banach separable de dimen-sion infinita depende del tipo del espacio de Banach, segun su comportamiento respecto auna desigualdad sobre la norma de la suma de variables aleatorias independientes. Esto serefiere a espacios de Banach de los llamados tipo p y cotipo p. Para un estudio sistematicoy completo del teorema central del lımite en espacios de Banach, se recomienda el libro deAraujo y Gine [4].

Para fines de la literatura en estadıstica en ATD es suficiente el siguiente teorema centraldel lımite para espacios de Banach Lp(X,A, µ), 2 ≤ p <∞ donde µ es una medida σ-finitaen X. El espacio de Banach Lp(X,A, µ) es separable si A es numerablemente generada, esdecir, existe una subfamilia numerable C ⊂ A tal que σ(C) = A. Si X es un espacio metricoseparable, entonces A = B(X) es numerablemente generada.

Teorema C.1.26 (Teorema del Lımite Central). Sea X un espacio metrico separable, µ unamedida σ-finita en B(X) y B =Lp(X,B(X), µ), 2 ≤ p < ∞. Sean Yi variables aleatoriascon valores en B independientes con la misma distribucion de una variable aleatoria Y enB con EY = 0, E ‖Y‖2 <∞ y covarianza Cov(Y). Sea Sn =

∑nj=1 Yj. Entonces

1√n

SnL−→ Z

donde Z es una variable aleatoria en B con distribucion gaussiana con covarianza Cov(Z) =Cov(Y).

Page 268: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

266 Apendice C. Variables aleatorias en espacios de Banach

Densidades en un espacio de Banach, inferencia estadıstica y estimacion de ho-mologıa: algunas preguntas

1. Como se ha visto en los Capıtulos 5 y 6 de estas notas, el contar con una funcion dedensidad permite usar metodos de inferencia estadıstica y construir conjuntos de nivelpara estimar homologıa persistente.

2. Otra implicacion de la no existencia de una medida de referencia universal en unespacio de Banach separable de dimension infinita B, es la no existencia de una medidade referencia y por ello de una densidad natural. Sin embargo, en el caso de medidasgaussianas µ y ν en B, se cumple que estas son equivalentes o son singulares en elsentido de la Definicion de 3.4.21. Ademas, en el primer caso es posible encontrarformulas explıcitas para las densidades

f =dν

dµ, g =

du

dν.

Se recomienda el Capıtulo II del libro de Kuo [88] para este tema.

3. En el caso particular de la medida gaussiana µw (medida de Wiener) inducida por elproceso de Wiener en el espacio de Banach C[0, T ] de la funciones continuas en [0, T ]con la norma del supremo, es posible considerar medidas equivalentes (de traslacionesadmisibles) a µw y hacer inferencia estadıstica sobre parametros de interes usando lacorrespondiente densidad y el metodo de maxima verosimilitud; ver por ejemplo ellibro de Basawa y Rao [10].

4. Hasta donde sabemos no se ha usado la densidad en el modelo en (3) para estimarhomologıa persistente en el proceso de Wiener y sus traslaciones admisibles.

Page 269: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Apendice D

Medidas de Poisson para conjuntosaleatorios de puntos

El objetivo de este apendice es resumir algunas de las propiedades de procesos estocasticosde Poisson en el espacio euclidiano d-dimensional. Estos procesos o medidas aleatorias hansido ampliamente usados en modelacion de puntos aleatorios en tiempo y/o espacio. Enparticular en el estudio de formas en geometrıa estocastica, y en ATD y topologıa estocasticacomo se muestra en el Capıtulo 7 de estas notas. Para un estudio sistematico desde el puntode vista de probabilidad se recomienda el libro de Kingman [83]. El libro de Small [122]contiene aplicaciones de procesos de Poisson en teorıa de formas y geometrıa estocastica. Enparticular, el proceso de Poisson es un modelo util para generar formas aleatorias debido aalgunas de sus propiedades geometricas, las cuales se presentan al final de este apendice.

El caso d = 1 es de suma importancia y es presentado en la mayorıa de los cursos deprobabilidad elemental.

Comenzamos con elementos bien conocidos sobre la distribucion de Poisson y la aproxi-macion de Poisson, los cuales revelan que estos modelos son utiles en el estudio de eventosraros.

Distribucion de Poisson y la Aproximacion de Poisson

Recordemos que una variable aleatoria X tiene distribucion de Poisson Poiss (µ) sitoma valores enteros no negativos y

P (X = k) = πk (µ) = µke−µ

k!k ≥ 0

donde µ puede tomar cualquier valor µ > 0. Tres caracterısticas de una variable aleatoriaX ∼ Poiss (µ) son las siguientes:

267

Page 270: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

268 Apendice D. Medidas de Poisson para conjuntos aleatorios de puntos

1. E (X) = µ.

2. Var (X) = µ.

3. La funcion generadora de momentos φ (t) = EtX = eµ(et−1), para cada t ∈ [−1, 1].

La genesis de esta distribucion es que aparece como una ley de eventos raros, de acuerdoal siguiente resultado conocido como aproximacion de Poisson, el cual es un teoremalımite para sumas de arreglos triangulares.

Teorema D.1.27. Para cada n ≥ 1, sea 0 < pn < 1, y ξni i=1,...n variables independientescon distribucion Bernoulli con probabilidad de exito pn, es decir P(ξni = 1) = pn = 1−P(ξni =0). Consideremos la variable aleatoria

Sn =n∑i=1

ξni . (D.1.1)

la cual tiene distribucion Binomial B(n, pn) dada por

P (Sn = k) =

(n

k

)pkn(1− pn)n−k, k = 0, ..., n (D.1.2)

Supongamos que npn → µ > 0 cuando n→∞. Entonces

lımn→∞

P (Sn = k) = µke−µ/k!, k = 0, 1, 2, ....

En otras palabras, SnL−→ X ∼ Poiss (µ) .

Observacion D.1.28. (a) Si bien el resultado anterior es usualmente resaltado como unaformula de calculo para aproximar la distribucion binomial (D.1.2), su importancia ma-yor esta en la interpretacion probabilista como ley de eventos raros: A medida quen es grande y por lo tanto pn pequena, en la sumandos ceros en suma aleatoria (D.1.1)tiene una muy alta probabilidad.

(b) Al igual que la ley de los grandes numeros y el teorema del lımite central vistos en laSeccion 3.1.2, la aproximacion de Poisson es un resultado universal bien conocido en elsentido de su validez mas alla de sumas de variables aleatorias Bernoulli. Una explicacionmuy sencilla de este fenomeno se encuentra en el artıculo [110], donde se consideransumas (D.1.1) de arreglos triangulares de variables aleatorias en una familia amplia dedistribuciones discretas, con la propiedad que la probabilidad del cero tiene a uno cuandon→∞.

Page 271: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

269

(c) Un enfoque moderno a la aproximacion de Poisson usando el metodo de Chen-Stein seexpone en el libro de Barbour et al. [8].

En ocasiones es util extender la definicion de Poiss (λ) para incluir los casos extremos 0e ∞. Poiss (0) serıa la distribucion concentrada en el 0

P (X = 0) = 1,

y Poiss (∞) la distribucion concentrada en +∞

P (X = +∞) = 1.

Una de las propiedades mas importantes de la distribucion de Poisson es su aditividad,cuya prueba es trivial.

Teorema D.1.29. Si X y Y son variables aleatorias independientes con distribucionesPoiss (µ1) y Poiss (µ2), entonces X + Y ∼ Poiss (µ1 + µ2).

Por induccion, podemos ver facilmente que este resultado es cierto para cualquier sumafinita de variables aleatorias independientes.

Es facil probar que la distribucion de Poisson es infinitamente divisible, esto es, da-da una variable aleatoria X con distribucion Poisson Poiss (µ), para toda n > 0 pode-mos encontrar n variables aleatorias independientes X1, . . . ,Xn con distribucion PoissonPoiss (µ1) , . . . ,Poiss (µn) tales que

∑ni=1 Xi ∼ Poiss (µ).

Teorema D.1.30. Sea Xj∞j=1 una sucesion de variables aleatorias independientes, dondeXj ∼ Poiss (µj) j = 1, 2, . . .. Si

σ =∞∑j=1

µj

converge, entonces

S =∞∑j=1

Xj

converge con probabilidad 1 y S ∼ Poiss (σ). Por otro lado, si∑∞

j=1 µj diverge, entonces Sdiverge con probabilidad 1.

Luego de este resultado parece mas natural haber definido Poiss (0) y Poiss (∞). Con estaconvencion, si tenemos variables aleatorias independientes Xj con distribuciones Poiss (µj)respectivamente, su suma tiene distribucion Poiss (

∑µj), y esto es cierto sin importar que

haya un numero infinito de ellas, incluso si algunos µj son 0 o ∞.

Page 272: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

270 Apendice D. Medidas de Poisson para conjuntos aleatorios de puntos

Supongamos que X1, . . . ,Xn son variables aleatorias independientes con Xj ∼ Poiss (µj).Entonces S = X1+· · ·+Xn tiene distribucion Poiss (σ) con σ =

∑µj, y entonces, si r1, . . . , rn

son tales que∑rj = s tenemos que

P (X1 = r1, . . . ,Xn = rn | S = s) =n∏j=1

µrjj e−µj

rj!

/σse−σ

s!

=s!

r1! · · · rn!

(µ1

σ

)r1· · ·(µnσ

)rn.

Estas son las probabilidades de una distribucion multinomial M (s, p1, . . . , pn), con pi = µiσ

.Para el caso en el que n = 2, tenemos que si X y Y son variables aleatorias Poisson

independientes (X ∼ Poiss (µ1) y Y ∼ Poiss (µ2)), dado que X + Y = m, la distribucioncondicional de X es B (m, p), donde

p =E (X)

E (X) + E (Y).

Hay un resultado muy util, que parecerıa ser el converso del anterior. Supongamos queN ∼ Poiss (µ) , y que la distribucion condicional de M dado N es B (N, p) para algunaconstante p. Esto es

P (M = t | N = s) =

(s

t

)pt (1− p)s−t .

Entonces, para m, k ≥ 0, calculos directos dan

P (M = m,N −M = k) = P (N = m+ k)P (M = m | N = m+ k)

=e−µµm+k

(m+ k)!

(m+ k

m

)pm (1− p)k

=e−µp (µp)m

m!

e−µ(1−p) (µ (1− p))k

k!.

Ası, M y N −M son variables aleatorias independientes Poisson con medias µp y µ (1− p)respectivamente.

Procesos de Poisson

Motivacion: Un Proceso de Poisson con espacio de estados S definido en un espacio deprobabilidad (Ω,A,P), es una funcion Π : Ω → S∞ donde S∞ es el conjunto de todos lossubconjuntos numerables de S.

Page 273: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

271

Queremos que algunos de los conjuntos en S∞ funcionen como conjuntos de prueba enel siguiente sentido: si A es un conjunto de prueba, el numero de puntos de Π en A es

N (A) := # Π (ω) ∩ A .

Dado que esta expresion depende de ω, N (A) es una funcion

N (A) : Ω→ 0, 1, . . . ,∞

y necesitamos que esta sea una funcion medible para cada conjunto de prueba A. Esto es,supondremos que para cada conjunto de prueba A y para cada n,

ω : N (A) = n = ω ∈ Ω : N (A) (ω) = n ∈ A.

Entonces las funciones N (A) son variables aleatorias, y podemos imponer condiciones ensus distribuciones y distribuciones conjuntas. En pocas ocasiones es necesario ser cuidadososal elegir los que seran nuestros conjuntos de prueba. Esto porque casi siempre podemosconstruir conjuntos de prueba complicados a partir de otros mas simples. Por ejemplo, siS = R, es suficiente pedir que los intervalos abiertos (a, b) sean conjuntos de prueba. Todoconjunto abierto G es la union numerable de intervalos abiertos Aj, N (G) =

∑j N (Aj) es

una variable aleatoria si las N (Aj) tambien lo son. Todo conjunto cerrado F es la interseccionde una sucesion decreciente de conjuntos abiertos Gi, y N (F ) = lımi→∞N (Gi). De estemodo podemos ver que N (A) es una variable aleatoria bien definida para todo subconjuntoA. Podemos hacer lo mismo para S = R2 e incluso para Rd. Mas adelante definiremosformalmente lo que es un Proceso de Poisson en un espacio de estados S.

El espacio de estados S donde tendremos los puntos de un Proceso de Poisson, usual-mente sera un espacio euclidiano d-dimensional, o mas generalmente una variedad en Rd.Sin embargo, no necesitamos hacer uso de las propiedades de los espacios euclidianos, soloes necesario poder encontrar una familia de subconjuntos de S para ser utilizados comoconjuntos de prueba para contar los puntos aleatorios. Esto es, necesitamos una familia desubconjuntos de S para los que a funcion

N (A) = # Π ∩ A

sea una variable aleatoria bien definida. La forma mas natural de hacer esto es suponerque S es un espacio medible. Esto es, estamos suponiendo que existe un espacio de medida(S,AS, µ) donde AS es la familia de conjuntos de prueba que queremos. Si A ∈ AS diremosque A es un conjunto medible. Ademas necesitamos asegurar que hay suficientes conjuntosmedibles para poder distinguir puntos individuales. Esto se puede hacer suponiendo que la

Page 274: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

272 Apendice D. Medidas de Poisson para conjuntos aleatorios de puntos

diagonal D = (x, y) ;x = y es un conjunto medible en el espacio S×S (i.e. D ∈ AS×AS),o sea que

∀x ∈ S (x, x) ∈ AS×AS,

que en particular nos dice que

∀x ∈ S x ∈ AS.

Cuando S = Rd, tomaremos como conjuntos medibles a los conjuntos de Borel de Rd.La condicion de que la diagonal D sea medible en S × S = R2d se cumple, pues D es unconjunto cerrado en R2d.

Definicion D.1.31. Un proceso de Poisson en un espacio de estados S, es un subconjuntoaleatorio numerable Π de S, tal que

(i)Para cualesquiera A1, . . . , An ∈ A tales que Ai∩Aj = ∅ ∀i 6= j, las variables aleatoriasN (A1) , . . . , N (An) son independientes, y

(ii) La variable aleatoria N (A) tiene distribucion Poisson Poiss (µ), donde µ = µ (A),con 0 ≤ µ (A) ≤ ∞.

Diremos que Π1,Π2, . . . son procesos de Poisson independientes, si para cada conjuntomedible A, las variables aleatorias N1 (A) , N2 (A) , . . . son independientes. Ası, si µ (A) <∞,el conjunto Π ∩A es finito con probabilidad 1, y vacıo si µ (A) = 0. Si µ (A) =∞, Π ∩A esinfinito numerable con probabilidad 1. Tenemos que, para A ∈ A, como N (A) ∼ Poiss (µ)

E (N (A)) = µ (A) .

Si A1, A2, . . . son disjuntos con⋃∞n=1An = A,

N (A) =∞∑n=1

N (An)

y

E (N (A)) = E

(∞∑n=1

N (An)

)

µ (A) =∞∑n=1

µ (An) .

Ası, µ es una medida en S, es decir, con esta µ, (S,AS, µ) es un espacio de medida. Llama-remos a µ la medida media del proceso de Poisson Π.

Page 275: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

273

Observemos que no toda media puede ser una medida media. Supongamos que la medidaµ en S tiene un atomo en x ∈ S, esto es 0 < µ (x) = m. Entonces un proceso de Poissoncon medida media µ serıa tal que

P (N (x) ≥ 2) = 1−(m0e−m

0!+m1e−m

1!

)= 1− e−m −me−m > 0

lo cual contradice el hecho de que N (A) sea una variable aleatoria bien definida ∀A ∈ AS,pues N (x) = # Π ∩ x ≤ 1. Ası, una medida media debe ser no atomica, en el sentidoque

µ (x) = 0 ∀x ∈ S.

Cuando S = Rd, la medida media en la mayorıa de los casos interesantes esta dada en

terminos de una intensidad f , donde f es una funcion de medida positiva en S, tal que

µ (A) =

∫A

f (x) dx.

Si f es continua en x ∈ S, entonces, para una vecindad pequena A de x,

µ (A) ∼ f (x) |A|

donde |A| =∫Adx es la medida de Lebesgue de A. Ası f (x) |A| es la probabilidad aproximada

de un punto de Π de caer en un conjunto pequeno A, y es mas grande en regiones donde λes grande que en las que λ es pequena. En el caso en que f = c es constante, de tal modoque

µ (A) = c |A|

decimos que tenemos un proceso de Poisson homogeneo.Consideremos el caso cuando S = R, y supongamos que µ es finita en conjuntos acotados.

Entonces la medida µ esta determinada de manera unica por sus valores en intervalos (a, b].Definamos una funcion M : R→ R,

M (t) =

µ (0, t] si t ≥ 0−µ (t, 0] si t < 0

.

M es una funcion creciente y

µ (a, b] = M (b)−M (a) .

Page 276: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

274 Apendice D. Medidas de Poisson para conjuntos aleatorios de puntos

Entonces µ esta determinada por la funcion M (µ es la medida de Lebesgue-Stieltjes asociadaa la funcion creciente M).

Es facil checar que µ es no atomica (en el sentido que µ (x) = 0 ∀x ∈ S) si y solo si Mes continua.

Si ademas M puede escribirse como

M (t) =

∫ t

0

f (x) dx,

entonces µ se ve como

µ (A) =

∫A

f (x) dx,

y en particular, para un proceso de Poisson homogeneo con intensidad f = c tenemos,

M (t) = ct.

Teorema de Superposicion

El teorema de superposicion es un corolario casi inmediato del Teorema de AditividadNumerable. Basta probar el siguiente lema.

Lema D.1.32. Sean Π1 y Π2 procesos de Poisson independientes en S, y sea A un conjuntomedible con µ1 (A) y µ2 (A) finitas. Entonces Π1 y Π2 son disjuntos en A con probabilidad 1

P (Π1 ∩ Π2 ∩ A = ∅) = 1.

Teorema D.1.33. Sea Πn∞n=1 una familia de procesos de Poisson independientes en Sdonde Πn tiene media µn para cada n. Entonces su superposicion

Π =∞⋃n=1

Πn

es un proceso de Poisson con media

µ =∞∑n=1

µn.

Page 277: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

275

Teorema D.1.34. Sea Π un proceso de Poisson con medida media µ en S, y sea S1 unsubconjunto medible de S. Entonces el conjunto aleatorio

Π1 = Π ∩ S1

puede ser visto como un proceso de Poisson en S con medida media

µ1 (A) = µ (A ∩ S)

o como un proceso de Poisson en S1en el que la medida media es la restriccion de µ en S1.

Teorema de Mapeo

Si el espacio de estados de un Proceso de Poisson es mapeado en otro espacio de estados,entonces, los puntos aleatorios transformados por el mapeo tambien forman un proceso dePoisson. Solo hay que tener cuidado cuando la funcion no es inyectiva, y para esto bastaver como se transforma la medida media bajo el mapeo. Sea Π un proceso de Poisson en unespacio de estados S, con medida media µ, y sea f : S → T una funcion y T otro espacio deestados (o el mismo S). Supongamos que f es medible en el sentido de que

f−1 (B) = x ∈ S ; f (x) ∈ Bes un subconjunto medible de S para todo subconjunto medible B ⊂ T . Queremos probarque el conjunto aleatorio f (Π) ⊂ T es un proceso de Poisson. Consideremos

N∗ (B) = # f (Π) ∩Bel numero de puntos de f (Π) en un conjunto medible B. En tanto los puntos f (x) , x ∈ Πsean distintos,

N∗ (B) = # x ∈ Π ; f (x) ∈ B = N(f−1 (B)

)que tiene distribucion Poiss (µ∗), donde

µ∗ = µ∗ (B) = µ(f−1 (B)

).

Mas aun, si los conjuntos B1, . . . , Bk son disjuntos, tambien lo son sus imagenes inversas, detal forma que las variables aleatorias N∗ (Bi) son independientes. Ası f (Π) es un proceso dePoisson en T en tanto los puntos f (Π) , X ∈ Π sean distintos. La medida µ∗ es la medidainducida de µ por la funcion f . Sin embargo la condicion de inyectividad de f |Π no es trivial,tomemos por ejemplo f constante.

Teorema D.1.35. Sea Π un proceso de Poisson con medida media σ-finita µ en un espaciode estados S, y sea f : S → T una funcion medible tal que la medida inducida de µ por f ,µ∗ es no atomica. Entonces f (Π)es un proceso de Poisson en T , teniendo a µ∗ como medidamedia.

Page 278: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

276 Apendice D. Medidas de Poisson para conjuntos aleatorios de puntos

Teorema de Existencia

Teorema D.1.36. Sea µ una medida no atomica en un espacio de estados S que puede serexpresada en la forma

µ =∞∑n=1

µn, µn (S) <∞.

Entonces existe un proceso de Poisson en S con medida media µ.

Propiedades geometricas de un proceso de Poisson

Varias propiedades geometricas de un Proceso de Poisson homogeneo Π en un espacioeuclidiano Rd se cumplen con probabilidad uno; ver [122]. Por ejemplo, cada punto de unProceso de Poisson Π tiene un unico vecino mas cercano. Recordemos que un vecino mascercano de un punto x en Rd es un elemento de Π que tiene una distancia mınima de x entretodas los puntos de Π. Mas aun, con probabilidad uno existe un unico k–esimo vecino mascercano.

Recordemos que un conjunto de d + 1 puntos de un Proceso de Poisson Π en Rd estanen posicion general si el envolvente convexo de los puntos de Π tiene interior no vacıo. Sepuede probar tambien que con probabilidad uno para un proceso de Poisson en Rd, todoslos conjuntos de d+ 1 puntos estan simultaneamente en posicion general.

Asimismo, con probabilidad uno, los elementos de un proceso de Poisson Π tienen lapropiedad de no esfericidad. Es decir, para cualquier conjunto de d+ 1 puntos de un Procesode Poisson se puede extraer una esfera (d − 1)-dimensional para d ≥ 2, y ademas conprobabilidad uno tal esfera no tocara ningun otro elemento del Proceso de Poisson.

En paticular, a partir de un proceso de Poisson podemos generar una descomposicioncoherente de Rd en simplejos d–dimensionales, cuyos vertices estan en los puntos del procesomismo.

Sean X1, . . . ,Xd+1 partıculas de un proceso de Poisson Π en Rd. Sea ∆ = ∆(X1, . . . ,Xd+1)el simplejo d–dimensional cuyos vertices son las d + 1 partıculas del proceso. Decimos que∆ es un simplejo de Delaunay del proceso de Poisson si la esfera (d− 1)-dimensionalque pasa a traves de X1, . . . ,Xd+1 no abarca ninguna otra partıcula en su interior.

Se puede probar que con probabilidad uno los simplejos de Delaunay de un proceso dePoisson en Rd forman una teselacion. En el sentido de que la coleccion de simplejos deDelaunay ∆j satisface que los interiores de los simplejos son disjuntos por pares y ademas⋃j ∆j = Rd. Esto es, la teselacion de Delaunay de un proceso de Poisson representa un

modelo generador estocastico de formas simpliciales en dimensiones mayores.

Page 279: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Bibliografıa

[1] M. Abramowitz, I.A. Stegun, Handbook of Mathematical Functions. Dover, 1974.

[2] N. Alon, J. H. Spencer, The Probabilistic Method. Wiley–Interscience, 2008.

[3] G. W. Anderson, A. Guionnet, O. Zeitouni, An Introduction to Random Matrices. Cam-bridge University Press, 2010.

[4] A. Araujo, E. Gine, The Central Limit Theorem for Real and Banach Valued RandomVariables. Wiley, 1980.

[5] J. Arsuaga, T. Borrman, R. Cavalcante, G. Gonzalez, C. Park. Microarrays 4, 339-369,2015.

[6] K. B. Athreya, S. N. Lahiri, Measure Theory and Probability. Springer, 2006.

[7] A. Banerjee, I.S. Dhillon, J. Ghosh, S. Sra,, Clustering on the Unit Hyperspher usingvon Mises-Fisher Distributions. Journal of Machine Learning Research 6, 1345-1382,2005.

[8] A. Barbour, L. Holst, S. Janson, Poisson Approximation. Oxford University Press, 1992.

[9] R. G. Bartle, The Elements of Integration. Wiley & Sons, 1966.

[10] I. V. Basawa, B.L.S. Rao, Statistial Inference for Stochastic Processes. Academic Press,1981.

[11] P. Bendich, J. S. Marron, E. Miller, A. Pieloch, S. Skwerer, Persistent homology analysisof brain artery trees. The Annals of Applied Statistics, 10, 198-218, 2016.

[12] A. Bhattacharya, R. Bhattacharya, Nonparametric Inference on Manifolds: With Ap-plications to Shape Spaces. Cambridge University Press, 2012.

277

Page 280: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

278 Bibliografıa

[13] P. Billingsley, Convergence of Probability Measures. Wiley, 1968.

[14] P. Billingsley, Probability and Measure. Wiley & Sons, 1995.

[15] O. Bobrowski, Algebraic Topology of Random Fields and Complexes. PhD Thesis, DukeUniversity, 2012.

[16] O. Bobrowski, R. J. Adler, Distance functions, critical points and topology for somerandom complexes. arXiv: 1107.4775, 2011.

[17] O. Bobrowski, M. Kahle, Topology of random geometric complexes: a survey. ar-Xiv:1409.4734, 2014.

[18] O. Bobrowski, S. Mukherjee, The topology of probability distributions on manifolds.Probability Theory and Related Fields, 161, 2015.

[19] O. Bobrowski, M. Kahle, P. Skraba, Maximally persistent cycles in random geometriccomplexes. arXiv:1509.04347, 2015.

[20] J. Boissonat, F. Chazal, M. Yvinec, Computational Geometry and Topology for DataAnalysis. In progress.

[21] B. Bollobas, Random graphs. Modern Graph Theory, 215-252, 1998.

[22] P. Bubenik, Statistical topological data analysis using persistence landscapes. Journalof Machine Learning Research, 16, 77-102, 2015.

[23] P. Bubenik, G. Carlsson, P. T. Kim, Z. Luo, Statistical topology via Morse theory, per-sistence and nonparametric estimation. Contemporary Mathematics, 516, 75-92, 2010.

[24] P. Bubenik, P. T. Kim, A statistical approach to persistent homology. Homology, Ho-motopy and Applications, 9, 337-362, 2007.

[25] G. Carlsson, Topology and data. A M S Bulletin, 46, 2009.

[26] G. Carlsson, T. Ishkhanov, V. De Silva, A. Zomorodian, On the local behavior of spacesof natural images. International Journal of Computer Vision 76, 1-12, 2008.

[27] G. Carlsson, et al. Topological Data Analysis and Machi-ne Learning Theory. Birs Final Report, October 15-19, 2012.http://www.birs.ca/workshops/2012/12w5081/report12w5081.pdf

Page 281: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Bibliografıa 279

[28] G. Carlsson, A. Zomorodian, A. Collins, L. Guibas, Persistence barcodes for shapes. InProccedings of the 2004 Eurographics/ACM SIGGRAPH, ACM Press, 2004.

[29] I. Chavel, Riemannian Geometry, A Modern Introduction. Second Edition, CambridgeUniversity Press, 2016.

[30] J.M. Chan, Network and Algebraic Topology of Influenza Evolution, PhD Dissertation,Columbia University, 2013.

[31] J.M. Chan, G. Carlsson, R. Rabadan, Topology of viral evolution. Proceedings of theNational Academy of Sciences 110, 18566-18571, 2013.

[32] F. Chazal, D. Cohen–Steiner, L. J. Guibas, M. Glisse, S. Oudot, Proximity of persistentmodules and their diagrams. In Proccedings of the 25th ACM Symposium of Compu-tational Geometry, 2009.

[33] F. Chazal, D. Cohen–Steiner, L. J. Guibas, F. Memoli, S. Oudot, Gromov–Hausdorffstable signatures for shapes using persistence. Computer Graphics Forum, 2009.

[34] F. Chazal, D. Cohen–Steiner, Q. Merigot, Geometric inference for probability measures.Foundations of Computational Mathematics, 11, 733-751, 2011.

[35] F. Chazal, B. T. Fasy, F. Lecci, B. Michel, A. Rinaldo, L. Wasserman, Robust topologicalinference: Distance to a measure and kernel distance. arXiv:1412.7197v1 [math.ST],2014.

[36] F. Chazal, V. de Silva, M. Glisse, S. Oudot, The structure and stability of persistencemodules. arXiv:1207.3674 [math.AT], 2012.

[37] J.P.R. Christensen, On some measures analogous to Haar measure. Mathematica Scan-dinavica, 26, 103-106, 1970.

[38] J.P.R. Christensen, Uniform measures and spherical harmonics. Mathematica Scandi-navica, 26, 293-302, 1970.

[39] M.K. Chung, P. Bubenik, P.T. Kim, Persistence diagrams of cortical surface data. InInformation in Medical Imaging, 386-397, Springer, 2004.

[40] D. Cohen–Steiner, H. Edelsbrunner, J. Harer, Stability of persistence diagrams. In Proc-cedings of the 21st ACM Symposium of Computational Geometry, 2005.

[41] L. Devroye, Non-uniform Random Variate Generation. Springer, 1986.

Page 282: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

280 Bibliografıa

[42] P. Diaconis, D. Freedman, A dozen de Finettiy-style results in search of a theory, Annalesde I´I.H.P. Probabilites et Statistiques, 23, 397-423, 1987.

[43] P. Diaconis, S. Holmes, M. Shahshahani, Sampling from a manifold. Advanced in ModernStatistical Theory and Applications: A Festschrift in honor of Morris L. Eaton. IMSCollections, 10, 102-125, 2013.

[44] J. A. Domınguez-Molina, V. Perez Abreu, Notas de Medida e Integracion. En prepa-racion, disponibles por peticion.

[45] M. L. Eaton, Multivariate Statistics: A Vector Space Approach. Wiley, 1983.

[46] H. Edelsbrunner, John, L. Harer. Computational Topology: An Introduction. AmericanMathematical Society, 2010.

[47] H. Edelsbrunner, D. Letscher, A. Zomorodian, Topological persistence and simplifica-tion. Discrete Computation & Geometry, 28, 2002.

[48] B. Efron, Bootstrap methods: another look at the jackknife. The Annals of Statistics,7, 1-26, doi:10.1214/aos/1176344552, 1979.

[49] B. Efron, Robert Tibshirani, An Introduction to the Bootstrap. Chapman & Hall/CRC,1993.

[50] P. Erdos, A. Renyi. On random graphs. Publicationes Mathematicae Debrechen, 6, 290-297, 1959.

[51] Espinoza, M. E., Homologıa persistente. Notas Proyecto ATD-CIMAT, 2015,http://atd.cimat.mx

[52] B. T. Fasy, F. Lecci, A. Rinaldo, L. Wasserman, S. Balakrishan, A. Singh, Confidencesets for persistence diagrams. Annals of Statistics, 42, 2301-2339, 2014.

[53] H. Federer, Geometric Measure Theory. Springer, 1996.

[54] N. I. Fisher, Statistical Analysis of Circular Data. Cambridge University Press, 1993.

[55] P.T. Fletcher, C. Lu, S. M. Pizer, S. Joshi, Principal geodesic analysis for the studyof nonlinear statistics of shape. IEEE Transactions on Medical Imaging, 23, 995-1005,2004.

[56] G. Franzoni, The Klein Bottle: Variations on a Theme. Notices of the American Mat-hematical Society, 59, 1076-1082.

Page 283: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Bibliografıa 281

[57] W. Fulton, Algebraic Topology: A First Course. Springer–Verlag, 1995.

[58] R. Ghrist, Elementary Applied Topology. ed. 1.0. Createspace, 2014.

[59] J. A. Gonzalez, Teorıa de Morse discreta y graficas de Reeb aplicadas a ATD, NotasProyecto ATD-CIMAT, 2015, http://atd.cimat.mx

[60] V. A. Gonzalez, Aplicacion de analisis topologico de datos a nichos ecologicos. Tesisde Licenciatura en Matematicas, Universidad de Guanajuato, 2016. Proyecto ATD-CIMAT, http://atd.cimat.mx

[61] P. Good, Permutation, Parametric, and Bootstrap Tests of Hypothesis. Springer, 2005.

[62] L. Guibas, D. Morozov, D., Q. Merigot, Witnessed k-distance. Discrete & ComputationalGeometry, 49, 22–45, 2013.

[63] U. Grenander, Probabilities on Algebraic Structures. Dober, 2008.

[64] U. Grenander, Abstract Inference. Wiley, 1981.

[65] P. R. Halmos, Measure Theory. Springer Verlag, 1974.

[66] A. Hatcher, Algebraic Topology. Cambridge University Press, 2002.

[67] W. Hoeffding, A class of statistics with asymptotically normal distribution. The Annalsof Mathematical Statistics, 19, 293-325, 1948.

[68] J.M. Ibarra, Modelos de homologıa persistente en filogenetica. Tesis de Licencia-tura en Matematicas, Universidad de Guanajuato, 2016. Proyecto ATD-CIMAT,http://atd.cimat.mx

[69] A.M. Ibekwe, J. Ma, D.E. Crowley, C.H. Yang, A. M Johnson, T.C. Petrossian, P.Y.Lum, Topological data analysis of escherichia codi o157:h7 and non-o157 survival insoils. Frontiers in Cellualr and Infection Microbiology 4, 122, 2014.

[70] I.T. Jolliffe, Principal Component Analysis, Wiley Online Library, 2005.

[71] F. Jones, Lebesgue Integration on Euclidean Space. Jones and Bartlett Books in Mat-hematics, 1993.

[72] O. Jones, Introduction to Scientific Programming and Simulation Using R. CRC Press,2014.

Page 284: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

282 Bibliografıa

[73] S. Jung, J.S. Marron, PCA Consistency in High Dimension, Low Sample Size Context.The Annals of Statistics, 37, 4104–4130, 2009.

[74] M. Kac, Probability Theory and Related Topics in Physical Sciences, Wiley, 1959.

[75] M. Kahle, Topology of random clique complexes. Discrete Mathematics, 309, no. 6,1658-1671, 2009.

[76] M. Kahle, Random geometric complexes. Discrete & Computational Geometry, 45, no.3, 553-573, 2011.

[77] M. Kahle, Sharp vanishing thresholds for cohomology of random flag complexes. ar-Xiv:1207.0149, 2012.

[78] M. Kahle, Topology of random simplicial complexes: a survey. A M S ContemporaryMathematics 620, 201-222, 2014.

[79] M. Kahle, E. Meckes, Limit theorems for Betti numbers of random simplicial complexes.Homology Homotopy and Applications, 15, no. 1, 2013.

[80] J. T. Kent, A. M. Ganaeiber, K. V. Mardia, A new method to simulate the Birgham andrelated distributions in directional data analysis with applications. arXiv:1310.81110v1,2013.

[81] D.G. Kendall, D. Barden, T.K. Carne, H. Le, Shape and Shape Theory. Wiley, 1999.

[82] J. F. C. Kingman, Random walks with spherical symmetry. Acta Mathematica, Vol. 109,11-53, 1963.

[83] J. F. C. Kingman, Poisson Process. Oxford, 1996.

[84] B. Kirchhiem, D. Preiss, Uniformly distributed measures in Euclidean spaces. Mathe-matica Scandinavica, 90, 152-160, 2002.

[85] A. Klenke, Probability Theory: A Comprehensive Course. Springer, 2008.

[86] D. E. Knuth, The Art of Computer Programming. Second Edition. Addison-Wesley,1981.

[87] V. Kurlin, A Homologically persistent skeleton is a fast and robust descriptor for asparse cloud of inters points and saliency features in noisy 2D images. Lecture Notes inComputer Science 9256, 606-617, 2015.

Page 285: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Bibliografıa 283

[88] H. H. Kuo, Gaussian measures in Banach spaces. Lecture Notes in Mathematics 463,Springer, 1975.

[89] M. Ledoux, M. Talagrand, Probability in Banach Spaces: Isoperimetry and Processes.Springer, 2011.

[90] M. Lesnick, Studying the shape of data using topology. The Insti-tute Letter Summer 2013, Institute for Advanced Study, Princeton,https://www.ias.edu/ideas/2013/lesnick-topological-data-analysis.

[91] C. Lunneborg, Data Analysis by Resampling. Duxbury Press, 1999.

[92] K. V. Mardia, P. Jupp, Directional Statistics. Wiley, 2000.

[93] G. Marsaglia, Choosing a point from the surface of a sphere. The Annals of MathematicalStatistics 43, 645-646, 1972.

[94] Y. Mileyko, S. Mukherjee, J. Harer. Probability measures on the space of persistencediagrams. Inverse Problems 27, No 12, 2011.

[95] J. Milnor, Morse theroy. Based on lecture notes by M. Spivak and R. Wells. Annals ofMatemathics Studies, 51, Princeton University Press, 1963.

[96] Jean–Marie Morvan, Generalized Curvatures. Springer, 2008.

[97] M. E. Muller, A note on a method for generating points uniformly on N -dimensionalsphere. Communications of the Association for Computing Machinary 2, 19-20.

[98] J. R. Munkres, Topology. Prentice Hall Inc., 1975.

[99] J. R. Munkres, Elements of Algebraic Topology. Addison–Wesley, Redwood City, Cali-fornia, 1984.

[100] R. Meshulam, N. Wallach, Homological connectivity of random k–dimensional comple-xes. Random Structures & Algorithms, 34, no. 3, 408-417, 2009.

[101] E. Munch, Applications of Persistent Homology to Time Varying Systems, PhD Dis-sertation, Duke University, 2013.

[102] L. Nathan, R. Meshulam, Homological connectivity of random 2-complexes. Combina-torica, 26, no. 4, 475-487, 2006.

Page 286: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

284 Bibliografıa

[103] M. Nicolau, A. J. Levine, G. Carlsson, Topological based data analysis identifies asubgroup of breast cancers with a unique mutational profile and excellent survival.Proceeedings of the National Academy of Sciences 108, 7265-7270, 2011.

[104] A. D. Nimer, Local uniform rectifiability of uniformly distributed measures. ar-xiv.org/abs/1603.03415, 2016.

[105] N. Otter, M. Porter, U. Tillmann, P. Grindod, H. Harrington, A roadmap for thecomputation of persistent homology. arXiv:1506.08903v4 [math.AT], 2016.

[106] S. Palau C, Medida en grupos topologicos. Tesis de Licenciatura en Matematicas,UNAM, 2010. http://132.248.9.195/ptb2010/agosto/0660062/Index.html.

[107] L. Parida, F. Utro, D. Yorukoglu, A.P. Carrieri, D. Kuhn, S. Basu, Topological signatu-res for population admixture. In Research in Computational Molecular Biology, 261-275,Springer, 2015.

[108] V. Patrangenaru, L. Ellingson, Nonparametric Statistics on Manifolds and Their Ap-plications to Object Data Analysis. CRC Press/Chapman & Hall, 2016.

[109] M. Penrose, Random Geometric Graphs. Oxford University Press, 2003.

[110] V. Perez-Abreu, Poisson approximation to power series distributions. American Sta-tistician, 45, 46-49, 1991.

[111] V. Perez-Abreu, C. Tudor, Functional limit theorems for traces in the Dyson-Brownianmotion. Communications on Stochastic Analysis 1, 415-428, 2007.

[112] D. Preiss, Geometry of measures in Rn: distribution, rectifiability, and densities. Annalsof Mathematics, 125, 537-643, 1987.

[113] J. Ramsay, B.W. Silverman, Functional Data Analysis. Second Edition, Springer-Verlag, 2005.

[114] L. K. Rivera E., Analisis estadıstico de trayectorias sobre la esfera: Un caso de es-tadıstica sobre variedades. Tesis de Maestrıa en Probabilidad y Estadıstica, CIMAT,2016. Proyecto ATD-CIMAT, http://atd.cimat.mx

[115] C. P. Robert, G. Casella, Introducing Monte Carlo Methods With R. Springer, 2010.

[116] A. Robinson, K. Turner, Hyphotesis testing for topological data analysis.http://arxiv.org/abs/1310.7467, 2016.

Page 287: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Bibliografıa 285

[117] G. Roussas, An Introduction to Probability and Statistical Inference. 2nd Edition, Aca-demic Press, 2014.

[118] L. Santalo, Integral Geometry and Geometric Probability. 2nd Edition, Cambridge Uni-versity Press, 2004.

[119] G. R. Shorack, J. A. Wellner, Empirical Processes with Applications to Statistics.SIAM, 2009.

[120] R. Serfling, Approximation Theorems of Mathematical Statistics. Wiley, 1980.

[121] B.W. Silverman, Density Estimation for Statistics and Data Analysis. CRC Press,1986.

[122] C. G. Small, The Statistical Theory of Shape. Springer, 1996.

[123] D. Sprott, Statistical Inference in Science. Springer, 2000.

[124] J. R. Thompson, Simulation: A Modeler’s Approach. Wiley, 2000.

[125] T. Tjur, Probability Based on Radon Measures. Wiley, 1980.

[126] L.W. Tu, An Introduction to Manifolds. Springer, Second edition, 2011.

[127] R. van de Weygaert, G. Vegter, H. Edelsbrunner, B. J. T. Jones, P. Pranav, C. Park,W. A. Hellwing, B. Eldering, N. Kruithof, E. G. P. Box, J. Hidding, J. Feldbrugge, E.ten Have, M. van Engelen, M. Caroli, M. Teillaud. Alpha, Betti and the megaparsecUniverse: on the topology of the cosmic web. Transactions on Computational ScienceXIV, 60-101, 2011.

[128] L. Wasserman, All of Statistics. Springer, 2004.

[129] https://rafaelgonzalez.shinyapps.io/TDA final/

[130] http://amstat.tandfonline.com/doi/abs/10.1080/00031305.2016.1154108

[131] A. J. Zomorodian, Topology for Computing. Cambridge University Press, 2009.

[132] A. J. Zomorodian, The tidy set: a minimal simplicial set for computing homology ofclique complexes. In Proccedings of the 26th Symposium of Computational Geometry,257-266, 2010.

Page 288: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...
Page 289: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

Centro de Investigación en Matemáticas, A.C.

Julio 2016

PERSISTENCIA, PROBABILIDADE INFERENCIA ESTADÍSTICA PARAANÁLISIS TOPOLÓGICO DE DATOS

PROYECTOS FINALES DEL CURSO

Método para simular puntos uniformemente distribuidossobre una superfcie en RnGilberto Flores, Yair Hernández

Análisis topológico de datos utilizando Mapper y complejos testigoJesús Manuel Pérez Angulo

Esqueleto de Homología persistente para aproximar fronterasde objetos en una imagenMaría Alejandra Valdez, Omar Radhames Urquídez

Page 290: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...
Page 291: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

PROYECTO FINAL DE LA CLASE:

PROBABILIDAD E INFERENCIA ESTADÍSTICA PARA ANÁLISIS TOPOLÓGICO DE DATOS

ESQUELETO DE HOMOLOGÍA PERSISTENTE PARA

APROXIMAR FRONTERAS DE OBJETOS EN UNA

IMAGEN

ALUMNOS:

MARÍA ALEJANDRA VALDEZ CABRERA

OMAR RADHAMES URQUÍDEZ CALVO

LICENCIATURA EN MATEMÁTICAS

UNIVERSIDAD DE GUANAJUATO

PROFESORES:

FERMÍN REVELES

VÍCTOR PÉREZ-ABREU

MIGUEL NAKAMURA

ROLANDO BISCAY

Page 292: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Resumen

Las imágenes en dos dimensiones normalmente tienen puntos en los cuales se presentan

discontinuidades en el color y brillo. Al conjunto de estos puntos se le conoce como los

bordes de la imagen. La detección de estos bordes es un problema usual en el procesamiento

de imágenes y en visión computacional, además de tener aplicaciones en otras áreas como

medicina y biología.

En el presente proyecto se presenta un método para detectar puntos que pertenecen a los

bordes de una imagen dada, para después crear un grafo que aproxime dichos bordes. Para

esto se siguen los siguientes pasos:

Obtener una versión de la imagen en escala de grises.

Utilizar un método basado en mezclas gaussianas para segmentar dicha imagen.

A partir de la imagen segmentada se encuentra una nube de puntos sobre los bordes

Utilizar un método basado en homología persistente para crear un grafo que se aproxi-

me a los bordes de la imagen.

El método de segmentación está basado en el artículo de Huang y Chang (2008), mientras

que el método para la creación del grafo está basado en el artículo de Vitaly (2015). Los

algoritmos utilizados fueron programados en dos lenguajes de programación, el lenguaje R

para la obtención de la nube de puntos y python para la creación del grafo a partir de esta

nube de puntos.

1

Page 293: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Índice general

1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2. Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.1. Para el pre-proceso de la Imagen . . . . . . . . . . . . . . . . . . . . . . . . 4

2.2. Definiciones Importantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.3. Resultados importantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

3. Obtención de la nube de puntos C . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3.1. Segmentación de la Imagen . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3.2. Algoritmo EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.3. Encontrar puntos cercanos a los bordes . . . . . . . . . . . . . . . . . . . . 15

4. Procedimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

4.1. Creación del grafo HoPeS’(C ) . . . . . . . . . . . . . . . . . . . . . . . . . . 15

4.2. Suavización del grafo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

5. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

6. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

7. Cosas por hacer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

8. Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2

Page 294: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

1. INTRODUCCIÓN

1. INTRODUCCIÓN

El problema de detectar los bordes de un imagen es un problema que actualmente

sigue siendo un tema de investigación en áreas como procesamiento de imágenes y visión

computacional. Para su solución se han planteado varios métodos tales como métodos

basados en la función gradiente, métodos que buscan ajustar funciones a los bordes, métodos

basados en segundas derivadas, métodos de enlace basados en segmentación, entre otros.

Sin embargo ningún método que se ha planteado resuelve cualquier caso de detección, esto

en parte a que los bordes pueden deberse a diferentes razones, por ejemplo discontinuidad

en la profundidad de la imagen, discontinuidad de la orientación de las superficies, cambios

en las propiedades de los materiales o variaciones en la iluminación de la escena mostrada.

Mientras que algunos métodos funcionan mejor para algunos casos, otros pueden funcionar

mejor para otros casos. Así pues, se sigue en la búsqueda de nuevos métodos que funcionen

de manera más general.

En un caso ideal la detección de bordes devuelve las fronteras de los objetos que se

encuentran sobre la imagen. El problema que se ataca en este proyecto es, dada una nube

de puntos que se suponen sobre las fronteras de los objetos, extraer de esta una estructura

informativa. Esta estructura debe de resumir información topológica de la frontera sobre las

que están dichos puntos, en especial la cantidad de cíclos uno dimensionales debería indicar,

en el mejor de los casos, la cantidad de objetos sobre la imagen. Esto podría ser de interés

para varias aplicaciones, por ejemplo la detección de tumores en imágenes cerebrales.

El método tradicional para la construcción de dicha estructura es elegir una escala,

digamos el radio o el número de vecinos, y construir a partir de la nube de puntos un grafo

de vecinos. Sin embargo la manera de elegir dicha escala no siempre es la mejor para todas

las imágenes y procuraremos evitar tener que elegirla de manera manual. Aquí se propone

un método que no necesita elegir un parámentro de escala inicial.

Para este trabajo se supone la existencia de cierto grafo G desconocido que describe

apropiedamente las fronteras de los objetos en la imagen. Supondremos además que la nube

de puntos C dada cumplirá que cada punto que pertenece a ella está lo suficientemente

cerca de dicho grafo. Por medio de esta nube se busca encontrar un grafo que comparta los

primeros grupos de homología de G , de esta forma manteniendo la información importante

de las fronteras.

Además de lograr esto la estructura que se propone en este proyecto presenta ciertas

ventajas:

Si la nube de puntos tiene un total de n puntos, entonces la estructura tiene tamaño

3

Page 295: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

2. PRELIMINARES

O(n) y puede ser calculada en un tiempo O(n log(n))

La estructura es invariante a reescalamientos y rotaciones de C.

Es estable bajo perturbaciones de muestras C obtenidas a partir de un grafo desconoci-

do G ⊂R2.

2. PRELIMINARES

2.1. Para el pre-proceso de la Imagen

Como se mencionó en el resumen del proyecto, uno de los primeros pasos que se hicieron

fue segmentar la imagen. Antes de proceder a explicar como funciona el algoritmo, se debe

tener en claro lo que esto significa. Para esto daremos la definición de segmentar una imagen.

Definición: Dada una imagen, se le llamará segmentar dicha imagen al proceso de divi-

dir los pixeles en cierta cantidad de grupos homogéneos y asignar a cada grupo un color

específico.

En particular para este proyecto, cuando se hable de segmentar la imagen, la cantidad de

grupos serán únicamente 2, uno blanco y uno negro, puesto que el objeto de interés son los

puntos que están en las orillas de estos dos grupos.

Además también se mencionó que el método que se utiliza para segmentar está basado

en mezclas gaussianas. La siguiente definición será útil al momento de explicar el algoritmo

para segmentar la imagen.

Definición: Se define la función de densidad de k mezclas gaussianas a la función de den-

sidad dada por:

f (x|αi ,µi ,σi ) =k∑

i=1αi Gi (x|µi ,σi ),

donde 0 ≤αi ≤ 1,∑k

i=1αi = 1, y Gi es una función de densidad gaussiana con media µi y

desviación estándar σi , para todos los valores i ∈ 1,2, . . . ,k.

2.2. Definiciones Importantes

Algo que se debe notar del algoritmo descrito en el artículo de Vitaly (2015) es que para

implementarlo se deben tener algunas nociones básicas de grafos. Es por esto que en esta

4

Page 296: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

2. PRELIMINARES

sección se deberán definir algunas de estas nociones con las que el lector quizás no este

familiarizado.

Uno de los grafos que se utilizan, y de hecho es el primero que se obtiene en el algoritmo,

es el mínimo árbol recubridor, cuya definición se muestra a continuación.

Definición 1: Dada una nube de puntos C , el mínimo árbol recubridor es el árbol que tiene

como vértices los puntos de C y la suma total de las longitudes de las aristas del árbol es

menor o igual a la de cualquier otro árbol con vértices en C . Se denota por MST(C ).

Como se ha mencionado antes, al implementar el algoritmo para la detección de bordes

en la imagen, se está suponiendo la existencia de un grafo desconocido que aproxima los

bordes de la imagen. La nube de puntos con la que trabajamos se supone cercana a los

bordes, por lo que debe ser cercana también al grafo. Sin embargo es válido preguntarse que

tan cercana es la nube de puntos al grafo que se busca aproximar. Para esto se tomarán en

cuenta las siguientes dos definiciones.

Definición 2: Dada una nube de puntos C ⊂ R2 y un número α > 0, se define al α-Offset,

denotado por Cα, como el subconjunto de R2 de todos los puntos que están a una distancia

de a lo más α de algún punto de C .

Definición 3: Se dice que la nube de puntos C es una ε-muestra de un grafo G ∈R2 si G ⊂C ε

y C ⊂Gε. Así pues cualquier punto de C es a lo más a una distancia ε de algún punto de G y

cualquier punto de G está a lo más a una distancia ε de algún punto de C .

Los siguientes objetos definidos no son directamente utilizados en el algoritmo. Sin

embargo en la siguiente sección se utilizan para demostrar resultados que son necesarios

para justificar la validez del algoritmo y por esto es necesario conocerlos también.

Definición 4: Dado una nube de puntos C y un valor α> 0, entonces de define el bosque

reducido MST(C ,α), como el grafo que se obtiene a partir de MST(C ) al remover todas las

aristas de longitud mayor a 2α.

5

Page 297: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

2. PRELIMINARES

Definición 5: Se dice que un grafo G recubre a una nube de puntos C , si el conjunto de los

vértices de G coincide con C .

Definición 6: Un grafo G recubre Cα si G tiene vértices en todos los puntos de C y cuales-

quiera vertices de G están en la misma componente conexa de G si y sólo si están en la misma

componente conexa de Cα.

Recordando que durante el algoritmo no sólo se construye un grafo que aproxima los

bordes, sino también el primer diagrama de persistencia ([3] Definición 2.3.1) de la nube de

puntos dada, se debe tener en cuenta de qué manera este grafo se relaciona con el diagrama.

La respuesta a esta pregunta proviene de ciertas aristas especiales que tendrá el grafo y cuya

definición es la siguiente.

Definición 8: Dada la filtración de los complejos de Vietoris-Rips ([3] Definición 1.3.9)

R(C ,0) ⊂ R(C ,α0) ⊂ R(C ,α1) ⊂ . . . ⊂ R(C ,∞),

se le llama a e una arista de k crítica si al aparecer esa arista en la filtración, se crea un

nuevo agujero. Esta arista estará relacionada con el punto (b,d) en el primer diagrama de

persistencia, donde b es el momento de nacimiento del agujero (es decir cuando aparece e),

y d corresponde al momento de muerte de dicho agujero.

Al obtener el diagrama de persistencia, el siguiente paso será determinar qué puntos

tienen la suficiente persistencia para considerarse importantes y no descartables. Para realizar

esta tarea, se utilizarán los objetos definidos en la Definición 9.

Definición 9: Para una nube de puntos C y el primer diagrama de persistencia, se define

como una brecha diagonal como a la franja 0 ≤ a < y −x < b que no tiene ningún punto del

diagrama en su interior. Se llama la brecha diagonal más ancha, denotada por dgap(C ) a la

brecha diagonal con el ancho |dgap(C )| = b−a más grande. Sea dgm’(R(C ,α)) el subdiagrama

de persistencia que consiste únicamente en los puntos sobre dgap(C ). La escala crítica,

denotada por α(C ) es el b máximo de todos los puntos (b,d) ∈ dgm’(R(C ,α)).

Hechas ya las definiciones anteriores, se pueden definir ahora los grafos de mayor interés

para el problema. Los grafos que se definen en la Definición 10 son los grafos preliminares que

darán paso al grafo definido en la Definición 11. Este último grafo es aquel que tomaremos

como aproximación para los bordes de la imagen.

6

Page 298: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

2. PRELIMINARES

Definición 10: Dada una nube de puntos C , se define el esqueleto de homología persistente,

denotado por HoPeS(C ), como la unión de MST(C ) y todas las aristas críticas. El esqueleto

reducido HoPeS(C ,α) es obtenido a partir de HoPeS(C ) al remover todas las aristas de longitud

mayor a 2α y todas las aristas críticas e tales que su punto correspondiente (be ,de ) cumple

de ≤α.

Definición 11: Para una nube de puntos C , el esqueleto derivado, denotado por HoPeS’(C )

es el grafo obtenido a partir de HoPeS(C ) al remover:

(1) Todas las aristas de longitud mayor a 2α(C ).

(2) Todas las aristas críticas con muerte≤α(C ) o con (nacimiento,muerte) debajo de dgap(C ).

Para validar el uso de HoPeS’(C ) como una aproximación de los bordes de la imagen, se

requiere probar el Teorema 2 de la siguiente sección. La siguiente definición es necesaria

tanto para entender el teorema como para la demostración del mismo.

Definición 12: Dado un grafo G , un cíclo que no se autointersecta L en el grafo se llama

básico si rodea una región acotada de R2 −G . Cuando α incrementa, el agujero rodeado por

el α-Offset Lα nace en α= 0 y muere en la escala α= ρ(L), a la que se le llama el radio del

ciclo L. Así que el agujero inicial rodeado por L tiene el tiempo de vida [0,ρ(L)). En general

si α aumenta, se pueden crear nuevos agujeros en algún punto α> 0. Supongase que estos

están rodeados por L1, . . . ,Lk en sus momentos de nacimiento. A θ(G) = max j=1,...,kρ(L j ) se

le llama el grosor de G .

Finalmente, el algoritmo que se describe en el artículo de Vitaly utiliza una nociones muy

conocidas de geometría computacional que se definen a continuación.

7

Page 299: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

2. PRELIMINARES

Definición 13: La triangulación de Delaunay de una nube de puntos C se define como una

triangulación de los puntos que cumple que si p1, p2, p3 son vértices de un triángulo en la

triangulación, entonces en el interior del circuncírculo de este triángulo no hay ningún otro

punto de C . Se denota por Del(C ).

Definición 14: Para una nube de puntos C y cierto punto p ∈ C , se tiene que la celda de

Voronoi de p es el conjunto de todos los puntos que están más cerca de p que de cualquier

otro punto en C . Es decir V (p) = q ∈R2 : d(p, q) ≤ d(p ′, q)∀p ′ ∈C .

2.3. Resultados importantes

Un resultado de geometría computacional es que la triangulación de Delaunay contiene

a todos los triángulos con vertices p, q,r ∈ P tales que V (p)∩V (q)∩V (r ) 6= ;. Teniendo en

cuenta esto es posible demostrar que el complejo de Vietoris-Rips R(C ,∞) coincide con

Del(C ), si consideramos que los triángulos formados por la triángulación son 2-simplejos

en Del(C ). Así pues, la filtración de complejos de Vietoris-Rips es una filtración para la

triángulación de Delaunay.

De esto tenemos que Del(C ) se obtiene al agregar aristas y triángulos en estos puntos

críticos:

Una arista entre puntos pi y p j se agrega en α= 12 d(pi , p j ).

Un triángulo acutángulo se agrega en α= r , donde r es el radio del circuncírculo de

dicho triángulo.

Un triángulo no acutángulo se agrega en α= 12 l , donde l es la longitud del lado más

largo del triángulo.

En el resto de esta sección se dedicará a demostrar resultados que ayudan a validar el

por qué HoPeS′(C ) es una buena aproximación a los bordes de una imagen. Todos estos

resultados y sus demostraciones correspondientes pueden ser encontrados en el artículo de

Vitaly (2015).

El primer resultado que se verá muestra que MST(C ) es un objeto óptimo para describir

la topología 0-dimensional de C a través de todas las escalas α. Este resultado se utilizará

más adelante para probar una proposición más adelante.

8

Page 300: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

2. PRELIMINARES

Lema 1: Dada una nube C y una escala α≥ 0, el bosque reducido MST(C ,α) tiene el mínimo

de longitud total de aristas entre todos los grafos que recubren a Cα.

Demostración: Sean e1,e2, . . . ,em ⊂ MST(C ) todas las aristas que son más largas que 2α.

Entonces MST(C ) = MST(C ,α)∪e1 ∪ . . .∪em . Supongamos que existe un grafo G que recubre

a Cα y que es más corto que MST(C ,α). Entonces G ∪e1 ∪ . . .∪em recubre a C y es más corto

que MST(C ), lo que es una contradicción.

ä

El siguiente lema que se presenta es una garantía de que la estructura HoPeS(C ) es

invariante bajo rotaciones y a transformaciones de escalamiento uniforme. Puesto que

HoSeS’(C ) es derivado de esta estructura, también será invariante.

Lema 2: Dada una nube de puntos C , la estructura HoPeS(C ) es invariante bajo cualquier

transformación afín cuya matrix 2×2 tiene los dos eigenvalores iguales.

Demostración: Sea A :R2 →R2 la transformación afín con los dos eigenvalores iguales a

λ. Entonces todos los discos, α-offsets Cα y complejos R(C ,α) son escalados por el factor λ.

Así que el esqueleto de homología persistente HoPeS(C ) tiene la misma estructura topológica,

pero todos los puntos (nacimiento, muerte) del diagrama de persistencia son multiplicados

por λ.

ä

Uno de los requisitos que se busca que se cumpla es que se mantengan las propiedades

topológicas de la filtración en nuestra estructura creada. En particular se busca que se

mantenga el primer grupo de homología, ya que esto está relacionado con la cantidad de

1 cíclos de la imagen, es decir la cantidad de objetos en la imagen en un caso ideal. La

proposición 1 asegura este requisito, y los siguientes tres lemas se utilizan para demostrar

esta proposición.

Lema 3: Dada una nube de puntos C y cualquier escala α≥ 0, se tiene que HoPeS(C ,α) ⊂R(C ,α).

Demostración: Por la definición 10 tenemos que todas las aristas de HoPeS(C ,α) tienen

una longitud de a lo más 2α. Por la definición de un complejo de Vietoris-Rips, todas las aristas

de R(C ,α) son las aristas de Del(C ) con una longitud de a lo más 2α. De esto HoPeS(C ,α) ⊂R(C ,α).

äAhora bien, la función inclusión i : HoPeS(C ,α) → R(C ,α) induce un homomorfismo

i∗ : H1(HoPeS(C ,α)) → H1(R(C ,α)).

9

Page 301: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

2. PRELIMINARES

Lema 4: Sea i : G → S una inclusión del grafo G en un complejo simplicial S que induce un

isomorfismo i∗ : H1(G) → H1(S). Si agregamos un arista crítica e tanto a G como a S que crea

una nueva clase de homología γ ∈ H1(S∪e), entonces i∗ se puede extender a un isomorfismo

H1(G ∪e) → H1(S ∪e).

Demostración: Sea L ⊂G ∪ e el cíclo que contiene a la arista e. Entonces H1(G supe) ∼=H1(G)⊕⟨[L]⟩. Considera L como un ciclo i (L) ⊂ S ∪ e. obtenemos que H1(S ∪ e) ∼= H1(S)⊕⟨[i (L)]⟩. Así extendemos i∗ a un isomorfismo H1(G)⊕⟨[L]⟩→ H1(S)⊕⟨[i (L)]⟩.

ä

Lema 5: Sea i : G → S una inclusión del grafo G en un complejo simplicial S que induce

un isomorfismo i∗ : H1(G) → H1(S). Supongamos que γ ∈ H1(S) muere después de añadir

un triángulo T al complejo S. Sea e la arista más larga de T . Entonces i∗ desciende a un

isomorfismo H1(G −e) → H1(S ∪T ).

Demostración: Añadiendo el triángulo T a S mata a la clase de homología [∂T ], así

que H1(S ∪T ) ∼= H1(S)/⟨[∂T ]⟩. Al borrar e de ∂T ⊂ G hace al grupo de homología más pe-

queño, haciendo que H1(G − e) ∼= H1(G)/⟨[∂T ]⟩. Así pues, i∗ desciende a un isomorfismo

H1(G)/⟨[∂T ]⟩→ H1(S)/⟨[∂T ]⟩ä

Proposición 1: Para una nube de puntos C y cualquier escalaα, la inclusión i : HoPeS(C ,α) →R(C ,α) induce un isomorfismo en los primeros grupos de homología.

Demostración: Tomando α0 lo suficientemente pequeña, R(C ,α0) coincide con la nube

desconectada C , así que H1(R(C ,α0)) es trivial. Cada vez que una clase de homología nace

o muere en H1(R(C ,α)), por los lemas 4 y 5, el isomorfismo inducido por la inclusión de

HoPeS(C ,α) en R(C ,α) se mantiene.

ä

Una vez demostrado que en efecto existe un isomorfismo entre H1HoPeS(C ,α) y H1R(C ,α),

el Teorema 1 nos afirma que este grafo es la mejor opción entre los grafos que cumplen esto

basándose en que es el más pequeño en longitud de aristas. La Proposición 2 se utiliza para

demostrar dicho teorema.

Proposición 2: Seaα> 0. Sea G ⊂ R(C ,α) un grafo que recubre a R(C ,α) y H1(G) → H1(R(C ,α))

el isomorfismo inducido por la inclusión. Sean (bi ,di ), i = 1, . . . ,m todos los puntos de

dgm(R(C ,α)), contando multiplicidades, tales que nacimiento <α< muerte. Entonces la

longitud de G está acotada por debajo por la longitud total de MST(C ,α) más 2∑m

i=1 bi .

10

Page 302: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

2. PRELIMINARES

Demostración: Sea G1 ⊂ G el subgrafo que consiste en todos las aristas que no desco-

nectan a G y sea e1 ⊂ G1 la arista más larga de algún triángulo. Al quitar e1 de G, tenemos

que H1(G) es más pequeño. De esto hay un ciclo L2 ⊂G que contiene e1 y que representa a

una clase γ1 ∈ H1(R(C ,α)). Digamos que dicha clase corresponde al punto (b1,d1). De esto

tenemos que |e1| ≥ 2b1, ya que de lo contrario γ1 nacería antes de α= b1. Podemos definir

G2 ⊂G −e1 de manera análoga y proceder de la misma manera. De esta manera obtenemos

e1,e2, . . . ,em tales que∑m

i=1 |ei | ≥ 2∑m

i=1 bi .

Después de remover e1,e2, . . . ,em , tenemos que G − (e1 ∪ e2 ∪ . . . ∪ em) aun recubre a

R(C ,α), porque siempre elegimos una arista que no desconectaba a G . De esto la longitud de

MST(C ,α) aún es más pequeña que la longitud de G − (e1 ∪e2 ∪ . . .∪em), por el lema 1.

ä

Teorema 1: Para cualquier nube de puntos C y cualquier escala α> 0, el grafo HoPeS(C ,α)

tiene la mínima longitud total de aristas sobre todos los grafos G ⊂Cα que recubren a Cα e

inducen un isomorfismo en los primeros grupos de homología H1(G) → H1(Cα).

Demostración: HoPeS(C ,α) satisface la condición de homología de la proposición 1.

Sean γ1, . . . ,γm clases correspondientes a todos los m puntos (bi ,di ) en dgm(R(C ,α)), con-

tando multiplicidades, en nacimiento ≤α< muerte. Entonces γ1, . . . ,γm forman una base

de H1(R(C ,α)) ∼= H1(HoPeS(C ,α)). Tenemos que la longitud total de HoPeS(C ,α) es igual a la

longitud total de aristas de MST(C ,α) más 2∑m

i=1 bi . Por la proposición 2, esta longitud es la

menor posible.

ä

Lema 6: Dada una nube de puntos C , el grafo HoPeS’(C ) es un subgrafo de HoPeS(C ,α(C )),

donde α(C ) es la escala crítica definida antes.

Demostración: Por definición todas las aristas de HoPeS(C ,α(C )) tienen una longitud de

a lo más 2α(C ) y todas las aristas críticas cumplen que su momento de muerte es mayor aα(C ).

La definición de HoPeS’(C ) agrega la restricción de que todas las arístas críticas en HoPeS’(C )

corresponden a puntos sobre dgap(C ). De esto claramente HoPeS’(C ) ⊂ HoPeS(C ,α(C )).

ä

Lema 7: La dimensión de H1(HoPeS’(C )) equivale a la cantidad de puntos (b,d) en dgm’(R(C ,α)),

contando multiplicidades tales que d >α(C ).

Demostración: La dimensión de H1(HoPes’(C )) equivale al número de clases de homo-

logía cuyo (nacimiento, muerte) en dgm(R(C ,α)) están sobre dgap(C ) y muerte>α(C ). Por la

definición de α(C ), cualquier nacimiento leqα(C ), así que contamos todos los (nacimiento,

11

Page 303: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

2. PRELIMINARES

muerte) ∈ dgm’(R(C ,α)) con nacimiento≤α(C ) <muerte. Todos estos m puntos están en una

correspondencia 1-1 con las aristas críticas de HoPeS’(C ). ä

El Teorema 2 es el resultado más importante de esta sección, puesto que es la expli-

cación del por qué, bajo ciertas condiciones, se puede tomar HoPeS’(C ) como una buena

aproximación de los bordes de la imagen.

Teorema 2: Sea C cualquier ε-muestra de un grafo G ⊂ R2 con un grosor θ(G) ≥ 0 y m ≥ 1

ciclos basicos con radios ordenados ρ1 ≤ . . . ≤ ρm . Si

ρ1 > 7ε+θ(G)+ maxi=1,...,m−1

ρi−1 −ρi ,

entonces la escala crítica α(C ) < ε y el esqueleto HoPeS’(C ) es una 2ε-muestra de G, y tiene el

tipo de homotopía de G.

Demostración: H1(G) es generado por los m ciclos básicos L1, . . . ,Lm . Estos m ciclos dan

puntos (0,ρi ) en dgm(Gα). Todos los demás puntos de en diagrama vienen de agujeros más

pequeños de Gα nacidos después. La máxima persistencia muerte-vida de estos agujeros

está acotado por arriba por θ(G).

La condición dada ρ1 > 7ε+θ(G)+maxi=1,...,m−1ρi−1 −ρi garantiza que la brecha más

ancha θ(G) < y −x < ρ1 en dgm(Gα) es más ancha que cualquier otra brecha, incluyendo

las brechas con ancho ρi+1 −ρi .

Por el teorema de estabilidad ([3] Teorema 2.7.3) cualquier punto (0,ρi ) ∈ dgm(Gα),

i ≥ 2, no puede saltar más bajo que la lineal y − x = ρi −2ε, ni más alto que y − x = ρi + ε.

Así que la brecha más ancha entre estos puntos perturbados tiene un ancho de a lo más

maxi=1,...,m−1ρi−1−ρi +3ε. Todos los puntos cerca de la diagonal tienen brechas diagonales

no más anchas que θ(G)+2ε. De esto en todos los casos la segunda brecha más ancha en

dgm(Gα) tienen un ancho más pequeña que ρ1 −4ε−θ(G). De esto dgap(C ) subre la franja

θ(G)+2ε< y −x < ρ1 −2ε ⊂ dgap(G) ⊂ dgm(Gα).

De esto el subdiagrama dgm’(R(C ,α)) sobre la linea y −x = ρ1 −2ε contiene sólo pertur-

baciones eh los puntos originales (0,ρi ) en la brecha vertical 0 ≤ x < ε. Por su definición, la

escala crítica α(C ) es el máximo nacimiento en dgm’(R(C ,α)). Estos puntos están a lo más a

una distancia ε de sus puntos correspondientes (0,ρi ). De esto la escala crítica α(C ) < ε.

Todas las muertes de los puntos en dgm’(R(C ,α)) son más grandes que ρ1 −2ε> ε>α(C ).

De esto HoPeS’(C ) contiene todos las aristas críticas correspondientes a los m puntos en

dgm’(R(C ,α)). Así pues, H1(HoPeS’(C )) tiene la dimensión esperada m.

La desigualdad del Teorema significa que los ciclos del grafo G tienen tamaño comparable,

12

Page 304: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

3. OBTENCIÓN DE LA NUBE DE PUNTOS C

es decir el radio más pequeño ρ1 es más grande por un buen margen a cualquier brecha ρi+1−ρi . De esto la brecha diagonal θ(G) < muerte−nacimiento < ρ1 en el diagrama dgm(Gα)

del grafo G permanecerá suficientemente ancha para ser automáticamente reconocida en el

diagrama perturbado de dgm(R(C ,α)) para cualquier ε−muestra C de G .

ä

Una vez demostrado este último teorema, se deben aclarar bajo que suposiciones se

puede afirmar que HoPeS’(C ) es una aproximación apropiada de los bordes. Lo que se está

suponiendo es la existencia de un grafo desconocido G que es el descriptor ideal de los bordes

de la imagen. Se debe suponer que G cumple con las condiciones del Teorema 2. Además se

supone también que la nube de puntos C es una ε-muestra de G . De esto el Teorema 2 afirma

que HoPeS’(C ) y G tienen el mismto tipo de homotopía, y que HoPeS’(C ) es una 2ε-muestra

de G , lo que se puede considerar como afirmar que estos dos grafos están cerca el uno del

otro.

3. OBTENCIÓN DE LA NUBE DE PUNTOS C

3.1. Segmentación de la Imagen

En nuestro programa se carga la imagen y ésta se convierte a una imagen en escala de

grises. Para esto en cada pixel se suman los tres valores RGB y al final se divide cada suma

entre la suma máxima que resultó. De esta forma se tiene en todos los pixeles de la imagen

una intensidad de gris entre 0 y 1.

Una vez hecha la imagen de intensidades de grises, primero se buscará segmentar la

imagen en dos regiones. Para esto buscamos un valor T entre 0 y 1 que dependerá de los

valores de todos los pixeles y representará el punto de separación entre las dos regiones

T = T(g (i , j )

),

donde g (i , j ) representa el valor en escalas de grises del pixel en la posición (i , j ). Para la

segmentación de la imagen a cada pixel en la posición (i , j ) se le asignará un valor p(i , j ) de

tal forma que:

p(i , j ) =0, si f (i , j ) < T,

1, si f (i , j ). ≥ T

Para determinar el valor de T se utilizará el algoritmo EM, descrito más adelante, pa-

13

Page 305: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

3. OBTENCIÓN DE LA NUBE DE PUNTOS C

ra ajustar a el histograma de valores de intensidad de grises de la imagen una mezcla de

distribuciones gaussianas.

Lo primero que hace nuestro programa es calcular dicho histograma y ajustar una función

de densidad por medio de la función “density"de R. Para dicha función de densidad se

encuentran los máximos locales y se ordenan de manera decreciente. Llamaremos L a la

cantidad total de máximos locales encontrados para la función de densidad.

En nuestro programa para estimar una mezcla de k gaussianas que se ajuste bien al

histograma de intensidad se utiliza el algoritmo E M . Como valores iniciales para el algoritmo

tomamos a los primeros k máximos locales como las k medias µi , los promedios de las

distancias entre estos máximos locales y los mínimos locales que los rodean como las k

desviaciones estándar σi y tomamos como valores iniciales para todos los αi a 1k .

De esta forma se llamará al algoritmo E M un total de L veces, variando el valor de k

desde 1 hasta la cantidad total de máximos locales. Después de ajustar estas L mezclas

gaussianas, se eligirá la que mejor se ajuste al histograma. Para esto calculamos para cada

mezcla gaussiana su log-verosimilitud, que es

l (αi ,µi ,σi ) =N∑

j=1log f (x j |αi ,µi ,σi ),

donde N es la cantidad total de intensidades en la imagen (es decir la cantidad de pixeles en

la imagen). De esta forma la mezcla gaussiana con la log-verosimilitud más grande es la que

mejor se aproxima a el histograma y es la mezcla elegida.

Finalmente elegida la mezcla gaussiana que mejor se aproxima a el histograma, el valor

de T es

T = 1

m

m∑i=1

µi ,

donde m es la cantidad de gaussianas con las que se formó la mezcla gaussiana elegida.

3.2. Algoritmo EM

El algoritmo EM consiste en dos pasos:

1. El paso M: En este paso se calcula para cada valor xi en los pixeles de la imagen la

probabilidad de provenir de cada una de las k distribuciones gaussianas. En la iteración

s esto se calcula con la fórmula

14

Page 306: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

4. PROCEDIMIENTO

ω j (xi )(s) =α(s)

j G j (xi |µ(s)j ,σ(s)

j )∑kr=1α

(s)r Gr (xi |µ(s)

r ,σ(s)j )

.

2. El paso E: En este paso se estiman mejores parámetros α j ,µ j ,σ j utilizando los valores

calculados en el paso anterior y con el método de estimador de máxima verosimilitud.

De esta forma los nuevos parámetros se calculan por

α(s+1)j = 1

N

N∑i=1

ω j (xi )(s),

µ(s+1)j = 1

Nα(s+1)j

N∑i=1

ω j (xi )(s)xi ,

[σ(s+1)j ]2 = 1

Nα(s+1)j

N∑i=1

ω j (xi )(s)(xi −µ(s+1)j ).

3.3. Encontrar puntos cercanos a los bordes

Teniendo ya la imagen segmentada en dos regiones, debemos encontrar una nube de

puntos cercanos a las fronteras de los objetos, es decir puntos que esten cerca de la frontera

entre las dos regiones. Por motivos de complejidad computacional para el resto del proyecto,

buscamos que la cantidad de puntos en nuestra nube sean a lo más un 6% de la cantidad

total de pixeles en la imagen.

Para cada pixel x encontramos el promedio de intensidades en el recuadro de 5×5 que

rodea a dicho pixel en la imagen segmentada, sea Avg(x) dicho promedio. Determinamos

que x pertenece a nuestra nube de puntos si y sólo si p(x) < a ·Avg(x), donde p(x) es el valor

de intensidad en el pixel x y a ≥ 1 es un factor que elegimos de tal manera que la cantidad de

puntos elegidos para nuestra nube de puntos no supere el 6% de la cantidad total de pixeles.

Esta nube de puntos la guardamos en una nueva matriz.

4. PROCEDIMIENTO

4.1. Creación del grafo HoPeS’(C )

Una vez obtenida la nube de puntos C, lo primero que hacemos es construir la trián-

gulación de Delaunay Del(C), que coincidirá con el complejo de Vietoris-Rips R(C ,∞). En

15

Page 307: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

4. PROCEDIMIENTO

nuestro algoritmo recorreremos las filtración

C = R(C ,0) ⊂ R(C ,ε1) ⊂ R(C ,ε2) ⊂ . . . ⊂ R(C ,∞) = Del(C ),

empezando con ε=∞ y disminuyendo ε de manera continua. Hay que determinar en qué

momento aparecieron los simplejos en Del(C) en nuestra filtración.

Tenemos que en la filtración el momento en que el simplejo aparece depende de la forma

del simplejo. Se presentan las siguientes reglas, ya descritas anteriormente:

Si el simplejo es un triángulo acutángulo, el momento en el que aparece es igual a la

longitud del radio del circuncírculo. Es decir en la filtración un 2-simplejo acutángulo

aparece cuando ε= r , donde r es el radio del circuncírculo.

Si el simplejo es un triángulo no acutángulo, el momento en el que aparece es igual

a la mitad de la longitud del lado más largo. Es decir en la filtración un 2-simplejo no

acutángulo aparece cuando ε= l2 , donde l es la mitad de la longitud del lado más largo

del triángulo.

16

Page 308: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

4. PROCEDIMIENTO

Si el simplejo es un segmente, el momento en el que aparece es igual a la mitad de su

longitud. Es decir en la filtración un 1-simplejo aparece cuando ε = l2 , donde l es la

mitad de la longitud.

Ahora bien, en nuestro algoritmo quitamos estos simplejos de la triángulación de De-

launay precisamente en los momentos antes descritos, puesto que vamos retrocediendo

en la filtración. Nótese que cuando quitamos un triángulo, aparece una nueva región en

R2 −R(C ,ε) y cuando quitamos una arista se unen dos regiones. Durante nuestro algoritmo

mantenemos una estructura de bosque de búsqueda con nodos abstractos que están en una

correspondencia 1-1 con las regiones de cada triángulo y la región exterior a la triángulación.

Inicialmente en esta estructura hay un único nodo que corresponde a la región externa.

Cuando se quita un triángulo aparece un nuevo árbol con un único nodo y cuando se quita

una arista se unen dos árboles. Es necesario aclarar que cuando varios simplejos se quitan en

el mismo momento, primero quitaremos todos los 2-simplejos y luego todos los 1-simplejos.

A continuación se muestra una imagen donde se aprecia la manera en la que avanza el

algoritmo en cada momento en el que se debe quitar un simplejo.

R(C ,∞) R(C ,p

5) R(C ,p

102 )

17

Page 309: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

4. PROCEDIMIENTO

R(C ,1,5) R(C ,p

2) R(C ,p

52 )

R(C ,1) R(C ,p

22 )

Nótese que en las filtraciones generalmente cuando aparece una arista que forma un

ciclo se toma ese momento como el nacimiento del agujero que rodea este ciclo y cuando

aparece un 2-simplejo que cierra este agujero, este momento se toma como la muerte de

éste.

De esa forma en nuestro algoritmo cuando se quita un triángulo en el tiempo εt , guar-

damos el momento como la muerte de una región. Cuando se unen dos regiones al quitar

una arista, se conserva como momento de muerte de esa región fusionada el momento más

grande εt1 de muerte entre las dos regiones. Además se compara el momento de muerte de la

otra región εt2 con el momento εe en que quitamos esta arista, ya que el momento en que

quitamos esta arista coincide con el nacimiento de esta región. De esta forma definimos dos

tipos de aristas especiales:

Arista crítica: Una arista que al momento de quitarse, este εe es estrictamente menor

que el momento de muerte de la región más jóven εt2. Por ejemplo en nuestra figura e

es una arista crítica. Esta arista estará asociada con el punto (εe ,εt2) en el diagrama de

persistencia.

Arista externa: Una arista que al momento de quitarse, las dos regiones que "fusiona.eran

ya en ese momento la misma región. Por ejemplo en nuestra figura la arista f es una

arista externa. Nótese que al quitar una de estas aristas, nuestro grafo se vuelve un

grafo no conexo. Puesto que nos interesa que el grafo final sea un grafo conexo (ya que

va a ser el MST(C )), estas aristas se guardan para ser agregadas al final en el grafo.

18

Page 310: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

5. RESULTADOS

El algoritmo acaba cuando todas las regiones son una sola, es decir cuando ya no hay

ningún cíclo en el grafo. Después de agregar las aristas externas, para asegurarnos que el

grafo coincida con el MST(C ), debemos decidir que aristas críticas agregamos para conseguir

HoPeS’(C ).

Para esto nos fijamos en el diagrama de persistencia formado durante el algoritmo, puesto

que guardamos todos los puntos asociados a aristas críticas.

En este diagrama buscamos la franja más ancha entre dos puntos tal que no contenga

puntos del diagrama en el interior, es decir dgap(C ). Para formar HoPeS’(C ), tomamos en

cuenta sólo las aristas críticas que corresponden a puntos sobre dgap(C ) y muerte >α(C ) . En

el diagrama mostrado arriba se pueden ver que sólo tres cíclos son considerados importantes.

Se agrega al grafo las aristas críticas asociadas a estos puntos, que son por lo tanto las aristas

que cierran estos ciclos.

4.2. Suavización del grafo

Por último se suaviza el grafo resultante de la siguiente manera: se toma la escala crítica

α(C ). Por el teorema 2, esta escala es una cota inferior del ruido ε implícito entre C y G . De

esto 2α(C ) es el estimador más pequeño de la distancia entre ε perturbaciones del mismo

punto. Usando esta distancia, se quitan todos los caminos hacia un vértice de grado 1 que

tengan una longitud menor o igual a 2α. Además simplificamos los caminos entre vértices de

grado distinto a 2 con segmentos de recta que tengan al menos ese tamaño.

5. RESULTADOS

A continuación se muestran algunos resultados obtenidos con nuestro algoritmo. Para

cada imagen se muestra: La imagen original, el resultado de la segmentación, la nube de

19

Page 311: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

5. RESULTADOS

puntos en los bordes y el grafo final. Además se mostrarán las aproximaciones realizadas

sobre el histograma de cada imagen y el diagrama de persistencia utilizado.

Imagen 1:

La primera imagen que se muestra tiene bordes muy distinguibles a simple vista, puesto

que el color del fondo es muy distinto al color de los objetos en la imagen (el halcón y la rama

del árbol). Considerando esto se obtiene un resultado final esperado, que tiene una gran

semejanza, visualmente, con lo que se mostraba en la imagen originalmente.

Según el diagrama de persistencia generado por el algoritmo hay dos objetos en la imagen,

ya que sólo hay dos puntos por encima del dgap(C ) correspondientes cada uno a un 1-cíclo

en el grafo. Viendo el resultado se vuelve claro que uno de esos objetos es el halcón, aunque

el resultado mezcló dicho halcón con parte de la rama. Esto es entendible si se observa que el

tono de gris de la rama no cambiar tanto del gris del halcón. El otro .objeto"que existe en la

imagen corresponde al agujero que forma la rama a la derecha. Aunque este no es un objeto

20

Page 312: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

5. RESULTADOS

en sí, como está totalmente rodeado por una rama, no sorprende tampoco que este lo tomara

como un objeto en la imagen.

Imagen 2:

Al ver esta segunda imagen, en el resultado es claro que parte del grafo generado no

está realmente sobre las orillas de los objetos, sino en el interior, en especial el interior del

sombrero y la pluma. Esto refleja el problema que se comentó en la introducción sobre que

21

Page 313: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

5. RESULTADOS

un cambio drástico de luz no necesariamente implica el final de un objeto y el comienzo de

otro. Puede deberse también a cambio de textura, como implica la textura de la pluma en el

sombrero.

El resultado del algoritmo se sigue apreciando, ya que en el resultado final se distinguen

el rostro, la pluma, el cabella, el sombrero, etc. Según el diagrama de persistencia solamente

hay tres objetos importantes en la imagen. Observando el grafo generado podríamos ver que

uno de esos objetos es el cabello y otro de ellos es parte del sombrero, sin considerar la pluma.

Sin embargo el tercer objeto no se determina tan fácilmente, y lástimosamente no señala el

rostro como objeto, lo cual hubiera sido deseable.

Imagen 3:

En esta imagen se vuelve a observar el problema que vimos en la segunda imagen. La

textura en el cabello de la mujer provoca que se señalen bordes que realmente no pertenecen

a las orillas de los objetos en la imagen.

El diagrama de persistencia nos dice que hay únicamente dos objetos en la imagen

22

Page 314: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

5. RESULTADOS

importantes. Uno de ellos, según se aprecia es el rostro de la mujer. El otro se puede ver que

es la parte del cuello que está más iluminada. Este no es un resultado tan bueno, puesto que

no señala ni el libro ni el cabello de la mujer.

Viendo la segmentación que se obtuvo por nuestro algoritmo, se podría concluir que

la razón por la que parte del cuello fue señalada como un objeto en la imagen es porque

al segmentar quedó un gran espacio en blanco en esa área. Al ser espacios tan grandes los

dos señalados, puede que el libro, siendo un objeto más pequeño, ya no haya sido tomado

en cuenta por el dgap(C ). Esto en especial porque el ancho de dicha franja en esta imágen

es más ancha que las dos anteriores, sugiriendo gran diferencia de tamaño entre los cíclos

tomados en cuenta y los que no se tomaron en cuenta.

Imagen 4:

En esta última imagen se tomó una cantidad menor de puntos para la nube C . De esta

forma podemos ver como se comporta el algoritmo con menos información de parte de la

23

Page 315: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

6. CONCLUSIONES

nube de puntos. La aproximación que se obtuvo ya no se asemeja de manera tan precisa a la

forma de la imagen original como las imágenes mostradas anteriormente. Sin embargo aún

se logra distinguir la forma de un ave en el grafo generado.

El diagrama de persistencia indica que en la imágen hay dos objetos. Uno de ellos es

el ave sobre la rama. Sin embargo, el otro es un claro error, puesto que donde muestra un

1-cíclo no hay ningún objeto y se ve sobre todo fondo. Este error se explica si se considera

que la imágen original tiene una pequeña hoja al fondo, a la derecha del ave. Al hacer la nube

de puntos, algunos puntos sobre esa hoja se incluyeron, provocando el cíclo errado.

6. CONCLUSIONES

A pesar de que los resultados obtenidos muestran grafos que sí se asemejan a lo que

se mostraba en la imagen original, la utilización de homología persistente por sí sola

no logró arreglar el problema de diferenciar bordes que provienen de las orillas de los

objetos y bordes que aparecen por otras razones (texturas, diferentes profundidades,

etc.). Se podría intentar diferentes métodos para la obtención de la nube de punto, para

probar si alguno da mejores resultados.

Para imágenes que muestren objetos cuyo tono sea contrastante con el tono del fondo,

el diagrama de persistencia nos da una manera clara de cuantificar la cantidad de

objetos en la imágen. Sin embargo, por lo poco frecuente que son estas imágenes, no se

puede confiar mucho en el diagrama de persistencia para obtener dicha información.

7. COSAS POR HACER

Un defecto que le podríamos encontrar a este proyecto es el hecho de que la utilización

de la brecha dgap(C ) nos obliga a trabajar bajo suposiciones fuertes que podrían no ser

necesariamente ciercas para alguna imagen. Por ejemplo, podría darse que un grafo

cercano a la frontera de los objetos de cierta imagen no tenga un grosor mayor a 0.

Una mejora que se podría realizar en el proyecto, en vista de esto, es utilizar la idea de

la existencia de el grafo G que buscamos y construir subconjutnos de confianza para

los diagramas de persistencia de C para diferencias ruido de señales topológicas ([3]

sección 5.6.2).

En el presente proyecto la conclusión de si los resultados fueron satisfactorios o no

se realizó de manera visual, lo que puede no ser objetivo. Otra mejora posible para el

24

Page 316: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

7. COSAS POR HACER

proyecto podría ser el implementar alguna manera de cuantificar el nivel de confianza

en los resultados, por ejemplo usar un grupo de prueba en el cual ya se tengan grafos

que se consideren buenas aproximaciones.

25

Page 317: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

8. REFERENCIAS

8. REFERENCIAS

1. Huang, Zhi-Kai; Chau, Kwok-Wing

A new image thresholding method based on Gaussian mixture model.

Applied Mathematics and Computation 205, p. 899-907, 2008

2. Kurlin, Vitaly.

A Homologically Persistent Skeleton is a fast and robust descriptor for a sparse cloud of

interest points and saliency features in noisy 2D images.

Lecture Notes in Computer Science, v. 9256, p. 606-617 2015

3. Reveles, Fermín; Pérez- Abreu, Víctor; Nakamura, Miguel; Biscay, Rolando

Persistencia, Probabilidad e Inferencia Estadística para Análisis Topológico de Datos.

26

Page 318: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Page 319: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Metodo para simular puntos uniformemente distribuidossobre una superficie en Rn

Proyecto final de la clase:Probabilidad e Inferencia Estadıstica para Analisis Topologico de Datos

Centro de Investigacion en Matematicas, A.C.

Alumnos:

Gilberto Flores

Yair Hernandez

Licenciatura en Matematicas

Universidad de Guanajuato

Profesores:

Fermın Reveles (Topologıa)

Vıctor Perez-Abreu (Probabilidad)

Miguel Nakamura (Inferencia Estadıstica)Rolando Biscay (Campos Aleatorios)

1

Page 320: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Indice

1. Introduccion 3

2. Descripcion del metodo 3

3. Metodo de aceptacion-rechazo 4

4. Algunas observaciones 6

5. Simulaciones 7

6. Estimacion de homologıa persistente 10

7. Conclusiones 13

2

Page 321: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

1. Introduccion

En este proyecto se presenta un algoritmo para simular puntos uniformemente distribuidossobre una superficie parametrizada m-dimensional contenida en Rn (m < n). Este trabajo se basaen gran parte en el artıculo de Diaconis, et al [2], el cual presenta el ejemplo del toro. Aquı seexplica con mas detalle el metodo de aceptacion-rechazo para este contexto y se presentan comoejemplos la banda de Mobius y la botella de Klein, para la cual se utiliza una parametrizacion queaparece en el artıculo de Franzoni [4]. Tambien se presentan estimaciones de los numeros de Betticon simulaciones en el toro y la botella de Klein, utilizando la filtracion dada por el estimador dedensidad tipo kernel.

El desarrollo del algoritmo consiste de 2 partes. En la primera parte se encuentra una funcionde densidad correspondiente a una distribucion uniforme sobre la superficie dada. En la segundaparte se utiliza el metodo de aceptacion-rechazo para simular los puntos a partir de la densidadobtenida en la primera parte.

2. Descripcion del metodo

Una idea que surge cuando se tiene una variedad parametrizada y se desean simular datosuniformemente distribuidos es simular parametros uniformemente distribuidos (en el dominio) ymapear estos puntos. En el contexto de superficies parametrizadas se tiene generalmente unafuncion de

∏mi=1[ai, bi] en Rn, de modo que elegir un punto de manera uniforme en el dominio

equivale a tomar un punto xi con distribucion uniforme en el intervalo [ai, bi], para i = 1, . . . ,m(xi, xj independientes para i 6= j) y ver que punto corresponde a (x1, . . . , xm) en la superficie dada,mediante la parametrizacion que se tenga. Por ejemplo, para el toro, con la parametrizacion quese da en la seccion 4 de este trabajo, el dominio es [0, 2π] × [0, 2π]. Luego elegir un punto condistribucion uniforme en el dominio equivale a elegir dos puntos (independientes) con distribucionuniforme en [0, 2π] y utilizar dicha parametrizacion para ver que punto le corresponde sobre lasuperficie del toro. Posteriormente veremos ejemplos donde esta tecnica proporciona resultadosdistintos a lo deseado (que regiones con la misma area tengan una concentracion similar de puntos).

Es importante notar que si el dominio no es de la forma∏m

i=1[ai, bi], distribucion uniformeen el dominio no necesariamente es equivalente a una distribucion uniforme en cada uno de losparametros; por ejemplo, si el dominio es un cırculo (en R2), distribuir uniformemente en cadacoordenada dara puntos que pueden estar incluso fuera del dominio.

El metodo que se presenta es el expuesto en Diaconis et al. [2] y este se basa en la formuladel area y en la medida de Hausdorff, ambas presentadas en las notas del curso (Teorema 3.6.8y Definicion 3.6.5). En la presentacion correspondiente a este proyecto se incluyeron estos re-sultados y otro material de las secciones [1.6: Variedades] y [3.6: Probabilidades en variedades II:medida geometrica], al cual aquı solo se hace referencia. Por una parte la medida de Hausdorff nospermite hablar del volumen de cualquier conjunto y, por otra parte, la formula del area∫

A

g(f(x))Jmf(x)λm(dx) =

∫Rn

g(y)N(f |A, y)Hn(dy)

nos dice como obtener una muestra de cierta distribucion con respecto a la medida de Hausdorffdesde una distribucion en los parametros. En nuestro caso f es la parametrizacion de la superficieM que nos interesa y A es el dominio de f . Ahora bien, en la formula del area la integral es sobretodo Rn, que en nuestro caso es R3, pero N(f |A, y) = 0 para los y 6∈ f(A) y por lo tanto esta

3

Page 322: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

integral es sobre M . Luego el problema se reduce a obtener puntos distribuidos segun la densidaddada por J2f/ vol(M).

Dado que la funcion de densidad que resulta en los parametros puede adquirir una forma muygeneral se emplea el metodo de aceptacion-rechazo para simularla.

3. Metodo de aceptacion-rechazo

El metodo de aceptacion-rechazo, mencionado en la introduccion del Capıtulo 4 de las notasdel curso, tiene como objetivo simular variables aleatorias con una densidad dada a partir desimulaciones con otra densidad. En la presente seccion presentamos algunos de los resultados masrelevantes respecto a este metodo. Se sugiere al lector revisar ademas el capıtulo [3: Probabilidad]de las notas del curso.

Sean f, g : Rm → R densidades tales que existe c > 0 tal que cg(x) ≥ f(x) para todo x ∈ Rm

(integrando ambos lados sobre todo Rm se tiene que si existe tal c se debe tener c ≥ 1). Supongamosque se puede simular una variable aleatoria X con densidad g. Consideremos el siguiente algoritmo:

Se genera X con densidad g.

Se genera U independiente uniforme en [0, 1].

Se hace T = c g(X)f(X)

.

Se repiten los pasos anteriores hasta que UT ≤ 1. Cuando se cumpla la condicion anteriorse hace Y = X.

Entonces Y tiene densidad f . Para verificarlo se utilizaran dos teoremas que se enuncian ydemuestran en Devroye [1].

Teorema 1. Sean X un vector aleatorio con densidad f en Rm, U independiente con distribucionuniforme en [0, 1], y c > 0. Entonces (X, cUf(X)) se distribuye uniformemente en A = (x, u) :x ∈ Rm, 0 ≤ u ≤ cf(x). Si (X, V ) ∈ Rm+1 se distribuye uniformemente en A, entonces X tienedensidad f en Rm.

Demostracion. Sea B ⊆ A boreliano y Bx = u : (x, u) ∈ B. Aplicando el teorema de Tonelli(Teorema 3.4.12 de las notas del curso) se tiene

P ((X, cUf(X)) ∈ B) =

∫Rm

∫Bx

1

cf(x)du f(x)dx =

1

c

∫B

du dx.

Pero c es igual al volumen de A, ası que X se distribuye uniformemente en A.Veamos ahora la segunda parte. Mostraremos que para todo B ⊂ Rm boreliano, P (X ∈ B) =∫

Bf(x)dx. En efecto,

P (X ∈ B) = P ((X, V ) ∈ B1 = (x, v) : x ∈ B, 0 ≤ v ≤ cf(x))

=

∫ ∫B1dv dx∫ ∫

Adv dx

=1

c

∫B

cf(x)dx =

∫B

f(x)dx.

4

Page 323: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Teorema 2. Sean X1, X2, . . . una sucesion de v.a.i.i.d. con valores en Rm y A ∈ B(Rm) tal queP (X1 ∈ A) = p > 0. Sea Y la primera Xi que toma un valor en A. Entonces Y tiene unadistribucion dada por

P (Y ∈ B) =P (X1 ∈ A ∩B)

p, B ∈ B(Rm).

En particular, si X1 tiene distribucion uniforme en A0 (A0 ⊇ A), entonces Y se distribuye unifor-memente en A.

Demostracion. Para B ⊂ Rm boreliano se tiene

P (Y ∈ B) =∞∑i=1

P (X1 /∈ A, . . . , Xi−1 /∈ A,Xi ∈ B ∩ A)

=∞∑i=1

(1− p)i−1P (X1 ∈ A ∩B)

=1

1− (1− p)P (X1 ∈ A ∩B) =

1

pP (X1 ∈ A ∩B).

Si X1 se distribuye uniformemente en A0,

P (Y ∈ B) =P (X1 ∈ A ∩B)

P (X1 ∈ A)=

∫A0AB

dx∫A0dx·∫A0dx∫

AA0dx

=

∫AB

dx∫Adx

,

que corresponde a la distribucion uniforme en A.

Veamos entonces que Y dada por el metodo de aceptacion rechazo tiene densidad f . Por laprimera parte del teorema 1, los (X, cUg(X)) ∈ Rm+1 generados se distribuyen uniformemente enla region bajo cg. Luego por el teorema 2, (Y, cUg(Y )) se distribuye uniformemente en la regionbajo f , y por la segunda parte del teorema 1, Y tiene densidad f .

En la practica lo que se desea es minimizar el numero de “rechazos”. Observamos que

P (f(X) ≥ cUg(X)) =

∫Rm

P

(U ≤ f(x)

cg(x)

)dx

=

∫Rm

f(x)

cg(x)dx =

1

c

∫Rm

f(x)dx =1

c.

Entonces si N es el numero de iteraciones para obtener Y , tenemos

P (N = i) = (1− p)i−1p,

ası que el numero esperado de iteraciones es 1/p = c. Luego valores de c cercanos a 1 daranalgoritmos mas eficientes. Sin embargo no siempre es facil tener valores de c cercanos a 1, pues esorequiere que la densidad de g sea similiar a f , que puede tener una forma general.

Las densidades obtenidas en el contexto dado tienen formas muy variadas, ası que daremos unaforma general de aplicar el metodo de aceptacion rechazo para simular en base a dichas densidades.

Supongamos que se tienen p, q > 0 fijas (pero desconocidas) tales que se pueden calcular losvalores de pg, qf , y tales que pg(x) ≥ qf(x) para todo x ∈ Rm. Integrando sobre Rm ambos ladosse tiene p ≥ q, de modo que c := p/q ≥ 1. Entonces

cg(X)

f(X)=pg(X)

qf(X),

5

Page 324: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

ası que conocer los valores pg, qf bastan para aplicar el metodo de aceptacion-rechazo. Por ejemplo,supongamos que se conoce f salvo por una constante de normalizacion; esto es, se conoce qf .Tambien supongamos que conocemos una constante k que acota qf en su soporte. Entonces lafuncion constante k es un multiplo pg de la densidad uniforme g en el soporte de f . Esta densidaduniforme es facil de simular porque usualmente se tendra que el soporte de f sera el dominio deuna parametrizacion de una variedad; esto es, sera de la forma

∏mi=1[ai, bi]. Conociendo qf y una

constante k tal que k ≥ qf(x) para todo x ∈ Rm la implementacion del metodo aceptacion-rechazoquedarıa como sigue:

Simulamos X con distribucion g; es decir, con distribucion uniforme en el soporte de f .

Simulamos U con distribucion uniforme en [0, 1].

Hacemos T = c g(X)f(X)

= pg(X)qf(X)

= kqf(X)

.

Se repite hasta que UT ≤ 1, y se hace entonces Y = X.

4. Algunas observaciones

En el proyecto se trabajo con superficies y en este caso la siguiente observacion es de especialinteres por las implicaciones que tiene.

Si M ⊂ R3 es una superficie y f : M ′ ⊂ R2 → R3 una parametrizacion de esta; denotemos a(∂f1∂x, ∂f2

∂x, ∂f3

∂x

)por ∂f

∂xy a

(∂f1∂y, ∂f2

∂y, ∂f3

∂y

)por ∂f

∂y.

Ahora bien, en los puntos p ∈M donde Df |u=f−1(p) es de rango maximo se tiene que∂f

∂x|f−1(p),

∂f

∂y|f−1(p)

es una base de Tp(M), que ha sido definido en la seccion 1.6.3 de las notas, y por lo tantopodemos preguntarnos por la matriz, con respecto a esta base, asociada al producto punto enTp(M) inducido por el producto punto de R3. Si denotamos a dicha matriz por Ip, se puede verque

√det(Ip) = J2f |u=f−1(p).

De esto, la densidad que obtenemos en los parametros es la funcion dada por√

det(Ip)/ vol(M).Ası, obtenemos que si esta densidad es la densidad de la distribucion uniforme en los parametros,la parametrizacion debe satisfacer

√det(Ip) = vol(M)/ vol(M ′).

Lo anterior nos indica que no en todas las superficies puede encontrarse una parametrizacionpara la cual una muestra de la distribucion uniforme en los parametros tenga como imagen unamuestra con la distribucion uniforme con respecto a la medida geometrica. Mas aun, lo anterior nosindica la manera en que la geometrıa intrinseca de la superficie esta influyendo en la distribucionde los parametros.

En el proyecto se simularon puntos en la botella de Klein, en el toro y en la banda de Mobius.Para el caso de la botella de Klein se empleo la parametrizacion de Dickson, presentada en Franzoni[4].

Especıficamente las parametrizaciones empleadas para cada objeto son las siguientes:

6

Page 325: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

1. Toro:

x = (R + r cos(θ)) cos(φ),

y = (R + r cos(θ)) sin(φ),

z = r sin(θ),

donde (θ, φ) ∈ [0, 2π]× [0, 2π] y 0 < r < R.

2. Botella de Klein:

x =

6 cos(u)(1 + sin(u)) + 4(1− 1

2cos(u)) cos(u) cos(v) si 0 ≤ u ≤ π,

6 cos(u)(1 + sin(u)) + 4(1− 12

cos(u)) cos(v + π) si π < u ≤ 2π,

y =

16 sin(u) + 4(1− 1

2cos(u)) sin(u) cos(v) si 0 ≤ u ≤ π,

16 sin(u) si π < u ≤ 2π,

z = 4(1− 1

2cos(u)) sin(v),

con (u, v) ∈ [0, 2π]× [0, 2π].

3. Banda de Mobius

x = (R + u cos(v

2)) cos(v),

y = (R + u cos(v

2)) sin(v),

z = u sin(v

2),

donde (u, v) ∈ [−w,w]× [0, 2π] con w > 0.

5. Simulaciones

Existen implementaciones mas simples para casos particulares (por ejemplo, J2 tiene una formasencilla para el toro), pero para una superficie parametrizada (x(u, v), y(u, v), z(u, v)) se tiene elsiguiente procedimiento:

1. Programar funciones coordenadas x(u, v), y(u, v), z(u, v).

2. Programar (explıcitamente) derivadas parciales de x, y, z respecto de u, v.

3. Calcular J2 de dicha parametrizacion.

4. Programar aceptacion-rechazo utilizando J2 y una constante que lo acote.

5. Obtener muestra de tamano deseado y evaluar los puntos en las funciones del paso 1.

Como ha sido mencionado anteriormente, la forma de la funcion de densidad obtenida enlos parametros puede ser muy general. Para ilustrar lo siguiente se presentan las graficas de lasfunciones de densidad de los parametros obtenidas para el caso de la botella de Klein y para elcaso de la banda de Mobius (en ese orden, sin dividir entre las constantes de normalizacion):

7

Page 326: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Es claro que dichas densidades son distintas a la densidad que se tendrıa simulando puntoscon distribucion uniforme en el dominio (como se describe al inicio de la seccion 2), pues en esecaso las densidades son una funcion constante en el dominio. Un proyecto futuro puede consistiren estudiar teoricamente las densidades presentadas anteriormente.

A continuacion presentamos ilustraciones para 500 puntos generados por el metodo mencionado,comparando con 500 puntos obtenidos con distribucion uniforme en el dominio.

Toro, con medida de Hausdorff:

Toro, uniforme en el dominio:

8

Page 327: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Botella de Klein, con medida de Hausdorff

Botella de Klein, uniforme en el dominio:

Banda de Mobius, con medida de Hausdorff:

9

Page 328: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Banda de Mobius, uniforme en el dominio:

6. Estimacion de homologıa persistente

Para el calculo de los diagramas de persistencia se ha empleado como filtracion la dada porun estimador de densidad tipo kernel, que fueron presentados en la seccion 5.4.5 de las notas delcurso. Conviene tomar esta sobre otras, por que se espera que con este tipo de filtracion se notenlas diferencias entre las nubes de puntos generados con una y otra distribucion.

Las especificaciones tecnicas de la computadora donde se realizaron son:

Procesador: 1.60GHz 4 nucleos,

Memoria RAM: 6.00 GB,

Sistema operativo: Ubuntu 14.04 64 bits.

Los diagramas presentados a continuacion se obtuvieron con el software R, empleando lasfunciones bootstrapBand y gridDiag de la librerıa TDA. En los cuatro diagramas de persistencia seha utilizado una banda de confianza del 95 %.

Los diagramas que tienen como tıtulo “Medida H.” corresponden a la distribucion uniformecon respecto a la medida de Hausdorff; los que tienen como tıtulo “Uniforme” corresponden ala distribucion uniforme en el dominio, n corresponde al numero de puntos que se utilizan, h

corresponde al ancho de banda del estimador de densidad y by a la distancia de la malla empleadapara evaluar la funcion de densidad estimada.

Sobre la implementacion conviene mencionar algunas observaciones. Para este tipo de filtracionconviene tomar un numero grande de puntos, pues proporcionara un mejor estimador de densidad,y en contraste con otras filtraciones (como la de Rips), el tiempo que toma calcular el diagrama depersistencia no se ve muy afectado por el numero de puntos. Teniendo entonces un numero grandede puntos (7500 en esta implementacion), el desempeno queda determinado por los parametrosby y h. Para el parametro by conviene tomar valores pequenos, pues con una malla con puntosdistanciados omitira caracterısticas de interes; pero no debe ser tan pequeno, pues el tiempoque toma calcular la banda de confianza incrementa muy rapido. El valor de h no afecta muchoel tiempo de la implementacion, pero tambien es (evidentemente) de gran importancia: valoresmuy pequenos causaran variaciones abruptas en el estimador de densidad alrededor de los datos(lo cual se vera reflejado con mucho “ruido” topologico) y con valores muy grandes se perderan

10

Page 329: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

mınimos/maximos del estimador de densidad (lo cual se vera reflejado con omision de componentesde interes en el diagrama de persistencia).

Sabemos que los numeros de betti, tomando los coeficientes en Z2, de la botella de Klein y delToro son; β0 = 1, β1 = 2 y β2 = 1. Como veremos a continuacion, para el caso de los diagramas depersistencia calculados con la distribucion uniforme respecto a la medida de Hausdorff, los puntosque quedan fuera de la banda (los que pueden ser interpretados como senal topologica y no comoruido) son aquellos que se esperan (los numero de puntos negros, rojos, azules corresponden a β0,β1 y β2 respectivamente).

Los primeros dos diagramas corresponden a los obtenidos tomando puntos en el toro con ladistribucion especificada en cada imagen. La primera observacion que surge al compararlos es que,como se menciono anteriormente, en el diagrama que corresponde a los puntos con distribucionuniforme respecto a la medida de Hausdorff se obtienen los puntos esperados.

11

Page 330: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016Los dos diagramas siguientes corresponden a los obtenidos tomando puntos en la botella de

Klein con la distribucion especificada en cada imagen.

12

Page 331: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016Notemos que en ambos casos, tanto para la botella de Klein como para el Toro, la distribucion y

el tipo de filtracion ha marcado una gran diferencia entre los diagramas de persistencia obtenidos.Por ejemplo, en el caso del ultimo diagrama, basandonos en los puntos fuera de la banda tendrıamosque la estimacion de los numeros de betti son 1, 0 y 1, que no corresponden a la botella de Kleinsino a una esfera.

7. Conclusiones

La medida de Hausdorff permite relacionar las propiedades intrınsecas de la variedad donde losdatos se encuentran, lo cual es esencial cuando se esta simulando sobre variedades: si se desea, sepuede evitar concentrar datos en ciertas regiones. Esto proporciona un camino para retroalimentarlas tecnicas vistas hasta ahora en el analisis topologico de datos, y aquellas que se desarrollenposteriormente.

Desde el punto de vista computacional, se resalta poder omitir el tener que normalizar Jmf(lo cual requiere integrar numericamente). Sin embargo, si se trabaja en altas dimensiones, unadificultad ineludible es el calculo de un determinante al evaluar Jmf en varios puntos, pues en altasdimensiones esto es costoso.

Visualmente es evidente que distribuciones distintas proporcionan graficas distintas, ası que unproblema que se desprende es: dada una nube de puntos distribuida sobre una superficie dada,inferir caracterısticas de la distribucion de la cual provienen. En caso de que se tengan datosprovenientes de dos o mas distribuciones, se podrıa emplear MAPPER (proyecto elaborado porPerez Angulo) para ilustrar con mayor claridad las diferencias entre ellas.

Otro tema que de aquı se puede desprender es utilizar las tecnicas presentadas en otros proyectospara comparar los codigos de barras y diagramas de persistencia generados.

En el artıculo de Franzoni [4] se encuentran parametrizaciones que dan formas distintas a la“clasica”(que es la que se utiliza en este proyecto), sobre las cuales tambien se pueden simularpuntos utilizando los procedimientos aquı descritos. Un posible tema a tratar a futuro es comparar

13

Page 332: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

las estimaciones de homologıa persistente como se hizo aquı con el toro y una parametrizacion dela botella de Klein.

Referencias

[1] Devroye, Luc. Non-uniform Random Variate Generation. New York: Springer-Verlag, 1986.

[2] Diaconis, Persi, Susan Holmes y Mehrdad Shahshahani. “Sampling from a Manifold.”Advancesin Modern Statistical Theory and Applications: A Festschrift in Honor of Morris L. EatonInstitute of Mathematical Statistics Collections (2013): 102-25.

[3] Federer, Herbert. Geometric Measure Theory. Berlin: Springer, 1996.

[4] Franzoni, Gregorio. “The Klein Bottle: Variations on a Theme.”Notices of the American Mat-hematical Society 59.08 (2012): 1076.

14

Page 333: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

ANÁLISIS TOPOLÓGICO DE DATOS

UTILIZANDO MAPPERY COMPLEJOS TESTIGO

Proyecto final de la clase:

Probabilidad e Inferencia Estadística para Análisis Topológico de Datos

Centro de Investigación en Matemáticas, A.C.

Alumno:

Jesús Manuel Pérez Angulo

Maestría en Probabilidad y Estadística

profesores

Fermín Reveles (Topología)Víctor Pérez-Abreu (Probabilidad)

Miguel Nakamura (Inferencia Estadística)Rolando Biscay (Campos aleatorios)

Page 334: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Índice

1. Introducción 3

I Marco teórico 4

2. Complejos testigo 4

2.1. Denición de W (D) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.2. Elección de los puntos de referencia L . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.3. Familias anidadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

3. Algoritmo Mapper 5

3.1. Construcción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53.1.1. Motivación y antecedentes topológicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53.1.2. Estructura multiresolución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

3.2. Implementación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63.2.1. Agrupamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63.2.2. Espacios parametrales de dimensiones mayores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

3.3. Funciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73.3.1. Kernel gaussiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73.3.2. Exentricidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73.3.3. Laplacianos de grafos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73.3.4. Componentes de la SVD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

4. Agrupamiento jerárquico 8

4.1. Distancia mínima o similitud máxima (Single linkage) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

5. Descomposición en Valores Singulares 8

II Uso de software 9

6. Paquetería TDA de R 9

6.1. Complejo Vietoris-Rips . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96.2. Bandas de conanza en diagramas de persistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

7. Javaplex en Matlab 11

7.1. Complejo testigo fuerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117.2. Complejo testigo débil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

8. Python Mapper 12

III Análisis de características homológicas, geométricas y de costo computacional 16

9. Contexto 16

10.Circulo unitario 17

10.1. N(0,1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1710.2. N(0,1), ruido σ = 0.003 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1810.3. N(0,1), ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1910.4. N(0,Σ), ρ = 0.95 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2010.5. N(0,Σ), ρ = 0.95, ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2110.6. N(0,Σ), ρ = 0.95, ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2210.7. GUE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2310.8. GUE, ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2410.9. GUE, ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

1

Page 335: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

10.10.Cauchy(0,1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2610.11.Cauchy(0,1), ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2710.12.Cauchy(0,1), ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2810.13.Cauchy(0,3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2910.14.Cauchy(0,3), ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3010.15.Cauchy(0,3), ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

11.Doble anillo 31

11.1. N(0, 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3111.2. N(0, 1), ruido σ = 0.002 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3311.3. N(0, 1), ruido σ = 0.009 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

12.Esfera unitaria 35

12.1. N(0,1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3512.2. N(0,1), ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3612.3. N(0,1), ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3712.4. N3(0,Σ), ρ = (0.9, 0.5, 0.8) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3812.5. GUE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3912.6. GUE, ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4012.7. GUE, ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4112.8. Cauchy(0,1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4212.9. Cauchy(0,1), ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4312.10.Cauchy(0,1), ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

13.Toro 44

13.1. N(0,1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4513.2. N(0,1), ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4613.3. N(0,1), ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4713.4. N(0,Σ), ρ = 0.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4813.5. N(0,Σ), ρ = 0.9, ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4913.6. N(0,Σ), ρ = 0.9, ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5013.7. GUE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5113.8. GUE, ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5213.9. GUE, ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5313.10.Cauchy(0,1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5413.11.Cauchy(0,1), ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5513.12.Cauchy(0,1), ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

IV Observaciones y conclusiones 57

2

Page 336: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Resumen

En este proyecto se abordan dos alternativas a las construcciones simpliciales usuales vistas en el curso. La primera

son los complejos testigo, mismos que se basan en una submuestra de una nube de datos dada, de donde a partir de tal

selección se construye el complejo simplicial utilizando la muestra completa como soporte. La segunda alternativa es

utilizar un algoritmo llamado Mapper, el cual centra su idea en la selección de funciones de referencia y en un método

estadístico particular: el clustering. Esto con un propósito simple, construir un grafo que exprese las características

geométricas de nuestra nube de datos. Se presentan los resultados de un estudio de simulación comparativo entre

estos dos algoritmos y el ya conocido Vietoris-Rips, analizando diversos escenarios de distribuciones y ruido sobre las

variedades S1, S2 y T2, utilizando distintos tamaños de muestra para cada una. Finalmente, se presenta también un

pequeño tutorial sobre el software actual disponible para calcular persistencia y una implementación en Python del

algoritmo Mapper.

1. Introducción

Sabemos que una de las problemáticas principales al aplicar el Análisis Topológico de Datos es el costo o viabilidadcomputacional. De los primeros enfoques para el cálculo de la homología persistente fue la ltración de ech, la cualllegado un punto en la misma, crea simplejos con dimensión muchísimo más grande que la del espacio ambiente así comoun sin número de simplejos en cada paso. Una forma de relajar el cálculo de la homología usando la ltración de ech esmediante la ltración de Vietoris-Rips, pero aún ésta sigue presentando el problema de encontrar simplejos de dimensiónmucho mayor a la del espacio ambiente de nuestros datos.

En este proyecto presentamos algunas alternativas presentadas por Carlsson, De Silva, Mémoli y Singh (ver [2] y [6]).En el primer enfoque se presentan los complejos testigo, mismos que se basan en una selección de puntos de referencia L deuna nube de puntos mediante un método particular de muestreo. A partir de ellos se construye un complejo simplicial queevite sobremanera la construcción de simplejos innecesarios así como el incremento en la dimensionalidad de los mismos. Elsegundo enfoque es el algoritmo Mapper, el cual se basa en elección de funciones que van de la nube de puntos a un espacioeuclideano, así como de métodos de agrupamiento (clustering) para crear simplejos de dimensión pequeña (regularmente1 y 2) que nos permitan describir la estructura de los datos.

Uno de los objetivos de este proyecto es evaluar la aplicación de estas técnicas, explorando ventajas y desventajas de lasmismas y con respecto al algoritmo Vietoris-Rips. Para ello, realizamos un estudio de simulación comparativo entre estosmétodos, ante diversos escenarios controlados de diferentes distribuciones y tipos de ruido sobre una misma variedad. Seconsideran tres variedades y se utilizan distintos tamaños de muestra ya que el costo computacional depende del tamañode cada una de estas variedades.

En la Parte I de este trabajo presentamos una breve descripción del método de agrupamiento jerárquico poniendoespecial énfasis en el modelo Single linkage clustering, así como la explicación de la descomposición en valores singulares(SVD) de una matriz de tamaño m × n arbitrario, pues son las herramientas principales que se utilizan en el algoritmoMapper, el cual que se describe en esta misma sección. También se presentan conceptos y el desarrollo teórico de loscomplejos testigo.

Dado que el proyecto se basa fuertemente en la realización de simulaciones, así como de manipulación de los datospara realizar nuestro análisis, en la Parte II de este documento damos una breve introducción a las paqueterías que seutilizarán para las simulaciones y análisis en este proyecto, las cuales incluyen la paquetería TDA del software estadísticoR, las librerías de Javaplex implementadas en Matlab, así como una aplicación compilada sobre Python, llamada PythonMapper. La intensión de esta parte es que el lector tenga un primer acercamiento al software utilizado en el ATD.

La parte central de nuestro proyecto se presenta en la Parte III, donde se realiza una serie de simulaciones sobreel círculo unitario S1, la esfera unitaria S2 y el toro tridimensional T2 usando las técnicas de simulación de variablesaleatorias presentadas en el Capítulo 4 de las notas del curso. En base a estas simulaciones, realizamos un análisis de losresumenes topológicos, donde interpretamos la persistencia de características homológicas, así como algunas característicasgeométricas que nos brinda Mapper para las nubes de datos generadas, tratando de ver similitudes y diferencias entrecada algoritmo, y comparando también su eciencia computacional. Como resúmenes presentamos: los diagramas depersistencia, códigos de barra y grafos Mapper.

Por último, en la parte IV damos conclusiones de todos los hallazgos encontrados a lo largo del proyecto, así comoalgunas recomendaciones y proyectos a desarrollar a corto plazo.

3

Page 337: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Parte I

Marco teórico

2. Complejos testigo

La idea de los complejos testigo es que estos imiten el comportamiento de las triangulaciones de Delaunay en lageometría intrínseca de un conjunto de datos X. Se toma un conjunto de puntos de referencia L ⊂ X y el resto de lospuntos toman un rol para determinar qué simplejos aparecen en el complejo simplicial. Sin embargo, su interpretación noes tan difícil como la de una triangulación de Delaunay.

2.1. Denición de W (D)

Sea D la matriz n×N que contiene las distancias entre el conjunto de los n puntos de referencia y los N datos en X.Se dene el complejo testigo (estricto) W∞(D) con conjunto de vértices 1, 2, ..., n como sigue:

La arista σ = [ab] pertenece a W∞(D) si y solo si existe un punto 1 6 i 6 N tal que D(a, i) y D(b, i) son las dosentradas más pequeñas en la i−ésima columna de D, en algún orden.

Mediante inducción en p: supóngase que todas las caras del p−simplejo σ = [a0a1 · · · ap] pertenecen a W∞(D).Entonces, σ pertenece a W∞(D) si y solo si existe un punto 1 6 i 6 N tal que D(a0, i), D(a1, i), ..., D(ap, i) son lasp+ 1 entradas más pequeñas de la i−ésima columna, en algún orden.

En cada caso i es considerado un testigo de la existencia de σ.Existe también una versión oja de un complejo testigo. Formalmente, se dene W1(D) ⊇W∞(D) como sigue:

W1(D) tiene el mismo 1− esqueleto que W∞(D).

El p−simplejo σ = [a0a1 · · · ap] pertenece a W1(D) si y solo si cada una de sus aristas pertenece a W1(D).

Nota: Esta construcción se puede aplicar para cualquier matriz de distanciasD, bajo la distancia euclidiana o cualquierotra métrica. En particular, una alternativa importante es la métrica intrínseca del grafo DG, la cual se dene calculandolas distancias en un grafo adecuado G con vértices todos los puntos en X.En algunas situaciones es mejor utilizar lamétrica intrínseca.

A partir de aquí, usamos la notación W (D) para referirnos a W1(D).

2.2. Elección de los puntos de referencia L

Existen dos maneras de elegir los puntos de referencia: de manera aleatoria, o mediante un proceso iterativo llamadomaxmin. El proceso maxmin se dene como sigue:

Selecciónese `1 ∈ X de manera aleatoria.

Inductivamente, si `1, `2, ..., `i−1 han sido elegidos, sea `i ∈ X\`0, `1, ..., `i−1 el punto que maximiza la función

x 7→ mınD(x, `1), D(x, `2), ..., D(x, `i−1,

donde D es la métrica.

Continúese hasta que se hayan elegido el número deseado de puntos.

Los puntos elegidos mediante maxmin tienden a estar más espaciados, pero son suceptibles a tomar outliers. El númerode puntos de referencia a elegir deben ser tales que la razón N/n esté acotada. Los autores sugieren esta cota como 20 demanera heurística debido a los experimentos realizados por ellos mismos.

4

Page 338: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

2.3. Familias anidadas

Supóngase que D es una matriz n×N de distancias, como se denió antes. Para cada entero no negativo ν construímosuna familia de complejos simpliciales W (D; ε, ν) donde ε ∈ [0,∞]. El conjunto de vértices de W (D; ε, ν) es 1, 2, ..., n.Denimos entonces:

Si ν = 0, entonces para i = 1, 2, ...N denimos mi = 0.

Si ν > 0, entonces para i = 1, 2, ..., N denimos mi como la ν−ésima entrada más pequeña de la i−ésima columnade D.

La arista σ = [ab] pertenece a W (D; ε, ν) si y solo si existe un testigo i ∈ 1, 2, ..., N tal que

max(D(a, i), D(b, i)) 6 ε+mi.

El p−simplejo σ = [a0a1 · · · ap] pertenece a W (D; ε, ν) si y sólo si todas sus caras pertenecen a W (D; ε, ν); equiva-lentemente si y sólo si existe un testigo 1 6 i 6 N tal que

max(D(a0, i), D(a1, i), ..., D(ap, i)) 6 ε+mi

Nótese la identidad W (D; 0, 2) = W (D) = W1(D). Los casos de ν = 0, 1, 2 son de particular importancia pues para:

ν = 0: La familia de complejos W (D; ε, 0) está cercanamente relacionada a la familia de complejos Rips R(L; ε).Especícamente, se cumplen las siguientes inclusiones:

W (D; ε, 0) ⊆ Rips(L; 2ε) ⊆W (D; 2ε, 0).

ν = 1: Se puede interpretar como proveniente de una familia de cubiertas del espacio X mediante regiones de Voronoique rodean cada punto de referencia, las cuales se traslapan cuando ε→∞.

nu = 2: Recuérdese que se tenía la siguiente identidad en ε = 0

W (D; 0, 2) = W (D).

En la práctica, las familias con ν = 2 aparentemente dan intervalos de persistencia más claros, con poco ruido. Unaexplicación de esto se debe a la identidad recién mencionada, pues el complejo simplicial está esencialmente correctocuando ε = 0, por lo que es necesario incrementar un poco el valor de ε.

3. Algoritmo Mapper

3.1. Construcción

Se da primero, una idea general de la motivación topológica que da lugar a este nuevo método. Posteriormente sepresentan detalles sobre la implementación, así como la utilización de algunas funciones de referencia en las que se basael algoritmo.

3.1.1. Motivación y antecedentes topológicos

Ya se ha denido previamente el nervio de una cubierta U de X, y se puede oibtener información extra de esta, deuna partición de unidad se puede obtener una función que vaya de X a N(U). Una partición de unidad subordinada a lacubierta abierta nita U es una familia de funciones real valueadas ψαα∈A con las siguientes propiedades:

0 6 ψα(x) 6 1 para todo α ∈ A y x ∈ X.∑σ∈A ψα(x) = 1 para todo x ∈ X.

La cerradura del conjunto x ∈ X|ψα(x) > 0 está contenida en el conjunto abierto Uα.

5

Page 339: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Recordemos que podemos representar los puntos en un k−simplejo mediante sus coordenadas baricéntricas (r0, r1, ..., rk).Denamos T (x) ⊆ A como el conjunto de todos los α tales que x ∈ Uα. Denamos ρ(x) ∈ N(U) el punto en el simpejogenerado por los vértices α ∈ T (x), cuyas coordenadas baricéntricas son (ψα0

, ψα1, ..., ψαl) donde α0, α1, ..., αl es alguna

enumeración del conjunto T (x). La función ρ resulta ser continua y además otorga una çoordenización"parcial al conjuntoX con valores en N(U).

Supongamos que tenemos un espacio X y una función continua f : X → Z a un espacio de parámetros Z, que ademásel espacio Z cuenta con una cubierta abierta U = Uαα∈A, para un conjunto nito de índices A. Dada la continuidad de f ,los conjuntos f−1(Uα) forman una cubierta abierta para X. Y para cada α, considérese la descomposición de f−1(Uα) ensus componentes conexas, de modo que se pueda escribir f−1(Uα) =

⋃jαi=1 V (α, i) donde jα es el número de componentes

conexas en f−1(Uα). Denotamos U a la cubierta de X obtenida de esta manera.

3.1.2. Estructura multiresolución

Para denir la multiresolución, necesitamos denir un mapeo de cubiertas, el cual, dadas dos cubiertas U = Uαα∈Ay V = VββinB es una función f : A→ B tal que para cada α ∈ A, se tiene que Uα ⊆ Vf(α) para cada α ∈ A. Se presentael siguiente

Ejemplo 1. Sean X = [0, N ], y ε > 0. Los conjuntos Iεl = (l − ε, l + ε + 1) ∩ X, para l = 0, 1, ..., N − 1 forman unacubierta abierta Iε para X. Todas las cubiertas Iε tienen el mismo conjunto de índices, y para ε 6 ε′, el mapeo identidaden el conjunto de índices es un mapeo de cubiertas dado que Iεl ⊂ Iεl .

Nótese que si tenemos dos cubiertas U y V y un mapeo de cubiertas f , entonces existe un mapeo inducido de complejossimpliciales N(f) : N(U → N(V, dado sobre los vértices por el mapeo f . En consecuencia, si tenemos una familia decubiertas Uii∈n y mapeos de cubiertas fi : Ui → Ui+1 para cada i, obtenemos un diagrama de complejos simpliciales ymapeos simpliciales

N(U0)N(f0)−→ N(U1)

N(f1)−→ · · · N(fn−1)−→ N(UN )

Retomando el caso del espacio X y la función f : X → Z, y un mapeo de cubiertas U → V, existe el correspondientemapeo de cubiertas U → V.

3.2. Implementación

Se pasa de la idea teórica a la implementación mediante estadística, usando técnicas de agrupamiento para realizar lapartición del espacio de interés en componentes conexas.

Primero, encontramos el rango I de la función restringida a los puntos dado. Particionamos el rango I en un conjuntode intervalos más pequeños S que se traslapan para encontrar una cubierta de los datos dados. De modo que tenemos dosparámetros para modicar la resolución, a saber el porcentaje de traslape p y la longitud de los intrvalos de S. Luego, paracada intervalo Ij ∈ S, encontramos el conjunto de puntos Xj = x|f(x) ∈ Ij. Claramente la familia de conjuntos Xjforman una cubierta para X. Para cada conjunto Xj encontramos clusters Xjk. De modo que tratamos cada clustercomo un vértice en nuestro complejo y dibujamos una arista entre los vértices siemrpe que Xjk ∩Xlm 6= ∅.

3.2.1. Agrupamiento

Mapper no impone ningún tipo de condiciones sobre el algoritmo de agrupamiento, de modo que cualquiera que seespecique sobre el dominio puede funcionar.

3.2.2. Espacios parametrales de dimensiones mayores

Para obtener información sobre características de agujeros dimensionales de orden mayor es necesario contruir uncomplejo simplicial de dimensión mayor utilizando el número de ltros requeridos. Así mismo, cualquier cubierta delespacio parametral puede funcionar, pero deberíamos tener en cuenta que cuanto más intersecciones haya en esta habracomplejos simpliciales de orden mayor.

Consideraremos el caso particular R2 usando dos funciones ltro f1, f2 y el rango de éstas cubierto por rectángulos.Tenemos la regiónR = [mın f1,max f1]×[mın f2,max f2]. De modo que tenemos una cubierta deR tal que cada Ai,j , Ai+1,j

se intersectan al igual que cada Ai,j , Ai,j+1. Un algoritmo para calcular un complejo simplicial reducido es el siguiente:

1. Para cada i, j, elíjanse los puntos para los cuales los valores de las funciones f1, f2 caen en Ai,j . Encuéntrese losclusters para este cojunto y consíderese que cada cluster representa un vértice (0−simplejo). Manténgase una listade vértices para cada Ai,j y un conjunto de índices para los puntos de cada cluster.

6

Page 340: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

2. Para todos los vértices en los conjuntos Ai,j , Ai+1,j , Ai,j+1, Ai+1,j+1, si la intersección de los clusters asociadoscon los vértices es no vacía añadimos una arista (1− simplejo).

3. Cuando los clusters correspondientes a cualesquiera 3 vértices tengan intersección no vacía, añadimos un triángulo(2−simplejo) con esos 3 vértices.

4. Cuando los clusters correspondientes a cualesquiera 4 vértices tengan intersección no vacía, añadimos un tetraedro(3−simplejo) con esos 4 vértices.

Es fácil extener Mapper a un espacio parametral de dimensión mayor de manera similar.

3.3. Funciones

El algoritmo Mapper es altamente dependiente de los ltros que se eligen para particionar el conjunto de datos. Seasume que la nube de puntos está dotada de una función distancia d(x, y), se mencionan a continuación algunas de lasfunciones utilizadas en Mapper que describen algunas propiedades estructurales de los datos:

3.3.1. Kernel gaussiano

Para ε > 0, tenemos el estimador de densidad

fε(x) = Cε∑y

exp

(−d(x, y)2

ε

),

donde x, y ∈ X y Cε es una constante tal que∫fε(x)dx = 1. El parámetro ε controla la suavidad del estimador de la

densidad de los datos.

3.3.2. Exentricidad

La idea intuitiva es encontrar los puntos que se encuentren alejados de un centro. Dado 1 6 p 6 +∞,

Ep(x) =

(∑y∈X d(x, y)p

N

) 1p

, con x, y ∈ X.

Se puede extender la denición a p = +∞ haciendo E∞(x) = maxx′∈X d(x, x′). En general, tiende a tomar valoresgrandes para puntos que estan alejados de un centro.

3.3.3. Laplacianos de grafos

Esta familia de funciones se origina de considerar el operador Laplaciano de un grafo denido como sigue: El conjuntode vértices de este grafo es el conjunto X de todos los puntos, y el peso de las aristas entre los puntos x, y ∈ X es

w(x, y) = k(d(x, y))

donde k es un kernel de suavizamiento. Una matriz Laplaciana del grafo (normalizada) se calcula como

L(x, y) =w(x, y)√∑

z w(x, z)√∑

z w(y, z).

De este modo, los eigenvectores de la matriz Laplaciana normalizada del grafo nos dan un conjunto de vectores ortogonalesque nos brindan información geométrica interesante de la nube de datos.

3.3.4. Componentes de la SVD

En dos secciones subsecuentes describimos de qué se trata la SVD (Descomposición en Valores Singulares), se puedenutilizar proyecciones sobre las primeras componentes para obtener información geométrica de los datos. En este proyectoparticularmente, utilizamos las dos primeras componentes.

7

Page 341: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

4. Agrupamiento jerárquico

Existen dos tipos de métodos generales dentro de los catalogados en esta categoría, están aquellos que mezclan grupospara formar uno nuevo (aglomerativos o ascendentes) y aquellos que separan un grupo existente para dar lugar a dosnuevos (disociativos o descendentes). Estos métdos a su vez, presentan una gran diversidad de variantes

Haremos énfasis especial en los métodos aglomerativos, pues es en los que se basa el análisis que realizamos en este pro-yecto. Estas paqueterías están implementadas en diversos softwares estadísticos bajo el nombre de AGNES (AGglomerativeNESting).

La idea general de los métodos aglomerativos es la siguiente.

1. Inicie con tantos grupos como puntos haya, donde cada punto va en uno y solo un grupo. La medida de similaridadentre grupos en este paso es igual a la distancia entre los puntos que contiene cada grupo.

2. Encuentre el par de grupos más cercanos (con mayor similitud) y mézclelos en un solo grupo.

3. Calcule las distancias (similaridades) entre el nuevo grupo y cada uno de los grupos antiguos.

4. Repita los pasos 2 y 3 hasta que se alcanze un número deseado de grupos o todos los puntos se hayan mezclado enun solo grupo.

Los métodos jerárquicos nos permiten la constucción de un árbol de clasicación ,llamado dendograma (4), el cual nosmuestra cuáles grupos se van uniendo y a qué nivel lo hacen, así como la medida de asociación entre los grupos cuandoestos se mezclan (nivel de fusión).

Figura 1: Ejemplo de dendograma

Dentro de nuestro particular interés sobre los métodos aglomerativos, explicaremos una de las variantes, los métodoslinkage clustering (que traduciremos como amalgamamiento).

4.1. Distancia mínima o similitud máxima (Single linkage)

En este método se considera que la distancia o similitud entre dos grupos está dada, respectivamente por la distanciamínima (o máxima similitud) entre sus componentes.

De este modo, tras efectuar k pasos, tendremos formados n− k grupos, de esta manera la distancia entre dos gruposGi (con ni puntos), Gj (con nj puntos) sería:

d(Gi, Gj) = mınxl∈Gixm∈Gj

d(xl, xm) , l = 1, ..., ni; m = 1, ..., nj (1)

Por otro lado, si usamos una medida de similitud entre grupos, tendríamos:

s(Gi, Gj) = maxxl∈Gixm∈Gj

s(xl, xm) , l = 1, ..., ni; m = 1, ..., nj (2)

5. Descomposición en Valores Singulares

La Descomposición en Valores Singulares (SVD por sus siglas en inglés) nos dice que dada una matriz A arbitraria detamaño m× n (m > n). Entonces podemos descomponerla como

A = UΣV T (3)

8

Page 342: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

donde las matrices U es una matriz de m × n que satisface que UTU = In y la matriz V es una matriz de n × n quesatisface que V TV = In, y Σ = diag(σ1, σ2, ..., σn) con σ1 > σ2 > · · ·σn > 0.

Las columnas u1, . . . , un de la matriz U son llamados valores singulares izquierdos, mientras que las columnas v1, ..., vnde la matriz V son llamados vectores singulares derechos. Los valores σi son llamados valores singulares.

Existe un gran número de propiedades algebraicas y geométricas importantes de la SVD, de las más importantes sonlas siguientes:

1. Supóngase que la matriz A es simétrica, con valores propios λi y vectores propios ortonormales vi. En otras palabras,A = UΛV T es una descomposición propia de A, con Λ = diag(λ1, ..., λn), y UTU = I. Entonces una SVD de A esA = UΣV T , donde σi = |λi| y vi = signo(λi)ui donde signo(0) = 1.

2. Los valores propios de la matriz simétrica ATA son σ2i . Los vectores singulares derechos vi son sus vectores propios

ortonormales correspondientes.

3. Los valores propios de la matriz simétrica AAT son σ2i y m − n ceros. Los vectores singulares izquierdos ui son

los vectores propios correspondientes a los valores propios σ2i . Se pueden tomar cualesquiera m − n otros vectores

ortogonales como vectores propios para el valor propio 0.

4. Sea[

0 AT

A 0

], donde A es cuadrada y A = UΣV T es la SVD de A. Sean Σ = diag(σ1, ..., σn), U = [u1, ..., un] y

V = [v1, ..., vn]. Entonces los 2n valores propios de H son ±σi, con vectores propios correspondientes 1√2

[vi±ui

].

5. Si A es de rango completo, la solución de mınx ‖Ax− b‖2 es x = V Σ−1UT b.

6. ‖A‖2 = σ1. Si A es cuadrada y no singular, entonces ‖A−1‖−12 = σn y ‖A‖2 · ‖A−1‖2 = σ1

σ2.

7. Supóngase que σ1 > · · · > Σr > σr+1 = · · · = σn = 0. Entonces el rango de A es r. El espacio nulo de A, es decir,el subespacio de vectores v tales que Av = 0., es generado por las columnas r + 1 a n de V : span(vr+1, ..., .vn). Elrango del espacio A, el subespacio de vectores de la forma Aw para todo w, es el espacio generado por las columnas1 a r de U : span(u1, ..., ur).

8. Sea Sn−1 la esfera unitaria en Rn: Sn−1 : x ∈ Rn : ‖x‖2 = 1. Sea A · Sn−1 la imagen de Sn−1 bajo A: A · Sn−1 =Ax : x ∈ Rny ‖x‖2 = 1. Entonces A · Sn−1 es un elipsoide centrado en el origen de Rm, con ejes principales σiui.

9. Escríbase V = [v1, v2, ..., vn] y U = [u1, ..., un] de modo que A = UΣV T =n∑i=1

σiuivTi (suma de matrices rango 1).

Entonces una matriz de rango k < n cercana a A (medida con ‖ · ‖2) es Ak =n∑i=1

σiuivTi , y ‖A − Ak‖2 = σk+1.

También se puede escribir Ak = UΣkVT , donde Σk = diag(σ1, ..., σk, 0, ..., 0).

Parte II

Uso de software

En esta parte nos enfocamos a dar una breve introducción a las paqueterías computacionales que se utilizan en elproyecto, con el n de que un usuario no experimentado tenga un primer contacto con el software. En las seccionesreferentes a la paquetería TDA de R y Javaplex de Matlab, pondremos código de referencia con comentarios donde se dauna breve explicación de lo que se hace en cada paso. En la sección dedicada a Mapper, explicamos sobre cada una de lasfunciones que incluye el programa

6. Paquetería TDA de R

6.1. Complejo Vietoris-Rips

El siguiente código es para hacer el cálculo de la homología usando la ltración Vietoris-Rips para un toro, la muestraes de tamaño 1000.

9

Page 343: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

#Tamaño de muestra para todas las simulaciones

n<-1000

d<-2

#########################################################################

#********************Caso normales independientes***********************#

#########################################################################

x<-matrix(0,n,2)

y<-matrix(0,n,2)

#Generamos dos muestras muestras de n elementos en S1

for(i in 1:n)

x[i,]<-c(rnorm(1),rnorm(1))

x[i,]<-x[i,]/(norm(as.matrix(x[i,]),"f"))

y[i,]<-c(rnorm(1),rnorm(1))

y[i,]<-y[i,]/(norm(as.matrix(y[i,]),"f"))

#Hacemos el producto S1xS1 para obtener el toro 4 dimensional.

X<-cbind(x,y)

#Proyectamos a R3, para poder visualizarlo

T2.NI=matrix(0,n,3)

for(i in 1:n)

T2.NI[i,]=X[i,3]*c(0,0,1)+(X[i,4]+2)*c(X[i,1],X[i,2],0)

#Exportamos la matriz de datos

write.matrix(T2.NI,"C:/ruta-a-exportar-datos/T2NI1000.txt")

#Cálculo de la homología

ini<-proc.time()

Diag<-ripsDiag(T2.NI,2,2,library="GUDHI",printProgress = FALSE)$diagram

par(mfrow=c(1,2),mai=c(0.8,0.8,0.3,0.1))

plot(Diag,main="Diagrama Rips")

plot(Diag, barcode=T, main="Código de barras")

finNI<-proc.time()-ini

finNI[3]

#Le agregamos ruido nuestra muestra

T2.NI.R05<-RuidoNormal(T2.NI,0.005)

write.matrix(T2.NI.R05,"C:/ruta-a-exportar-datos/T2NI1000R05.txt")

#Cálculo de la homología

#Realizamos justo el mismo cálculo que para la muestra sin ruido, sólo cambiando el nombre de la variable a T2.NI.R05

T2.NI.R1<-RuidoNormal(T2.NI,0.1)

write.matrix(T2.NI.R1,"C:/ruta-a-exportar-datos/T2NI1000R1.txt")

#Realizamos justo el mismo cálculo que para la muestra sin ruido, sólo cambiando el nombre de la variable a T2.NI.R1

# #Cálculo de la homología

La parte relevante en este código es

Diag<-ripsDiag(T2.NI,2,2,library="GUDHI",printProgress = FALSE)$diagram

El cual sólo es una parte de la serie de parámetros que podemos usar en

ripsDiag(X, maxdimension, maxscale, dist = "euclidean", library = "GUDHI",

location = FALSE, printProgress = FALSE)

10

Page 344: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

En lo anterior, X puede ser una matriz de datos sólo si dist=euclidean o ser una matriz de distancias entre n puntossólo si dist=arbitrary. maxdimension deber ser un número entero se reere a la dimensión máxima que le permitiremoscalcular al algoritmo (recordemos que 0 es la cantidad de componentes conexas, 1 componentes conexas y ciclos, etc.). distnos permite elegir entre euclidean donde utilizamos la distancia euclideana y arbitrary nos permite utilizar la distanciadada en el cálculo de la matriz de distancias. El parámetro library nos permite elegir entre los 3 posibles algoritmos decálculo de la homología, a saber PHAT, Dyonisus, GUDHI. En particular para este proyecto se utilizará la paqueteríaGUDHI pues se ha probado que es la más rápida de las 3. Utilizar una librería en particular nos restringe o da ventajasde cálculo entre las otras 2. El parámetro location nos regresa la ubicación de los puntos de nacimiento y muerte de cadacaracterística homológica. Por último, printProgress imprime una barra de progreso, así como el número de simplejoscalculados.

6.2. Bandas de conanza en diagramas de persistencia

Existe una manera de construir bandas de conanza para los diagramas de persistencia basados en ltraciones paraconjuntos de sub o supranivel para funciones como estimadores de densidades o funciones distancia. La estimación se basaen bootstrap (ver el capítulo 5 de las notas de clase para mayor referencia a este método).

Para construir una banda de conanza de nivel 1−α para una función usando bootstrap se sigue el siguiente algoritmo(se toma como referencia el estimador de densidad por kernel Gaussiano):

1. Dada una muestra X = x1, ..., xn, calcule el estimador de densidad ph.

2. Tome una muestra con reemplazo X∗ = x∗1, ..., x∗n de X = x1, ..., xn y calcule θ∗ =√n‖p∗h(x)− ph(x)‖∞, donde

p∗h es el estimador de densidad calculado usando X∗.

3. Repita el paso anterior B veces para obtener θ∗1 , ..., θ∗B .

4. Calcule qα = ınfq : 1

B

∑Bj=1 1

(θ∗j > q

)6 α

5. La banda de conanza de tamaño 1− α para E [ph] es

[ph − qα√

n, ph + qα√

n

].

El siguiente código calcula una banda de conanza de nivel 90 % para una nube de puntos X dada bajo el estimadorde densidad via kernel.

bootstrapBand(X = X, FUN = kde, Grid = Grid, B = 100, parallel = FALSE, alpha = 0.1, h = h)

En la última expresión, Grid es una rejilla de puntos previamente denida de la dimensión correspondiente a la nubede puntos, h es el ancho de banda del estimador kernel y B es el número de remuestreo en el algoritmo Bootstrap.

La relevancia estadística del método Bootstrap se detalla también en el Capítulo 5 de las notas del curso. Para másinformación sobre la utilización de la paquetería TDA y las características que contiene, por favor reérase a [4].

7. Javaplex en Matlab

Presentamos el código para el cómputo de los complejos testigo fuerte y débil, cuyos detalles se dieron en la Parte IIde este proyecto.

7.1. Complejo testigo fuerte

%Tiempo inicial del cálculo

tic;

%Parámetros para el cálculo de la homología persistente y selección de puntos de referencia.

X=importdata('C:/ruta-a-los-datos/datos.txt');

num_lpoints=100; %Número de puntos de referencia a utilizar.

L=api.Plex4.createMaxMinSelector(X,num_lpoints); %Método de selección de puntos de referencia.

R=L.getMaxDistanceFromPointsToLandmarks() %Distancia máxima entre los puntos de referencia y la nube de datos.

mfv=R/2; %Valor máximo de la filtración

mdim=3; %Dimensión máxima de interés

ndiv=100; %Número de elementos a calcular en la filtración

11

Page 345: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

%Creación del complejo Witness

stream=api.Plex4.createWitnessStream(L,mdim,mfv,ndiv);

%Número de simplejos en el cálculo

num_simplices=stream.getSize()

%Cálculo de la homología

persistence=api.Plex4.getModularSimplicialAlgorithm(mdim,2);

intervals=persistence.computeIntervals(stream);

%Opciones de graficación del código de barras

options.filename='Figura';

options.max_filtration_value=mfv;

options.max_dimension=mdim-1;

%Código de barras

plot_barcodes(intervals,options);

%Tiempo final del cálculo

toc

7.2. Complejo testigo débil

%Tiempo inicial del cálculo

tic

%Parámetros para el cálculo de la homología persistente y selección de

%puntos de referencia.

X=importdata('C:/ruta-a-los-datos/datos.txt');

num_landmark=100; %Número de puntos de referencia a utilizar

dim_max=3; %Dimensión máxima de interés.

nu=2; %Número de testigos en el complejo débil

num_div=100;

L=api.Plex4.createMaxMinSelector(X,num_landmark); %Selección de puntos de referencia

%Distancia máxima de los puntos de referencia a la nube de puntos

R=L.getMaxDistanceFromPointsToLandmarks()

vmf=R/2; %Máximo valor de la filtración.

%Creación del complejo simplicial testigo débil.

lazy=streams.impl.LazyWitnessStream(L.getUnderlyingMetricSpace(),L,dim_max,vmf,nu,num_div);

lazy.finalizeStream();

%Número de simplejos

lazy.getSize()

%Cálculo de la homología persistente

pers=api.Plex4.getModularSimplicialAlgorithm(dim_max,2);

intervalos=pers.computeIntervals(lazy);

%Opciones de graficación del código de barras

options.filename='Figura';

options.max_filtration_value=vmf;

options.max_dimension=dim_max-1;

%Código de barras

plot_barcodes(intervalos,options);

%Tiempo total del cálculo

toc

Para instrucciones sobre la instalación, así como mayores detalles sobre la librería, por favor reérase a [1]

8. Python Mapper

Para la instalación del software, favor de referirse a [5].La interfaz principal de Python Mapper es la siguiente:

12

Page 346: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016A continuación damos un detalle breve de las acciones que realiza cada sección.

En el Paso 1, podemos notar que existen tres apartados:

Example shapes Contiene una base de datos predeterminada, la cual contiene una muestra de datos tomada sobreobjetos 3D que representan diferentes animales.

Synthethic Shapes Nos permite generar muestras de datos del tamaño deseado sobre S1 y T 2, cabe destacar que laforma de generar los datos sobre T 2 no se da de manera uniforme como lo vimos en clase, los datos se ven comosigue:

Load Data Este apartado es de nuestro particular interés, pues aquí es donde llamamos el archivo de texto quecontiene los datos generados en las simulaciones que presentaremos más adelante, nuestro archivo no debe contenerencabezados, sólo debe contener los datos en forma matricial, automáticamente detecta el número de datos así comosu dimensionalidad.

13

Page 347: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

En el Paso 2 podemos encontrar dos opciones:

Ambient/Original metric En esta parte nos brinda tres opciones para la métrica denida sobre el espacio ambientede los datos: Euclideana, Minkowski y Chebyshev. Pero como el software se encuentra aún en fase de desarrollo sólopermite elegir la métrica euclideana.

Intrinsic metric Hace uso de la métrica intrínseca denida en la parte II de este trabajo a partir de la selección deun número apropiado de vecinos más cercanos, el mismo software nos puede arrojar un número de vecinos adecuadospara que el grafo creado en el conjunto de datos sea conexo.

En el Paso 3 es donde realizamos la selección del ltro para el análisis de los datos, en donde podemos elegir entre:

Exentricidad.

Distancia de k vecinos más cercanos.

Distancia a una medida.

Kernel Gaussiano.

Laplaciano de un grafo.

Descomposición SVD.

Sin ltro.

Así mismo, nos da la opción de centrar los datos mediante la media. También podemos modicar un ltro de maneraparticular mediante la introducción de ciertos parámetros en lter transformation.

Es aquí donde podemos ver cómo se colorean los puntos de acuerdo al ltro elegido.En el Paso 4 es donde podemos elegir nuestra cubierta de 3 posibles opciones:

Cubierta 1 dimensional uniforme.

Cubierta 1-dimensional balanceada.

Descomposición de subrango.

Así mismo, es posible elegir el porcentaje de traslape entre los intervalos así como la cantidad de estos. También esposible elegir el método de agrupamiento a utilizar:

Single linkage clustering.

Complete linkage clustering.

Average linkage clustering.

Weighted linkage clustering.

Median linkage clustering.

Centroid linkage clustering.

Ward linkage clustering.

Estos métodos de agrupamiento entran dentro de la categoría de agrupamiento jerárquico, cuyos detalles generalesdimos en la Parte I.

En esta misma sección podemos elegir el parámetro de corte (cuto ) el cuál no es otra cosa que la distancia máximaque se permite haya dentro de cada cluster, es decir, para cada subgrupo que se encuentre a una distancia mayor a esteparámetro son puestos en diferentes clústers.

El Paso 5 nos permite elegir el tipo de coloreado de los datos, por defecto se utiliza un espectro de azul a rojo, dondeazul determina el valor más pequeño brindado por el ltro y el rojo determina el valor más alto. Se pueden introducirdiferentes métodos de coloreado, por ejemplo que se base en la altura de la coordenada z de los puntos.

Un ejemplo de esto, es la simulación de datos de una gura con forma de camello en 3D, la cual consta de 21887puntos. En la gura 8 podemos ver en la segunda imagen cómo el algoritmo nos ayuda a explicar la estructura de la nubede datos, en la cual se destacan las cuatro extremidades y con una mayor concentración de puntos en rojo, la cabeza.

14

Page 348: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Figura 2: Simulación y análisis Mapper de una gura 3 dimensional.

15

Page 349: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Parte III

Análisis de características homológicas, geométricas y

de costo computacional

9. Contexto

La simulación base de variables aleatorias en el círculo, la esfera y el toro están fundamentadas en la teoría presentadapara este n en el Capítulo 4 de las notas del curso. La simulación de los elementos mostrados a continuación toman lasideas de simulación base y se hacen combinaciones de ellas, así como un par de variantes que se detallan en cada uno de loscasos presentados. Mostraremos la nube de datos, así como los códigos de barra respectivos a los cálculos de la homologíapersistente para los complejos simpliciales generados en la muestra mediante las ltraciones: Vietoris-Rips, testigo fuertey testigo débil, cuyos detalles se dan en los Capítulos 1 y 2 de las notas de clase, así como en la Parte I de este proyecto.Los grafos mostrados al nal de cada grupo de imágenes corresponden a la salida que entrega el algoritmo Mapper endimensión 1. También, se muestra una tabla que resume la interpretación sobre huecos de hasta dimensión 2 en el casode los algoritmos simpliciales Vietoris-Rips y Testigo, mientras que para Mapper tenemos sólo la capacidad de visualizarcaracterísticas geométricas de dimensión 1 puesto que el software Python Mapper que utilizamos se encuentra en fase dedesarrollo y aún faltan muchas cosas por ser implementadas en el mismo. En esta misma tabla, se anexan los tiempos deejecución de cada uno de los algoritmos para comparativa entre ellos mismos, de modo que se pueda percibir en cada casocuál de los algoritmos tienen un mejor comportamiento en el sentido de costo computacional. Nos referimos a los huecosde dimensión 1 como ciclos y a los dimensión 2 como vacíos, tal cual es acostumbrado en la literatura de ATD.

Los encabezados en cada subtipo de simulación que mostraremos a continuación se rigen de la siguiente manera:N(0,1) Con esto indicamos que cada una de las componentes Xi del vector Xd = (X1, ...Xd) tienen una distribución N(0, 1)

N(0,Σ),ρ En este caso, la matriz Σ tiene sobre su diagonal valores iguales a 1, mientras que fuera de la diagonal nos muestra la correlación queexiste entre cada par de variables, donde el(los) valor(es) ρ nos indican tal correlación. De manera particular, en el caso de el toro T2, lacorrelación ρ es en cada elemento simulado en las componentes S1 del producto S1 × S1.

GUE Este caso, las componentes de la variable Xd son los valores propios de una matriz aleatoria del tipo GUE, de las cuales sus característicasse detallan en el Capítulo 4 de las notas de clase.

Cauchy(0,a) En este caso, las componentes del vector Xd se distribuyen de manera independiente Cauchy(0, a), existen casos en donde sólo usamosa = 1 (Toro y esfera).

A partir de estas simulaciones, se construye el vector R = (X1/‖Xd‖, . . . , Xd/‖Xd‖) correspondiente a cada tipo de simulación. El tamañode muestra y el valor máximo de la ltración cuando usamos la ltración de Vietoris-Rips cambian respecto a la variedadque se este estudiando en cada caso, pues en ocasiones es necesario un valor menor o mayor dependiendo del tamaño delas variedades. Para los casos de S1 utilizamos muestras de tamaño 500 pues estas describen de buena manera al círculounitario. Para S2 utilizamos muestras de tamaño 1000 y para el T2 utilzaremos submuestras de tamaño 800 de una muestraoriginal de tamaño 1000. En el caso de los complejos testigo usamos la muestra completa de tamaño 1000 tanto para S2

y T2. Los valores máximos de las ltraciones de Vietoris-Rips fueron 1,0.8 y 2 respectivamente para S1,S2 y T2. En elcaso de las ltraciones para los complejos testigo, el valor máximo de la ltración varia con respecto a la muestra, el cualse calcula tomando una proporción de la distancia máxima existente entre los puntos de referencia y la nube de datoscompleta.

Al pie de cada imagen indicamos si la muestra simulada tiene ruido añadido o no. En cada caso, el ruido es N(0, σId),donde d es la dimensión del espacio ambiente donde está encajada cada una de nuestras nubes de datos. Cabe aclararque en el caso del toro T2, a pesar de que la simulación es de S1 × S1 cuya dimensión es 4, aplicamos un homeomorsmo(aplicación que nos conserva la topología del espacio) sobre el toro T2 = S1 × S1 a R3 para poder visualizarlo. Dichohomeomorsmo es:

f(x, y, w, z) = ((z + 2)x, (z + 2)y, w).

El fundamento teórico de Mapper está descrito también en la parte I de este proyecto, además en el análisis desarrolladoen esta simuliaciones, cuando nos referimos a las llamaradas estamos hablando de los grafos que no tienen ciclo (con formade ramas o brazos) y parten de una raiz común. El hecho de llamarlos así es una latinización de como Carlsson et al. [6] losllaman en su artículo, se reeren a ellos como ares haciendo referencia a las erupciones solares. Para este mismo resumen,estamos utilizando las primeras dos componentes de la descomposición SVD de la matriz de distancias de nuestras nubesde datos simuladas

Cabe señalar que las interpretaciones realizadas en cada una de las simulaciones son a ojo, pues se trató de implementarlas bandas de conanza descritas tanto en la Parte I de este proyecto como en el Capítulo 5 de las notas de clase, pero notienen un buen comportamiento al implementarlas en los diagramas calculados mediante la ltración de Vietoris-Rips, aún

16

Page 350: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

utilizando elección de un h óptimo en el caso de utilizar la función kernel en el comando bootstrapBand de la paquetríaTDA de R.

Las simulaciones con ruido se realizan utilizando el modelo

M + σZ, con σ > 0 y Z ∼ N(0, Id)

10. Circulo unitario

10.1. N(0,1)

Figura 3: Sin ruido

Algoritmo Componentes conexas Ciclos Tiempo (segs.)Vietoris-Rips(500) 1 1 1.22Testigo débil(30) 1 1 2.15Testigo fuerte(30) 1 1 0.65Mapper(500) 1 1 0.22

Podemos observar que no es ningún problema para los 4 algoritmos el encontrar que se trata de una sola componenteconexa, con un ciclo de dimensión 1.

Particularmente, observamos que la ltración Vietoris-Rips encuentra un poco de ruido respecto a las componentesconexas, pero ningún tipo de ruido al encontrar el hueco 1-dimensional. Mientras que ambos complejos testigo, tanto el

17

Page 351: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

fuerte como el débil, a pesar de tener sólo una décima parte del tamaño de la muestra, encuentra en el primer instante lahomología del círculo unitario S1.

Mapper es el más rápido de los 3 en encontrar dichas características.

10.2. N(0,1), ruido σ = 0.003

Figura 4: Ruido N(0, 0.03)

Algoritmo Componentes conexas Ciclos Tiempo (segs.)Vietoris-Rips(500) 1 1 1.25Testigo débil(30) 1 1 0.61Testigo fuerte(30) 1 1 0.64Mapper(500) 1 1 0.37

Al añadir un poco de ruido, notamos que el algoritmo Vietoris-Rips agrega bastante ruido topológico cercano a ladiagonal al calcular la persistencia del ciclo de dimensión 1; igualmente lo hacen ambos complejos testigo.

En el grafo que nos entrega de salida Mapper, observamos que detecta fácilmente el ciclo 1-dimensional, pero lasllamaradas que salen del grafo en color azul y rojo, denotan la existencia de una mayor concentración de puntos alrededorde este color, como podemos notarlo en la representación arriba a la izquierda de la nube de puntos. Los pequeños puntosdel centro, son puntos en los que el algoritmo no pudo agruparlos en ninguno de los clústers creados.

18

Page 352: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

10.3. N(0,1), ruido σ = 0.1

Figura 5: Ruido N(0, 0.1)

Algoritmo Componentes conexas Ciclos Tiempo (segs.)Vietoris-Rips(500) 1 1 1.21Testigo débil(30) 1 0 0.561Testigo fuerte(30) 1 0 0.564Mapper(500) 1 1 0.32

En este caso, al añadir un ruido más grande, observamos que el círculo que esperaríamos ver, se nota casi cerrado.La ltración Vietoris-Rips encuentra casi cercana a la diagonal la persistencia de un ciclo 1-dimensional (aquí es dondenos sería util la utilización de las bandas de conanza vistas en clase para poder determinar cuando algo cercano a ladiagonal es relevante para nuestro análisis).

En el caso de los complejos testigo, ambos encuentran rápidamente la componente conexa, pero se les diculta bastanteencontrar el agujero 1-dimensional, el que logran encontrar, en ambos casos, logra persistir hasta alrededor de 0.04.

En el último caso, Mapper logra detectar el hueco 1-dimensional, pero con más dicultad comparándolo con los doscasos anteriores, las llamaradas más largas que salen en este caso de los extremos nos indican la evidente concentraciónque tenemos alrededor de dicho hueco.

19

Page 353: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

10.4. N(0,Σ), ρ = 0.95

Figura 6: Sin ruido

Algoritmo Componentes conexas Ciclos Tiempo (segs.)Vietoris-Rips(500) 1 1 5.38Testigo débil(40) 2 0 0.56Testigo fuerte(40) 1 0 0.77Mapper(500) 2 0 0.79

A pesar de que podemos ver una separación notoria en la parte superior izquierda en la representación de nuesta nubede datos, la ltración Vietoris-Rips detecta en la homología sólo una componente conexa y un sólo ciclo, pero aquí cabedestacar que de principio logra detectar 3 componentes conexas, las cuales a un tiempo aproximado a 0.3 se cubren dos deéstas, dando paso a solo una componente conexa. Luego, cuando t = 0.5 aproximadamente, aparece el ciclo de dimensión1 que persiste hasta el nal del valor máximo de nuestra ltración.

En el caso del complejo testigo débil, es capaz de detectar dos componentes conexas que persisten y ningún ciclode dimensión 1. El complejo testigo fuerte logra detectar dos componentes conexas pero rápidamente se unen cuando laltración está alrededor de 0.05.

Mapper logra detectar dos componentes conexas, cuyos colores nos indican cuál es cada una de estas componentes. Lagran cantidad de grafos pequeños que encontramos en la parte inferior son los puntos que se encuentran entre las queMapper considera como las dos componentes conexas, nuevamente podemos utilizar el color de los nodos para determinaresto.

20

Page 354: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

10.5. N(0,Σ), ρ = 0.95, ruido σ = 0.005

Figura 7: Ruido N(0, 0.005)

Algoritmo Componentes conexas Ciclos Tiempo (segs.)Vietoris-Rips(500) 1 1 6.57Testigo débil(40) 2 0 0.54Testigo fuerte(40) 1 1 0.75Mapper(500) 2 0 0.31

Al añadir ruido, podemos notar que el hecho de que las variables tengan dependencia nos genera una acumulación dedatos en el sentido de la recta identidad, cuestión que no fuimos capaces de detectar cuando no había ruido.

Pero nuevamente, a la ltración Vietoris-Rips se le complica detectar la separación de la cual hablábamos en el casoanterior, misma que se da debido a la correlación de las variables. Esta algoritmo detecta al nal de la ltración sólo unacomponente conexa y un ciclo de dimensión 1.

El complejo testigo débil logra detectar 3 componentes conexas de inicio, las cuales se van uniendo a otra componenteconexa con el paso del tiempo. Para el caso del complejo testigo fuerte, podemos ver que sólo encuentra una componenteconexa y es capaz de detectar un ciclo de dimensión 1.

Mapper logra detectar dos componentes conexas y ruido entre ellas, esto debido a la densidad que existe en cada unode los clusters deidos por el algoritmo.

21

Page 355: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

10.6. N(0,Σ), ρ = 0.95, ruido σ = 0.1

Figura 8: Ruido N(0, 0.1)

Algoritmo Componentes conexas Ciclos Tiempo (segs.)Vietoris-Rips(500) 1 1 6.72Testigo débil(40) 1 0 0.63Testigo fuerte(40) 1 0 0.65Mapper(500) 1 1 0.28

En este caso podemos observar una clara distinción en dos grupos de datos en nuestra nube, a pesar de esto ydada la cercanía que existe entre los dos conjuntos de datos, los 4 resúmenes topológicos son capaces de detectar unasola componente conexa. También, todos los algoritmos son capaces de detectar un ciclo de dimensión 1, el cual muererápidamente por la distancia que existe entre los puntos. Las llamaradas largas que nalizan en naranja en el grafo deMapper nos indican cómo se da la concentración de datos y cómo se acumulan en una misma dirección.

22

Page 356: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

10.7. GUE

Figura 9: Sin ruido

Algoritmo Componentes conexas Ciclos Tiempo (segs.)Vietoris-Rips(500) 1 1 0.69Testigo débil(30) 1 1 0.72Testigo fuerte(30) 2 0 0.65Mapper(500) 2 0 0.59

Para el presente caso, volvemos a notar como se concentran los datos en dos componentes y que existe una repulsión enel la dirección y = x. En los 4 casos es posible detectar las dos componentes conexas. Claramente después de cierto tiempoen las ltraciones de Vietoris-Rips y en el testigo debil se unen las dos componentes para formar un ciclo de dimensión1, el cual no es detectado por el testigo fuerte. Debido a la técnica de clustering implementada en tiene Mapper, éste escapaz de detectar ambas componentes conexas y ninguna especie de puente entre ellas. Podemos observar que en estecaso todas realizan los cálculos en tiempos similares.

23

Page 357: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

10.8. GUE, ruido σ = 0.005

Figura 10: Ruido N(0, 0.005)

Algoritmo Componentes conexas Ciclos Tiempo (segs.)Vietoris-Rips(500) 1 1 0.72Testigo débil(30) 1 1 1.96Testigo fuerte(30) 1 1 0.68Mapper(500) 2 0 1.19

Similar al caso anterior, podemos observar que la ltración Vietoris-Rips detecta ambas componentes conexas y despuésde un tiempo dado estas se vuelven una para formar además, el ciclo 1-dimensional que esperariamos ver en S1.

El caso es ligeramente distinto para los complejos testigo, pues estos detectan una sola componente conexa desde elprincipio de la ltración, misma que pasado un tiempo se cierra y forma el ciclo 1-dimensional descrito en el código debarras.

Nuevamente, Mapper a pesar del ruido es capaz de detectar ambas componentes conexas y separa además el ruido quehace de puente entre las dos componentes causante de que las ltraciones al calcular la homología detecten como si setratara de una sola.

24

Page 358: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

10.9. GUE, ruido σ = 0.1

Figura 11: Ruido N(0, 0.1)

Algoritmo Componentes conexas Ciclos Tiempo (segs.)Vietoris-Rips(500) 1 1 0.49Testigo débil(30) 1 0 0.61Testigo fuerte(30) 1 0 2.02Mapper(500) 1 1 0.78

En esta situación, vemos que los 4 algoritmos detectan una sola componente conexa. El Vietoris-Rips logra captar elagujero 1 dimensional del centro y persiste de manera considerable para ser considerado como característica de los datos.

Los complejos testigo logran captar una componente conexa desde el principio de la ltración y encuentran pequeñosciclos 1-dimensionales, los cuales rápidamente mueren.

Por último, Mapper detecta también este ciclo, el cual nos hace ver que es pequeño a consideración de la densidad delos datos y cómo estos se concentran en una dirección particular, por eso es que podemos observar esas llamaradas quesalen del ciclo en el grafo.

25

Page 359: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

10.10. Cauchy(0,1)

Figura 12: Sin ruido

Algoritmo Componentes conexas Ciclos Tiempo (segs.)Vietoris-Rips(500) 1 1 2.17Testigo débil(40) 1 1 0.54Testigo fuerte(40) 1 1 0.57Mapper(500) 1 1 0.41

Este caso se comporta de una manera muy similar al primero de los mostrados, cuando las variables son N(0, 1). Aligual que en ese caso, las ltraciones Vietoris-Rips y ambas testigo, captan inmediatamente las características topológiasque debería presentar el círculo: una componente conexa y un solo ciclo 1-dimensional. Como podemos notar en losprimeros 3 códigos de barras, el ruido encontrado en cada caso es mínimo e inmediatamente dan paso a los números deBetti β0 = 1, β1 = 1.

En este ejemplo, hay una característica importante de que mencionábamos anteriormente que Mapper es capaz dedetectar, además de la componente conexa y el ciclo 1-dimensional, puede darnos detalle de cómo están concentrados losdatos alrededor de S1. En el grafo podemos ver que los puntos de color más fuerte tanto para el azul y el rojo son de mayortamaño. El hecho de que los nodos vayan decreciendo en diámetro nos indica que hay una alta concentración de puntos enlos polos; éste último detalle es lo que distingue las nubes de datos provenientes de cocientes de normales independientesy Cauchy independientes.

26

Page 360: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

10.11. Cauchy(0,1), ruido σ = 0.005

Figura 13: Ruido N(0, 0.005)

Algoritmo Componentes conexas Ciclos Tiempo (segs.)Vietoris-Rips(500) 1 1 7.08Testigo débil(40) 1 1 0.62Testigo fuerte(40) 1 1 0.54Mapper(500) 1 1 0.56

Es ahora cuando podemos notar la diferencia descrita en el caso anterior. Es posible observar cómo la concentración dedatos se da alrededor de los polos y en cierta medida en lo que sería la intersección con el eje x, lo cual también se puedenotar en el grafo que nos otorga Mapper en conjunto con las llamaradas que son notorias en el mismo. En el caso de las 3ltraciones restantes, podemos ver que son ecientes al encontrar la componente conexa y el ciclo 1-dimensional, efectiva-mente se encuentran con ruido, pero este queda muy cercano a la diagonal en el diagrama de persistencia correspondientea la ltración Vietoris-Rips. Por último, para los complejos testigo el ruido encontrado es casi nulo.

27

Page 361: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

10.12. Cauchy(0,1), ruido σ = 0.1

Figura 14: Ruido N(0, 0.1)

Algoritmo Componentes conexas Ciclos Tiempo (segs.)Vietoris-Rips(500) 1 0 6.84Testigo débil(40) 1 0 0.60Testigo fuerte(40) 1 0 1.15Mapper(500) 1 1 0.31

28

Page 362: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

10.13. Cauchy(0,3)

Figura 15: Sin ruido

Algoritmo Componentes conexas Ciclos Tiempo (segs.)Vietoris-Rips(500) 1 1 2.12Testigo débil(40) 1 1 0.56Testigo fuerte(40) 1 1 0.59Mapper(500) 1 1 0.35

Vemos que este caso es parecido al Cauchy(0,1), con la diferencia de que ahora la concentración de los puntos aumentasobre la intersección del eje x. Podemos decir entonces que dicha concentración de los datos es sobre los puntos cardinalesde S1. También es posible notar que tanto la ltración Vietoris-Rips, como las de los complejos testigo no tienen problemaalguno en detectar la única componente conexa, así como el hueco 1-dimensional.

Esta vez, es más evidente en el grafo arrojado por Mapper que hay una mayor concentración sobre los polos, asímismo es posible notar concentración en los otros dos puntos cardinales. Esta concentración se ve aumentada conformeincrementamos el valor de a en la distribución de Cauchy.

29

Page 363: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

10.14. Cauchy(0,3), ruido σ = 0.005

Figura 16: Ruido N(0, 0.005)

Algoritmo Componentes conexas Ciclos Tiempo (segs.)Vietoris-Rips(500) 1 1 7.22Testigo débil(40) 1 1 0.57Testigo fuerte(40) 1 1 0.59Mapper(500) 1 1 0.56

A diferencia con respecto al caso sin ruido, podemos notar ruido topológico en el cálculo de la homología, el cual se vereejado en la ltración Vietoris-Rips. Para los complejos testigo el ruido topológico es apenas perceptible en la dimensión1. Por último, en Mapper podemos notar la presencia de ruido por las llamaradas que salen del grafo y en una mayorconcentración sobre los nodos cercanos a estas.

30

Page 364: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

10.15. Cauchy(0,3), ruido σ = 0.1

Figura 17: Ruido N(0, 0.1)

Algoritmo Componentes conexas Ciclos Tiempo (segs.)Vietoris-Rips(500) 1 0 7.17Testigo débil(40) 1 0 0.64Testigo fuerte(40) 1 0 0.84Mapper(500) 1 1 0.30

Por último, vemos que como en los casos anteriores, es difícil para los algoritmos de los complejos simpliciales encontrarel hueco 1-dimensional que logramos percibir a vista en la nube de datos. Mapper logra encontrar el ciclo, asi como laconcentración perceptible en mayor nivel alrededor de éste.

11. Doble anillo

11.1. N(0, 1)

Generamos dos juegos de variables independientes mediante la distribución cociente de normales que dan lugar a ladistribución uniforme en S1. Cada muestra es de tamaño n = 5000. Cabe destacar que ambos anillos no se tocan de algunamanera.

31

Page 365: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Figura 18: Sin ruido

Algoritmo Componentes conexas Ciclos Tiempo (segs.)Vietoris-Rips(2000) 2 2 17.05Testigo débil(150) 2 2 4.17Testigo fuerte(150) 2 2 28.84Mapper(10000) 2 2 4.77

Para este caso, podemos ver cómo ninguna de las ltraciones, ni el algoritmo Mapper tienen problemas para detectardos componentes conexas y dos ciclos 1-dimensionales. En el caso Vietors-Rips, los puntos que representan tanto a lascomponentes conexas, como a los 1-ciclos están sobrepuestas en el diagrama de persistencia respectivo.

Una de las diferencias destacables es que el tiempo de cálculo en los complejos testigo es mucho menor. Además, parapoder calcular la homología en el caso de la ltración Vietoris-Rips, fue necesario tomar una submuestra de tamaño 2000,esta muestra fue tomada de forma aleatoria. Mapper no tiene ningún problema en manejar la muestra completa, estodebido a los algoritmos de agrupamiento utilizados y la simplicidad de grafo calculado.

32

Page 366: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

11.2. N(0, 1), ruido σ = 0.002

Figura 19: Ruido N(0, 0.002I3)

Algoritmo Componentes conexas Ciclos Tiempo (segs.)Vietoris-Rips(2000) 2 2 26Testigo débil(150) 2 2 14.9Testigo fuerte(150) 2 2 17.51Mapper(10000) 2 2 4.29

Nuevamente, ninguno de los algoritmos tuvo problema en detectar las dos componentes conexas y los dos ciclos. En estaocasión el tiempo de cálculo en el testigo débil se triplicó y el tiempo en el cálculo de la ltración Vietoris-Rips también sevió incrementado por casi 10 segundos, esto puede deberse a la presencia del ruido, lo que hace que se encuentren muchomás simplejos durante la ltración. Mapper mantiene su posición y realiza el cálculo de manera muy rápida comparadocon los otros 3 métodos, encontrando las mismas características que la vez anterior a ésta.

33

Page 367: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

11.3. N(0, 1), ruido σ = 0.009

Figura 20: Ruido N(0, 0.009I3)

Algoritmo Componentes conexas Ciclos Tiempo (segs.)Vietoris-Rips(000) 1 3 14.07Testigo débil(150) 1 3 18.19Testigo fuerte(150) 1 3 109.08Mapper(10000) 1 3 6.2

En este caso, podemos notar que los cuatro métodos son capaces de encontrar una sola componente conexa y localizantres ciclos, esto puede deberse a que en la presencia de ruido grande, los dos anillos casi se tocan, por lo que es difícilpara los algoritmos notar que se trata de componentes conexas distintas, además, dicha unión crea los tres 1-ciclos quedetectan las distintas ltraciones.

34

Page 368: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

12. Esfera unitaria

12.1. N(0,1)

Figura 21: Sin ruido

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)Vietoris-Rips(1000) 1 0 1 44.36Testigo débil(100) 1 0 1 1.47Testigo fuerte(100) 1 0 1 1.32Mapper(1000) 1 0 - 0.77

Al igual que como se ha presentado hasta el momento en las muestras sin ruido, tanto las ltraciones Vietoris-Ripscomo las testigo débil y fuerte, son capaces de encontrar la componente conexa y el vacío 2-dimensional que representanhomológicamente a la esfera S2. Aunque podemos ver que, tanto la ltración Vietoris-Rips, como la del complejo tes-tigo testigo fuerte, encuentran ruido topológico 1-dimensional, pero este persiste poco tiempo para ser considerado unapropiedad topológica relevante de la muestra.

Como mencionamos al principio, uno de los problemas que tenemos actualmente con el algoritmo Mapper, es que nopodemos mostrar aún propiedades homológicas 2-dimensionales, sólamente somos capaces de mostrar la estructura de losdatos, que en este caso sólo nos dice que se trata de una componente conexa, y debido a que cada grupo generado medianteel agrupamiento, todos son del mismo tamaño, esto puede se debe a la uniformidad con la que se generaron los datos enla esfera.

35

Page 369: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

12.2. N(0,1), ruido σ = 0.005

Figura 22: Ruido N(0, 0.005)

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)Vietoris-Rips(1000) 1 0 1 44.36Testigo débil(100) 1 0 1 2.22Testigo fuerte(100) 1 0 1 2.6Mapper(1000) 1 0 - 0.67

En esta situación, podemos notar que la presencia de ruido 1-dimensional se comporta de manera similar al caso enel que no teníamos ruido añadido a la muestra, pero el ruido topológico de dimensión 2 aumenta bastante, aunque estese encuentra muy cerca de la diagonal. Este ruido 2-dimensional casi no es detectado por los complejos testigo, pero en elcaso del testigo débil se ve aumentada la actividad del ruido 1-dimensional. Para Mapper, el resultado de salida no se veperturbado en comparación al caso anterior.

36

Page 370: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

12.3. N(0,1), ruido σ = 0.1

Figura 23: Ruido N(0, 0.1)

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)Vietoris-Rips(1000) 1 0 0 13.63Testigo débil(100) 1 0 0 16.1Testigo fuerte(100) 1 0 0 19.11Mapper(1000) 1 0 - 0.92

Al aumentar el tamaño del ruido, vemos que la esfera se ve colapsada en una sola nube de puntos aglomerados, locual detectan los algoritmos de complejos simpliciales. Podemos notar una mayor presencia de ruido 1 y 2 dimensional entodos los casos, pero dicha presencia es mucho más evidente en el caso del Vietoris-Rips. También, podemos notar que enesta situación el tiempo del cálculo se ve disminuido en el VR a comparación del caso anterior. En esta situación, Mappernos describe muy poco de la estructura de nuestros datos dada la naturaleza del algoritmo.

37

Page 371: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

12.4. N3(0,Σ), ρ = (0.9, 0.5, 0.8)

Figura 24: Sin ruido

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)Testigo débil(100) 1 2 0 16.1Testigo fuerte(100) 1 2 0 19.11Mapper(1000) 1 4 - 0.92

Para esta situación, sólo corrimos el análisis para Mapper y los complejos testigo, pues en el caso de la ltración Vietoris-Rips fue imposible para el equipo de cómputo en el que estamos trabajando realizar los cálculos de la homología. Paralos casos que presentamos, podemos ver que encuentran una sola componente conexa, así como 2 ciclos 1-dimensionales.También podemos ver que todos los algoritmos encuentran presencia de más ruido 1-dimensional.

38

Page 372: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

12.5. GUE

Figura 25: Sin ruido

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)Vietoris-Rips(1000) 1 1 0 138.82Testigo débil(100) 1 1 0 3.46Testigo fuerte(100) 1 1 0 2.19Mapper(1000) 2 0 - 0.63

A pesar de lo que podemos ver en la representación gráca de la nube de puntos, la ltración Vietoris-Rips detecta unasola componente conexa además de un ciclo 1-dimensional, aunque podemos observar que existen 3 puntos que podríamosconsiderar relevantes además del que persiste hasta el nal de la ltración.

Los complejos testigo no son capaces más que de detectar una sola componente conexa, pero aquí podemos ver que seencuentran un número mayor de 1-ciclos que persisten un buen tiempo en la ltración. También, podemos ver que estasltraciones notan que la esfera no está cerrada, ya que no encuentran algún vacío de dimensión 2.

Por último, Mapper no detecta ciclos uno dimensionales como tal, si no que podríamos considerarlos como ruido al serdemasiados pequeños, podemos ver que detecta dos componentes conexas, una probable explicación de las 3 llamaradasen cada grafo, es que podrían ser cada uno de los gajos que podemos ver y que estas posibles dos componentes conexas sevean separadas por donde hay una mayor repulsión, al centro de la esfera.

39

Page 373: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

12.6. GUE, ruido σ = 0.005

Figura 26: Ruido N(0, 0.005)

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)Vietoris-Rips(1000) 1 0 0 138.82Testigo débil(100) 1 0 1 5.63Testigo fuerte(100) 1 0 0 4.81Mapper(1000) 2 0 - 0.73

En esta situación podemos observar de manera visual como es que los gajos que podíamos ver anteriormente, compartenpuntos entre ellos, razón por la cual es aún más difícil para los algoritmos simpliciales detectarlos, detalle que podemosobservar en los códigos de barras asociados a cada ltración. Nuevamente podemos ver que los tres algoritmos simplicialesdetectan al menos un ciclo de dimensión 1 al nal de la ltración, pero también se detecta mucho más ruido de estadimensión, mientras que para dimensión 2, el ruido es casi imperceptible en los 3 casos.

En el caso de Mapper, podemos observar cómo se fusionan las dos componentes conexas detectadas anteriormente,pero dicho puente entre ellas es débil y apenas contiene puntos en común, cosa que podemos observar en el tamaño delos vértices centrales, esto indica una baja densidad en cada uno de estos grupos; así mismo, somos capaces de observarnuevamente al menos 4 llamaradas.

40

Page 374: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

12.7. GUE, ruido σ = 0.1

Figura 27: Ruido N(0, 0.1)

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)Vietoris-Rips(1000) 1 1 0 27.63Testigo débil(100) 1 0 0 5.86Testigo fuerte(100) 1 0 0 19.13Mapper(1000) 1 0 - 0.85

En este caso, podemos ver cómo los gajos que observamos anteriormente ya no existen, se han unido todos comouna sola componente conexa y por tanto en esta ocasión los 3 algoritmos simpliciales alcanzan a detectar ruido de hastadimensión dos, habiendo algunos que persisten fuertemente. También notemos en el Diagrama de Rips que se encuentranmuchas más componentes conexas que las que podría detectar cualquiera de los otros algoritmos. Mapper sólo alcanza anotar una componente conexa, en cuyo caso el comportamiento del grafo es similar a los correspondientes formados porlas esferas que hemos simulado hasta ahora.

41

Page 375: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

12.8. Cauchy(0,1)

Figura 28: Sin ruido

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)Vietoris-Rips(1000) 1 0 1 130.83Testigo débil(100) 1 0 1 1.7Testigo fuerte(100) 1 0 1 2.33Mapper(1000) 1 0 - 0.69

Para el caso Cauchy, podemos observar claramente tanto en las ltraciones Vietoris-Rips como ambas de los complejostestigo cómo es que se detectan una sola componente conexa y un vacío 2-dimensional tal cual se tratase de una esfera,pesar de que estos algoritmos detectan ruido 1-dimensional. Mapper es capaz de detectar cómo se da la concentración enlos puntos cardinales de la esfera, es por eso que podemos ver llamaradas con un centro en común y cuyas puntas se vencargadas con una mayor densidad de puntos.

42

Page 376: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

12.9. Cauchy(0,1), ruido σ = 0.005

Figura 29: Ruido N(0, 0.005)

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)Vietoris-Rips(1000) 1 0 1 98.17Testigo débil(100) 1 0 1 3.49Testigo fuerte(100) 1 0 1 2.01Mapper(1000) 1 0 - 0.73

En esta ocasión, podemos ver cómo las características homológicas detectadas por los 3 algoritmos simpliciales tienenun comportamiento similar a la situación anterior, pero Mapper nos indica cómo se crea un nuevo grupo de concentraciónde puntos en la esfera.

43

Page 377: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

12.10. Cauchy(0,1), ruido σ = 0.1

Figura 30: Ruido N(0, 0.1)

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)Vietoris-Rips(1000) 1 0 0 19.63Testigo débil(100) 1 0 0 4.68Testigo fuerte(100) 1 0 0 2.47Mapper(1000) 1 0 - 0.64

Al igual que en el caso GUE, podemos ver cómo se cierra la esfera en una nube densa de puntos que, para la ltraciónVietoris-Rips es imposible detectar más allá de una componente conexa, sólo ruido 1 y 2 dimensional, cuyo comportamientocomparte con las ltraciones de los complejos testigo débil y fuerte. Igualmente, Mapper sólo alcanza a detectar uncomportamiento similar al de una esfera, salvo que no podríamos decir más pues como hemos estado mencionando, somosincapaces de inferir características homológicas de dimensión 2 o mayor.

13. Toro

En cada uno de los casos que presentamos a continuación, se cambió la organización de los resúmenes topológicos. Laimagen de la nube de datos a la izquierda corresponde al grafo superior y la imagen de la nube de datos a la derechacorresponde al grafo inferior. Así mismo, el cálculo de la homología mediante la ltración Vietoris-Rips se realizó con unasubmuestra de tamaño 800.

44

Page 378: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

13.1. N(0,1)

Figura 31: Sin ruido

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)Vietoris-Rips(800) 1 2 1 1060.79Testigo débil(100) 1 2 1 3.42Testigo fuerte(100) 1 2 1 1.12Mapper(1000) 1 2 - 0.79

Podemos ver que Mapper es capaz de localizar una componente conexa y los dos ciclos de dimensión 1. Igualmente,los complejos testigo detectan una componente conexa, dos ciclos de dimensión 1 y un vacío 2 dimensional, aunque enel caso del testigo débil, podemos ver que el vacío 2 dimensional aparece casi al nal de la ltración y su persistencia escorta hasta ese instante. Así mismo, podemos ver que se ubica bastante ruido 1 dimensonal en ambos complejos testigo,pero con mayor presencia en el testigo fuerte.

45

Page 379: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

13.2. N(0,1), ruido σ = 0.005

Figura 32: Ruido N(0, 0.005)

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)Vietoris-Rips(800) 1 2 1 1092.66Testigo débil(100) 1 2 1 1.37Testigo fuerte(100) 1 2 1 0.89Mapper(1000) 1 2 - 0.67

En este caso, ninguno de los algortimos tiene problemas en detectar la única componente conexa, los dos agujeros 1dimensionales así como el vacío 2 dimensional respectivos del toro. Podemos notar en los tres algoritmos simpliciales queexiste ruido, pero en el caso de Vietoris-Rips este se encuentra bastante cercano a la diagonal, mientras que para ambasltraciones testigo se tiene bastante ruido 1 dimensional que persiste casi hasta la mitad de la ltración. En el caso deMapper, es capaz de detectar ambas componentes conexas, así como los dos agujeros 1 dimensionales.

46

Page 380: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

13.3. N(0,1), ruido σ = 0.1

Figura 33: Ruido N(0, 0.1)

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)Vietoris-Rips(800) 1 0 0 716.3Testigo débil(100) 1 0 0 1.99Testigo fuerte(100) 1 0 0 1.14Mapper(1000) 1 0 - 0.88

Como es de esperarse, ninguno de los algoritmos es capaz de detectar los ciclos, esto debido a cómo se cierra la nube depuntos. Vietoris Rips tampoco detecta más que ruido en el caso 2 dimensional, pero podemos notar varias componentesde este tipo que pueden ser consideradas relevantes en ambas ltraciones testigo, también, estas mismas nos muestranbastante ruido 1 dimensional en la persistencia. Todos los algoritmos son capaces de detectar una sola componente conexa.Mapper no detecta esta vez algún ciclo.

47

Page 381: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

13.4. N(0,Σ), ρ = 0.9

Figura 34: Sin ruido

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)Vietoris-Rips(800) 1 2 1 1411.11Testigo débil(100) 1 2 1 3.29Testigo fuerte(100) 1 5 0 12.98Mapper(1000) 1 2 - 0.65

En este caso, podemos ver que Mapper es capaz de detectar una sola componente conexa, dos ciclos grandes yalrededor de 4 ciclos más pequeños pequeños. Mientras que Vietoris Rips detecta una sola componente conexa, 1 ciclo quees notable, pero también logra percibir otros 3 ciclos cuya persistencia es menor pero destacable tanto en el diagrama depersistencia como en el código de barras. En el caso de los complejos testigo, podemos ver que el débil alcanza a detectaruna componente conexa, dos ciclos de mayor persistencia, pero alrededor de 3 ciclos más cuya persistencia es notoria enel código de barras, mientras que en el fuerte además de una componente conexa, podemos ver que al nal de la ltraciónpersisten 5 ciclos pero son notorios alrededor de 5 más a lo largo de la ltración.

48

Page 382: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

13.5. N(0,Σ), ρ = 0.9, ruido σ = 0.005

Figura 35: Ruido N(0, 0.005)

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)Vietoris-Rips(800) 1 2 1 1375.27Testigo débil(100) 1 2 1 0.88Testigo fuerte(100) 1 6 0 1.26Mapper(1000) 1 2 - 0.66

Mapper detecta una componente conexa con bastante ruido alrededor de ella, dos ciclos grandes y otros dos ciclosmás pequeños, así mismo podemos notar una concentración mayor en la parte central y en una de las laterales mismaque se alcanza a apreciar tanto en el coloreado de los nodos como en el tamaño de los mismos. Vietoris-Rips deecta alnal de la ltración una componente conexa pero alrededor de 4 0 5 ciclos destacables, aunque es más difícil determinarcuantos vacíos podemos considerar relevantes en la ltración. Los complejos testigo detectan ambos una sola componenteconexa, pero mientras el débil detecta dos ciclos destacables y un vacío 2 dimensional, el complejo testigo fuerte detectaal menos 5 ciclos 1 dimensionales.

49

Page 383: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

13.6. N(0,Σ), ρ = 0.9, ruido σ = 0.1

Figura 36: Ruido N(0, 0.1)

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)Vietoris-Rips(1000) 1 0 0 897.52Testigo débil(100) 1 0 0 2.09Testigo fuerte(100) 1 0 0 1.34Mapper(1000) 1 0 - 0.82

Cuando añadimos ruido cuyo valor es σ = 1, podemos ver como se cierra la nube de puntos en una sola componenteconexa, situación que podemos observar en los resúmenes que tenemos de cada uno de los métodos. Nuevamente, losalgoritmos simpliciales correspondientes a los complejos testigo además de la única componente conexa, detectan bastanteruido 1 dimensional que persiste bastante tiempo en la ltración, así como dos vacíos que persisten un buen lapso detiempo en el testigo débil, mientras que para el fuerte también detecta al menos 3 vacíos que persisten una cantidadsimilar de tiempo en la ltración. En el caso de Mapper se detecta una sola componente conexa, pero cuando utilizamosel segundo valor de la SVD podemos ver cómo el ciclo aquí presente se ve afectado por ruido.

50

Page 384: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

13.7. GUE

Figura 37: Sin ruido

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)Vietoris-Rips(1000) 1 2 0 332.86Testigo débil(100) 1 7 1 1.23Testigo fuerte(100) 1 4 0 0.84Mapper(1000) 1 2 - 0.68

Similar a los casos anteriores, podemos ver en el algoritmo Vietoris Rips que solo detecta una componente conexay en las demás dimensiones solo ruido que podríamos considerar irrelevante. En el caso de los complejos testigo, ambosdetectan una componente conexa y ruido 2 dimensional que persiste durante buena parte de la ltración, mientras quepara el ruido 1 dimensional, se tiene un comportamiento similar a casos anteriores, vemos que se detecta bastante y hayalgunos ciclos que persisten durante bastante tiempo en la ltración.

51

Page 385: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

13.8. GUE, ruido σ = 0.005

Figura 38: Ruido N(0, 0.005)

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)Vietoris-Rips(1000) 1 2 0 367.48Testigo débil(100) 1 7 0 1.21Testigo fuerte(100) 1 2 0 0.81Mapper(1000) 1 1 - 0.87

En este caso podemos ver cómo Mapper detecta al menos 5 ciclos pequeños y uno de tamaño un poco mayor, así comouna sola componente conexa. Los tres algoritmos simpliciales detectan una sola componente conexa. En el caso de VietorisRips, podemos ver que se encuentran 2 ciclos que podríamos considerar destacables, pero ningún vacío. En los casos delos complejos testigo, ninguno de los detecta algún vacío, pero si encuentran bastantes ciclos 1 dimensionales que son másfáciles de ver en el código de barras correspondiente al complejo testigo débil.

52

Page 386: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

13.9. GUE, ruido σ = 0.1

Figura 39: Ruido N(0, 0.1)

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)Vietoris-Rips(1000) 1 0 0 250.96Testigo débil(100) 1 0 0 1.57Testigo fuerte(100) 1 0 1 1.24Mapper(1000) 1 0 - 0.85

A pesar de que todos los algoritmos nos dicen que se encuentra una sola componente conexa, podemos notar de maneravisual en la representación de nuestra nube de puntos la ligera separación que crean las variables GUE al centro de lamisma. Nuevamente, todos los algoritmos simpliciales detectan bastante ruido 1 y 2 dimensional, pero al igual que en loscasos anteriores, los complejos testigo presentan mucho mayor ruido de estas dimensiones que persiste periodos más largosen proporción al tiempo total de la ltración.

53

Page 387: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

13.10. Cauchy(0,1)

Figura 40: Sin ruido

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)Vietoris-Rips(1000) 1 2 1 298.814Testigo débil(100) 1 2 0 1.19Testigo fuerte(100) 1 2 1 0.84Mapper(1000) 1 2 - 0.95

Como hemos visto hasta ahora en los casos para S1 y S2, cuando simulamos variables independientes Cauchy(0,1), elcomportamiento es similar al caso en el que tenemos variables normales independientes de media µ = 0 y varianza σi = 1,cuestión que podemos notar cierta limpieza, tanto del código de barras como el diagrama de persistencia en la ltraciónVietoris-Rips. Sin embargo, podemos ver cómo en el caso de las ltraciones testigo, se encuentra un alto número de ciclosque consideramos como ruido pero de alguna manera nos indican alguna anormalidad en los datos, en comparación conla distribución uniforme sobre la esfera. En el caso de Mapper podemos ver cómo se extienden las llamaradas en ambasproyecciones sobre los primeros vectores propios.

54

Page 388: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

13.11. Cauchy(0,1), ruido σ = 0.005

Figura 41: Ruido N(0, 0.005)

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)Vietoris-Rips(1000) 1 2 1 285.94Testigo débil(100) 1 2 0 1.21Testigo fuerte(100) 1 2 1 0.83Mapper(1000) 1 2 - 0.71

En este caso, es mucho más perceptible para Mapper la concentración en al menos dos puntos de T2, cosa que siguepasando desapercibida para la ltración Vietoris-Rips. Nuevamente podemos ver alta presencia de ruido 1 dimensional enambos complejos testigo, además el testigo débil no logra notrar la presencia del vacío 2 dimensional que tanto la fuertecomo la Vietoris-Rips detectan.

55

Page 389: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

13.12. Cauchy(0,1), ruido σ = 0.1

Figura 42: Ruido N(0, 0.1)

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)Vietoris-Rips(1000) 1 0 0 227.2Testigo débil(100) 1 0 0 1.86Testigo fuerte(100) 1 0 0 1.8Mapper(1000) 1 0 - 0.6

Este caso no es diferente a sus análogos en las demás situaciones de simulación, tanto Mapper como Vietoris Rips sonincapaces de detectar ciclos 1 y 2 dimensionales, encontrando este último bastante ruido en estas dimensiones. Ambasltraciones testigo detectan bastante ruido 1-dimensional, además de la única componente conexa que sus otras doscontrapartes, pero en esta situación el ruido persiste una cantidad de tiempo mucho más corta que lo que hemos venidoviendo en comportamiento hasta ahora para todos los casos del Toro; también, las ltraciones testigo pueden detectar almenos 2 vacíos 2 dimensionales que persisten bastante tiempo.

56

Page 390: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Parte IV

Observaciones y conclusiones

En este proyecto, como el lector pudo haberlo constatado, estamos trabajando con escenarios que están bajo nuestrocontrol, pues como se comenta en la parte introductoria al Capítulo 4 de las notas, nos permite analizar los métodospresentados en el curso ante supuestos alternativos. Así mismo, sabemos qué tipo de información homológica y geométricadeben entregarnos los algoritmos, de modo que el análisis explotatorio realizado en la Parte III nos sirvió como guía paradeterminar de buena manera tamaños de submuestra que hagan ecientes nuestros cálculos y que además preserven laforma de los datos.

A continuación mencionamos algunos detalles que encontramos sobre el algoritmo simplicial de Vietoris-Rips imple-mentado en la paquetería TDA de R.

El cálculo de la homología mediante la ltración de Vietoris-Rips implementada en la paquetería TDA de R, muyparticularmente para el toro T2, pudimos ver que una muestra de tamaño menor a 800 puntos, se comporta de unamanera amigable con el equipo de cómputo, mientras que para muestras de tamaño mayor a este número, el sistemaoperativo se queda sin recurso suciente para seguir funcionando. Cabe aclarar que el tamaño de la ltración estaba en 2,pues antes de esto no captaba algunas características homológicas que debíamos esperar. Así pues, además del tamaño demuestra, también inuye bastante tanto el tamaño de la ltración, como la dimensión en la que se calcula la homología.De modo que tuvimos que buscar hacer combinaciones entre tamaño de muestra y de la ltración, de forma tal que losrecursos computacionales no se vieran fuertemente afectados.

En el caso de la esfera, el algoritmo de Vietoris-Rips no tiene problema en calcular la homología para una nube dedatos de tamaño 1000. A diferencia del toro, el valor de la ltración de 0.7 captura todas las características homológicasde S2. Así pues, como mencionamos en el párrafo anterior, es posible encontrar una combinación en equilibrio entre eltamaño de muestra y el valor máximo de la ltración.

Al realizar los cálculos sobre el círculo unitario S1, dada su baja dimensión, el algoritmo no tiene complicaciones entrabajar con muestras de tamaño 1000 o superior, tomando en cuenta que el valor máximo de la ltración era a lo más 1.

Cuando agregamos ruido pequeño a nuestra nube de datos, pudimos observar que la detección de las característicashomológicas en rara ocasión se vió afectada, pues el comportamiento en los códigos de barras y en los diagramas depersistencia se mantiene de manera similar, salvo ruido topológico que podríamos considerar despreciable. De tal modoque es necesario implementar bandas de conanza para distinguir características reales de ruido topológico. También, paracada caso, cuando añadimos ruido más grande, pudimos notar como las características detectadas para los casos sin ruidoy con ruido pequeño se perdían la mayoría de las veces.

En cambio, cuando hacemos uso de los complejos testigo tenemos un comportamiento en costo computacional diferente.En el caso del círculo unitario S1 bastó tomar una selección de puntos de referencia no mayor a tamaño 40 para que éstecapturara las características homológicas particulares de esta variedad. En el caso de la esfera S2 y el toro T2, la selecciónde puntos de referencia siempre fue ja en 150 puntos, en ambos casos, el algoritmo detectaba de manera eciente lascaracterísticas homológicas de interés en los casos sin ruido e incluso con ruido pequeño. Al añadir ruido grande, elalgoritmo tenía un comportamiento similar al VR en el sentido de que las características homológicas se perdían, pues noera capaz de detectarlas. El tiempo de ejecución de los complejos testigo es mucho menor en comparación al Vietoris-Ripsen el caso de muestras grandes, pero hay ocasiones en las que no es capaz de detectar de manera correcta las característicashomológicas, esto puede deberse al tamaño del conjunto de puntos de referencia tomado. Nótese también que los valoresen estas ltraciones varian con respecto a la muestra, pues como indicamos en la Parte III, al presentar los complejostestigo, es necesario un valor pequeño en la ltración para capturar de manera eciente las características que describena cada variedad, este valor de la ltración fue tomado en función de la distancia máxima que existe entre los puntos dereferencia y la nube de datos completa.

A pesar de la eciencia en tiempo comparado ante los otros dos métodos, una de las problemáticas principales quetenemos con Mapper es que estamos restringidos sólo a detectar huecos de dimensión 0 y 1, esto debido a que el softwarese encuentra aún en fase de desarrollo. Se intentó modicar el código madre del software para tratar de implementarlo enhuecos de dimensión 2, pero esa situación va más allá de los alcances pretendidos en este proyecto así como del curso.

Mapper es bastante bueno al ser utilizado como herramienta complementaria a los resúmenes topológicos presentadosen este proyecto, pues nos permite darnos una idea de las estructura de los datos, así como posibles concentracionesanormales de datos en las variedades. Así mismo, los complejos testigo también pueden ayudar como una segundaopinión a lo obtenido mediante la ltración Vietoris-Rips.

Una de las cosas que también se estuvo trabajando en este proyecto, es en la eliminación de datos aberrantes (outliers)de las muestras, pero no se reporta debido a que su funcionamiento no es eciente, pues suceden dos cosas, o eliminademasiados puntos de modo que se pierden las características homologícas y geométricas de los datos, o elimina muy

57

Page 391: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

pocos puntos de tal manera que las características aberrantes tanto geométricas como homológicas se mantienen.Nota: Todas las simulaciones se corrieron bajo un procesador x6 a 3.5GHz con 16GB de memoria RAM hasta los

casos de la esfera. Para el toro sólo pudimos realizar los cálculos con estas características para los complejos testigo y paraMapper. En el caso de la ltración de Rips fue imposible realizar los cálculos de la homología para una nube de puntosmayor a 800, para la cual incluso el tiempo de cómputo fue bastante grande (más de 1 hora para cada uno), razón por lacual decidimos usar el la estación de trabajo del proyecto de ATD. Incluso el servidor del proyecto de ATD fue incapaz derealizar los cálculos para las nubes de puntos de tamaño 1000 en un tiempo no menor a 1 hora con 20 minutos. Las razonesdescritas anteriormente nos llevo a realizar los cálculos de la homología tomando submuestras de tamaño 800 corriéndolosen la estación de trabajo, en promedio les tomó alrededor de 20 a 30 minutos cada uno en realizarse. Dependiendo delnúmero de puntos y de la distribución con la que se generaron las muestras, la cantidad de memoria RAM que utilizabael algoritmo se veía bastante alterada, llegando a consumir un 80 % de la totalidad de memoria del servidor cuando lasmuestras eran de tamaño 1000 y estaban sobre variedades donde la distribución no era uniforme. Cabe señalar que lascaracterísticas del servidor del proyecto de ATD del CIMAT son las siguientes: 2 procesadores x6 a 3.4GHz con 128GB dememoria RAM . Así pues, creemos que el algoritmo de TDA implementado en R tiene algunos problemas de optimización,de modo que un posible camino sería explorar de manera particular el algoritmo GUDHI el cual está implementado porel grupo de INRIA y compilado bajo librerías de C + +.

Cosas por hacer:

Se requiere optimizar la paquetería TDA de R, pues utiliza bastante recurso de memoria y procesamiento a tal gradoque inutiliza el sistema operativo.

Explorar de manera individual las paqueterías Dyonisus, DIPHA y GUDHI que se incluyen en la paquetería TDAde R, pues al estar implementadas en C + + posiblemente tengan una mayor eciencia.

Implementar de manera eciente bandas de conanza a la ltración de Vietoris-Rips en paquetería TDA de R,ya que al aplicarlas de la manera en que están desarrolladas actualmente es posible inferir de manera errónea lascaracterísticas homológicas.

Aplicar teoría estadística para interpretar la relevancia de características geometrícas brindadas por Mapper, yaque existen muchas características detectadas en el algoritmo que podrían ser consideradas como ruido. Un posiblecamino sería aplicar técnicas de bootstrap y calcular un p−valor sobre la hipótesis de un número determinadode características geométricas, de dimensión 1, por ejemplo, herramientas que ya se han utilizado en las otrasmetodologías de TDA, como por ejemplo en diagramas y panoramas de persistencia, como se muestra en el capítulo5 de las notas.

Mejorar o reescribir el código de Python Mapper para poder obtener características geométricas de dimensiónmayor, pues como lo mencionamos en el desarrollo del proyecto, sólo podemos obtener características geométricasde dimensión 0 y 1.

En base al punto anterior, aplicar técnicas de homología a los simplejos generados por el algoritmo para encontrarcaracterísticas homológicas.

Eliminación eciente de ruido grande u outliers en la muestra, mediante una elección óptima del radio de la vecindadsobre cada uno de los puntos de la nube de datos, así como de la cantidad de observaciones contenidas en ésta, demodo que tales puntos sean signicativos en la muestra.

Profundizar con mayor detalle todos los casos presentados en este proyecto al cambiar tamaños de muestra, asícomo otros tipos de ruido agregado a las variedades. Esto, con la nalidad de encontrar otras posibles combinaciónestamaño-valor de ltración, que hagan ecientes los cálculos.

58

Page 392: Notas en Persistencia, Probabilidad e Inferencia Estadística para ...

ATD-CIM

AT

Julio

2016

Referencias

[1] H. Adams, A. Tansz, Javaplex Tutorial,http://www.math.colostate.edu/~adams/research/javaplex_tutorial.pdf, 2009.

[2] V. De Silva, G. Carlsson, Topological estimation using witness complexes, Proc. Sympos. Point-Based Graphics,157-166, 2004.

[3] J.W. Demmel, Applied Numerical Linear Algebra, SIAM, 1997.

[4] B.T. Fasy, J. Kim, F. Lecci, C. Maria, Introduction to the R package TDA.arXiv preprint arXiv:1411.1830, 2014.

[5] D. Müllner, A. Babu, Python Mapper: An open-source toolchain for data exploration, analysis and visualization,http://danifold.net/mapper, 2013.

[6] G. Singh, F. Mémoli, G. Carlsson, Topological methods for the analysis of high dimensional sets and 3D objectrecognition, SPBG, 91-100, 2007.

59