UNIVERSIDAD CENTRAL DEL ECUADOR · 2018-06-14 · ii DERECHOS DE AUTOR Yo, Yahaira Karina...

65
UNIVERSIDAD CENTRAL DEL ECUADOR FACULTAD DE INGENIERÍA, CIENCIAS FÍSICAS Y MATEMÁTICA CARRERA DE INGENIERÍA MATEMÁTICA Enfoque de máxima entropía para la modelación de la distribución del Paludismo en Ecuador Trabajo de titulación modalidad proyecto integrador, previo a la obtención del Título de Ingeniera Matemática Yahaira Karina Rivadeneira Maya TUTOR: Ing. Mat. Guillermo Alexis Albuja Proaño Quito, 2017

Transcript of UNIVERSIDAD CENTRAL DEL ECUADOR · 2018-06-14 · ii DERECHOS DE AUTOR Yo, Yahaira Karina...

UNIVERSIDAD CENTRAL DEL ECUADOR

FACULTAD DE INGENIERÍA, CIENCIAS FÍSICAS Y

MATEMÁTICA

CARRERA DE INGENIERÍA MATEMÁTICA

Enfoque de máxima entropía para la modelación de la distribución del Paludismo en Ecuador

Trabajo de titulación modalidad proyecto integrador, previo a la

obtención del Título de Ingeniera Matemática

Yahaira Karina Rivadeneira Maya

TUTOR: Ing. Mat. Guillermo Alexis Albuja Proaño

Quito, 2017

ii

DERECHOS DE AUTOR

Yo, Yahaira Karina Rivadeneira Maya en calidad de autor y titular de los

derechos morales y patrimoniales del trabajo de titulación ENFOQUE DE

MÁXIMA ENTROPÍA PARA LA MODELACIÓN DE LA DISTRIBUCIÓN

DEL PALUDISMO EN ECUADOR, modalidad Proyecto Integrador, de

conformidad con el Art. 114 del CÓDIGO ORGÁNICO DE LA ECONOMÍA

SOCIAL DE LOS CONOCIMIENTOS, CREATIVIDAD E INNOVACIÓN,

concedo a favor de la Universidad Central del Ecuador una licencia gratuita,

intransferible y no exclusiva para el uso no comercial de la obra, con fines

estrictamente académicos.

Conservo a nuestro favor todos los derechos de autor sobre la obra,

establecidos en la normativa. Así mismo, autorizo a la Universidad Central

del Ecuador para que realice la digitalización y publicación de este trabajo

de titulación en el repositorio virtual, de conformidad a lo dispuesto en el

Art. 144 de la Ley Orgánica de Educación Superior.

El autor declara que la obra objeto de la presente autorización es original

en su forma de expresión y no infringe el derecho de autor de terceros,

asumiendo la responsabilidad por cualquier reclamación que pudiera

presentarse por esta causa y liberando a la Universidad de toda

responsabilidad.

Firma:

Yahaira Karina Rivadeneira Maya

CC.0401639455

[email protected]

iii

APROBACIÓN DEL TUTOR

En mi calidad de Tutor del Trabajo de Titulación, presentado por Yahaira Karina Rivadeneira Maya, para optar por el Grado de Ingeniera Matemática; cuyo título es: ENFOQUE DE MÁXIMA ENTROPÍA PARA LA MODELACIÓN DE LA DISTRIBUCIÓN DEL PALUDISMO EN ECUADOR, considero que dicho trabajo reúne los requisitos y méritos suficientes para ser sometido a la presentación pública y evaluación por parte del tribunal examinador que se designe. En la ciudad de Quito, a los 21 días del mes de Julio de 2017. Matemático. Guillermo Alexis Albuja Proaño DOCENTE-TUTOR C.C. 1712454063 [email protected]

iv

AGRADECIMIENTOS

La necesidad de realizar este proyecto se generó en el centro EpiSIG

del Instituto Nacional de Investigación en Salud Pública INSPI - Dr.

Leopoldo Izquieta Pérez, por lo que quiero agradecer en especial a

Emmanuelle Quentin, Ph.D, y a mi grupo EpiSIG por el apoyo brindado

cada día, de igual manera a Varsovia Cevallos, Ph.D, quien dirigió el

proyecto “Sistema de Alerta Temprana para el Control de Vectores de

Malaria y Leishmaniasis (FASE 1)” y apoyó mi vida profesional inicial,

además implanto en mi la motivación para realizar este proyecto.

A mis profesores y compañeros de ingeniería matemática, con quien

compartí tanto tiempo para tener la formación matemática y forjar un

pensamiento lógico que se aplica cada día de nuestra vida, les manifiesto

el más sincero agradecimiento.

v

DEDICATORIA

Dedico a mis padres Yahaira y Gustavo, por forjarme como la mujer

que estoy tan orgullosa de ser, por permitirme creer en el amor mediante

su ejemplo.

A mis hermanos David y Pablo, su ayuda y existencia fueron

fundamentales para no caer en los momentos difíciles.

A ti compañero, el mejor amigo que encontré para caminar juntos

cada vivencias, a ti Byron por creer en mí capacidad, por siempre tratar de

hacerme sonreír y buscar el lado bueno de las peores situaciones, a ti por

levantarme cuando me caí, a ti por amarme.

Se las dedico porque “todos necesitamos hacer nuestra vida como

un árbol, necesitamos personas que son nuestras raíces, para vivir y poder

tener ramas, flores y frutos”, así todos ustedes se convirtieron en las raíces

de mi vida.

Y al resto de mi familia, amigos y amigas porque todos aportaron a

mi crecimiento; sobre todo aportaron con momentos de felicidad.

Karina Rivadeneira

Quito, Ecuador

vi

CONTENIDO

DERECHOS DE AUTOR ............................................................................................... ii

APROBACIÓN DEL TUTOR ........................................................................................ iii

AGRADECIMIENTOS ................................................................................................... iv

DEDICATORIA ................................................................................................................ v

CONTENIDO ................................................................................................................... vi

LISTA DE FIGURAS .................................................................................................... viii

RESUMEN ......................................................................... ¡Error! Marcador no definido.

ABSTRACT ....................................................................... ¡Error! Marcador no definido.

INTRODUCCIÓN ............................................................................................................. x

CAPÍTULO 1 .................................................................................................................... 3

DESARROLLO DEL PROBLEMA ........................................................................... 3

1.1. Planteamiento del problema ..................................................................... 3

1.2. Formulación del problema ........................................................................ 3

1.3. Objetivos...................................................................................................... 3

1.3.1. Objetivos General .................................................................................. 3

1.3.2. Objetivos Específicos ............................................................................ 4

1.4. Justificación ................................................................................................ 4

CAPÍTULO 2 .................................................................................................................... 5

MARCO TEÓRICO...................................................................................................... 5

2.1. Antecedentes .............................................................................................. 5

2.2. Teoría de la Información (TI) .................................................................... 7

2.2.1. El concepto de información .................................................................. 7

2.2.2. Expresión cuantitativa de información ................................................ 8

2.2.3. Cadenas de Markov ............................................................................ 10

2.2.4. Entropía ................................................................................................. 12

2.3. Fundamentos de análisis convexo ........................................................ 13

2.3.1. Igualdad de la conjugada Legendre y la conjugada convexa ........ 13

2.3.2. Proyección Legendre - Bregman ....................................................... 17

2.3.3. Relaciones básicas entre 𝐷𝜙,ℒ𝜙 y ℓ𝜙 .............................................. 18

2.3.4. La extensión continua ......................................................................... 19

2.3.5. Conjuntos Factibles y familia de proyecciones Legendre -

Bregman .............................................................................................................. 20

CAPÍTULO 3 .................................................................................................................. 22

APROXIMACIÓN DE MÁXIMA ENTROPÍA ......................................................... 22

vii

3.1. Dualidad .................................................................................................... 22

3.2. Enfoque de máxima entropía ................................................................. 25

3.3. Regularización .......................................................................................... 27

3.4. Algoritmo de actualización secuencial y prueba de convergencia .... 30

CAPÍTULO 4 .................................................................................................................. 35

MODELADO DE LA DISTRIBUCIÓN DE LOS CASOS DE PALUDISMO EN

ECUADOR CONTINENTAL UTILIZANDO MaxEnt en TerrSet ........................ 35

4.1. Introducción .............................................................................................. 35

4.2. Determinación de variables explicativas y preparación de capas ..... 36

4.2.1. Predictores medioambientales ........................................................... 37

4.2.2. Características topográficas ............................................................... 38

4.2.3. Determinantes sociales ....................................................................... 38

4.4. Aplicación del modelo .............................................................................. 42

4.4.1. Parametrización de MaxEnt, Ganancia y Formato de Salida ........ 42

4.5. Validación de la capacidad predictora del modelo .............................. 46

4.5.1. Creación de una matriz de confusión (o contingencia)................... 46

4.5.2. AUC (Area Under The Curve) del modelo bajo la curva ROC

(Receiver Operating Characteristic) ................................................................ 48

CONCLUSIONES Y RECOMENDACIONES ............................................................ 51

6.1. Conclusiones ............................................................................................ 51

6.2. Recomendaciones ................................................................................... 52

BIBLIOGRAFÍA ............................................................................................................. 53

viii

LISTA DE FIGURAS

Figura 1. Tendencia de egresos hospitalarios y muertes por paludismo (CIE10 B50 – B54);

existe un aumento de egresos hospitalarios aproximadamente por el año 2000 mientras

que hay una baja de defunciones. ............................................................................................ 5 Figura 2. Índice Oceánico “El Niño”; datos obtenidos y procesados en EpiSIG del INSPI.

En el eje “Y” muestra el índice de anomalías de la temperatura de superficie del mar en

la región Niño del océano pacifico y en el eje “X” el periodo por año (1950 - 2017). .......... 6 Figura 3. Ciclo de transmisión de la malaria ........................................................................... 7 Figura 4. Proceso de Markov .................................................................................................. 11 Figura 5. Curva de variación de la entropía H en función de p en el intervalo 0,1 de la

variable. Con una probabilidad de 0.5 se alcanza el mayor valor de entropía. .................. 13 Figura 6. Proceso para aplicar MaxEnt .................................................................................. 36 Figura 7. Dimensión para Ecuador continental a 100 metros. Rejilla de 6800

columnas por 7400 filas............................................................................................................ 37 Figura 8. Distancia a los cultivos de arroz (m). El color rojo indica mayor distancia a los

cultivos, conforme cambia de tonalidad a negro la distancia disminuye. ............................ 38 Figura 9. Distancia a pantanos (m). El color rojo indica mayor distancia a los pantanos,

conforme cambia de tonalidad a negro la distancia disminuye. ........................................... 38 Figura 10. Distancia a vías (m). El color rojo indica mayor distancia a las vías, conforme

cambia de tonalidad a negro la distancia disminuye. ............................................................ 38 Figura 11. Zonas que se consideran con viviendas hacinadas ....................................................... 39 Figura 12. Altitud (m). El color rojo indica mayor altitud, conforme cambia de tonalidad a

negro la altitud baja. .................................................................................................................. 39 Figura 13. Anomalía de la precipitación, T-Mode PCA Componente 1 (mm). Mide una

aproximación de la cantidad de lluvia que se acumula sobre la superficie de la tierra. El

color rojo indica mayor cantidad acumulada de lluvia. .......................................................... 40 Figura 14. Anomalía de la precipitación, T-Mode PCA Componente 2 (mm). Mide una

aproximación de la cantidad de lluvia que se acumula sobre la superficie de la tierra. El

color rojo indica mayor cantidad acumulada de lluvia. .......................................................... 40 Figura 15. Anomalía de la temperatura, T-Mode PCA Componente 1 (°). Mide la

aproximación de la temperatura en grados, la intensidad del color rojo indica la

temperatura más alta. ............................................................................................................... 40 Figura 16. Anomalía de la temperatura, T-Mode PCA Componente 2 (°). Mide la

aproximación de la temperatura en grados, la intensidad del color rojo indica la

temperatura más alta. ............................................................................................................... 40 Figura 17. Anomalía del índice de vegetación, T-Mode PCA Componente 1. Mide la

densidad de vegetación............................................................................................................ 40 Figura 18. Anomalía del índice de vegetación, T-Mode PCA Componente 2. Mide la

densidad de vegetación............................................................................................................ 40 Figura 19. Distancia a pantanos (m). Indica la distancia en metros desde cada pixel

hasta el pantano más cercano. ................................................................................................ 41 Figura 20. Distancia a cultivos de arroz (m). Indica la distancia en metros desde cada

pixel hasta el cultivo de arroz más cercano. .......................................................................... 41 Figura 21. Distancia a vías (m). Indica la distancia en metros desde cada pixel hasta la

vía más cercana. ....................................................................................................................... 41 Figura 22. Pendiente del terreno (°). Mide el grado de inclinación del terreno. ................. 41 Figura 23. Hacinamiento. Indica la cantidad de personas por dormitorio. Se considera

hacina ......................................................................................................................................... 41 Figura 24. Analfabetismo. Indica la proporción del total de dormitorio para el total de

personas. ................................................................................................................................... 41 Figura 25. Ganancia del modelo; comienza en 0 y se incrementa hacia una asíntota

mientras dura la ejecución del programa................................................................................ 44

ix

Figura 26. Salida Logística de MaxEnt .................................................................................. 45 Figura 27. Salida Logística de MaxEnt. Mapa de Ecuador con nombres de provincias que

representa la probabilidad relativa de encontrar casos de paludismo en Ecuador

continental con una probabilidad máxima de 0,76. ............................................................... 46 Figura 28. Matriz de confusión ................................................................................................ 47 Figura 29. Umbrales de presencia ......................................................................................... 48 Figura 30. Curva operacional ROC y el AUC del modelo. ................................................... 48 Figura 31. Curva de respuesta de las variables predictoras que se utiliza para el

modelado de la distribución de paludismo en el Ecuador continental. ................................ 50

x

TITULO: Enfoque de máxima entropía para la modelación de la distribución

del Paludismo en Ecuador

Autora: Yahaira Karina Rivadeneira Maya Tutor: Ing. Mat. Guillermo Alexis Albuja Proaño

RESUMEN

El paludismo es una enfermedad potencialmente mortal que se monitorea

en Ecuador por el Sistema De Vigilancia Epidemiológica, el cual reportó

cantidades altas de casos desde 1961 hasta 2001 a partir de este año se

observa una disminución en los datos de reportes, según expertos del

Centro Nacional de Referencia e Investigación de Vectores del Instituto

Nacional De Investigación en Salud Pública, comentaron que no hay una

explicación por lo que se puede sospechar que cualquier instante en el

tiempo, estos casos puedan aumentar de la misma forma, por lo que es

viable saber las zonas de riesgo para apoyar a los organismos pertinentes

para su vigilancia y control. Según Merow (2013), un software muy utilizado

en la actualidad es MaxEnt, que usa la técnica de máxima entropía que

combina estadística, modelos bayesianos, análisis convexo, permitiendo

hacer predicciones de las zonas de riesgo utilizando información incompleta

(Philips et al., 2006, 2008); MaxEnt tiene como principio estimar una

distribución de probabilidades de máxima entropía sujeta a restricciones.

Esta investigación presenta los conceptos básicos, teoremas,

proposiciones de análisis convexo para comprender la metodología seguida

por MaxEnt; metodología que ayuda a resolver un problema de

programación lineal en el campo de la optimización matemática, que se

encarga de maximizar la entropía o minimizar la distancia de Bregman

(funciones lineales). Las variables de la función objetivo están sujetas a un

conjunto de restricciones de diferentes ámbitos. La modelación solo

necesita registros de presencia de paludismo los cuales fueron reportados

y confirmados por laboratorios en el año 2014 y se usó variables predictoras

medio-ambientales, topográficas, socioeconómicas. Los resultados indican

que aunque el modelo tenga pocos casos de presencia, este presenta una

predicción muy buena (AUC de 0.91), siendo representada mediante un

mapa de las zonas de riesgo, en el cual se resalta la zona costera y

amazonita de Ecuador Continental.

PALABRAS CLAVES: PALUDISMO / MAXENT / INSPI / SATVEC / EPISIG

/ ECUADOR / SALUD / MODELOS DE DISTRIBUCIÓN DE ESPECIES.

xi

TITLE: Approach of maximum entropy for the modeling of the distribution of

Malaria (or Paludismo) in Ecuador

ABSTRACT

Malaria is a life-threatening disease that is monitored in Ecuador by the Epidemiological Surveillance System, which reported high numbers of cases from 1961 to 2001, since 2001 there is a decrease in the reporting data, according to experts from the National Center of Reference and Research of Vectors of the National Institute of Public Health Research, they commented there is no explanation for this decreasing and it can be suspected that any moment in time, these cases can increase in the same way, so it is viable to know the risk zones to support the relevant organisms for their surveillance and control. According to Merow (2013), a software widely used today is MaxEnt, which uses the maximum entropy technique that combines statistics, Bayesian models, convex analysis, making predictions of risk areas using incomplete information (Philips et al., 2006, 2008); MaxEnt has as its principle to estimate a probability distribution of maximum entropy subject to restrictions. This research presents the basic concepts, theorems, propositions of convex analysis to understand the methodology followed by MaxEnt; methodology that helps solve a linear programming problem in mathematical optimization, which is responsible for maximizing entropy or minimizing Bregman distance (linear functions). The variables of the objective function are subject to a set of restrictions from different areas. The process of modeling only needs records of the occurrences of malaria which were reported and confirmed by laboratories in 2014 plus environmental, topographic, socioeconomic predictor variables. The results show that although the model has few cases of presence, it presents a very good prediction (AUC of 0.91), being represented by a map of the risk zones, in which the coastal and Amazonian zone of Continental Ecuador is highlighted.

KEYWORDS: MALARIA / MAXENT / INSPI / SATVEC / EPISIG /

ECUADOR / HELTH / SPECIES DISTRIBUTION MODELS.

1

INTRODUCCIÓN

Ecuador es uno de los países con la ubicación geográfica que favorece a

muchas enfermedades tropicales por tener distintos climas (cálido,

húmedo) y por ser un país fronterizo con países que poseen las mismas

enfermedades como paludismo (o malaria), dengue, chikungunya y zika1.

El paludismo no es reportado en toda la extensión del Ecuador, pero existen

las zonas tropicales y subtropicales donde la causa predominante de fiebre

ha sido históricamente esta enfermedad (Cifuentes et al., 2013), en estas

zonas el riesgo de contraer dicha enfermedad es alto y siempre está latente,

por esta razón, Ecuador es un país endémicos.

En Ecuador la incidencia de paludismo ha disminuido considerablemente

desde el año 2001, el dengue en 2011 fue identificado en el 42% de los

pacientes febriles en el noroeste del Ecuador y paludismo en ninguno

(Cifuentes et al., 2013). Sin embargo, se han reportado cada año casos de

paludismo esporádicos que han sido confirmados por laboratorios.

El Ministerio de Salud Pública (MSP), rector de la vigilancia en Ecuador,

necesita de metodologías actuales, útiles y robustas matemáticamente para

usar, que aporten al estudio una vigilancia permanente de las

enfermedades en el transcurso del tiempo; metodologías que tomen en

cuenta factores que están involucrados en la transmisión de la enfermedad

como cambios ambientales (Índice oceánico de “El Niño”), control larval

(abatización), control vectorial (fumigación), vacunación y más. Y estos

sean integrados para predecir zonas de riesgo.

El MSP usa sistemas de información geográfica (SIG) para la toma de

decisiones, vigilancia, control y prevención de la enfermedad, sin embargo,

el uso de estos sistemas pueden ir acompañados con modelos de

distribución de especies.

Los modelos de distribución de especies pueden estimar que áreas dentro

de una región satisfacen los requerimientos para desarrollar a una especies

(Anderson & Martínez-Meyer, 2004).

La modelación mediante el enfoque de máxima entropía es un modelo de

distribución de especies el cual se basa en sitios donde la especie fue

observada, es decir, puntos georreferenciados solamente de presencia de

la enfermedad y variables que proporcionen información sobre la

enfermedad (socioeconómicas y bioclimáticas).

El desarrollo de este proyecto el cual trabaja el modelo de máxima entropía

para la modelación de la distribución de paludismo o paludismo en Ecuador,

esta seccionado de la manera siguiente:

1 OMS | Enfermedades tropicales, 2017

2

En el capítulo 1, se desarrolla el problema; tratando el planteamiento del

problema, la formulación del problema, el objetivo general y los objetivos

específicos y la justificación.

En el capítulo 2, se habla sobre los antecedentes del paludismo en Ecuador,

de modelaciones de distribución de especies y conceptos base que se

utilizará del análisis convexo.

En el capítulo 3, se trata el enfoque de máxima entropía, la dualidad, la

regularización y el algoritmo de actualización secuencial y prueba de

convergencia.

En el capítulo 4, se da resume una breve lectura acerca del software MaxEnt, se determinan los diferentes tipos de variables predictoras que restringirán a la distribución junto a como es la preparación de capas, además se indica la parametrización, la aplicación e interpretación de los resultados obtenidos de la predicción del modelo y finalmente la validación de la capacidad predictora del modelo.

3

CAPÍTULO 1

DESARROLLO DEL PROBLEMA

1.1. Planteamiento del problema

En Ecuador, la carga de paludismo decreció en un 99% (Krisher et al.,

2016), es uno de los países en América que presenta la tendencia más

marcada en reducción del paludismo, después de haber alcanzado a

reportar cifras sobre los 100,000 casos anuales al inicio de la

década(Krisher et al., 2016).

Según datos reportados por el MSP, el paludismo reporta disminución en

sus registros a partir del 2001 hasta la actualidad, esta disminución fue

resultado de una estabilización observada después del fenómeno

meteorológico "El Niño" y de las epidemias2. El Paludismo en Ecuador

progresó desde la fase de "control" hasta la fase de "pre-eliminación",

basada en los criterios de la Organización Mundial de la Salud (OMS)

(Cifuentes et al., 2013).

La información recopilada acerca de paludismo en el Ecuador son puntos

georreferenciados de los casos reportados, gacetas epidemiológicas,

además, con la disminución de casos, la atención se dirigió a otras

enfermedades vectoriales como dengue, chikunguña y zika por lo tanto no

se ha generado mayor información pública sobre su distribución geográfica

actual.

1.2. Formulación del problema

La pregunta que persigue resolver este proyecto de investigación es:

Mediante la técnica de máxima entropía que se basa en la relación entre

los datos de casos registrados en el sistema de Vigilancia Epidemiológica

(ViEpi) del MSP y variables predictoras (información socioeconómica

recogida por el Instituto Nacional de Estadísticas y Censos (INEC) en el

último Censo del 2010 de todo Ecuador, datos entomológicos de CIREV del

INSPI, imágenes satelitales de la NASA, entre otros) ¿Es factible en

Ecuador, inferir zonas de riesgo de paludismo en sitios donde la información

de la enfermedad es inexistente?

1.3. Objetivos

1.3.1. Objetivos General

2 OPS/OMS | Situación del Programa del Paludismo en las Américas (2000)

4

Modelar los sitios de riesgo mediante un riguroso método matemático

de máxima entropía para obtener la estimación de la densidad de

casos de paludismo en Ecuador continental mediante factores

predictores.

1.3.2. Objetivos Específicos

Explicar los fundamentos matemáticos del enfoque de máxima

entropía para la modelación de la distribución de especies.

Definir las variables determinantes con la transformación

matemática si es necesario, la temporalidad, espacialidad y

resolución con los cuales se aplicará el modelo

Aplicar la metodología y validar el resultado de distribución

espacial del paludismo en Ecuador

1.4. Justificación

En el Ecuador, la pobreza es uno de los principales factores que afecta a

las poblaciones y es un potencial causante del aumento de reportes de

casos y muertes provocadas por enfermedades transmitidas al humano

mediante vectores. En los últimos años, las epidemias por los virus de zika,

dengue, chikunguña y sus complicaciones que afectaron a grandes

cantidades de población, resaltaron a las enfermedades tropicales como un

campo nuevo e interesante para explorar a nivel nacional e internacional

enfocando sus estudios a las enfermedades como dengue, chikunguña y

zika3.

En la actualidad, la disminución casi total de reportes de paludismo en el

Ecuador (Krisher et al., 2016), restó prioridad a la investigación de esta

enfermedad.

Por tal motivo la generación de información sobre la distribución de

paludismo en el Ecuador continental mediante técnicas matemáticas, no

solo traerá consigo generar información histórica para próximas

investigaciones científicas sino mostrará posibles patrones que mantenga

la enfermedad, y es que dicha enfermedad a breves rasgos en los últimos

años ha presentado tendencias de decrecimiento muy interesantes, y más

aún cuando el control se lo ha puesto en su mayoría a otras enfermedades

tropicales antes mencionadas.

3 OMS | Respuesta mundial para el control de vectores 2017 – 2030

5

CAPÍTULO 2

MARCO TEÓRICO

2.1. Antecedentes

Desde mediados del año 1980 hasta principios del año 2000, las zonas

tropicales y subtropicales del Ecuador, experimentaron una alta tasa de

transmisión de paludismo, los expertos atribuyeron a una ineficaz

combinación de tratamiento antipalúdico, factores socioeconómicos y

factores políticos (Krisher et al., 2016).

En los últimos años, los egresos hospitalarios y muertes por paludismo

(CIE10 B50 – B54)4 según los datos del INEC, han tenido una tendencia

decreciente.

Figura 1. Tendencia de egresos hospitalarios y muertes por paludismo (CIE10 B50 – B54); existe un aumento de egresos hospitalarios aproximadamente por el año 2000 mientras que hay una baja de defunciones.

Cabe mencionar que el país participa en la “Estrategia técnica mundial contra el paludismo 2016 – 2030” de la OMS, esta tiene como objetivo: que continentes enteros eliminen la enfermedad y que con el tiempo esta sea erradicada del planeta, para esto es necesario un compromiso político inquebrantable, una financiación considerable y previsible, aumento de la colaboración regional, la inversión constante en investigación y desarrollo5.

4 MSSSI, URL: http://eciemaps.msssi.gob.es/ecieMaps/browser/index_10_mc.html 5 OMS | Estrategia Técnica Mundial contra la Malaria 2016-2030 URL: http://www.who.int/malaria/publications/atoz/9789241564991/es/

0102030405060708090100

19

98

19

99

20

00

20

01

20

02

20

03

20

04

20

05

20

06

20

07

20

08

20

09

20

10

20

11

20

12

20

13

20

14

20

15

20

16

20

17/0

2

0

1000

2000

3000

4000

5000

6000

7000

8000

De

fun

cio

ne

s (I

NEC

)

Periodo

Egre

sos

ho

spit

alar

ios

(IN

EC)

Paludismo - Ecuador1998 - Feb 2017

INEC_pld_EgrHsp INEC_pld_Dfn

6

Ecuador, también ha pertenecido a varios proyectos nacionales e internacionales que tienen como objetivo investigar y vigilar el paludismo para reducir la incidencia, proyectos como “Control de la malaria en las zonas fronterizas de la región andina: Un enfoque comunitario” (PAMAFRO)6, “Servicio Nacional de Control de Enfermedades Transmitidas por Vectores Artrópodos” (SNEM) del MSP, “Sistema de alerta temprana para el control de vectores de malaria y leishmaniasis (fase 1)” del INSPI7, ser parte de esto ha sido favorable, puesto que hoy es reconocido como uno de los tres "Campeones de Malaria de las Américas"(Mateo, Felicísimo, & Muñoz, 2011) y los avances en la vigilancia ha aportado información relevante e histórica para el país. Un reto para Ecuador, es mantener los logros de reducción en la transmisión de paludismo, pero se dificulta por ser una enfermedad de recurrencia cíclica, que se expone al aparecimiento de determinantes o combinaciones de ellos. Un determínate que puede influir en la tendencia creciente de reportes, es la reducción marcada de casos confirmados que se presenta en la actualidad, puesto que la enfermedad deja de ser prioridad y se debilita su vigilancia. Además, históricamente hay otros factores que han determinado un comportamiento epidémico cíclico del paludismo, como fenómenos sociales, económicos (por ejemplo, la minería, aumento del flujo migratorio8, reducción de recursos y cambios en la gestión), fenómenos ambientales (por ejemplo, El Niño, cultivo de arroz, construcción de reservorios, cambios climáticos) (Mateo et al., 2011; S. J. Phillips & Dudík, 2008), que han presentado alteraciones los últimos años, probablemente, son causantes que el país reporte a la OMS un aumento de casos en 2017(Fithian & Hastie, 2013).

Figura 2. Índice Oceánico “El Niño”; datos obtenidos y procesados en EpiSIG del INSPI. En el eje “Y” muestra el índice de anomalías de la temperatura de superficie del mar en la región Niño del océano pacifico y en el eje “X” el periodo por año (1950 - 2017).

6 PAMAFRO, URL: http://www.orasconhu.org/pamafro/presentaci%C3%B3n 7 INSPI | CIREV, URL: http://www.investigacionsalud.gob.ec/webs/cirev/satvec-malaria/ 8 Movimiento migratorio en ecuador se incrementó en un 20%

-2.5

-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

2.5

19

50-D

JF1

951

-DJF

19

52-D

JF1

953

-DJF

19

54-D

JF1

955

-DJF

19

56-D

JF1

957

-DJF

19

58-D

JF1

959

-DJF

19

60-D

JF1

961

-DJF

19

62-D

JF1

963

-DJF

19

64-D

JF1

965

-DJF

19

66-D

JF1

967

-DJF

19

68-D

JF1

969

-DJF

19

70-D

JF1

971

-DJF

19

72-D

JF1

973

-DJF

19

74-D

JF1

975

-DJF

19

76-D

JF1

977

-DJF

19

78-D

JF1

979

-DJF

19

80-D

JF1

981

-DJF

19

82-D

JF1

983

-DJF

19

84-D

JF1

985

-DJF

19

86-D

JF1

987

-DJF

19

88-D

JF1

989

-DJF

19

90-D

JF1

991

-DJF

19

92-D

JF1

993

-DJF

19

94-D

JF1

995

-DJF

19

96-D

JF1

997

-DJF

19

98-D

JF1

999

-DJF

20

00-D

JF2

001

-DJF

20

02-D

JF2

003

-DJF

20

04-D

JF2

005

-DJF

20

06-D

JF2

007

-DJF

20

08-D

JF2

009

-DJF

20

10-D

JF2

011

-DJF

20

12-D

JF2

013

-DJF

20

14-D

JF2

015

-DJF

20

16-D

JF2

017

-DJF

ON

I

Periodo

7

Una reciente recomendación de la OPS y de la OMS es restablecer una vigilancia proactiva(Gwitira, Murwira, Zengeya, Masocha, & Mutambu, 2015). Los métodos matemáticos vinculados con los SIG son utilizados como herramientas para analizar patrones temporales de presencia y/o ausencia de la enfermedad, esto modelos son más conocidos como modelos de distribución de especies (Capurro Rafael, 2003). Hace 50 años aproximadamente se dieron los primeros acercamiento a la modelación de la distribución de especies, partiendo de su relación con factores ambientales, la celeridad con la que avanza los estudios permiten desarrollar varias técnicas de modelación que mejoran los resultados, buscando superar algunos problemas como la colinearidad entre variables independientes, sesgos de muestreo o inclusión de variables nominales (Mateo et al., 2011; Phillips & Dudík, 2008). Existen modelos estadísticos de datos solamente de presencia que están siendo usados en gran cantidad de artículos de literatura ecológica, se sospecha que sea por la poca información que es necesitada con respecto a la localización de la especie, permitiendo tener modelaciones muy certeras. Estos modelos incluyen métodos como por ejemplo el de máxima entropía (Maxent) (Fithian & Hastie, 2013). Las escazas aplicaciones en nuestro país, ha sido para modelar la distribución geográfica del vector Anopheles de distintas especies que son potenciales portadores del parásito (por ejemplo, Anopheles arabiensis) (Basu, 2002).

Figura 3. Ciclo de transmisión de la malaria

2.2. Teoría de la Información (TI)

2.2.1. El concepto de información

La noción de información tiene raíces en latín Informatio igual dar forma,

pero este pierde su relevancia en la modernidad definiéndose como “decir

algo a alguien”. Un concepto de información que está más relacionado en

8

la TI, es el concepto de inteligencia dada o instrucción9, que indica el acto

de moldear o dar forma a lo que se va a decir a alguien que probablemente

ignora el contenido de un mensaje, provocando incertidumbre en el

argumento que trae consigo.

Las primeras referencias del uso del término “informo” se dieron en el

ambiente biológico, cuando se expresó que: un feto está siendo informado

por cabeza y columna vertebral; en el contexto intangible se hacía uso en

aspectos morales o pedagógicos, es decir, era usado por personas

dedicadas a la educación o moldeadores de pensamiento (por ejemplo:

pensadores como Platón, Aristóteles).

Luego Fritz Machlup, manifestó que la información es un fenómeno

solamente humano, refiriéndose a información como "el algo que se está

diciendo en un mensaje, dirigido a las mentes humanas y recibido por las

mentes humanas" encontrándose en desacuerdo con el uso del término en

el contexto de la transmisión de señales (Basu, 2002; Taylor & Karlin, 2010).

La controversia se generó particularmente con Hartley, con su artículo

"Transmisión de la información" que como sistemas de transmisión ya no

implicaba solamente a seres humanos, si no, a sistemas de transmisión

eléctrica como máquinas y recomendó <<eliminar los factores psicológicos

implicados y establecer una medida de información en términos de

cantidades puramente físicas>> (Basu, 2002). Cuando se desarrolló la

teoría matemática de la comunicación por Claude Shannon y Warren

Weaver, se pretendía eliminar los conceptos tradicionales involucrados con

información y señalaban que este término no debe ser confundido con el

contenido de un mensaje. Por ejemplo, existen dos mensajes, el primero

tiene mucho significado y el otro es un mensaje sin sentido, sin embargo,

estos pueden ser exactamente equivalente desde el presente punto de

vista. Sin duda, esto es lo que Shannon quiere decir con "los aspectos

semánticos de la comunicación son irrelevantes para los aspectos de

ingeniería". Pero, esto no significa que los aspectos de ingeniería sean

necesariamente irrelevantes para los aspectos semánticos (Basu, 2002).

2.2.2. Expresión cuantitativa de información

Según Hartley (1928), en una selección hay 𝑠 símbolos disponibles, que

pueden ser seleccionados 𝑛1 veces para crear 𝑠𝑛1 diferentes secuencias.

Se llama a

𝑠2 = 𝑠𝑛1 ( 1)

Es decir, 𝑠2 caracteres, se pueden representar de 𝑠𝑛1 formas.

9 S. Johnson: A Dictionary of the English Language. London, 1755. Repr. Olms, Hildesheim 1968

9

Ahora, se supone que puede haber uno o más caracteres que conforman

un mensaje; 𝑛2 es el representante del número total caracteres de este

mensaje.

Recordemos que 𝑠2 es el número de caracteres a ser representados

mediante 𝑠𝑛1 secuencias, entonces podemos tener 𝑠2𝑛2 mensajes como

vaya variando 𝑛2, así se tendrá 𝑠2 mensajes si el tamaño del mensaje es

un carácter, 𝑠22 el tamaño del mensaje son dos caracteres y así

sucesivamente, luego

𝑠2𝑛2 = (𝑠𝑛1)𝑛2 𝑐𝑜𝑛 𝑛 = 𝑛1𝑛2

𝑠2𝑛2 = 𝑠𝑛 ( 2)

Se llamará 𝑠𝑛 al número de posibles secuencias que podemos encontrar

para representar un mensaje.

Un ejemplo es el sistema telegráfico de impresión de Baudot, consiste en

una máquina con una salida de 5 bits, capaz de representar hasta 32

caracteres distintos. 𝑠 puede tomar dos estados y representar un símbolo

en 5 posiciones 𝑠2 = 𝑠𝑛1 = 25 = 32 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟𝑒𝑠.

Recordemos que tenemos por objetivo establecer una medida

independiente de factores humanos como comprensión del mensaje, sino

una medida que dependa únicamente de lo que se quiere decir una medida

que cuantifique la cantidad de información que aporta el mensaje.

La medida como un valor práctico en ingeniería, debe ser de tal forma que

la información sea proporcional al número de selecciones así, que solo, el

número de posibles secuencias no es el valor óptimo para ser usado

directamente como medida de información, pero puede ser usado como

base que cumple los requisitos prácticos para definir la expresión que

cuantifique la información.

Para un sistema particular, se elige la cantidad de información de forma

arbitraria que debe ser proporcional al número de selecciones por un factor

de proporcionalidad (a cantidades iguales de información hace equivalente

números iguales de posibles secuencias), definiendo,

𝐻 = 𝐾𝑛

𝑛: 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑠𝑒𝑙𝑒𝑐𝑐𝑖𝑜𝑛𝑒𝑠

𝐾: Cualquiera constante que depende de 𝑠 símbolos disponibles en la

selección

( 3)

Ahora se toma dos sistemas cualesquiera, donde 𝑠 puede tomar los valores

de 𝑠 = {𝑠1, 𝑠2} y sus correspondientes factores de proporcionalidad 𝐾 ={𝐾1, 𝐾2}, que cumplen con la condición: que cuando el número de

selecciones 𝑛1 y 𝑛2 sean iguales al número de posibles secuencias de los

10

dos sistemas, entonces la cantidad de información para ambos sistemas es

el mismo, esto se dice cuándo,

𝑠1𝑛1 = 𝑠2

𝑛2 ( 4)

aplicando logaritmo a la igualdad se tiene

log 𝑠1𝑛1 = log 𝑠2

𝑛2

𝑛1log 𝑠1 = 𝑛2log 𝑠2

𝑛1

log 𝑠2=

𝑛2

log 𝑠1 ( 5)

luego,

𝐻 = 𝐾1𝑛1 𝑦 𝐻 = 𝐾2𝑛2 ( 6)

de donde 𝑛1 =𝐻

𝐾1 y 𝑛2 =

𝐻

𝐾2

reemplazamos estos valores en (5) y obtenemos

𝐾1

log 𝑠1=

𝐾2

log 𝑠2

esta relación se cumple para todos los valores posibles de s si y solo si K

esta conectado con s por la relación

𝐾 = 𝐾0 log 𝑠, ( 7)

𝐾0 es el mismo para todo los sistemas y por ser arbitrario puede ser omitido

si y solo si la base del logaritmo es arbitraria (el tamaño de la unidad de

información es dada por la base seleccionada del logaritmo).

Se reemplaza 𝐾 en (3)

𝐻 = 𝑛 𝐾0 log 𝑠 ( 8)

𝐻 = 𝑛 log 𝑠

y definimos como información a,

𝐻 = log 𝑠𝑛. ( 9)

2.2.3. Cadenas de Markov

2.2.3.1. Proceso estocástico

Es la descripción matemática de un fenómeno aleatorio que cambia en el

tiempo (Basu, 2002).

Los modelos estocásticos (o no determinísticos) desempeñan un

importante rol en la explicación de eventos en áreas de la naturaleza y la

11

ingeniería, en muchas ocasiones los modelos no deterministas son más

realistas que los determinísticos (Basu, 2002).

Definición Es una familia de variables aleatorias {Xn: n ∈ T ⊂ ℝ}, donde n

es un parámetro que corre sobre un conjunto de índices T llamado espacio

parametral o conjunto de tiempo, en donde las variables toman valores en

un conjunto S llamado espacio de estados (Basu, 2002).

Si 𝑇 es contable entonces el proceso estocástico es una secuencia

estocástica (o un proceso estocástico parametrizado discreto)

(Grinstead & Snell, 2007).

Si 𝑆 es contable entonces el proceso estocástico es un proceso de

estados discretos (Grinstead & Snell, 2007).

Si 𝑆 ⊂ ℝ el proceso estocástico es llamado proceso a valor real

(Rincón, 2012; Taylor & Karlin, 2010).

Si 𝑇 toma continuamente un número incalculable de valores

comprendidos en (0, ∞) 𝑜 (−∞, ∞) el proceso estocástico es un

proceso de tiempo continuo (Basu, 2002).

2.2.3.2. Cadena de Markov

Sea 𝑆 un conjunto finito de estados 𝑆1, 𝑆2, …, 𝑆𝑛 de un sistema, el proceso

empieza en un estado aleatorio y continúa moviéndose de un estado a otro

(Shannon, 1948).

Si la cadena está en el estado 𝑆𝑖 y en el siguiente paso se mueve al estado

𝑆𝑗 tendrá una probabilidad 𝑝𝑖𝑗, esta probabilidad no depende en qué estado

la cadena se encontraba antes del estado actual, además el siguiente paso

puede permanecer en el mismo estado que se encontraba, con una

probabilidad 𝑝𝑖𝑖. Las probabilidades 𝑝𝑖𝑗 son llamadas como probabilidad de

transición (Grinstead & Snell, 2007).

Definición Una cadena de Markov {Xn: n ≥ 0} es un proceso estocástico a

tiempo discreto, con un espacio de estados discretos S = {S1, S2, … , Sn}, que

cumple la propiedad de Markov, esta es, para cualquier entero n y para

cualquier estado S0, … , Sn+1, se cumple

𝑃(𝑋𝑛+1 = 𝑆𝑛+1|𝑋1 = 𝑆1, 𝑋2 = 𝑆2, … , 𝑋𝑛 = 𝑆𝑛) = 𝑃(𝑋𝑛+1 = 𝑆𝑛+1|𝑋𝑛 =𝑆𝑛).

( 10)

𝑆𝑖 𝑆𝑗

𝑝𝑖𝑗

𝑝𝑗𝑖

𝑝𝑖𝑖 𝑝𝑗𝑗

Figura 4. Proceso de Markov

12

(Rincón, 2012; Taylor & Karlin, 2010).

2.2.4. Entropía

Al haber definido una cadena de Markov, se generan preguntas como

¿Qué tasa de información es producida?

¿Podemos definir alguna medida que permita calcular cuanta información

es producida por una cadena de Markov?

¿Podemos encontrar la medida de lo dudosos que estamos del resultado?

Según Shannon (1948) hay un conjunto de eventos posibles con

probabilidades de ocurrencia 𝑝1, 𝑝2, … , 𝑝𝑛, si existe tal medida

𝐻(𝑝1, 𝑝2, … , 𝑝𝑛), es sensato suponer que cumpla las siguientes

propiedades:

1. 𝐻 debería ser continua en todo 𝑝𝑖

2. Si todo los 𝑝𝑖 son iguales, 𝑝𝑖 =1

𝑛, entonces 𝐻 debería ser una función

monótona creciente de 𝑛. Con eventos igualmente probables hay más

elecciones o incertidumbre, cuando hay más posibles eventos.

3. Si una elección es averiada dentro de dos elecciones sucesivas el 𝐻

original debería ser la suma ponderada de los valores individuales de 𝐻.

Teorema 2.1. (Aliprantis & Border, 2006) El H único que satisface las tres

anteriores propiedades es de la forma

𝐻 = −𝐾 ∑ 𝑝𝑖 𝑙𝑜𝑔 𝑝𝑖

𝑛

𝑖=1

( 11)

donde K es una contante positiva (K ≥ 0).

Demostración. Ver en el apéndice 2 de (Rockafellar, 1970).

Un ejemplo particular de fuente de información binaria. Es cuando el

alfabeto se reduzca a {0,1}. La entropía en el caso de dos posibilidades con

probabilidades 𝑝 y 𝑞 = 1 − 𝑝 es

𝐻(𝑝) = −(𝑝 log 𝑝 + 𝑞 log 𝑞)

13

Figura 5. Curva de variación de la entropía H en función de p en el intervalo [0,1] de la variable. Con

una probabilidad de 0.5 se alcanza el mayor valor de entropía.

1. Si 𝐻 = 0 si y solo si todos los 𝑝𝑖 excepto uno son cero, este 𝑝 tiene

el valor de uno

2. Para un 𝑛 dado, 𝐻 es un máximo e igual a log 𝑛 cuando todo los 𝑝𝑖

son iguales, 𝑝𝑖 =1

𝑛. Esto es también intuitivamente la situación con

mayor incertidumbre o máxima entropía

3. Suponga que hay dos eventos 𝑥 y 𝑦 con 𝑚 posibilidades para la

primera y 𝑛 para la segunda.

Sea 𝑝(𝑖, 𝑗) la probabilidad de la ocurrencia junta de 𝑖 para la primera

𝑗 para la segunda, la entropía de estos eventos juntos es

𝐻(𝑥, 𝑦) = − ∑ 𝑝(𝑖, 𝑗) 𝑙𝑜𝑔 𝑝(𝑖, 𝑗)𝑖,𝑗

mientras que

𝐻(𝑥) = − ∑ 𝑝(𝑖, 𝑗)

𝑖,𝑗

log ∑ 𝑝(𝑖, 𝑗)

𝑗

𝐻(𝑦) = − ∑ 𝑝(𝑖, 𝑗)

𝑖,𝑗

log ∑ 𝑝(𝑖, 𝑗)𝑖

así 𝐻(𝑥, 𝑦) ≤ 𝐻(𝑥) + 𝐻(𝑦)

2.3. Fundamentos de análisis convexo

2.3.1. Igualdad de la conjugada Legendre y la conjugada convexa

14

Teorema 2.2. (Rockafellar, 1970) Sean los conjuntos 𝐶 = 𝑖𝑛𝑡(∆𝑓), 𝐶∗ =

𝑖𝑛𝑡(∆𝑓∗) y una función cerrada convexa 𝑓 entonces (𝐶, 𝑓) es una función

convexa de tipo Legendre si y solo (𝐶∗, 𝑓∗) es una función convexa de tipo

Legendre. Así, esto se cumple

la conjugada Legendre de (𝐶, 𝑓) es (𝐶∗, 𝑓∗)

la conjugada Legendre de (𝐶∗, 𝑓∗) es (𝐶, 𝑓)

𝛻𝑓 (gradiente de f) es una biyección desde el conjunto convexo abierto

𝐶 sobre el conjunto convexo abierto 𝐶∗

𝛻𝑓 es continuo en ambas direcciones

𝛻𝑓∗ = (𝛻𝑓)−1

Demostración. Ver en (Rockafellar, 1970).

Conceptos Básicos:

2.3.1.1. Función convexa

Definición. Sea un conjunto convexo 𝐶 ⊂ 𝑋. Una función 𝑓: 𝐶 → ℝ se llama

convexa cuando, para cualquier 𝑥1, 𝑥2 ∈ 𝐶 y 𝑡 ∈ [0,1], entonces

𝑓((1 − 𝑡)𝑥1 + 𝑡𝑥2) ≤ (1 − 𝑡)𝑓(𝑥1) + 𝑡𝑓(𝑥2).

Conjunto convexo: Un conjunto 𝐶 ⊂ 𝑋, es convexo cuando el segmento

de recta que une dos de sus puntos cualesquiera está enteramente

contenida en 𝐶, es decir,

𝑎, 𝑏 ∈ 𝐶, 0 ≤ 𝑡 ≤ 1 ⇒ (1 − 𝑡)𝑎 + 𝑡𝑏 ∈ 𝐶.

2.3.1.2. Función convexa extendida

Para trabajar con funciones convexas se ha visto que es más útil definirlas

en todas partes del dominio. Basándose en la definición de función convexa

se puede extenderla a todo el espacio vectorial 𝑋 definiendo como ∞ lo que

esta fuera del conjunto convexo 𝐶 (Aliprantis & Border, 2006).

Definición. Una función real extendida 𝑓: 𝑋 → ℝ ∪ {+∞, −∞} sobre un

espacio vectorial 𝑋, es convexa si su epígrafo

𝑒𝑝𝑖 𝑓 = {(𝑥, 𝜇) ∈ 𝑋 × ℝ ∶ 𝑓(𝑥) ≤ 𝜇}

es un subconjunto convexo del espacio vectorial 𝑋 × ℝ.

Epígrafo: Es el conjunto de todos los puntos que están situados en y sobre

la función.

El epígrafo de una función 𝑓: 𝑋 → ℝ está definido por

𝑒𝑝𝑖 𝑓 = {(𝑥, 𝜇) ∈ 𝑋 × ℝ |𝑓(𝑥) ≤ 𝜇} ⊆ 𝑋 × ℝ.

15

2.3.1.3. Dominio efectivo

Definición. Sea 𝑓: 𝑋 → ℝ ∪ {+∞, −∞} una función convexa, su dominio

efectivo está definido por el conjunto

∆𝑓= {𝑥 ∈ 𝑋 | 𝑓(𝑥) < +∞}.

Hecho posible:

El dominio efectivo de una función real extendida 𝑓 es la proyección

sobre 𝑋 de su epígrafo, es decir, 𝑥 ∈ ∆𝑓 si y solo si (𝑥, 𝑓(𝑥)) ∈ 𝑒𝑝𝑖 𝑓.

Función convexa propia: Una función convexa 𝑓: 𝑋 → ℝ ∪ {+∞, −∞} es

propia si el dominio efectivo es no vacío (∆𝑓≠ ∅) y además este nunca

asume el valor de −∞, es decir, 𝑓(𝑥) > −∞ para cada 𝑥 ∈ 𝑋.

Función convexa semi-continua inferiormente: Una función convexa

propia extendida 𝑓 sobre un espacio vectorial topológico es una función

convexa semi-continua inferiormente si y solo si su epígrafo es un cerrado

subconjunto de 𝑋 × ℝ.

Función convexa cerrada: Una función convexa propia 𝑓 es cerrada si es semi-continua inferiormente.

2.3.1.4. Conjugada de una función convexa

La conjugada convexa es una generalización de la transformada de Legendre, también llamada como transformada de Legendre – Fenchel o transformada de Fenchel.

Definición. Sea 𝑋 un espacio vectorial topológico real y sea 𝑋∗ el espacio

dual de 𝑋. Dado 𝑓: 𝑋 → ℝ ∪ {+∞} una función convexa, semi-continua

inferiormente y propia, su conjugada convexa es la función 𝑓∗: 𝑋∗ → ℝ ∪

{+∞} definida por

𝑓∗(𝑥∗) = sup𝑥∈𝑋

{⟨𝑥, 𝑥∗⟩ − 𝑓(𝑥)}

Función afín: Una función 𝑓: 𝑋 → ℝ sobre un espacio vectorial es afín si

esta es de la forma ℎ(𝑥) = ⟨𝑥, 𝑥∗⟩ + 𝜇∗ para alguna función lineal 𝑥∗ ∈ 𝑋 y

algún real 𝜇∗.

Teorema 2.3. (Rockafellar, 1970) Una función convexa cerrada 𝑓 es el

supremo puntual de la colección de todas las funciones afín ℎ tal que ℎ(𝑥) ≤𝑓(𝑥). Demostración. Ver en Rockafellar (1970); Teorema 12.1. Hay una manera dual de describir 𝑓(𝑥) (de acuerdo al teorema 2.3.): Se puede describir el conjunto 𝐹∗ que consiste en todos los pares (𝑥∗, 𝜇∗) en

16

𝑋 × ℝ tal que la función afín ℎ(𝑥) = ⟨𝑥, 𝑥∗⟩ − 𝜇∗ es mayorada por 𝑓(𝑥), así

ℎ(𝑥) ≤ 𝑓(𝑥) para cada 𝑥 si y solo si 𝑠𝑢𝑝{⟨𝑥, 𝑥∗⟩ − 𝑓(𝑥)|𝑥 ∈ 𝑋} ≤ 𝜇∗.

De este modo 𝐹∗ es el epígrafo de la función 𝑓∗ sobre X definida por

𝑓∗(𝑥∗) = 𝑠𝑢𝑝{⟨𝑥, 𝑥∗⟩ − 𝑓(𝑥)|𝑥 ∈ 𝑋}

= −𝑖𝑛𝑓{𝑓(𝑥) − ⟨𝑥, 𝑥∗⟩|𝑥 ∈ 𝑋}

es llamada la conjugada convexa de 𝑓(𝑥) (Rockafellar, 1970).

2.3.1.5. Conjugada Legendre

La conjugada de Legendre es una transformación de una función convexa

diferenciable 𝑓 a una función que depende sobre la familia de tangentes

∇𝑓(𝑥).

Definición. Sea 𝑓 una función diferenciable a valor real, sobre un

subconjunto abierto 𝐶 ⊂ 𝑋. El par (𝐷, 𝑔) es la conjugada Legendre del par

(𝐶, 𝑓) donde 𝐷 es la imagen de 𝐶 bajo la función gradiente ∇𝑓 (para una

función de una variable ∇𝑓(𝑥) es la derivada) y 𝑔 es la función sobre 𝐷,

dada por la fórmula

𝑔(𝑥∗) = ⟨(∇𝑓)−1(𝑥∗), 𝑥∗⟩ − 𝑓((∇𝑓)−1(𝑥∗))

Transformada de Legendre: Si la conjugada (𝐷, 𝑔) del par (𝐶, 𝑓) está bien

definida es llamada transformada de Legendre.

Función suave: Sea una función real extendida 𝑓 sobre 𝑋, es suave solo

si es finita y diferenciable a través de 𝑋.

Estas funciones tienen la primera derivada definida única (la pendiente o

gradiente) en cada punto de 𝑋.

Función esencialmente suave: Una función convexa propia 𝑓 es una función esencialmente suave si 𝑓 satisface las siguientes condiciones para

𝐶 = 𝑖𝑛𝑡(∆𝑓):

a. 𝐶 es no vacío b. 𝑓 es diferenciable en 𝐶 c. Si lim

𝑖→∞|𝛻𝑓(𝑥𝑖)| = +∞ cuando 𝑥1, 𝑥2, … es una secuencia en 𝐶

convergiendo a un punto límite 𝑥 de 𝐶

Función convexa esencialmente estricta: Una función convexa cerrada

y propia 𝑓 sobre 𝑋, será esencialmente estricta si 𝑓 es estrictamente convexa en cada subconjunto convexo de

∆𝜕𝑓= {𝑥|𝜕𝑓(𝑥) ≠ ∅}

con 𝜕 el sub-diferencial de 𝑓.

17

Función convexa de tipo Legendre: Suponga 𝑓 es una función convexa

cerrada y propia sobre 𝑋 entonces 𝑓 es de tipo Legendre, si 𝑓 es a la vez función esencialmente suave y esencialmente estricta.

Teorema 2.4. (Rockafellar, 1970) Sea 𝑓 una función convexa propia, cerrada tal que el conjunto 𝐶 = 𝑖𝑛𝑡(∆𝑓) es no ∅ y 𝑓 es diferenciable en 𝐶.

La conjugada Legendre (𝐷, 𝑔) de (𝐶, 𝑓) está bien definida. Además, 𝐷 (específicamente el rango de ∇𝑓) es un subconjunto de ∆𝑓∗, y 𝑔 es la

restricción de 𝑓∗ a 𝐷.

Demostración. Ver en Rockafellar, 1970; Teorema 26.4.

2.3.2. Proyección Legendre - Bregman

Proposición 2.1. (Della Pietra, Della Pietra, & Lafferty, 2001) Sea 𝜙: 𝑋 →

ℝ ∪ {+∞} una función de tipo Legendre luego para 𝑞 ∈ 𝑖𝑛𝑡(∆𝜙) y 𝑣 ∈

(𝑖𝑛𝑡(∆𝜙∗) − ∇𝜙(𝑞)), la proyección Legendre - Bregman es dada

explícitamente por

ℒ𝜙(𝑞, 𝑣) = ∇𝜙∗(∇𝜙(𝑞) + 𝑣)

Además, para el hiperplano 𝐻 = {𝑝 ∈ 𝑋|⟨𝑝, 𝑣⟩ = 𝑏} con 𝑏 = ⟨ℒ𝜙(𝑞, 𝑣), 𝑣⟩,

ésta proyección puede ser escrita como una proyección de Bregman

ℒ𝜙(𝑞, 𝑣) = arg min𝑝∈∆𝜙∩𝐻

𝐷𝜙(𝑝, 𝑞)

Demonstración. Ver en Della Pietra, Della Pietra, & Lafferty, 2001;

Proposicion 2.6.

Distancia o divergencia de Bregman: Esta distancia es semejante a una

métrica, pero la desigualdad triangular, ni la simetría no cumple.

Definición. Sea 𝜙: 𝑋 → ℝ ∪ {+∞} una función convexa propia cerrada

definida sobre un conjunto 𝑆 ⊂ 𝑋, tal que 𝜙 es diferenciable en el 𝑖𝑛𝑡 (∆𝜙) ≠

∅. La distancia de Bregman denotada por 𝐷𝜙: ∆𝜙 × 𝑖𝑛𝑡(∆𝜙) ⟶ [0, +∞) esta

dada por:

𝐷𝜙(𝑝, 𝑞) = 𝜙(𝑝) − 𝜙(𝑞) − ⟨∇𝜙(𝑞), 𝑝 − 𝑞⟩

Se escribirá 𝜙(𝑝) y 𝜙(𝑞) teniendo en cuenta las distribuciones de

probabilidad 𝑝 y 𝑞.

La distancia de Bregman puede ser interpretada como una medida de la

convexidad de 𝜙 (Della Pietra, Della Pietra, & Lafferty, 2001).

Al definir a 𝜙: ℝ+𝑚 → ℝ como:

𝜙(𝑝) = ∑ (𝑝𝑖 ln 𝑝𝑖 + (1 − 𝑝𝑖) ln(1 − 𝑝𝑖)),𝑚𝑖=1 la distancia de Bregman

asociada a 𝜙 está dada por

18

𝐷𝜙(𝑝, 𝑞) = ∑ (𝑝𝑖 ln (𝑝𝑖

𝑞𝑖)

𝑚

𝑖=1

+ (1 − 𝑝𝑖) ln (1 − 𝑝𝑖

1 − 𝑞𝑖)) 𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑎 𝑅𝑒𝑙𝑎𝑡𝑖𝑣𝑎 (𝐵𝑖𝑛𝑎𝑟𝑖𝑎)

𝜙(𝑝) = ∑ (𝑝𝑖 ln 𝑝𝑖)𝑚𝑖=1 note que se refiere a la entropía negativa entonces

la distancia de Bregman asociada a 𝜙 está dada por

𝐷𝜙(𝑝, 𝑞) = ∑ (𝑝𝑖 ln (𝑝𝑖

𝑞𝑖) + 𝑞𝑖 − 𝑝𝑖) 𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 𝑅𝑒𝑙𝑎𝑡𝑖𝑣𝑎 (𝑛𝑜 𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑎𝑑𝑎)

𝑚

𝑖=1

𝜙(𝑝) = ∑ (𝑝𝑖 ln 𝑝𝑖)𝑚𝑖=1 con ∑ (𝑝𝑖)𝑚

𝑖=1 = ∑ (𝑞𝑖)𝑚𝑖=1 =1, la distancia de Bregman

asociada a 𝜙 está dada por

𝐷𝜙(𝑝, 𝑞) = ∑ (𝑝𝑖 ln (𝑝𝑖

𝑞𝑖))

𝑚

𝑖=1

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 𝑅𝑒𝑙𝑎𝑡𝑖𝑣𝑎 (𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑎𝑑𝑎)

También se la llama como divergencia de Kullback – Leibler, esta es

usada para medir la distancia entre distribuciones de probabilidad 𝑝 y 𝑞

se notará como:

𝑅𝐸(𝑝, 𝑞) = ∑ (𝑝𝑖 ln (𝑝𝑖

𝑞𝑖))

𝑚

𝑖=1

= 𝐷𝜙(𝑝, 𝑞)

Ya que 𝑞 ∈ 𝑖𝑛𝑡(∆𝜙), la aplicación 𝑝 → ⟨∇𝜙(𝑞), 𝑝 − 𝑞⟩ + 𝜙(𝑞) es una función

lineal afín, la función 𝑝 → 𝐷𝜙(𝑝, 𝑞) es una función de tipo Legendre con

dominio ∆𝜙 y con un dominio conjugado ∆𝜙∗ − ∇𝜙(𝑞).

Conjugada Legendre – Bregman: Para una función convexa de tipo

Legendre ϕ se define la conjugada Legendre – Bregman denotada por

ℓ𝜙: 𝑖𝑛𝑡(∆𝜙) × X → ℝ ∪ {+∞} como

ℓ𝜙(𝑞, 𝑣) = sup𝑝∈∆𝜙

(⟨𝑣, 𝑝⟩ − 𝐷𝜙(𝑝, 𝑞))

Proyección Legendre – Bregman: se denota por ℒ𝜙: 𝑖𝑛𝑡(∆𝜙) × ℝ𝑚 → ∆𝜙

y se define como:

ℒ𝜙(𝑞, 𝑣) = arg max𝑝∈∆𝜙

(⟨𝑣, 𝑝⟩ − 𝐷𝜙(𝑝, 𝑞))

2.3.3. Relaciones básicas entre 𝐷𝜙,ℒ𝜙 y ℓ𝜙

Relaciones básicas para establecer los aspectos geométricos de la

dualidad.

19

Proposición 2.2. Sea 𝜙 de tipo Legendre con ∆𝜙∗= ℝ𝑚. Para un fijo 𝑝 ∈

∆𝜙, 𝐷𝜙 (𝑝, ℒ𝜙(𝑞, 𝑣)) es continua en 𝑞 ∈ 𝑖𝑛𝑡(∆𝜙) y convexa en 𝑣. Con todo

esto, la conjugada Legendre-Bregman y la proyección satisfacen:

𝐷𝜙(𝑝, 𝑞) − 𝐷𝜙 (𝑝, ℒ𝜙(𝑞, 𝑣)) = ⟨𝑣, 𝑝⟩ − ℓ𝜙(𝑞, 𝑣)

= 𝐷(ℒ𝜙(𝑞, 𝑣), 𝑞) + ⟨𝑣, 𝑝 −

ℒ𝜙(𝑞, 𝑣)⟩

∀𝑝 ∈ ∆𝜙, 𝑞 ∈ 𝑖𝑛𝑡(∆𝜙) y 𝑣 ∈ ℝ𝑚.

Proposición 2.3. Sea 𝜙 de tipo Legendre, con 𝑝 ∈ ∆𝜙 y 𝑞 ∈ 𝑖𝑛𝑡(∆𝜙)

entonces para 𝑣 ∈ ℝ𝑚, el mapeo 𝑡 ⟼ 𝐷𝜙 (𝑝, ℒ𝜙(𝑞, 𝑡𝑣)) es diferenciable en

𝑡 = 0, con derivada

𝑑

𝑑𝑡|

𝑡=0𝐷𝜙 (𝑝, ℒ𝜙(𝑞, 𝑡𝑣)) = ⟨𝑣, 𝑞⟩ − ⟨𝑣, 𝑝⟩

2.3.4. La extensión continua

Los resultados antes dados en términos de distancia de Bregman, usando

su definición estándar como una función sobre ∆𝜙 × 𝑖𝑛𝑡(∆𝜙). Se hará

suposiciones que permitirán trabajar con 𝐷𝜙 como una función extendida a

valor real sobre ∆𝜙 × ∆𝜙.

Según Della Pietra (2001) esto permite formular un resultado muy natural y

general de dualidad. Informalmente, se asume que:

𝐷𝜙 continuamente extendida desde ∆𝜙 × 𝑖𝑛𝑡(∆𝜙) a ∆𝜙 × ∆𝜙 y

ℒ𝜙 continuamente extendida desde 𝑖𝑛𝑡(∆𝜙) × ℝ𝑚 a ∆𝜙 × ℝ𝑚

Además, se requiere un tipo de compacidad que asegure la existencia de

ciertos minimizadores, para simplificar la presentación, se asume que el

rango de ∇𝜙 es todo ℝ𝑚. Suposiciones sobre 𝜙:

A1 𝜙 es de tipo Legendre;

A2 ∆𝜙∗= ℝ𝑚;

A3 𝐷𝜙 extendida a una función 𝐷𝜙: ∆𝜙 × ∆𝜙→ [0, ∞] tal que 𝐷𝜙(𝑝, 𝑞) es

conjuntamente continua en 𝑝 y 𝑞 y satisface 𝐷𝜙(𝑝, 𝑞) = 0 si y solo si 𝑝 = 𝑞;

A4 ℒ𝜙 extendida a una función ℒ𝜙: ∆𝜙 × ℝ𝑚 → ∆𝜙 tal que ℒ𝜙(𝑞, 𝑣) es

conjuntamente continua en 𝑞 y 𝑣 y satisface ℒ𝜙(𝑞, 0) = 𝑞;

A5 𝐷𝜙(𝑝,∙) es coerciva para cada 𝑝 ∈ ∆𝜙\𝑖𝑛𝑡(∆𝜙);

Juntas las propiedades A1-A5 implican que 𝜙 es una función Legendre –

Bregman.

De la definición de conjugada de Legendre – Bregman, para 𝑞 ∈ 𝑖𝑛𝑡(∆𝜙)

20

ℓ𝜙(𝑞, 𝑣) = ⟨𝑣, ℒ𝜙(𝑞, 𝑣)⟩ − 𝐷𝜙(ℒ𝜙(𝑞, 𝑣), 𝑞)

Las propiedades A4 y A5 permiten definir a ℓ𝜙: ∆𝜙 × ℝ𝑚 → ℝ como la

extensión continua de ℓ𝜙: 𝑖𝑛𝑡(∆𝜙) × ℝ𝑚 → ℝ, satisfaciendo la misma

identidad.

Luego la conjugada Legendre – Bregma es continua en 𝑞, continua y

convexa en 𝑣 y satisface ℓ𝜙(𝑞, 0) = 0.

Las relaciones básicas se generalizan a la extensión continua, así:

Proposición 2.4. (Della Pietra, Della Pietra, & Lafferty, 2001) Sea 𝜙 que

satisface A1 - A4, para un fijo 𝑝 ∈ ∆𝜙, 𝐷𝜙 (𝑝, ℒ𝜙(𝑞, 𝑣)) es continua en 𝑞 y

convexa en 𝑣. Juntas, la conjugada Legendre-Bregman y la proyección

satisfacen:

𝐷𝜙(𝑝, 𝑞) − 𝐷𝜙 (𝑝, ℒ𝜙(𝑞, 𝑣)) = ⟨𝑣, 𝑝⟩ − ℓ𝜙(𝑞, 𝑣)

= 𝐷(ℒ𝜙(𝑞, 𝑣), 𝑞) + ⟨𝑣, 𝑝 −

ℒ𝜙(𝑞, 𝑣)⟩

∀𝑝, 𝑞 ∈ ∆𝜙 y 𝑣 ∈ ℝ𝑚.

Demostración. Ver en Della Pietra, Della Pietra, & Lafferty, 2001;

Proposición 2.9.

Proposición 2.5. (Merow, Smith, & Silander, 2013) Sea 𝜙 que satisface A1

- A4 y sea 𝑝, 𝑞 ∈ ∆𝜙 con 𝐷𝜙(𝑝, 𝑞) < ∞, entonces para 𝑣 ∈ ℝ𝑚, el mapeo

𝑡 ⟼ 𝐷𝜙 (𝑝, ℒ𝜙(𝑞, 𝑡𝑣)) es diferenciable en 𝑡 = 0, con derivada

𝑑

𝑑𝑡|

𝑡=0𝐷𝜙 (𝑝, ℒ𝜙(𝑞, 𝑡𝑣)) = ⟨𝑣, 𝑞⟩ − ⟨𝑣, 𝑝⟩

Demostración. Ver en (Elith et al., 2011).

2.3.5. Conjuntos Factibles y familia de proyecciones Legendre - Bregman

Definición. Para un elemento dado 𝑝0 ∈ ∆𝜙 el conjunto factible para 𝑝0 y

𝐹 es definido por

𝒫(𝑝0, 𝐹) = {𝑝 ∈ ∆𝜙| ⟨𝑝, 𝑓(𝑗)⟩ = ⟨𝑝0, 𝑓(𝑗)⟩, 𝑗 = 1, . . . , 𝑛}

Para un 𝑞0 ∈ ∆𝜙 dado, la familia de proyecciones Legendre - Bregman

para 𝑞0 y 𝐹 está definido por

𝒬(𝑞0, 𝐹) = {𝑞 ∈ ∆𝜙| 𝑞 = ℒ𝜙(𝑞0, 𝐹𝜆), 𝑝𝑎𝑟𝑎 𝑎𝑙𝑔ú𝑛 𝜆 ∈ ℝ𝑛}.

Note que los conjuntos son no serán vacíos ya que 𝑝0 ∈ 𝒫(𝑝0, 𝐹) y 𝑞0 ∈

𝒬(𝑞0, 𝐹).

21

Ya que 𝑝0, 𝑞0 y 𝐹 son fijos en los posterior nos referiremos a los conjuntos

como 𝒫, 𝒬 y �̅� para denotar a la clausura de 𝒬 como un subconjunto de

ℝ𝑚.

Relacionamos dualmente la proyección sobre 𝒫 a la proyección sobre �̅�.

22

CAPÍTULO 3

APROXIMACIÓN DE MÁXIMA ENTROPÍA

3.1. Dualidad

Proposición 3.1. (Elith et al., 2011) Sea 𝜙 (satisface A1 - A5) y suponga

que 𝑝0, 𝑞0 ∈ ∆𝜙 con 𝐷𝜙(𝑝0, 𝑞0) < ∞ entonces existe un 𝑞⋆ ∈ ∆𝜙 único que

satisface las cuatro propiedades:

1. 𝑞⋆ ∈ 𝒫 ∩ �̅�

2. 𝐷𝜙(𝑝, 𝑞) = 𝐷𝜙(𝑝, 𝑞⋆) + 𝐷𝜙(𝑞⋆, 𝑞) para cualquier 𝑝 ∈ 𝒫 y 𝑞 ∈ �̅�

3. 𝑞⋆ = arg min𝑝∈𝒫

𝐷𝜙(𝑝, 𝑞0)

4. 𝑞⋆ = arg min𝑞∈�̅�

𝐷𝜙(𝑝0, 𝑞)

Además, cualquiera de estas propiedades determina la unicidad de 𝑞⋆.

Demostración. Para probar este teorema antes debemos probar dos lemas.

El primero demuestra que hay al menos un elemento en común entre 𝒫 y �̅�;

la segunda muestra que la igualdad Pitagórica es válida para cualquier

miembro.

Lema 3.1. Si 𝐷𝜙(𝑝0, 𝑞0) < ∞ entonces 𝒫 ∩ �̅� es no vacío.

Demostración lema 3.1.

PD: 𝑞⋆ ∈ �̅�

Note que:

𝐷𝜙(𝑝0, 𝑞0) < ∞ en �̅�;

el mapeo 𝜆 ↦ 𝐷𝜙(𝑝0, ℒ𝜙(𝑞0, 𝐹𝜆)) es continuo y convexo;

el conjunto de nivel ℛ = {𝑞 ∈ ∆𝜙|𝐷𝜙(𝑝0, 𝑞) ≤ 𝐷𝜙(𝑝0, 𝑞0)} por A5

(pag.24) sabemos que es acotado

luego 𝐷𝜙(𝑝0, 𝑞) alcanza su mínimo en un punto, este puede o no ser único

𝑞⋆ ∈ 𝒬 ∩ ℛ̅̅ ̅̅ ̅̅ ̅̅ ⊂ �̅�.

PD: 𝑞⋆ ∈ 𝒫

Sea �̅� ∈ �̅� y sea 𝑢𝑗 ∈ ℝ𝑛 tal que

�̅� = 𝑙𝑖𝑚𝑗→∞

ℒ𝜙(𝑞0, 𝐹𝑢𝑗)

entonces por continuidad de ℒ𝜙(∙,∙) tenemos

23

ℒ𝜙(�̅�, 𝐹𝜆) = 𝑙𝑖𝑚𝑗→∞

ℒ𝜙(ℒ𝜙(𝑞0, 𝐹𝑢𝑗), 𝐹𝜆)

luego

ℒ𝜙(ℒ𝜙(𝑞, 𝑤), 𝑣) = (∇𝜙)−1 (∇𝜙 (ℒ𝜙(𝑞, 𝑤)) − 𝑣)

= (∇𝜙)−1(∇𝜙((∇𝜙)−1(∇𝜙(𝑞) − 𝑤)) − 𝑣)

= (∇𝜙)−1(∇𝜙(𝑞) − 𝑤 − 𝑣) = (∇𝜙)−1(∇𝜙(𝑞) − (𝑣 + 𝑤))

= ℒ𝜙(𝑞, 𝑣 + 𝑤)

entonces

ℒ𝜙(�̅�, 𝐹𝜆) = 𝑙𝑖𝑚𝑗→∞

ℒ𝜙(𝑞0, 𝐹(𝑢𝑗 + 𝜆)) ∈ �̅�

luego �̅� es cerrado bajo el mapeo 𝑞 ↦ ℒ𝜙(𝑞, 𝐹𝜆) para 𝜆 ∈ ℝ𝑚 y ℒ𝜙(𝑞⋆, 𝐹𝜆)

está en �̅� para algún 𝜆. Por definición de 𝑞⋆, se sigue que 𝜆 = 0 es un

mínimo de la función 𝜆 ↦ 𝐷𝜙(𝑝0, ℒ𝜙(𝑞⋆, 𝐹𝜆)). Tomando derivadas con

respecto a 𝜆 y usando proposición 2 pag.24 se concluye que

⟨𝑞⋆, 𝑓⟩ = ⟨𝑝0, 𝑓⟩ así 𝑞⋆ ∈ 𝒫.

3.□

Lema 3.2. Si 𝑞⋆ ∈ 𝒫 ∩ �̅� entonces la igualdad Pitagórica

𝐷𝜙(𝑝, 𝑞) = 𝐷𝜙(𝑝, 𝑞⋆) + 𝐷𝜙(𝑞⋆, 𝑞)

se cumple para cualquier 𝑝 ∈ 𝒫 y 𝑞 ∈ �̅�.

Demostración lema 3.2.

Suponga 𝑞⋆ ∈ 𝒫 que 𝑝1, 𝑝2, 𝑞1, 𝑞2 ∈ ∆𝜙 con 𝑞2 = ℒ𝜙(𝑞1, 𝐹𝜆) de la proposición

(pag.25) se tiene que

𝐷𝜙(𝑝1, 𝑞1) − 𝐷𝜙(𝑝1, 𝑞2) = ⟨𝑝1, 𝐹𝜆⟩ − ℓ𝜙(𝑝1, 𝐹𝜆)

𝐷𝜙(𝑝2, 𝑞1) − 𝐷𝜙(𝑝2, 𝑞2) = ⟨𝑝2, 𝐹𝜆⟩ − ℓ𝜙(𝑝2, 𝐹𝜆)

por lo tanto

𝐷𝜙(𝑝1, 𝑞1) − 𝐷𝜙(𝑝1, 𝑞2)

− (𝐷𝜙(𝑝2, 𝑞1) − 𝐷𝜙(𝑝2, 𝑞2))

= ⟨𝑝1, 𝐹𝜆⟩ − ℓ𝜙(𝑞1, 𝐹𝜆)

− (⟨𝑝2, 𝐹𝜆⟩

− ℓ𝜙(𝑞1, 𝐹𝜆))

= ⟨𝑝1, 𝐹𝜆⟩ − ℓ𝜙(𝑞1, 𝐹𝜆) − ⟨𝑝2, 𝐹𝜆⟩

+ ℓ𝜙(𝑞1, 𝐹𝜆)

= ⟨𝑝1, 𝐹𝜆⟩ − ⟨𝑝2, 𝐹𝜆⟩

= ∑ 𝜆𝑗(⟨𝑝1, 𝑓(𝑗)⟩ − ⟨𝑝2, 𝑓(𝑗)⟩)

𝑛

𝑗=1

de esta identidad y de la continuidad de 𝐷𝜙 se tiene que

𝐷𝜙(𝑝1, 𝑞1) − 𝐷𝜙(𝑝1, 𝑞2) − 𝐷𝜙(𝑝2, 𝑞1) + 𝐷𝜙(𝑝2, 𝑞2) = 0.

24

Si 𝑝1, 𝑝2 ∈ 𝒫 y 𝑞1, 𝑞2 ∈ �̅�, el lema sigue de tomar 𝑝1 = 𝑞1 = 𝑞⋆ pues

𝐷𝜙(𝑝1, 𝑝1) − 𝐷𝜙(𝑝1, 𝑞2) − 𝐷𝜙(𝑝2, 𝑞1) + 𝐷𝜙(𝑝2, 𝑞2) = 0

−𝐷𝜙(𝑝2, 𝑞1) − 𝐷𝜙(𝑝1, 𝑞2) = −𝐷𝜙(𝑝2, 𝑞2)

−𝐷𝜙(𝑝2, 𝑞⋆) − 𝐷𝜙(𝑞⋆, 𝑞2) = −𝐷𝜙(𝑝2, 𝑞2)

𝐷𝜙(𝑝2, 𝑞⋆) + 𝐷𝜙(𝑞⋆, 𝑞2) = 𝐷𝜙(𝑝2, 𝑞2)

Demostración de la proposición de dualidad.

Propiedad (1)

PD: 𝑞⋆ ∈ 𝒫 ∩ �̅�

Por lema 3.1 existe 𝑞⋆ ∈ 𝒫 ∩ �̅�.

Propiedad (2)

PD: 𝐷𝜙(𝑝, 𝑞) = 𝐷𝜙(𝑝, 𝑞⋆) + 𝐷𝜙(𝑞⋆, 𝑞), ∀𝑝 ∈ 𝒫 y 𝑞 ∈ �̅�

Por lema 3.2 se ha demostrado.

Propiedad (3)

PD: 𝑞⋆ = 𝑎𝑟𝑔 𝑚𝑖𝑛𝑞∈�̅�

𝐷𝜙(𝑝0, 𝑞) 𝑦

Sea 𝑞 ∈ �̅� entonces

𝐷𝜙(𝑝0, 𝑞) = 𝐷𝜙(𝑝0, 𝑞⋆) + 𝐷𝜙(𝑞⋆, 𝑞) ≥ 𝐷𝜙(𝑝0, 𝑞⋆)

Propiedad (4)

PD: 𝑞⋆ = 𝑎𝑟𝑔 𝑚𝑖𝑛𝑝∈𝒫

𝐷𝜙(𝑝, 𝑞0)

Sea 𝑝 ∈ 𝒫 entonces

𝐷𝜙(𝑝, 𝑞0) = 𝐷𝜙(𝑝, 𝑞⋆) + 𝐷𝜙(𝑞⋆, 𝑞0) ≥ 𝐷𝜙(𝑞⋆, 𝑞0).

Faltaría probar que las cuatro propiedades determinan que 𝑞⋆ es único, es

decir, si 𝑚 ∈ ∆𝜙 y satisface cualquiera de las propiedades, entonces 𝑚 =

𝑞⋆.

Propiedad (1)

Suponga que 𝑚 ∈ 𝒫 ∩ �̅� entonces con 𝑝 = 𝑞 = 𝑚 implica que

𝐷𝜙(𝑚, 𝑚) = 𝐷𝜙(𝑚, 𝑞⋆) + 𝐷𝜙(𝑞⋆, 𝑚)

puesto que 𝐷𝜙(𝑚, 𝑚) = 0 entonces 𝐷𝜙(𝑚, 𝑞⋆) = 0 luego 𝑚 = 𝑞⋆.

Propiedad (2)

Si 𝑚 satisface

25

𝐷𝜙(𝑚, 𝑞) = 𝐷𝜙(𝑚, 𝑞⋆) + 𝐷𝜙(𝑞⋆, 𝑞)

como 𝑚, 𝑞 ∈ 𝒫 ∩ �̅� se tiene que

𝐷𝜙(𝑞⋆, 𝑞⋆) = 𝐷𝜙(𝑚, 𝑞⋆) + 𝐷𝜙(𝑞⋆, 𝑚)

𝐷𝜙(𝑚, 𝑞⋆) + 𝐷𝜙(𝑞⋆, 𝑚) = 0

por lo tanto 𝑚 = 𝑞⋆.

Propiedad (3)

Suponga que 𝑚 satisface

𝑞⋆ = arg min𝑚∈�̅�

𝐷𝜙(𝑝0, 𝑚)

entonces

𝐷𝜙(𝑝0, 𝑚) = 𝐷𝜙(𝑝0, 𝑞⋆) + 𝐷𝜙(𝑞⋆, 𝑚) ≤ 𝐷𝜙(𝑝0, 𝑞⋆)

la segunda desigualdad sigue de la propiedad 2 para 𝑞⋆ luego

𝐷𝜙(𝑝0, 𝑞⋆) − 𝐷𝜙(𝑝0, 𝑞⋆) ≥ 𝐷𝜙(𝑞⋆, 𝑚)

0≥ 𝐷𝜙(𝑞⋆, 𝑚)

por lo tanto m= 𝑞⋆.

Propiedad (4)

Suponga que 𝑚 satisface

𝑞⋆ = arg min𝑚∈𝒫

𝐷𝜙(, 𝑞0)

entonces

𝐷𝜙(𝑚, 𝑞0) = 𝐷𝜙(𝑚, 𝑞⋆) + 𝐷𝜙(𝑞⋆, 𝑞0) ≤ 𝐷𝜙(𝑞⋆, 𝑞0)

y análogamente al punto anterior 𝑚 = 𝑞⋆.

3.2. Enfoque de máxima entropía

Según Dudík (2004), el objetivo es estimar una distribución de probabilidad

𝜋 sobre una espacio muestral finito 𝑋.

Dado:

Un conjunto de muestras 𝑥1, … , 𝑥𝑚 ∈ 𝑋 ubicadas independientemente al

azar de acuerdo a 𝜋, la correspondiente distribución empírica �̃� definida por,

�̃�(𝑥) =1

𝑚|{1 ≤ 𝑖 ≤ 𝑚 ∣ 𝑥𝑖 = 𝑥}| o

�̃�(𝑥) =1

𝑚𝑐𝑎𝑟𝑑({1 ≤ 𝑖 ≤ 𝑚 ∣ 𝑥𝑖 = 𝑥}) 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑒𝑚𝑝í𝑟𝑖𝑐𝑎

26

Un conjunto de características (features) 𝑓 = (𝑓1, … , 𝑓𝑛) donde 𝑓𝑗: 𝑋 → ℝ; el

valor esperado de 𝑓 bajo la distribución 𝜋 o esperanza de 𝑓 se denota por

𝜋[𝑓] = ∑ 𝜋(𝑥)𝑓(𝑥)𝑥∈𝑋

Se usará esta notación (a veces) cuando 𝜋 no sea necesariamente una

distribución de probabilidad

Por otra parte, dada una función 𝑓 se espera que �̃�[𝑓] el promedio empírico

de 𝑓, sea bastante cercano a su verdadero valor esperado 𝜋[𝑓]

�̃�[𝑓] ≈ 𝜋[𝑓]

para esto es necesario buscar una aproximación 𝑝 bajo la cual la esperanza

de 𝑓𝑗 sea igual a �̃�[𝑓𝑗] para cada 𝑓𝑗, es decir, 𝑝[𝑓𝑗] = �̃�[𝑓𝑗].

Habrá muchas distribuciones que satisfacen estas restricciones pero, el

principio de maxent sugiere que de entre todas las distribuciones que

satisfacen las restricciones se elija la que tenga máxima entropía, es decir,

la que sea más cercana a la distribución Uniforme.

La entropía 𝐻 de una distribución 𝑝 sobre 𝑋 está definida como

𝐻(𝑝) = − ∑ 𝑝(𝑥) ln 𝑝(𝑥)

𝑥∈𝑋

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎

Otra manera es considerando todas las distribuciones de Gibbs donde

𝜆 = (𝜆1, … , 𝜆𝑛) ∈ ℝ𝒏 y 𝑍𝝀 = ∑ 𝑒𝝀⋅𝒇(𝒙)𝑥∈𝑋 una constante de normalización se

define como

𝑞𝝀(𝑥) =𝑒𝝀⋅𝒇(𝒙)

𝑍𝝀 𝐷𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖𝑜𝑛𝑒𝑠 𝑑𝑒 𝐺𝑖𝑏𝑏𝑠

La distribución de máxima entropía es la distribución de máxima

verosimilitud de Gibbs, así

o Función verosimilitud

𝑙( 𝝀) = ∏ 𝑞𝜆(𝑥𝑖; 𝝀)

𝑚

𝑖=1

o Función log-verosimilitud

𝐿�̃�(𝝀) = log(𝑙( 𝝀))

= ∑ log 𝑞𝜆(𝑥𝑖; 𝝀)

𝑚

𝑖=1

= −

1

𝑚∑ ln 𝑞𝝀(𝑥𝑖)

𝑚

𝑖=1

27

= −�̃�[ln 𝑞𝝀]

Nótese que solo difieren por la constante entropía 𝐻(�̃�), así:

Entropía Relativa o Divergencia de Kullback-Leibler

Función log-verosimilitud

(log-loss)

𝑅𝐸(�̃�||𝑞𝝀) = ∑ �̃�(𝑥𝑖) ln (�̃�(𝑥𝑖)

𝑞𝝀(𝑥𝑖))

𝑚

𝑖=1

= ∑ �̃�(𝑥𝑖)(ln(�̃�(𝑥𝑖)))

𝑚

𝑖=1

− ∑ �̃�(𝑥𝑖)(ln(𝑞𝝀(𝑥𝑖)))

𝑚

𝑖=1

𝐿�̃�(𝝀)

= −1

𝑚∑ ln 𝑞𝝀(𝑥𝑖)

𝑚

𝑖=1

= −𝐻(�̃�) − �̃�[ln 𝑞𝝀] = −�̃�[ln 𝑞𝝀]

= 𝐿�̃�(𝝀) − 𝐻(�̃�) = 𝐿�̃�(𝝀)

Estas dos serán usadas como funciones objetivo. Los programas convexos

correspondientes a los dos problemas de optimización son:

𝓟: 𝐦𝐚𝐱𝒑∈∆

𝑯(𝒑) 𝓠: 𝒎𝒊𝒏𝝀∈ℝ𝒏

𝑳�̃�(𝝀)

sujeto a

𝒑[𝒇𝒋] = �̃�[𝒇𝒋]

∆: es el conjunto de todas las distribuciones de probabilidad

sobre 𝑿

3.3. Regularización

Este enfoque básico calcula la distribución 𝑝 de máxima entropía, para que

𝑝[𝑓𝑗] = �̃�[𝑓𝑗].

Sin embargo, no se espera el cumplimiento de la igualdad �̃�[𝑓𝑗] = 𝜋[𝑓𝑗] pero

si la cercanía �̃�[𝑓] ≈ 𝜋[𝑓]. Por lo tanto, se suavizan las restricciones a la

forma:

|𝑝[𝑓𝑗] − �̃�[𝑓𝑗]| ≤ 𝛽𝑗

donde 𝛽𝑗 es una estimación de cuan cercano �̃�[𝑓𝑗] (siendo un promedio

empírico) debe estar a su valor verdadero 𝜋[𝑓𝑗],

�̃�[𝑓𝑗] − 𝛽𝑗 ≤ 𝑝[𝑓𝑗] ≤ �̃�[𝑓𝑗] + 𝛽𝑗.

Así, el problema se puede expresar como:

Este corresponde al problema o programa convexo:

𝓟: 𝐦𝐚𝐱𝒑∈∆

𝑯(𝒑) 𝓟′ : 𝐦𝐚𝐱𝒑∈(ℝ+)𝑿

𝑯(𝒑)

28

sujeto a

∀𝒋: |𝒑[𝒇𝒋] − �̃�[𝒇𝒋]| ≤ 𝜷𝒋

∆: es el conjunto de todas las distribuciones de probabilidad sobre

𝑿

sujeto a

∑ 𝑝(𝑥) = 1𝑥∈𝑋 (𝜆0)

∀𝑗: �̃�[𝑓𝑗] − 𝑝[𝑓𝑗] ≤ 𝛽𝑗 (𝜆𝑗+)

∀𝑗: 𝑝[𝑓𝑗] − �̃�[𝑓𝑗] ≤ 𝛽𝑗 (𝜆𝑗−)

Para calcular el dual convexo, se crea el Lagrangiano (las variables duales

son indicadas a continuación de las restricciones) para obtener el programa

dual:

min𝜆0∈ℝ

𝜆𝑗−,𝜆𝑗

+∈ℝ+

max𝑝∈(ℝ+)𝑋

[𝐻(𝑝) − 𝜆0(∑ 𝑝(𝑥) − 1𝑥∈𝑋 ) − ∑ 𝜆𝑗+

𝑗 (�̃�[𝑓𝑗] − 𝑝[𝑓𝑗] − 𝛽𝑗) − ∑ 𝜆𝑗−

𝑗 (𝑝[𝑓𝑗] − �̃�[𝑓𝑗] − 𝛽𝑗)]

min𝜆0∈ℝ

𝜆𝑗−,𝜆𝑗

+∈ℝ+

max𝑝∈(ℝ+)𝑋

[𝐻(𝑝) − 𝜆0 (∑ 𝑝(𝑥) − 1

𝑥∈𝑋

) + ∑ 𝜆𝑗+

𝑗

(𝑝[𝑓𝑗] − �̃�[𝑓𝑗] + 𝛽𝑗) − ∑ 𝜆𝑗−

𝑗

(𝑝[𝑓𝑗] − �̃�[𝑓𝑗] − 𝛽𝑗)]

min𝜆0∈ℝ

𝜆𝑗−,𝜆𝑗

+∈ℝ+

max𝑝∈(ℝ+)𝑋

[𝐻(𝑝) − 𝜆0 (∑ 𝑝(𝑥) − 1

𝑥∈𝑋

) + ∑ 𝜆𝑗+

𝑗

(𝑝[𝑓𝑗] − �̃�[𝑓𝑗]) − ∑ 𝜆𝑗−

𝑗

(𝑝[𝑓𝑗] − �̃�[𝑓𝑗]) + ∑ 𝜆𝑗+

𝑗

𝛽𝑗 − ∑ −𝜆𝑗−

𝑗

𝛽𝑗]

min𝜆0∈ℝ

𝜆𝑗−,𝜆𝑗

+∈ℝ+

max𝑝∈(ℝ+)𝑋

[𝐻(𝑝) − 𝜆0(∑ 𝑝(𝑥) − 1𝑥∈𝑋 ) + ∑ (𝜆𝑗+ − 𝜆𝑗

−)𝑗 (𝑝[𝑓𝑗] − �̃�[𝑓𝑗]) + ∑ (𝜆𝑗+ − 𝜆𝑗

−)𝑗 𝛽𝑗], con 𝜆𝑗 = 𝜆𝑗+ − 𝜆𝑗

min𝜆0∈ℝ

𝜆0,𝜆𝑗∈ℝ+

max𝑝∈(ℝ+)𝑋

[𝐻(𝑝) − 𝜆0 (∑ 𝑝(𝑥) − 1

𝑥∈𝑋

) + ∑ 𝜆𝑗

𝑗

(𝑝[𝑓𝑗] − �̃�[𝑓𝑗]) + ∑|𝜆𝑗|𝛽𝑗

𝑗

]

𝐻(𝑝) − 𝜆0 (∑ 𝑝(𝑥) − 1𝑥∈𝑋

) + ∑ 𝜆𝑗

𝑗

(𝑝[𝑓𝑗] − �̃�[𝑓𝑗]) + ∑|𝜆𝑗|𝛽𝑗

𝑗

Esta expresión es diferenciable y cóncava en 𝑝(𝑥). El cálculo de las derivadas parciales con respecto a 𝑝(𝑥) e igualando a 0

da lugar a que 𝑝 pueda ser una distribución de Gibbs, con parámetros

correspondientes a las variables duales 𝜆𝑗 y 𝑍𝝀 = 𝜆0 + 1.

Convirtiéndose el programa en:

min𝜆∈ℝ𝑛

[𝐻(𝑞𝝀(𝑥)) + 𝝀 ⋅ (𝑞𝝀[𝒇(𝒙)] − �̃�[𝒇(𝒙)]) + ∑|𝜆𝑗|𝛽𝑗

𝑗

]

con

𝐻(𝑞𝝀(𝑥)) = − ∑ 𝑞𝝀(𝑥) ln 𝑞

𝝀(𝑥)

𝑥∈𝑋

= − ∑ 𝑞𝝀(𝑥) ln (

𝑒𝝀⋅𝒇(𝒙)

𝑍𝝀)

𝑥∈𝑋

= − ∑ 𝑞𝝀(𝑥)(ln( 𝑒𝝀⋅𝒇(𝒙)) − ln (𝑍𝝀))

𝑥∈𝑋

29

= − ∑ 𝑞𝝀(𝑥)(𝝀 ⋅ 𝒇(𝒙) − ln (𝑍𝝀))

𝑥∈𝑋

= − ∑ 𝑞𝝀(𝑥)(𝝀 ⋅ 𝒇(𝒙))

𝑥∈𝑋

− (− ln(𝑍𝝀))

= − 𝝀 ⋅ 𝑞𝝀[𝒇(𝒙)] + ln (𝑍𝝀)

Ahora

𝐻(𝑞𝝀) + 𝝀 ⋅ (𝑞𝝀[𝒇] − �̃�[𝒇])

+ + ∑|𝜆𝑗|𝛽𝑗

𝑗

= − 𝝀 ⋅ 𝑞𝝀[𝒇] + ln (𝑍𝝀) + 𝝀⋅ (𝑞𝝀[𝒇] − �̃�[𝒇])

+ ∑|𝜆𝑗|𝛽𝑗

𝑗

= − 𝝀 ⋅ 𝑞𝝀[𝒇] + ln (𝑍𝝀) + 𝝀 ⋅ 𝑞𝝀[𝒇] − 𝝀

⋅ �̃�[𝒇] + ∑|𝜆𝑗|𝛽𝑗

𝑗

= −𝝀 ⋅ �̃�[𝒇] + ln (𝑍𝝀) + ∑|𝜆𝑗|𝛽𝑗

𝑗

= −�̃�[𝝀 ⋅ 𝒇 − ln (𝑍𝝀)] + ∑|𝜆𝑗|𝛽𝑗𝑗

= − ∑ �̃�

𝒎

𝒊=𝟏

(ln (𝑒𝝀.𝒇

𝑍𝝀)) + ∑|𝜆𝑗|𝛽

𝑗𝑗

= − ∑ �̃�

𝒎

𝒊=𝟏

ln(𝑞𝝀) + ∑|𝜆𝑗|𝛽𝑗𝑗

= −�̃�[ln(𝑞𝝀)] + ∑|𝜆𝑗|𝛽𝑗

𝑗

= 𝐿�̃�(𝝀) + ∑|𝜆𝑗|𝛽𝑗

𝑗

= 𝐿�̃�𝛽 (𝝀)

Versión final del programa dual:

𝓠′ : 𝒎𝒊𝒏𝝀

𝑳�̃�𝜷(𝝀)

entonces se demuestra que maxent con restricciones relajadas es

equivalente a minimizar 𝐿�̃�𝛽(𝜆). Esta función objetivo modificada consiste de

un terminó empírico de la log-verosimilitud 𝐿�̃�(𝝀) más un término adicional

∑ |𝜆𝑗|𝛽𝑗𝑗 que puede ser interpretado como una forma de regularización,

limitando cuán grande los pesos 𝜆𝑗 pueden convertirse.

Maximizar la entropía con restricciones relajadas es equivalente a

minimizar 𝑳�̃�𝜷(𝝀)

𝓟′ : 𝐦𝐚𝐱𝒑∈(ℝ+)𝑿

𝑯(𝒑) 𝒬′ : min𝝀

𝐿�̃�𝛽 (𝝀)

30

sujeto a

∑ 𝒑(𝒙) = 𝟏𝒙∈𝑿 (𝝀𝟎)

∀𝒋: �̃�[𝒇𝒋] − 𝒑[𝒇𝒋] ≤ 𝜷𝒋 (𝝀𝒋+)

∀𝒋: 𝒑[𝒇𝒋] − �̃�[𝒇𝒋] ≤ 𝜷𝒋 (𝝀𝒋−)

3.4. Algoritmo de actualización secuencial y prueba de convergencia

Según Dudík (2004), hay muchos algoritmos para encontrar la distribución

de maxent, se revisará el algoritmo de escalamiento iterativo y sus

variantes.

Se describirá a continuación el algoritmo de actualización secuencial que

modifica un peso 𝝀𝒋 a la vez para la optimización de la log-verosimilitud (log

loss) regularizada

Entrada:

𝑋 es un dominio finito características 𝑓1, … , 𝑓𝑛 donde 𝑓𝑗: 𝑋 → [0,1]

muestras 𝑥1, … , 𝑥𝑚 ∈ 𝑋

parámetros de regularización no negativos 𝛽1, . . . , 𝛽𝑛

Salida:

𝝀𝟏, 𝝀𝟐, … minimizando 𝐿�̃�𝛽 (𝝀)

sea 𝝀𝟏 = 𝟎

para 𝑡 = 1,2, … Sea (𝑗, 𝛿) = arg min

(𝑗,𝛿)𝐹𝑗(𝝀𝒕, 𝛿); 𝐹𝑗(𝝀𝒕, 𝛿) se indica a continuación

𝜆𝑡+1,𝑗′ = {𝜆𝑡,𝑗+𝛿 𝑠𝑖 𝑗′=𝑗

𝜆𝑡,𝑗′ 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟𝑎𝑟𝑖𝑜

Recordemos el objetivo es encontrar 𝝀 que minimice la función objetivo

𝐿�̃�𝛽(𝝀).

El algoritmo trabaja iterativamente ajustando (o actualizando) un solo peso

𝜆𝑗 que maximizará (una aproximación de) el cambio en 𝐿�̃�𝛽(𝝀), es decir,

supongamos que se añade 𝛿 a 𝜆𝑗, así resulta 𝝀′ el vector de pesos que es

idéntico a 𝝀 excepto en la coordenada 𝑗, 𝜆𝑗′ = 𝜆𝑗 + 𝛿 entonces con

𝑍𝝀′ =∑ 𝑒𝝀⋅𝒇(𝒙)+𝜹𝒇𝒋(𝒙)𝑥∈𝑋

=∑ 𝑒𝝀.𝒇(𝒙)𝑥∈𝑋 𝑒𝜹𝒇𝒋(𝒙), por definición de 𝑞𝝀(𝑥)

=𝑍𝝀 ∑ 𝑞𝝀(𝑥)𝑒𝜹𝒇𝒋𝑥∈𝑋

=𝑍𝝀𝑞𝝀[𝑒𝜹𝒇𝒋]

el cambio en 𝐿�̃�𝛽

es

𝐿�̃�𝛽(𝝀′) − 𝐿�̃�

𝛽(𝝀) = −𝝀′ ⋅ �̃�[𝒇] + 𝝀 ⋅ �̃�[𝒇] + ln(𝑍𝝀′) − ln(𝑍𝝀) + 𝛽𝑗|𝜆𝑗′| − 𝛽𝑗|𝜆𝑗|

31

= 𝝀 ⋅ �̃�[𝒇] − 𝝀′ ⋅ �̃�[𝒇] + ln (

𝑍𝝀′

𝑍𝝀) + 𝛽𝑗(|𝜆𝑗 + 𝛿| − |𝜆𝑗|)

= −𝛿�̃�[𝑓𝑗] + ln(𝑞𝝀[𝑒𝜹𝒇𝒋]) + 𝛽𝑗(|𝜆𝑗 + 𝛿| − |𝜆𝑗|),

puesto que ∀𝑥 ∈ [0,1] se cumple 𝑒𝛿𝑥 ≤ 1 + (𝑒𝛿 − 1)𝑥

≤ −𝛿�̃�[𝑓𝑗] + ln(𝑞𝝀[1 + (𝑒𝛿 − 1)𝑓𝑗]) + 𝛽𝑗(|𝜆𝑗 + 𝛿| − |𝜆𝑗|)

=−𝛿�̃�[𝑓𝑗] + ln(1 + (𝑒𝛿 − 1)𝑞𝝀[𝑓𝑗]) + 𝛽𝑗(|𝜆𝑗 + 𝛿| − |𝜆𝑗|)

=𝐹𝑗(𝝀, 𝛿)

𝐹𝑗(𝝀, 𝛿) puede ser minimizada sobre todas las elecciones de 𝛿 ∈ ℝ mediante

un simple caso de análisis de signo de 𝜆𝑗 + 𝛿 particularmente si vemos la

necesidad de usar

𝛿 = −𝜆𝑗, o

𝛿 = ln ((�̃�[𝑓𝑗]−𝛽𝑗)(1−𝑞𝝀[𝑓𝑗])

(1−�̃�[𝑓𝑗]+𝛽𝑗)𝑞𝝀[𝑓𝑗]) cuando 𝜆𝑗 + 𝛿 ≥ 0, o

𝛿 = ln ((�̃�[𝑓𝑗]−𝛽𝑗)(1−𝑞𝝀[𝑓𝑗])

(1−�̃�[𝑓𝑗]−𝛽𝑗)𝑞𝝀[𝑓𝑗]) cuando 𝜆𝑗 + 𝛿 ≤ 0

este caso de análisis es repetido para toda características 𝑓𝑗 .

El par (𝑗, 𝛿) que minimiza 𝐹𝑗(𝝀, 𝛿) es seleccionado y se suma 𝛿 a 𝜆𝑗.

Ahora se demuestra un teorema que garantiza que el algoritmo generar una

sucesión de 𝝀𝒕’s que minimizan la función objetivo 𝐿�̃�𝛽(𝝀) donde todos los

𝛽𝑗’s son positivos.

Teorema (Dudík, Phillips, & Schapire, 2004; Teorema 2) Asuma que todas

las 𝛽𝑗 son estrictamente positivas, entonces el algoritmo citado

anteriormente produce una secuencia 𝝀𝟏, 𝝀𝟐, … para la cual

lim𝑡→∞

𝐿�̃�𝛽 (𝝀𝑡) = min

𝝀𝐿�̃�

𝛽(𝝀)

Demostración. Sean los vectores 𝝀+ y 𝝀− en términos de 𝝀 como sigue:

∀𝑗 𝑠𝑖 𝜆𝑗 ≥ 0 entonces 𝜆𝑗+ = 𝜆𝑗 y 𝜆𝑗

− = 0

∀𝑗 𝑠𝑖 𝜆𝑗 ≤ 0 entonces 𝜆𝑗+ = 0 y 𝜆𝑗

− = −𝜆𝑗

Los vectores �̂�+, �̂�−, �̂�𝑡+, �̂�𝑡

−, etc. Son definidos análogamente.

Se reescribe la función 𝐹𝑗:

∀ 𝜆, 𝛿, se tiene |𝜆 + 𝛿| − |𝜆| = 𝑚𝑖𝑛{𝛿+ + 𝛿−|𝛿+ ≥ −𝜆+, 𝛿− ≥ −𝜆−, 𝛿+ − 𝛿− =

𝛿}.

32

Esto puede ser visto como un simple caso de análisis de signo de 𝜆 y 𝜆 +

𝛿.

Añadiendo esto a la definición de 𝐹𝑗 se da:

𝐹𝑗(𝝀, 𝛿) = 𝑚𝑖𝑛{𝐺𝑗(𝝀, 𝛿+, 𝛿−)|𝛿+ ≥ −𝜆+, 𝛿− ≥ −𝜆−, 𝛿+ − 𝛿− = 𝛿}

donde

𝐺𝑗(𝝀, 𝛿+, 𝛿−) = (𝛿− − 𝛿+)�̃�[𝑓𝑗] + 𝑙𝑛(1 + (𝑒𝛿+−𝛿−− 1)𝑞𝝀[𝑓𝑗]) + 𝛽𝑗(𝛿+ + 𝛿−).

Combinando con 𝐹𝑗(𝝀, 𝛿) y nuestra elección de 𝑗 y 𝛿, queda esto

𝐿�̃�𝛽(𝝀𝑡+1) − 𝐿�̃�

𝛽 (𝝀𝑡) ≤ 𝑚𝑖𝑛𝑗

𝑚𝑖𝑛𝛿

𝐹𝑗(𝝀𝑡, 𝛿)

= 𝑚𝑖𝑛𝑗

𝑚𝑖𝑛{𝐺𝑗(𝝀𝑡, 𝛿+, 𝛿−)|𝛿+ ≥ −𝜆𝑡,𝑗+ , 𝛿− ≥ −𝜆𝑡,𝑗

− }

= 𝑚𝑖𝑛 𝐺(𝝀𝒕)

Desde que 𝐺𝑗(𝝀, 0, 0) = 0, sigue que la función 𝑚𝑖𝑛 𝐺𝑗(𝜆𝑡) no es positiva y

por lo tanto 𝐿�̃�𝛽(𝝀𝑡) no es creciente en 𝑡.

Desde que la función log-verosimilitud no es negativa se tiene que

∑ 𝛽𝑗|𝜆𝑡,𝑗|

𝑗

≤ 𝐿�̃�𝛽(𝝀1)

< ∞ Pues

𝐿�̃�𝛽(𝝀𝑡+1) = 𝐿𝜋(𝝀𝑡+1) + ∑ 𝛽𝑗|𝜆𝑡+1,𝑗|

𝑗

≤ 𝐿�̃�𝛽(𝝀𝑡)

= 𝐿𝜋(𝝀𝑡) + ∑ 𝛽𝑗|𝜆𝑡,𝑗|

𝑗

En particular para 𝑡 > 1 se tiene que

∑ 𝛽𝑗|𝜆𝑡,𝑗|

𝑗

≤ 𝐿𝜋(𝝀𝑡) + ∑ 𝛽𝑗|𝜆𝑡,𝑗|

𝑗

≤ 𝐿�̃�

𝛽(𝝀1)

< ∞

Por lo tanto usando la suposición que todos los 𝛽𝑗 > 0, se tiene que los 𝜆𝑡

son elementos de un espacio compacto.

Luego, como 𝝀𝒕 son elementos de un espacio compacto entonces en la

ecuación

𝑚𝑖𝑛 𝐺(𝝀𝒕) = 𝑚𝑖𝑛𝑗

𝑚𝑖𝑛{𝐺𝑗(𝝀𝑡, 𝛿+, 𝛿−)|𝛿+ ≥ −𝜆𝑡,𝑗+ , 𝛿− ≥ −𝜆𝑡,𝑗

− }

33

Es suficiente considerar las actualizaciones 𝛿+ y 𝛿− que vienen de un

espacio compacto.

Las funciones 𝐺𝑗 son uniformemente continuas sobre espacios

compactos, por lo tanto la función 𝑚𝑖𝑛 𝐺 es continua.

El hecho que 𝝀𝒕 sean elementos de un espacio compacto también implica

que estos deben tener una subsucesión convergente a un vector �̂�.

Se puede ver que 𝐿�̃�𝛽

es no negativa, y ya se ha notado que 𝐿�̃�𝛽

es no

creciente, por lo tanto

𝑙𝑖𝑚𝑡→∞

𝐿�̃�𝛽 (𝝀𝒕) existe

Y por continuidad

𝑙𝑖𝑚𝑡→∞

𝐿�̃�𝛽 (𝝀𝒕) = 𝐿�̃�

𝛽(�̂�)

Además, las diferencias 𝐿�̃�𝛽 (𝝀𝑡+1) − 𝐿�̃�

𝛽(𝝀𝑡) deben converger a cero,

entonces la función 𝑚𝑖𝑛 𝐺(𝝀𝒕), la cual es no positiva, también debe

converger a cero.

Por continuidad, esto significa que 𝑚𝑖𝑛 𝐺(�̂�) = 0, en particular para cada 𝑗,

se tiene

𝑚𝑖𝑛{𝐺𝑗(�̂�, 𝛿+, 𝛿−)|𝛿+ ≥ −𝜆𝑗+, 𝛿− ≥ −𝜆𝑗

−} = 0 (7)

Resta probar que (7) implica que �̂�+y �̂�− junto con 𝑞�̂� satisfacen las

condiciones Kuhn-Tucker para el programa convexo 𝒫′y así forma una

solución a este problema asi como también a su dual 𝒬′.

Para 𝑝 = 𝑞�̂� las condiciones son las siguientes, para todo 𝑗

�̂�𝑗+ ≥ 0, �̃�[𝑓𝑗] − 𝑞�̂�[𝑓𝑗] ≤ 𝛽𝑗, �̂�𝑗

+(�̃�[𝑓𝑗] − 𝑞�̂�[𝑓𝑗] − 𝛽𝑗) = 0 (8)

�̂�𝑗− ≥ 0, 𝑞�̂�[𝑓𝑗] − �̃�[𝑓𝑗] ≤ 𝛽𝑗, �̂�𝑗

−(𝑞�̂�[𝑓𝑗] − �̃�[𝑓𝑗] − 𝛽𝑗) = 0 (9)

Se sabe que 𝐺𝑗(�̂�, 0, 0) = 0, así por (7):

Si �̂�𝑗+ > 0 entonces 𝐺𝑗(�̂�, 𝛿+, 0) es no negativo en una vecindad de

𝛿+ = 0 y entonces tiene un mínimo local en este punto, esto es,

0 =𝜕𝐺𝑗(�̂�, 𝛿+, 0)

𝜕𝛿+|

𝛿+=0

= −�̃�[𝑓𝑗] + 𝑞�̂�[𝑓𝑗] + 𝛽𝑗

Si �̂�𝑗+ = 0, entonces por (7) se tiene que 𝐺𝑗(�̂�, 0, 0) ≥ 0 para todo

𝛿+ ≥ 0

Asi, 𝐺𝑗(�̂�, 𝛿+, 0) no puede ser decreciente en 𝛿+ = 0.

Por lo tanto la derivada parcial evaluada arriba debe ser no

negativa

34

Con todos estos argumentos se prueba que la primera condición (8),

análogamente se prueba (9)

Así se ha probado que

𝑙𝑖𝑚𝑡→∞

𝐿�̃�𝛽 (𝝀𝒕) = 𝐿�̃�

𝛽(�̂�) = 𝑚𝑖𝑛𝜆

𝐿�̃�𝛽(𝝀)

35

CAPÍTULO 4

MODELADO DE LA DISTRIBUCIÓN DE LOS CASOS

DE PALUDISMO EN ECUADOR CONTINENTAL

UTILIZANDO MaxEnt en TerrSet

4.1. Introducción

TerrSet es un sistema integrado de software geoespacial para monitorear y

modelar el sistema de tierra para el desarrollo sostenible. Una de las

características de TerrSet es una aplicación vertical denominada Hábitat

and Biodiversity Modeler que tiene como propósito la evaluación del hábitat,

el análisis de patrones espaciales y el modelado de biodiversidad (Clark

Labs, 2017).

Es necesario mencionar que TerrSet brinda una interfaz para MaxEnt que

es un programa desarrollado en el lenguaje JAVA (es un programa fácil de

usar), para modelar datos de la especie presente, escrito por Steven

Phillips, Miroslav Dudík y Robert Schapire, con el apoyo de AT&T Labs-

Investigación de la Universidad de Princeton, y el centro para la

biodiversidad y conservación, museo americano de historia natural.

El algoritmo de MaxEnt es un algoritmo de aprendizaje automático que

utiliza el principio de máxima entropía. El algoritmo usa solo datos de

presencia (reportes de paludismo) y variables predictoras, proporcionando

buenos resultados (Elith et al., 2011) con pocos datos. Esto es importante

en salud pública puesto que por presupuesto no siempre se puede

conseguir todos los datos necesarios para correr un modelo.

MaxEnt asume una distribución de la especie en cada celda de la cuadricula

luego mediante una transformación se incluyen variables predictoras al

modelo llamadas características que restringen la distribución. En la

parametrización de entrada del modelo, se puede manejar el factor de

regularización y las funciones de ajuste de cada variable.

El área de estudio comprende a Ecuador continental esta área contiene

algunas zonas que poseen las características climáticas y/o geográficas y/o

socio-económica favorables para la distribución del paludismo.

A continuación se esquematiza la forma en que se organizará este

capítulo.

36

Figura 6. Proceso para aplicar MaxEnt

4.2. Determinación de variables explicativas y preparación de capas

Según Merow (2013), MaxEnt se usa para abordar problemas con mayor

complejidad no solo para simples análisis exploratorios por esto es

importante asegurar de que las decisiones de modelado sean basadas

biológicamente por hipótesis específicas, objetivos de estudio y

consideraciones específicas de la enfermedad.

La transmisión del paludismo se ocasiona principalmente por la picadura

del mosquito infectado Anopheles hembra, pero se relaciona con otros

factores relacionados al paracito, al vector, al huésped humano o al medio

ambiente. Estos mosquitos sobreviven en agua dulce de poca profundidad

(ej. cultivos de arroz) o aguas pantanosas; también es importante el

desarrollo del vector que está ligado a las condiciones climáticas

(precipitación, temperatura, índice de vegetación) y condiciones socio-

económicas pueden ser no tan relacionadas como con el vector de

transmisor de Dengue pero se ha visto algunas relaciones.

Se usan 10 variables determinantes o capas que se encuentran en el mismo

formato matricial (o formato raster), este consta de celdas (o pixeles)

organizadas en filas y columnas, cada celdas contienen un valor que

representa la información de la variable (temperatura, precipitación,

densidad de población, etc.) estas capas tienen una resolución de 100

metros (7400 filas y 6800 columnas).

Determinar variables

explicativas

Obtener registros de casos reportados por

paludismo Aplicar MaxEnt

Validar el resultado

37

Preparación de capas

4.2.1. Predictores medioambientales

La preparación de las capas precipitación, temperatura y el índice de vegetación consiste en calcular la anomalías estandarizadas con respecto al ciclo anual,

𝑎𝑛𝑜𝑚𝑎𝑙í𝑎 𝑒𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑖𝑧𝑎𝑑𝑎 =𝑥 − �̅�

𝑠𝑥

como resultado obtenemos gran cantidad (por el periodo elegido) de patrones irregulares pero repetitivos en espacio y tiempo, por esta razón se aplica un análisis de componentes principales (PCA) del cual se toma las dos primeras componentes que resumen la información obteniendo así por cada predictor medioambiental dos entradas (excepto la altura); la altura no necesita una preparación especial (EpiSIG, 2017).

Análisis en componentes principales:

Precipitación Componente % de variación

1 20,361446

7400 fila

s

6800 columnas

Pixel 100m

100m

Figura 7. Dimensión para Ecuador continental a 100 metros. Rejilla de 6800 columnas por 7400 filas.

38

2 13,387565

Temperatura Componente % de variación

1 11,074243

2 9,000597

Índice de vegetación Componente % de variación

1 3,217588

2 2,676063

4.2.2. Características topográficas

Las capas topográficas son categóricas por lo que se convierten en

continuas, mediante un cálculo de la distancia Euclidiana entre cada celda

y la más cercana de un conjunto de características objetivo (TerrSet, 2017).

Figura 8. Distancia a los cultivos de arroz (m). El color rojo indica mayor distancia a los cultivos, conforme cambia de tonalidad a negro la distancia disminuye.

Figura 9. Distancia a pantanos (m). El color rojo indica mayor distancia a los pantanos, conforme cambia de tonalidad a negro la distancia disminuye.

Figura 10. Distancia a vías (m). El color rojo indica mayor distancia a las vías, conforme cambia de tonalidad a negro la distancia disminuye.

4.2.3. Determinantes sociales

Se toman dos variables del censo de población y vivienda 2010 del INEC:

39

El hacinamiento (número de habitante por dormitorio) se calcula como:

la relación entre el número de personas habitando la vivienda sobre el

número de dormitorios que hay en la vivienda (sin contar la cocina, el

baño y cuartos de negocio) (EpiSIG, 2017). Según INEC se considera

que una casa esta hacinada cuando hay más de 3 personas promedio

por dormitorio.

Figura 11. Zonas que se consideran con viviendas hacinadas

Y el analfabetismo. La tasa de analfabetismo se calcula como la división

entre el número de personas que no saben leer ni escribir para la

población (EpiSIG, 2017).

Resumen de las variables seleccionadas:

MEDIOAMBIENTALES

# Temática Periodo Fuente de

procesamiento

01 Altitud 2000 EpiSIG

02 Precipitación 2004-2015 por mes EpiSIG

03 Temperatura 2004-2015 por mes EpiSIG

04 Vegetación 2004-2015 por mes EpiSIG

Figura 12. Altitud (m). El color rojo indica mayor altitud, conforme cambia de tonalidad a negro la altitud baja.

40

Figura 13. Anomalía de la precipitación, T-Mode PCA Componente 1 (mm). Mide una aproximación de la cantidad de lluvia que se acumula sobre la superficie de la tierra. El color rojo indica mayor cantidad acumulada de lluvia.

Figura 14. Anomalía de la precipitación, T-Mode PCA Componente 2 (mm). Mide una aproximación de la cantidad de lluvia que se acumula sobre la superficie de la tierra. El color rojo indica mayor cantidad acumulada de lluvia.

Figura 15. Anomalía de la temperatura, T-Mode PCA Componente 1 (°). Mide la aproximación de la temperatura en grados, la intensidad del color rojo indica la temperatura más alta.

Figura 16. Anomalía de la temperatura, T-Mode PCA Componente 2 (°). Mide la aproximación de la temperatura en grados, la intensidad del color rojo indica la temperatura más alta.

Figura 17. Anomalía del índice de vegetación, T-Mode PCA Componente 1. Mide la densidad de vegetación.

Figura 18. Anomalía del índice de vegetación, T-Mode PCA Componente 2. Mide la densidad de vegetación.

TOPOGRÁFICAS

# Temática Fuente de procesamiento

05 Distancia a pantanos EpiSIG

06 Distancia a cultivos de arroz EpiSIG

07 Distancia a vías EpiSIG

08 Pendiente del terreno EpiSIG

41

Figura 19. Distancia a pantanos (m). Indica la distancia en metros desde cada pixel hasta el pantano más cercano.

Figura 20. Distancia a cultivos de arroz (m). Indica la distancia en metros desde cada pixel hasta el cultivo de arroz más cercano.

Figura 21. Distancia a vías (m). Indica la distancia en metros desde cada pixel hasta la vía más cercana.

Figura 22. Pendiente del terreno (°). Mide el grado de inclinación del terreno.

SOCIO-ECONÓMICAS

# Temática Periodo Fuente de

procesamiento

09 Hacinamiento (habitantes por dormitorio)

2010 EpiSIG

10 Analfabetismo 2010 EpiSIG

Figura 23. Hacinamiento. Indica la cantidad de personas por dormitorio. Se considera hacina

Figura 24. Analfabetismo. Indica la proporción del total de dormitorio para el total de personas.

4.3. Registros de casos reportados por paludismo

La base ViEpi no cuenta con la ubicación donde el paciente fue infectado

por paludismo, se cuenta con un valor totalizado de casos por unidad

42

operativa donde fueron atendidos, estos datos no dan información espacial

real por tal motivo los datos han sido desagregados por sector censal (el

método en proceso de publicación por EpiSIG). Por criterios médicos sería

de mayor aportación al modelo filtrar los casos por fecha de inicio de

síntomas, que hayan sido registrados en el año 2014.

Solo presencia

Variables Tipo Fuente de

procesamiento Periodo

Resolución espacial

Paludismo Booleana EpiSIG 2014 (Fecha de inicio de síntomas)

Parroquia (domicilio)

4.4. Aplicación del modelo

4.4.1. Parametrización de MaxEnt, Ganancia y Formato de Salida

Usualmente la parametrización predeterminada da como resultado un buen

modelo según Phillips (2008), sin embargo por varias simulaciones hechas,

se ha cambiado ciertos parámetros de la configuración para tener un

modelo que se ajusta mejor a la realidad.

Los siguientes parámetros se dejan por default:

Pestaña Básica: Random Seed, Write clamp grid when projecting, Do

MESS analysis when projecting.

Pestaña avanzada: Extrapolate, Do clamping, Apply threshold rule, Bias file.

Configuración de parámetros: Selección de características (o features), es la selección de la forma en

que MaxEnt va a tratar cada característica.

La opción elegida es “características automáticas”. Esta opción automatiza

el trabajo de elegir el tipo de característica utilizando un algoritmo, toma una

combinación de los distintos tipos de características para cuando se ajusta

al modelo:

Linear features = datos brutos no transformados

Quadratic features = valores de datos al cuadrado

Product features = producto de dos diferentes variables

Threshold features = 0 cuando la variable es menos que el umbral y 1

cuando es mayor o igual que el umbral.

Ejemplo según Merow (2013), con la precipitación como predictor:

Linear features: se asegura que el valor promedio de la precipitación donde

se predice la aparición de la especie sea aproximado al valor promedio del

predictor en los lugares donde se registró la especie.

43

Quadratic features: restringe la variación de la precipitación donde se

predijo la aparición de la especie que coincida con la observada.

Product features: restringe a ser aproximado el valor de su covarianza de

una variable predictora con las demás variables

Threshold features: crea un predictor binario continuo que al generar una

característica cuyo valor es 0 si esta debajo del umbral y 1 arriba.

Hinge features: son como Threshold features, excepto que se utiliza una

función lineal, en lugar de una función por partes.

El rango de todas las características se transforman en [0,1] para poder ser

coeficientes comparables (Merow, Smith, & Silander, 2013).

Datos de “trasfondo” (background), MaxEnt los usa para medir la

Entropía Relativa Mínima (Elith et al., 2011). Merow (2013), menciona que

estos datos que son usados para generar una hipótesis nula, erróneamente

son confundidos con pseudo-ausencias los cuales conceptualmente son

distintos. El número máximo de puntos de background utilizado en el

modelo es de 1000 datos, añadiendo las muestras a esta selección.

Para obtener una solución MaxEnt maximiza una función llamada ganancia

(Gain), una función de máxima verosimilitud penalizada, que es una medida

de precisión de ajuste comienza en 0 e incrementa hacia una asíntota

durante la corrida. Se la define como probabilidad logarítmica promedio de

la muestras de presencia menos una constante que hace que la distribución

uniforme tenga 0 ganancia.

Definida por:

Ganancia =1

𝑚∑ 𝒛(𝑥𝑖)𝝀

𝑀

𝑖=1

suma de valores predichos en los lugares de presencia

− log ∑ 𝑄(𝑥𝑖)𝑒𝒛(𝑥𝑖)𝝀

𝑁

𝑖=1

suma de valores predichos en los lugares de background (probabilidad en todas las ubicaciones de background)

− ∑|𝜆𝑗| ∗ 𝛽 ∗ √𝑠2[𝓏𝑗]

𝑀

𝐽

𝑗=1

regularización del sobreajuste (overfitting)

𝛽: Coeficiente de regularización

𝑠2[𝓏𝑗]: Varianza de la característica 𝑗 en un lugar de presencia

𝑀: Lugares de presencia

(Merow et al., 2013).

44

La ganancia representa cuantas veces un modelo resultante de los puntos

de presencia es mejor que el modelo resultante de los puntos de trasfondo.

exp(𝑔𝑎𝑛𝑎𝑛𝑐𝑖𝑎) = máximo de 𝑣𝑒𝑐𝑒𝑠

Cuando la “Ganancia”= 0,97

exp(0,97) = 2, 6379

Figura 25. Ganancia del modelo; comienza en 0 y se incrementa hacia una asíntota mientras dura la ejecución del programa.

Hay 3 formatos de salida en MaxEnt: Logistic, Raw, Cumulative.

Merow (2013), aconseja que para obtener la probabilidad de presencia de

una especie se tome la salida logística (Logistic output), definida por

Pr (𝑦 = 1|𝑧) =𝜏𝑒𝒛𝜆−𝑟

1 + 𝜏 + 𝜏𝑒𝒛𝜆−𝑟

𝑟: Entropía relativa entre 𝑃∗(𝒛(𝑥𝑖)) y distribución empírica 𝑄(𝒛(𝑥𝑖))

𝜏: Probabilidad de presencia en los sitios con “típicas” condiciones para la

especie (𝜏 = 0,5 es el valor predeterminado) (Elith et al., 2011)

𝑧: Vector de características

𝜆: Vector (buscado) de coeficientes de regresión

En la siguiente figura se observa el mapa de probabilidad de presencia de

Paludismo en Ecuador Continental mediante la salida Logística de MaxEnt:

45

Figura 26. Salida Logística de MaxEnt

Se identifica con una división administrativa a las zonas que están divididas,

es decir, se incluye los nombres de provincias para poder identificar las

zonas.

El color rojo muestra las áreas con mejores condiciones para contraer

paludismo; Esmeraldas es la zona que presenta la coloración más intensa,

es decir, la alta probabilidad predicha de las mejores condiciones para tener

mayores reportes de paludismo; para tener una mejor ubicación de esta

zona se nombra las parroquias que están pintadas más fuerte, San

Lorenzo, Ancon, Mataje, Tululbi, Pampanal de Bolívar, Tambillo, Calderón,

Carondelet, Santa Rita, conforme se degrada el color rojo la probabilidad

va disminuyendo hasta llegar al color blanco que indica una probabilidad

de 0, como se nota con mayor cantidad la sierra tiene dicha probabilidad.

46

Figura 27. Salida Logística de MaxEnt. Mapa de Ecuador con nombres de provincias que representa la probabilidad relativa de encontrar casos de paludismo en Ecuador continental con una probabilidad máxima de 0,76.

4.5. Validación de la capacidad predictora del modelo

Para hacer la validación del modelo se debe contar con un porcentaje de

datos para evaluar el modelo (Random test percentage).

En la parametrización del modelo se tomó el 25% (69 presencias) de datos

de prueba dejando el 75% (208 presencias) para los datos de

entrenamiento que construyen el modelo.

Para validar la exactitud del modelo se usa bootstrapping (o bootstrap) este

es un método de remuestreo de n veces con remplazo de los datos de

entrenamiento. Se realizó 10 réplicas (Replicates).

4.5.1. Creación de una matriz de confusión (o contingencia)

El rendimiento productivo del modelo puede ser plasmado en una matriz de

confusión, para esto se necesita que la predicción del modelo sea de tipo

47

binario, así, 1 para zonas adecuadas y 0 para zonas no adecuadas, para

hacer esta categorización se usa un umbral de presencia.

Datos de prueba

+ -

Datos de entrenamiento

Especie predicha

+ Verdadero

positivo (a)

Falso positivo

(b)

Especie no predicha

- Falso

negativo (c)

Verdadero negativo

(d)

Figura 28. Matriz de confusión

La matriz de confusión trabaja con las frecuencias de cada una de las 4

posibles predicciones y nos calcula el error que el modelo cometió en su

predicción. Los errores son:

El error por comisión es dado por los falsos positivos (b) este puede ser real

o fingido puesto que puede ser un sitio idóneo para la aparición o una sobre-

estimación del modelo.

El erro por omisión es dado por los falsos negativos (c) este es el más

importante puesto que puede predecir no presencia en lugares donde las

condiciones son idóneas para la especie.

Al usar solo puntos de presencia se puede calcular:

𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 =𝑎

(𝑎 + 𝑐) (Fracción de verdaderos

positivos) ( 12)

𝑇𝑎𝑠𝑎 𝑑𝑒 𝑜𝑚𝑖𝑠𝑖ó𝑛 =𝑎

(𝑎 + 𝑐) (Fracción de falsos positivos) ( 13)

𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 + 𝑇𝑎𝑠𝑎 𝑑𝑒 𝑜𝑚𝑖𝑠𝑖ó𝑛 = 1

El cálculo de la Especificidad es importante en la selección del umbral y en el análisis de la curva ROC:

𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑 =𝑑

(𝑏 + 𝑑)

(Fracción de verdaderos negativos)

( 14)

Hay diferentes métodos para la selección del umbral de presencia:

48

Figura 29. Umbrales de presencia

Una de las réplicas nos da el umbral “Equal test sensitivity and specificity”

con el valor más alto y el valor más pequeño se obtiene con el umbral “Fixed

cumulative value 1” para clasificar la presencia.

4.5.2. AUC (Area Under The Curve) del modelo bajo la curva ROC

(Receiver Operating Characteristic)

Como la predicción es de tipo binarias no cuenta con toda la información

por esta razón es mejor tener una solo medida de la asertividad de la

predicción, dentro de todo el rango de umbrales posibles.

Esta medida es el AUC bajo la curva ROC es representada en la siguiente

figura:

Figura 30. Curva operacional ROC y el AUC del modelo.

Frac

ció

n d

e ve

rdad

ero

s p

osi

tivo

s

Fracción de falsos positivos

Clasificación

perfecta

Mejor

Peor

49

representa la relación entre el porcentaje correcto de presencia predicha

versus 1 menos el porcentaje correcto de ausencias predichas (Hanley,

Mcneil, & Ph, 1982). 1 − 𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑 es un arreglo para que la

𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 y la 𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑 varíen en la misma dirección cuando se

ajusta el umbral. Mientras más se acerque la curva ROC al eje de las 𝑌 la

modelación es mejor y caso contrario se acercara a la línea de color negro

(Random prediction).

El promedio ROC de entrenamiento para las iteraciones es 0,914 y la

desviación estándar es 0,009. Según la clasificación la precisión del test es

muy bueno por encontrarse en el rango de 0,9 a 0,97.

La dependencia de la predicción con las variables predictoras se lo puede

ver con las curvas de respuesta de MaxEnt. En el eje "𝑋" indica la

variación de la variable predictora y en el eje "𝑌" representa la probabilidad

predicha de presencia de paludismo en las condiciones idóneas, con las

variables predictoras de acuerdo al cálculo de su valor promedio.

Curva de respuesta del hacinamiento; la probabilidad de presencia de reportes de la enfermedad es más alta en 2 por ser lo un número común en zonas urbanas. Se presenta un decrecimiento al contar con viviendas hacinadas (>3 habitantes por dormitorio) que tiene mayor probabilidad de ser encontrado en zonas rurales.

Curva de respuesta del analfabetismo; la probabilidad de reportar paludismo se presenta mayormente en zonas con más cantidad de personas de edad mayor a 15 años, que saben leer y escribir, esto se pueden interpretar como zonas urbanas, mientras que en zonas rurales no se ve una probabilidad marcada de reportes.

Curva de respuesta de la pendiente; entre menos sea la inclinación es decir en zonas planas (no laderas) mayor es la probabilidad de presencia de casos reportados.

Curva de respuesta de la distancia a cultivos de arroz; la probabilidad de encontrar reportes de paludismo es más alta, cuando más alejado se encuentre de los cultivos de arroz.

50

Curva de respuesta de la distancia a vías; mientras más cercano se encuentre a las vías la probabilidad de reportes de paludismo aumenta.

Curva de respuesta de la altitud; la probabilidad de aparición de la enfermedad reportada aumenta con valores bajos de altitud, es decir, en zonas bajas del Ecuador se reportan más casos de paludismo.

Figura 31. Curva de respuesta de las variables predictoras que se utiliza para el modelado de la distribución de paludismo en el Ecuador continental.

51

CONCLUSIONES Y RECOMENDACIONES

6.1. Conclusiones

La Entropía en teoría de la información es una medida de incertidumbre o

la medida de la información promedio por cada símbolo proporcionado de

una fuente de información.

El análisis convexo y la solución del problema de optimización en la familia

de distancias de Bregman sujeto a ciertas restricciones lineales conduce a

un modelo matemático específicamente a un modelo estadístico el cual es

de principal interés en aplicaciones de estadística o machine learning. La

demostración del teorema de dualidad conecta el problema primal al

problema dual, lo que permite que la solución se la pueda expresar en

términos geométricos.

Basándose en conocimiento de profesionales de salud que han sido

adquiridos académica o empíricamente en relación a la enfermedad se

definió las variables predictoras de diferentes ámbitos medio-ambientales

como la altura, precipitación y temperatura, socio-económicos como el

hacinamiento, el analfabetismo, topográficos como la pendiente del terreno,

distancia a los pantanos y cultivos de arroz, que se encuentran relacionadas

con las características óptimas para la aparición de la enfermedad, dando

un modelo muy certero comparable con la realidad.

El vector Anopheles es un vector rural es decir su hábitat se encuentra

alejado de las sitios con mayor población por lo que se justifica una

resolución espacial de 100 metros.

El análisis del modelo presenta que las variables ambientales y topográficas

influyen en la propagación de la enfermedad, pero a pesar que el vector no

tenga un comportamiento urbano las variables socioeconómicas de igual

manera aportan información para poder reconocer los sitios donde se

puede dar un reporte masivo de casos autóctonos o importados, que por lo

general son sitios ubicados en las zonas urbanas; cabe mencionar que por

otras simulaciones hechas se descartó la variable de ”densidad

poblacional” porque alteraba el modelo sesgando la predicción en base a

la población.

Esta modelación sirve como ayuda para tomar decisiones al distribuir

recursos humanos o económicos, para la prevención del paludismo; incluso

para tener una idea donde ubicar centros de atención médica.

El mapa de riego de paludismo no nos indica la población que está en

riesgo, puesto que algunas zonas favorables para la presencia de la

enfermedad no están habitadas por lo que con dificultad el paludismo se

pueda convertir en una epidemia.

52

Se observa que las provincias con mayor probabilidad de presencia

cuentan con pequeñas zonas habitadas, pero se debe tomar medidas de

prevención en las provincias con mayor densidad poblacional que cuenten

con las condiciones óptimas para contraer la enfermedad (Los Ríos,

Guayas, El Oro y partes de las provincias aledañas) convirtiéndose en

zonas de cuidado epidemiológico.

6.2. Recomendaciones

La disponibilidad libre de los geodatos, datos socio-económicos, imágenes

satelitales, el software MaxEnt, facilita el uso a profesionales de la salud

para que mantengan un monitoreo constante de cualquier enfermedad,

pero se necesita contar con acceso a las bases de datos de salud de forma

libre sin perder la confidencialidad del paciente, puesto que se necesita

campos específicos para la modelación en los cuales no intervienen ningún

dato de identificación del paciente.

Las bases de salud para el análisis espacial deberían incluir coordenadas

de la ubicación del trabajo, escuela, vivienda, en general de sitios donde el

paciente puede haber estado la mayor cantidad de su tiempo y un campo

donde almacene las coordenadas donde el paciente responda donde cree

que pudo haberse contagiado de la enfermedad esto ayudará a una

dispersión espacial más real.

El modelamiento puede ser mejorado en su parametrización en un futuro

para encontrar una predicción más precisa, pues al cambiar las diferentes

configuraciones del programa se obtienen diferentes escenarios del

fenómeno a modelar, hay que tener en cuenta que estos escenarios

dependen del objetivo de estudio que se persigue. Sin embargo hay que

recalcar que las opciones por defecto modelan y persiguen la probabilidad

de presencia en este caso del Paludismo en el Ecuador.

Esta modelación se podría mejorar su resolución espacial (10 metros), y de

igual manera contar con mayor información temporal en los datos de

presencia, es decir, contar con más datos de distintos años de reportes de

paludismo.

Encontrar una manera para difundir resultados de las modelaciones de una

forma rápida y fácil a las autoridades pertinentes de salud pública

encargadas de tomar decisiones.

53

BIBLIOGRAFÍA

Aliprantis, C., & Border, K. (2006). Infinite Dimensional Analysis, 251–309. https://doi.org/10.1007/3-540-29587-9_7

Anderson, R. P., & Martínez-Meyer, E. (2004). Modeling species’ geographic distributions for preliminary conservation assessments: An implementation with the spiny pocket mice (Heteromys) of Ecuador. Biological Conservation, 116(2), 167–179. https://doi.org/10.1016/S0006-3207(03)00187-3

Basu, A. (2002). Introduction To Stochastic Process, 432.

Capurro Rafael. (2003). The Concept of Information. Retrieved July 23, 2017, from http://www.capurro.de/infoconcept.html

Cifuentes, S. G., Trostle, J., Trueba, G., Milbrath, M., Baldeón, M. E., Coloma, J., & Eisenberg, J. N. S. (2013). Transition in the cause of fever from malaria to dengue, Northwestern Ecuador, 1990-2011. Emerging Infectious Diseases, 19(10), 1642–1645. https://doi.org/10.3201/eid1910.130137

Della Pietra, S., Della Pietra, V., & Lafferty, J. (2001). Duality And Auxiliary Functions For Bregman Distances.

Dudík, M., Phillips, S. J., & Schapire, R. E. (2004). Performance Guarantees for Regularized Maximum Entropy Density Estimation, 472–486. https://doi.org/10.1007/978-3-540-27819-1_33

Elith, J., Phillips, S. J., Hastie, T., Dudík, M., Chee, Y. E., & Yates, C. J. (2011). A statistical explanation of MaxEnt for ecologists. Diversity and Distributions, 17(1), 43–57. https://doi.org/10.1111/j.1472-4642.2010.00725.x

Fithian, W., & Hastie, T. (2013). Finite-sample equivalence in statistical models for presence-only data. Annals of Applied Statistics, 7(4), 1917–1939. https://doi.org/10.1214/13-AOAS667

Grinstead, C. M., & Snell, J. L. (2007). Introduction to Probability. Swarthmore College, 1–520. https://doi.org/http://dx.doi.org/10.1016/S1363-

4127(97)81322-2

Gwitira, I., Murwira, A., Zengeya, F. M., Masocha, M., & Mutambu, S. (2015). Modelled habitat suitability of a malaria causing vector (Anopheles arabiensis) relates well with human malaria incidences in Zimbabwe. Applied Geography, 60, 130–138. https://doi.org/10.1016/j.apgeog.2015.03.010

Hanley, a, Mcneil, J., & Ph, D. (1982). under a Receiver Characteristic. Radiology, 143, 29–36. https://doi.org/10.1148/radiology.143.1.7063747

Hartley, R. V. L. (1928). Transmission of Information. Bell System Technical Journal. https://doi.org/10.1002/j.1538-7305.1928.tb01236.x

Krisher, L. K., Krisher, J., Ambuludi, M., Arichabala, A., Beltrán-Ayala, E., Navarrete, P., … Stewart-Ibarra, A. M. (2016). Successful malaria elimination in the Ecuador–Peru border region: epidemiology and lessons learned. Malaria Journal, 15(1), 573. https://doi.org/10.1186/s12936-016-1630-x

Mateo, R. G., Felicísimo, Á. M., & Muñoz, J. (2011). Modelos de distribución de especies: Una revisión sintética. Revista Chilena de Historia Natural, 217–

54

240. https://doi.org/10.4067/S0716-078X2011000200008

Merow, C., Smith, M. J., & Silander, J. A. (2013). A practical guide to MaxEnt for modeling species’ distributions: What it does, and why inputs and settings matter. Ecography, 36(10), 1058–1069. https://doi.org/10.1111/j.1600-0587.2013.07872.x

OMS. (n.d.). OPS/OMS Ecuador - ECUADOR GANA PREMIO al “Campeón de la malaria en las Américas.” Retrieved June 17, 2017, from http://www.paho.org/ecu/index.php?option=com_content&view=article&id=188:ecuador-gana-premio-campeon-malaria-americas&Itemid=360

OMS. (2017a). Alerta Epidemiológica Aumento de casos de malaria. Retrieved from http://www.paho.org/hq/index.php?option=com_docman&task=doc_view&Itemid=270&gid=38148&lang=es

OMS, A. R. . (2017b). Respuesta mundial para el control de vectores 2017 – 2030, 2030. Retrieved from http://apps.who.int/gb/ebwha/pdf_files/WHA70/A70_26Rev1-sp.pdf

Phillips, S. (2008). A Brief Tutorial on Maxent. AT&T Research, 1–38. https://doi.org/10.4016/33172.01

Phillips, S. J., & Dudík, M. (2008). Modeling of species distribution with Maxent: new extensions and a comprehensive evalutation. Ecograpy, 31(December 2007), 161–175. https://doi.org/10.1111/j.2007.0906-7590.05203.x

Rincón, L. (2012). Introducción a los procesos estocásticos , 1–328. Retrieved from http://users/Natch- Nacht/Documents/Bibliotecas/Mendeley/Rinc%7B’o%7Dn/Unknown/Rinc%7B’o%7Dn - 2012 - Introducci%7B’o%7Dn a los procesos estoc%7B’a%7Dsticos.pdf

Rockafellar, R. (1970). Convex Analysis, 472. https://doi.org/10.1515/9781400873173

Shannon, C. E. (1948). A mathematical theory of communication. The Bell System Technical Journal, 27(July 1928), 379–423.

https://doi.org/10.1145/584091.584093

Shannon, C. E., & Weaver, W. (1964). THE MATHEMATICAL THEORY OF COMMUNICATION. Retrieved from http://www.magmamater.cl/MatheComm.pdf

Taylor, H. M., & Karlin, S. (2010). An Introduction to Stochastic Modeling. Star. https://doi.org/10.1016/B978-0-12-684880-9.50006-X

Tyrrell Rockafellar, R. (1970). Convex Analysis, 472. https://doi.org/10.1515/9781400873173