Evaluación de modelos de clasificación para la predicción ...

Universidad de La Salle Universidad de La Salle

Ciencia Unisalle Ciencia Unisalle

Ingeniería en Automatización Facultad de Ingeniería

6-6-2020

Evaluación de modelos de clasificación para la predicción de Evaluación de modelos de clasificación para la predicción de

heladas en el sector agricultor de Mosquera Cundinamarca, heladas en el sector agricultor de Mosquera Cundinamarca,

Colombia Colombia

Cristian Camilo Meza Gámez Universidad de La Salle, Bogotá

Sergio Alejandro Gutierréz Barón Universidad de La Salle, Bogotá

Follow this and additional works at: https://ciencia.lasalle.edu.co/ing_automatizacion

Part of the Agriculture Commons, and the Engineering Commons

Citación recomendada Citación recomendada Meza Gámez, C. C., & Gutierréz Barón, S. A. (2020). Evaluación de modelos de clasificación para la predicción de heladas en el sector agricultor de Mosquera Cundinamarca, Colombia. Retrieved from https://ciencia.lasalle.edu.co/ing_automatizacion/774

This Trabajo de grado - Pregrado is brought to you for free and open access by the Facultad de Ingeniería at Ciencia Unisalle. It has been accepted for inclusion in Ingeniería en Automatización by an authorized administrator of Ciencia Unisalle. For more information, please contact [email protected].

https://ciencia.lasalle.edu.co/

https://ciencia.lasalle.edu.co/ing_automatizacion

https://ciencia.lasalle.edu.co/fac_ingenieria

https://ciencia.lasalle.edu.co/ing_automatizacion?utm_source=ciencia.lasalle.edu.co%2Fing_automatizacion%2F774&utm_medium=PDF&utm_campaign=PDFCoverPages

http://network.bepress.com/hgg/discipline/1076?utm_source=ciencia.lasalle.edu.co%2Fing_automatizacion%2F774&utm_medium=PDF&utm_campaign=PDFCoverPages

http://network.bepress.com/hgg/discipline/217?utm_source=ciencia.lasalle.edu.co%2Fing_automatizacion%2F774&utm_medium=PDF&utm_campaign=PDFCoverPages

https://ciencia.lasalle.edu.co/ing_automatizacion/774?utm_source=ciencia.lasalle.edu.co%2Fing_automatizacion%2F774&utm_medium=PDF&utm_campaign=PDFCoverPages

mailto:[email protected]

EVALUACION DE MODELOS DE

CLASIFICACION PARA LA

PREDICCION DE HELADAS EN EL

SECTOR AGRICULTOR DE

MOSQUERA (CUNDINAMARCA,

COLOMBIA).

AUTORES:

Cristian Camilo Meza Gamez

Sergio Alejandro Gutierrez Baron

DIRECTOR: Jose Fabian Salazar Caceres

UNIVERSIDAD DE LA SALLE

FACULTAD DE INGENIERIA

PROGRAMA DE INGENIERIA EN AUTOMATIZACION

BOGOTA D.C

2020

Nota de aceptacion:

Firma jurado 1.

Firma jurado 2.

Firma jurado 3.

Bogota 6 de junio de 2020

i

Agradecimientos

Este es el resultado de los esfuerzos de nuestras familias y companeros, agrade-

cemos infinitamente la paciencia, amor y comprension que han tenido con nosotros.

Gracias Universidad de la Salle por la formacion que recibimos y por la calidad

de los profesionales que participaron en nuestra formacion.

El ingeniero Jose Fabian Salazar, gracias por guiarnos en el desarrollo de este

proyecto investigativo y compartir su entusiasmo, conocimiento e interes por el es-

tudio de Machine Learning, adquirimos grandes conocimientos bajo su tutela.

ii

Indice general

1. Introduccion 1

2. Planteamiento del problema 5

2.1. Heladas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.1.1. Helada por adveccion . . . . . . . . . . . . . . . . . . . . . . . . 6

2.1.2. Helada por evaporacion . . . . . . . . . . . . . . . . . . . . . . . 6

2.1.3. Helada por radiacion . . . . . . . . . . . . . . . . . . . . . . . . 7

2.2. Factores que favorecen las heladas . . . . . . . . . . . . . . . . . . . . . 7

3. Definiciones 9

3.1. Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.1.1. Aprendizaje supervisado . . . . . . . . . . . . . . . . . . . . . . 9

3.1.2. Aprendizaje no supervisado . . . . . . . . . . . . . . . . . . . . 10

3.2. Matriz de confusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3.3. Receiver Operating Characteristic - ROC . . . . . . . . . . . . . . . . . 12

3.4. Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3.5. SMOTE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3.6. Validacion cruzada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.7. Log loss - funcion entropıa . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.8. Valor esperado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.9. Correlacion de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.10. Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.11. Python . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.11.1. PANDAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.11.2. Scikit-learn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.12. Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.12.1. Regresion Logıstica . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.12.2. Redes bayesianas . . . . . . . . . . . . . . . . . . . . . . . . . . 21

iii

4. Metodologıa y resultados 26

4.1. Procesamiento de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4.2. Synthetic Minority Over-sampling TEchnique - SMOTE . . . . . . . . 31

4.3. Regresion logıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4.4. Redes bayesianas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

4.4.1. Matriz de frecuencia . . . . . . . . . . . . . . . . . . . . . . . . 35

4.4.2. Tablas de probabilidad . . . . . . . . . . . . . . . . . . . . . . . 36

4.4.3. Calculos de probabilidad . . . . . . . . . . . . . . . . . . . . . . 38

4.4.4. Pseudocodigo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

4.4.5. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

4.5. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.5.1. Matriz de confusion . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.5.2. Log - loss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

4.5.3. Curva ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.5.4. Validacion cruzada . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.5.5. Valor esperado . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

5. Conclusiones 48

Bibliografıa 51

iv

Indice de figuras

2.1. Temperatura mınima y maxima Versus dıa. . . . . . . . . . . . . . . . 6

3.1. Aprendizaje supervisado, SPAM correo. Geron (2017) . . . . . . . . . . 10

3.2. Aprendizaje no supervisado, visitantes blog. Geron (2017) . . . . . . . 11

3.3. Distribucion matriz de confusion. Zelada Carlos (s.f.) . . . . . . . . . . 12

3.4. Ejemplo curva ROC: capacidad discriminatoria de una prueba para cla-

sificar sanos de enfermos. Malaga (s.f.) . . . . . . . . . . . . . . . . . . 13

3.5. Log loss. Tomada de . Brownlee (2020) . . . . . . . . . . . . . . . . . . 14

3.6. Funcion Logıstica. Geron (2017) . . . . . . . . . . . . . . . . . . . . . . 18

3.7. Parametros asociados a una red bayesiana. Sucar (2004) . . . . . . . . 24

4.1. Diagrama de procesos modelos implementados. . . . . . . . . . . . . . . 27

4.2. Primeras cinco muestras de los datos. Obtenidos del IDEAM, digitados

en Python. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4.3. Coeficientes de correlacion de Pearson . . . . . . . . . . . . . . . . . . . 29

4.4. Descriptores Versus Temperatura mınima. . . . . . . . . . . . . . . . . 30

4.5. Histrograma de observaciones por clase. . . . . . . . . . . . . . . . . . . 31

4.6. SMOTE: Conexion entre punto.Rikunert (s.f.). . . . . . . . . . . . . . . 32

4.7. SMOTE: Muestras sinteticas entre puntos existentes.Rikunert (s.f.). . . 32

4.8. Red bayesiana propuesta. . . . . . . . . . . . . . . . . . . . . . . . . . . 36

4.9. Red bayesiana propuesta con descriptor dıa. . . . . . . . . . . . . . . . 39

4.10. Log loss para una clase positiva (Helada). . . . . . . . . . . . . . . . . 44

4.11. Log loss para una clase negativa (No Helada). . . . . . . . . . . . . . . 44

4.12. Curva ROC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.13. Resultados obtenidos a partir de 10 muestras del conjunto de validacion 46

4.14. Valor esperado de Temperatura mınima . . . . . . . . . . . . . . . . . . 47

v

Indice de cuadros

4.1. Cantidad de eventos antes y despues de aplicar SMOTE. . . . . . . . . 32

4.2. Cantidad de eventos por subconjunto. . . . . . . . . . . . . . . . . . . . 33

4.3. Coeficientes del modelo logıstico. . . . . . . . . . . . . . . . . . . . . . 33

4.4. Tabla de ubicacion de descriptores. . . . . . . . . . . . . . . . . . . . . 34

4.5. Matriz de frecuencia del conjunto de entrenamiento. . . . . . . . . . . . 35

4.6. Matriz de frecuencia normalizada del conjunto de entrenamiento. . . . . 35

4.7. Matriz de frecuencia normalizada del conjunto de entrenamiento ajustada. 36

4.8. Probabilidad de que se de el nodo A dada la temperatura seca maxima

(TSM) y la temperatura mınima (Tm). . . . . . . . . . . . . . . . . . . 37

4.9. Probabilidad de que se de el nodo B dado el dıa pluviometrico (DP) y

la precipitacion (P). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

4.10. Probabilidad de que se de el nodo C dada la humedad relativa (HR) y

la temperatura maxima (TM). . . . . . . . . . . . . . . . . . . . . . . . 37

4.11. Probabilidad de que se de el nodo D dada la temperatura seca mınima

(TSm) y el nodo A. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

4.12. Probabilidad de que se de el nodo E dodo los nodos B y C. . . . . . . . 38

4.13. Probabilidad de que se de el nodo F dados los nodos E y D. . . . . . . 38

4.14. Descriptores de entrada discretizados vs descriptores deseados discreti-

zados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

4.15. Probabilidad generada por nodos. . . . . . . . . . . . . . . . . . . . . . 41

4.16. Probabilidad final mes enero, entradas ejemplo. . . . . . . . . . . . . . 42

4.17. Probabilidad final mes de Febrero entradas ejemplo. . . . . . . . . . . . 42

4.18. Matriz de confusion de regresion logıstica. . . . . . . . . . . . . . . . . 42

4.19. Matriz de confusion de redes bayesianas. . . . . . . . . . . . . . . . . . 43

4.20. Reporte de resultados. Modelo logıstico. . . . . . . . . . . . . . . . . . 43

4.21. Reporte de resultados. Redes bayesianas. . . . . . . . . . . . . . . . . . 43

vi

Capıtulo 1

Introduccion

En la actualidad los cultivos colombianos estan sometidos a grandes cambios climati-

cos como el fenomeno del Nino, de la Nina, heladas, etc, (Cifuentes, 2018). Los grandes

afectados son los agricultores, al presentarse estos fenomenos los cultivos que se en-

cuentran en cosecha quedan vulnerables y se corre el riesgo de perder el trabajo de los

agricultores y ası mismo la inversion que depositaron en dicho cultivo debido a la gran

variabilidad climatica que se presenta en la zona de estudio. Los agricultores toman di-

versas alternativas para prevenir la perdida de los cultivos, en los que se encuentran: la

proteccion a traves de cercas vivas, seleccion de especies resistentes, riego, manejo en la

fertilizacion, control de plagas y manejo de los suelos; las anteriores acciones hacen que

los recursos e insumos aumenten el presupuesto e inversion de la cosecha, teniendo en

cuenta que son mecanismos que se deben realizar diariamente en la mayorıa de cultivos

para evitar eventos de heladas no pronosticados, por ello surge la necesidad de realizar

la prediccion de heladas en el sector de Mosquera (Cundinamarca), con el fin de evitar

perdidas monetarias a los agricultores del sector.

Con el proposito de satisfacer dicha necesidad, se presenta el presente proyecto, en

el cual a partir de datos meteorologicos historicos otorgados por el Instituto de Hi-

drologıa, Meteorologıa y Estudios Ambientales (IDEAM) se plantean dos modelos de

clasificacion para la prediccion de heladas a traves de la tecnica de Machine Lear-

ning o aprendizaje automatico basados en la regresion logıstica y redes bayesianas, con

el objetivo de evaluar los modelos implementados sobre el caso de estudio, como lo

realizo Latorre (2014) en su trabajo titulado Caracterizacion, pronostico y alternati-

vas de manejo de las heladas en el sistema de produccion lechero del Valle de Ubate

y Chiquinquira (Colombia), donde este se orientaba a la prediccion de heladas en el

Valle de Ubate y Chiquinquira (Colombia), su area principal de trabajo fue en el sector

1

lechero, debido que dicha zona se encuentra en un area tropical y a una altura de mas

de 2500 m.s.n.m lo cual la hace propensa a las heladas. Segun el analisis realizado por

el autor esta region es la que mas leche genera al area Cundiboyacense y al presentarse

fuertes heladas se generan perdidas significativas en el sector lechero, donde las heladas

afectan principalmente al pasto que la vacas consumen, quitandole proteınas y factores

energeticos. El autor opto por el uso del metodo de Allen el cual genera una estima-

cion de prediccion de heladas, para que este metodo funcionara fue necesario el uso de

variables historicas de precipitacion, temperatura maxima, temperatura media, tempe-

ratura mınima, humedad relativa y brillo solar, como conclusion se determino que se

podıa predecir el dıa de la helada mas no la hora debido a que la tecnologıa con la que

se contaba no era suficiente para suministrar datos tan precisos, algo similar a lo que

paso con Bonilla Jose Ebert (2006) donde la falta de datos meteorologicos afecto los

resultados del proyecto que se realizaba en el municipio de Mosquera (Cundinamarca,

Colombia), los autores del proyecto recurrieron a la busqueda de variables e hicieron

una investigacion entre modelos estadısticos de temperatura mınima y de heladas con

el fin de hallar las variables mas empleadas y el efecto que cada modelo genero sobre la

investigacion realizada, dichos datos obtenidos fueron adjuntados a una serie de datos

otorgados por el IDEAM los cuales sirvieron para definir las variables que mas intervie-

nen en las heladas, dichas variables fueron: Brillo solar, temperatura mınima y maxima,

temperatura del bulbo seco y humedo, tension de vapor, humedad relativa, punto de

rocıo y viento (magnitud y direccion), estos datos fueron obtenidos de la estacion de

Tibaitata del municipio de Mosquera, los autores decidieron hacer uso de unicamente

de las variables de temperatura, el IDEAM les entrego los datos registrado de los meses

de diciembre, enero y febrero (por ser los meses con mayor ocurrencia del fenomeno)

entre los anos de 1990 – 2003 los cuales fueron filtrados para ası determinar errores

generados por la medicion y la antiguedad de los equipos, los errores obtenidos fueron

corregidos aplicando una serie de limitantes a los datos para ası tener mayor precision

en las medidas, por ejemplo, uno de los limitantes fue que la temperatura maxima la

cual no podıa superar los 24 ◦C; en ocasiones se observaba que en los datos usados hacıa

falta informacion para corregir errores de medicion, para ello se aplicaron los metodos

de pronostico de series temporales como el promedio movil y la regresion lineal, los

cuales se encargaban de llenar los datos faltantes, como lo fue en el caso de Diedrichs

Ana Laura (2013) en el cual al momento de predecir heladas a traves de Random Forest

(RF) y Redes Bayesianas (RB) se encontraron con la problematica de que en el ano

muy poco se registraban heladas, ademas, los datos no eran 100 % confiables, por ello

se vieron en la obligacion de incrementar los datos con la tecnica de sobre muestreo

2

de minorıas sintetica (SMOTE) para ası hacer el algoritmo mas preciso, teniendo en

cuenta que de los datos adquiridos se uso un 68 % para entrenamiento y el restante pa-

ra evaluacion del algoritmo, para el caso del proyecto de Moller Acuna Patricia (2016)

usaron la misma tecnica SMOTE para generar un sobre muestreo de datos, ya que en

cinco anos de recoleccion diaria de estos tenıan 143 heladas y para ellos esta diferencia

entre heladas y no heladas era demasiada grande, por tal motivo recurrieron al meto-

do anteriormente mencionado y lo aplicaron sobre las variables que ellos seleccionaron

para el algoritmo, las cuales fueron: temperatura, humedad relativa, radiacion solar,

punto de rocıo y viento (velocidad y direccion). Sin embargo, los datos obtenidos no

fueron suficientes para generar una buena estimacion, ya que en los cuatro modelos

de Machine learning que aplicaron para el proyecto tres de estos obtuvieron un error

mayor al 20 %. En el caso del proyecto de Ovando Gustavo (2004) recopilaron datos

meteorologicos de 24 anos, donde dividieron estos en dos partes, uno de entrenamiento

y otro de validacion, en el grupo de entrenamiento y validacion estaban los descrip-

tores de entrada de temperatura, humedad relativa, nubosidad y vientos (direccion y

velocidad), donde al ejercer la validacion se obtenıa como salida el hay o no helada,

los autores del documento optaron por hacer una red neuronal, al someter dicha red

al entrenamiento con la cantidad de datos mencionados anteriormente se dieron cuenta

que la red se demoraba mucho aprendiendo para ası generar un estimacion del clima,

donde los autores decidieron reducir la cantidad de descriptores de entrada pero al rea-

lizar esto se percataron que el error incrementaba, por tal motivo concluyeron que el

fenomeno meteorologico es no lineal en su comportamiento.

Como bien se ha mencionado con anterioridad, la prediccion del clima es algo que nos

compete a todos, ya que no solamente es importante para el campo de la agricultura

sino tambien para muchos mas, como el aeroespacial, la mecanica y hasta la medicina, es

un problematica que involucra a todo el mundo y por tal motivo muchas organizaciones

de diferentes paıses se han puesto en la tarea de realizar algoritmos para dar solucion

a esta, como es el caso del sistema Dynamic Integrated foreCasting (DICast R©), el cual

fue uno de los primeros motores automaticos de pronostico del tiempo. Ahora esta en

uso en bastantes companıas con muchas aplicaciones, algunas aplicaciones que se estan

llevando a cabo en el Centro Nacional para la Investigacion Atmosferica (NCAR) que

incluyen DICast y otras tecnologıas de inteligencia artificial incluyen energıa renovable,

transporte de superficie y pronostico de incendios forestales Haupt Sue Ellen (2018),

donde dichas aplicaciones incluyen el pronostico hidrometeorologico para el apoyo a la

decision agrıcola, el pronostico del tiempo en la carretera para mejorar la seguridad

3

del transporte de superficie, el pronostico del movimiento de incendios forestales y el

viento y la energıa solar para servicios publicos y operadores de red para facilitar la

integracion de la red; como se puede apreciar la variabilidad climatica es una gran

problematica que toma un gran papel en el momento de tomar una decision entorno

al medio ambiente y por tal motivo hay que generar diferentes alternativas para in-

dagar acerca de esta e ir mas alla para brindar un servicio de prediccion a todas la s

poblaciones del mundo y ası generar una mayor optimizacion de procesos de produccion.

Se toman en cuenta las anteriores referencias para abordar de una mejor manera la

problematica del presente proyecto y ası darle una solucion ideal, usando como base las

variables meteorologicas que dichas investigaciones tienen en comun y las que se pueden

obtener de la estacion meteorologica requerida, de igual manera, se indaga acerca de

los modelos usados para ası decidir cuales de estos son los ideales para aplicar al caso

de estudio.

A continuacion, en el presente documento se presenta un conjunto de definiciones y

ecuaciones fundamentales para el planteamiento del modelo de las variables meteo-

rologicas de estudio, del mismo modo que conceptos y formulaciones de los modelos

de prediccion a traves de Machine Learning. Una vez construida la base teorica del

estudio se procede con la presentacion del conjunto de datos adquiridos digitalizado,

ademas, los modelos predictivos para el desarrollo del proyecto. Tras la presentacion

de los modelos implementados, se presentan los resultados de las evaluaciones y como

parte final se presenta un analisis comparativo de los resultados y se formulan algunas

conclusiones.

4

Capıtulo 2

Planteamiento del problema

El municipio de Mosquera (Cundinamarca, Colombia) al encontrarse a una altura

superior a los 2500 m.s.n.m esta propenso a sufrir el fenomeno de las heladas, por lo

tanto cuando este ocurre se requiere que los agricultores sometan sus cultivos a cuida-

dos extremos para la proteccion de los mismos, lo que acarrea un incremento monetario

que el agricultor tendra que cubrir ya que al no realizar dichos cuidados corre el riesgo

de perder la produccion que este realizando en su momento. Ademas, se encuentra la

problematica de que a los agricultores no se les provee un medio informativo que los

notifique cuando ocurriran las heladas, por tal motivo, se ven obligados a estar imple-

mentando constantemente las tecnicas preventivas explicadas anteriormente o corren el

riesgo de perder sus cultivos. En la actualidad segun Cifuentes (2018) la temperatu-

ra ha empezado a disminuir principalmente en la zona Cundiboyacense, por lo que el

fenomeno se estarıa avecinando segun lo anterior y lo que se evidencia en la actualidad

“Ministerio de agricultura” (2019) recomienda que no se cultiven especies sensibles a

bajas temperaturas en zonas donde existen probabilidades altas de que ocurran heladas

Cifuentes (2018), por tal motivo se requiere de una alternativa para que el agricultor

sepa cuando ocurrira una helada y ası mismo implemente una metodologıa de protec-

cion a dichos cultivos.

Al obtener los datos meteorologicos de la zona de estudio por parte del Instituto

de Hidrologıa, Meteorologıa y Estudios Ambientales (IDEAM) se observa que unas de

la variables (Temperatura mınima y maxima del aire) no tienen unas tendencias claras

respecto al dıa en el conjunto de datos, como se observa en las figuras 2.1 (a, b), por tal

motivo, se determina que se hace necesario el uso de un modelo de clasificacion como

lo es el aprendizaje supervisado, teniendo en cuenta que este se enfoca en un problema

mas probabilıstico que determinıstico, que es lo que se desea obtener como resultado

5

del proyecto.

(a) T mınima Vs Dıa. (b) T maxima Vs Dıa.

Figura 2.1: Temperatura mınima y maxima Versus dıa.

Para el debido entendimiento del proyecto se hace necesario tener presentes las

siguientes definiciones y caracterısticas de las heladas.

2.1. Heladas

Fenomeno que ocurre cuando la temperatura ambiente esta igual o menor a 0 ◦ C

a un nivel de dos (2) metros sobre el suelo, Gonzales Olga (2012); cuando se alcanza

esta temperatura los tejidos de las plantas comienzan a sufrir dano, aunque puede que

este fenomeno ocurra sin necesidad de que la temperatura llegue a 0 ◦ C, ya que la

temperatura interna de la hoja puede ser menor que la del aire, es decir, menor que la

intensidad de la helada.

Las heladas se clasifican de la siguiente manera segun Artuduaga (1980):

2.1.1. Helada por adveccion

Heladas caracterısticas en las latitudes medias y altas, es ocasionada por la invasion

de grandes masas de aire frıo procedentes de las regiones polares, suelen caracterizarse

por ser continuas y con una duracion de por lo menos dos dıas, Gonzales Olga (2012).

2.1.2. Helada por evaporacion

Sucede cuando despues de una precipitacion, la humedad relativa del aire desciende,

la vegetacion intercepta parte de la precipitacion reteniendo el agua en el follaje y

6

troncos, el calor de evaporacion que el agua necesita para pasar del estado lıquido al

gaseoso lo toma de las plantas, generando ası que estas pierdan temperatura y llegue a

lımites que puedan ocasionar danos, Gonzales Olga (2012).

2.1.3. Helada por radiacion

Estas heladas ocurren al presentarse un balance de energıa negativo, es decir, cuando

se originan una perdida de calor por parte de las plantas y el suelo, esta perdida debe

superar la energıa ganada durante el dıa para poder llamarse helada. Son tıpicas de

las regiones tropicales y factibles a partir de los 2500 metros sobre el nivel del mar

(m.s.n.m), Gonzales Olga (2012).

2.2. Factores que favorecen las heladas

De acuerdo con Aguilar (1997) los factores que favorecen las bajas temperaturas en

la superficie son:

Vapor del agua: La cantidad de vapor de agua que se encuentra en la atmosfera

afecta la regulacion de la emision de calor de la tierra. Normalmente, entre mas

alta sea la cantidad de vapor de agua, menor sera la perdida neta de calor ra-

diactivo hacia el espacio y mas lenta sera la caıda de temperatura en una noche

clara y calmada. Esto sucede porque el vapor de agua absorbe parte de la radia-

cion de onda larga emitida por la superficie terrestre la cual regresa a la tierra

disminuyendo la perdida original de calor.

Suelo y vegetacion: El suelo influye en el comportamiento de las heladas, segun

algunas caracterısticas como el color, textura, grado de compactacion y contenido

de humedad. El enfriamiento nocturno disminuye debido a las capas intermedias

del suelo que emiten ondas de calor, las cuales, se mueven hacia arriba dentro de

la capa activa del suelo. Por otra parte, la humedad del suelo acelera este flujo

de calor. Ademas, entre mas compacto sea el suelo, el movimiento de calor se ve

favorecido. Suelos secos y recientemente arados dificultan el movimiento de calor

hacia la superficie. Por ultimo, un suelo cubierto de rastrojo tambien cambia el

patron de temperatura, favoreciendo el enfriamiento, al dificultar la llegada de

calor del suelo durante la noche e impedir la llegada de radiacion solar durante el

dıa.

7

Viento: La falta de viento, favorece el desarrollo de la inversion de temperatura

durante la noche y es casi seguro que ocurra una helada; por el contrario, cuando

hay viento, la turbulencia que este produce, hace que las distintas capas de aire se

mezclen, rompiendo la inversion, de tal forma que las capas calientes ocupen las

partes bajas, por este motivo la probabilidad de bajas acentuadas de temperatura

disminuye.

Topografıa: Las caracterısticas fisiograficas como el relieve tienen un papel im-

portante, debido a las diferencias de densidades (el aire frıo es mas denso que el

aire caliente), el aire frıo normalmente ocupa los niveles mas bajos del terreno,

relegando al aire mas caliente. Por esto, los terrenos en ladera y de pendiente

suave, sufren menos heladas por otro lado, los valles u hondonadas presentan un

mayor numero de ellas. La orientacion de la ladera tambien es factor importante;

en general, aquellos terrenos orientados hacia el sur presentaran menor probabi-

lidad de heladas ya que recibiran durante el dıa la mayor cantidad de radiacion

solar. De otra parte, las formas concavas de terreno son mas propensas al frıo y

las heladas que las convexas.

Nubosidad y temperatura vespertina: La falta de nubosidad favorece la radiacion

de calor del suelo hacia el espacio facilitando la helada. Ademas, un factor estre-

chamente relacionado con la temperatura mınima de un lugar es la temperatura

existente a la puesta del sol, como resultado de las condiciones atmosfericas pre-

cedentes. Si la temperatura a la puesta del sol es alta, un descenso grande durante

la noche no sera muy danino; por otro lado, si es relativamente baja al empezar

la noche, el dano causado por la disminucion gradual de la temperatura puede ser

severo en las primeras horas de la manana siguiente.

De acuerdo a las anteriores definiciones se deduce que en la zona de Mosquera (Cun-

dinamarca) se presentan heladas por radiacion por ser un municipio ubicado en una

region tropical, ademas porque se encuentra a una altitud media de 2516 m.s.n.m. De

igual manera, se deduce que las variables meteorologicas que mas influyen en este ti-

po de heladas son la temperatura y la humedad, es por ello que se determinan como

variables irreemplazables del presente proyecto.

8

Capıtulo 3

Definiciones

Para el planteamiento de metodologıas de prediccion, es fundamental conocer a

profundidad la definicion y funcionamiento de las metodologıas de Machine Learning.

A continuacion, se presentan algunas definiciones utiles para la construccion de los

modelos implementados en el presente proyecto.

3.1. Machine Learning

Campo de estudio que le da a los computadores la habilidad de aprender sobre lo que

no han sido explıcitamente programados, Samuel (1959). De una manera mas enfocada

a la ingenierıa se dice que un computador aprende de la experiencia E con respecto a

alguna tarea T y alguna medida de rendimiento R, si su rendimiento en T, medido por

P, mejora la experiencia E, Mitchell (1997). En la actualidad las grandes industrias de

la comunicacion web usan Machine Learning para conocer un poco mas de los usuarios

de la red, donde se genera un algoritmo de aprendizaje que esta previamente entrena-

do para generar una respuesta inmediata a las necesidades del usuario, ası mismo, el

Machine Learning se va adaptando a los cambios de datos, generando nuevos procesos

y ajuste a las acciones del programa en consecuencia; el Machine Learning se clasifica

en:

3.1.1. Aprendizaje supervisado

Tipo de aprendizaje en el que se le da al algoritmo un conjunto de datos en los cuales

estan las respuestas correctas, Ng (2011). Entre las tecnicas utilizadas en el aprendi-

zaje supervisado pueden destacarse las redes neuronales (incluyendo su extension al

aprendizaje profundo), regresion logıstica, los clasificadores bayesianos o los arboles de

9

regresion y clasificacion, Geron (2017).

Un ejemplo para explicarlo es el filtro de spam, esta entrenado con muchos correos

electronicos de ejemplo junto con su clase (spam o no spam), y debe aprender como

clasificar nuevos correos.

Figura 3.1: Aprendizaje supervisado, SPAM correo. Geron (2017)

3.1.2. Aprendizaje no supervisado

El computador aprende por sı mismo, se dividen los datos en grupos con un ındice de

similitud, Ng (2011). Dentro del aprendizaje no supervisado cabe destacar las tecnicas

de clustering o las tecnicas de Data Analysis, como la de reduccion de la dimensiona-

lidad. Los componentes principales del aprendizaje no supervisado se pueden clasificar

en cuatro grupos:

Las fuentes de informacion, que pueden aportar datos tanto estructurados como

no estructurados, que son la base del resto de componentes.

Las tecnicas y algoritmos para el tratamiento de informacion no estructurada

(texto, voz, vıdeo, etc.) para la obtencion de patrones a partir de los datos.

La capacidad de auto aprendizaje, que permite que el algoritmo se adapte a los

cambios en los datos.

El uso de sistemas y software como vehıculo para la visualizacion de la informacion

y la programacion.

Para dar a entender el aprendizaje no supervisado se toma un ejemplo encontrado en

el libro de Geron (2017), el cual es:

Suponga que tiene muchos datos sobre los visitantes de su blog. Es posible que desee

10

ejecutar un algoritmo de agrupamiento para intentar detectar grupos de visitantes si-

milares. En ningun momento le dice al algoritmo a que grupo pertenece un visitante:

Encuentra esas conexiones sin su ayuda. Por ejemplo, puede notar que el 40 % de sus

visitantes son hombres que aman los comics y generalmente leen su blog por la noche,

mientras que el 20 % son jovenes amantes de la ciencia ficcion que visitan los fines de

semana, y ası sucesivamente. Si utiliza un algoritmo de agrupamiento jerarquico, tam-

bien puede subdividir cada grupo en grupos mas pequenos. La siguiente figura muestra

como el aprendizaje no supervisado divide en grupo a los visitantes del blog de acuerdo

a gustos similares.

Figura 3.2: Aprendizaje no supervisado, visitantes blog. Geron (2017)

3.2. Matriz de confusion

Contiene el numero de casos bien clasificados y mal clasificados. Los casos bien

clasificados se ubican en la diagonal, porque los grupos pronosticados y los reales son los

mismos. Los elementos fuera de la diagonal representan casos mal clasificados, Malhotra

(2004).

En la siguiente figura se muestra como se ubican los datos en la matriz de confusion.

11

Figura 3.3: Distribucion matriz de confusion. Zelada Carlos (s.f.)

3.3. Receiver Operating Characteristic - ROC

La curva ROC traza la tasa positiva verdadera (TPR) contra la tasa de falsos

positivos (FPR). El FPR es la proporcion de instancias negativas que se clasifican

incorrectamente como positivas. Es igual a uno menos la tasa negativa verdadera, que

es la proporcion de instancias negativas que se clasifican correctamente como negativas.

El TNR tambien se llama especificidad. Por lo tanto, la curva ROC traza la sensibilidad

versus especificidad Geron (2017).

En la figura 3.4 se presenta un ejemplo de una curva ROC, que representa la ca-

pacidad discriminatoria de una prueba para clasificar sanos como sanos y enfermos

como enfermos.El area bajo la curva (AUC) puede interpretarse como la probabilidad

de que ante un par de individuos, uno enfermo y el otro sano, la prueba los clasifique

correctamente.

12

Figura 3.4: Ejemplo curva ROC: capacidad discriminatoria de una prueba para clasificar sanos deenfermos. Malaga (s.f.)

3.4. Probabilidad

Es la ciencia de la incertidumbre. Facilita algunas reglas matematicas precisas que

permiten comprender y analizar lo desconocido. Proporciona una estructura de razona-

miento que permite trabajar con nuestros conocimientos limitados y tomar decisiones

basadas en lo se sabe y en lo que se desconoce Evans Michael J (2004).

3.5. SMOTE

Es un algoritmo de sobre muestreo de ejemplos utilizado para la clase minoritaria.

13

3.6. Validacion cruzada

Tecnica utilizada para evaluar los resultados de un analisis estadıstico y garantizar

que son independientes de la particion entre datos de entrenamiento y prueba.

3.7. Log loss - funcion entropıa

Perdida logarıtmica que mide el rendimiento de un modelo de clasificacion donde la

entrada de prediccion es un valor de probabilidad entre cero (0) y uno (1).

La ecuacion que representa el log loss es:

Ll(X) = −(y ∗ log(p(x)) + (1− y) ∗ log(1− p(x)) (3.1)

Donde:

P(x): Probabilidad de que sea helada.

Y: Variable categorica esperada (1 o 0).

La grafica que representa la funcion log loss es la siguiente:

Figura 3.5: Log loss. Tomada de . Brownlee (2020)

14

3.8. Valor esperado

El valor esperado de una variable aleatoria es el valor medio que esta variable puede

tomar Evans Michael J (2004), el valor esperado no exige la repetibilidad de un evento,

sino que basta con tener una distribucion de probabilidad para una variable aleatoria

Juez Martel Pedro (1997), el valor esperado se calcula, por definicion, multiplicando

cada valor por su probabilidad, es decir:

E[X] = P (x) ∗X +

[(1− P (x)) ∗

(Y +X

2

)](3.2)

Donde:

X: Temperatura mınima.

P(x): Probabilidad de que sea helada.

Y: Temperatura maxima.

3.9. Correlacion de Pearson

El coeficiente de correlacion de Pearson (r) permite estudiar la relacion lineal entre

dos variables. Este coeficiente se calcula a partir de datos muestrales, Caceres (1995).

Expresa numericamente tanto la fuerza como la direccion de la relacion lineal de la

lınea recta, Borda Perez Mariela (2009), los coeficientes por lo general se encuentran

entre -1.00 y 1.00, donde:

-1.00: Correlacion negativa perfecta.

-0.95: Correlacion negativa fuerte.

-0.50: Correlacion negativa moderada.

-0.10: Correlacion negativa debil.

-0.00: Ninguna correlacion.

+0.10: Correlacion positiva debil.

+0.50: Correlacion positiva moderada

+0.95: Correlacion positiva fuerte.

15

+1.00: Correlacion positiva perfecta.

La formula para calcular el coeficiente de Pearson (r) es:

r =n∑n

i=1[Xi ∗ Yi]−∑n

i=1[Xi] ∗∑n

i=1[Yi]√[n∑n

i=1[Xi]2 − (∑n

i=1[Xi])2] ∗ [n∑n

i=1[Yi]2 − (

∑ni=1[Yi])

2](3.3)

Donde:

r: Coeficiente de correlacion de Pearson.

n: Numero total de pares de puntajes X y Y .

X: Puntaje crudo en la variable X.

Y : Puntaje crudo en la variable Y .

3.10. Matlab

Plataforma de programacion disenada especıficamente para ingenieros y cientıficos.

En la cual se permiten explorar rapidamente multiples enfoques para llegar a una

solucion compuesta por un lenguaje basado en matrices que permite la expresion mas

natural de las matematicas computacionales, MathWorksSupportTeam (s.f.).

3.11. Python

Lenguaje de programacion interpretado, orientado a objetos y de alto nivel con

semantica dinamica, preparado para realizar cualquier tipo de programa. Es un lenguaje

interpretado, lo que significa que no se necesita compilar el codigo fuente para poder

ejecutarlo, lo que ofrece ventajas como la rapidez de desarrollo e inconvenientes como

una menor velocidad, PythonSupportTeam (s.f.).

3.11.1. PANDAS

Paquete de Python que proporciona estructuras de datos similares a los dataframes

de R. Pandas depende de Numpy, la librerıa que anade un potente tipo matricial a

Python.

16

3.11.2. Scikit-learn

Librerıa de Machine learning para el lenguaje de programacion Python. Contiene

algoritmos de clasificacion, regresion y clustering.

3.12. Modelos

En general, cualquiera que sea el problema a resolver existen diversas metodologıas

de solucion, las cuales pueden variar de acuerdo a su uso, complejidad o precision, Aluja

(2001). Para el presente proyecto se revisaron los siguientes modelos estadısticos:

3.12.1. Regresion Logıstica

La Regresion logıstica por lo general es utilizada para estimar la probabilidad de

que una instancia corresponda a una categorıa especifica. Si la probabilidad estimada

es mayor al 50 %, entonces el modelo predice que la instancia pertenece a esa categorıa

(etiquetada como “1”), o bien predice que no (etiquetada como “0”). Esto lo convierte

en un clasificador binario Geron (2017).

Al igual que un modelo de regresion lineal, un modelo de regresion logıstica calcula

una suma ponderada de las caracterısticas de entrada (mas un termino de sesgo), pero

en lugar de generar el resultado directamente como lo hace el modelo de regresion lineal,

genera la logıstica de este resultado (ver Ecuacion 3.4).

p = hθ(x) = σ(θT · x) (3.4)

Donde:

p: Probabilidad de que una instancia corresponda a una categorıa especifica.

x: Variables explicativas.

θT : Vector de parametros, miden la influencia que las variables explicativas tienen

sobre la logıstica.

La logıstica(σ(·)), es una funcion sigmoidea que genera un numero entre 0 y 1. Se

define como se muestra en la ecuacion 3.5 y la Figura 3.6.

σ(t) =1

1 + e(−t)(3.5)

17

Figura 3.6: Funcion Logıstica. Geron (2017)

Una vez que el modelo de Regresion logıstica ha estimado la probabilidad p =

hθ(x) de que una instancia x pertenece a la categorıa “1”, puede hacer su prediccion y

facilmente (vea la Ecuacion 3.6).

y =

0 si p < 0,5

1 si p ≥ 0,5(3.6)

Entrenamiento y funcion de costo

El objetivo del entrenamiento es establecer el vector de parametros θ de modo

que el modelo calcule altas probabilidades para instancias positivas (y = 1) y bajas

probabilidades para instancias negativas (y = 0). Esta idea es capturada por la funcion

de costo que se muestra en la Ecuacion 3.7 para una sola instancia de entrenamiento x.

c(θ) =

−log (p) si y = 1

−log (1− p) si y = 0(3.7)

Esta funcion de costo tiene sentido porque −log(t) crece mucho cuando t se acerca a

0, por lo que el costo sera grande si el modelo estima una probabilidad cercana a 0 para

una instancia positiva, y tambien sera muy grande si el modelo estima una probabilidad

cercana a 1 para una instancia negativa. Por otro lado, −log(t) esta cerca de 0 cuando

t esta cerca de 1, por lo que el costo estara cerca de 0 si la probabilidad estimada esta

cerca de 0 para una instancia negativa o cerca de 1 para una instancia positiva, que es

precisamente lo que queremos.

La funcion de costo en todo el conjunto de entrenamiento es simplemente el cos-

to promedio en todas las instancias de entrenamiento. Se puede escribir en una sola

18

expresion, llamada Binary Cross-Entropy / Log Loss, que se muestra en la Ecuacion

3.8.

J(θ) = − 1

m

m∑i=1

[y(i)log

(p(i))

+(1− y(i)

)log(1− p(i)

)](3.8)

Donde:

m: Total de muestras del conjunto de entrenamiento

p: Probabilidad predicha

y: Dato real (1 o 0)

Cross-Entropy / Log Loss

La clasificacion binaria presenta un problema unico donde:

1. Cada instancia pertenece a una de dos clases complementarias,

2. Cada instancia es independiente el uno del otro (el resultado de una instancia no

afecta el resultado de otra instancia) y ,

3. Todas las instancias pertenecen a una misma distribucion( Todas las instancias

pertenecen al conjunto de datos heladas vs no heladas).

En estadıstica y teorıa de la probabilidad, los items 2 y 3 se denominan colectiva-

mente iid (independientes e identicamente distribuidos), a esta distribucion se le llamara

q(y).

La Entropıa es un medida de la incertidumbre asociado con una distribucion dada

q(y). La entropıa para una distribucion q(y) se muestra en la ecuacion 3.9,

H(q) = −C∑j=1

q(yj).log(q(yj)) (3.9)

Donde:

C: Numero de clases

q(yj): Distribucion de probabilidad asociada a la clase yj .

19

Como no se conoce la distribucion verdadera de la variable aleatoria, se trata de

aproximar una distribucion p(y) a la distribucion verdadera q(y), mediante la entropıa

cruzada entre ambas distribuciones:

Hp(q) = −C∑j=1

q(yj).log(p(yj)) (3.10)

Como la entropıa cruzada NO coincidira con la entropıa calculada de la distribucion

verdadera, se afirma que:

Hp(q)−H(q) >= 0 (3.11)

A esta diferencia entre la entropıa cruzada y la entropıa se conoce como Divergencia

Kullback-Leibler (KL Divergence).

KL Divergence es una medida de disimilitud entre dos distribuciones:

DKL(q ‖ p) = Hp(q)−H(q) =C∑j=1

q(yj).[log(q(yj))− log(p(yj))] (3.12)

Donde:

C: Numero de clases

q(yj): Distribucion de probabilidad verdadera de la clase yj.

p(yj): Distribucion de probabilidad experimental de la clase yj.

Cuanto mas cerca este p(y) de q(y), la divergencia sera menor, por ende, la entropıa

cruzada. Entonces, se necesita encontrar un valor p(y) lo mas cercano a q(y) , lo cual, es

el trabajo que hace el clasificador. Buscar la mejor p(y) posible, que es la que minimiza

la entropıa cruzada.

Durante el entrenamiento del clasificador se usan cada una de las N instancias del

conjunto de entrenamiento para calcular la perdida de entropıa cruzada, ajustando

efectivamente la distribucion p(y). Como la probabilidad de cada instancia es 1/N , la

entropıa cruzada viene dada por:

q(yi) =1

N⇒ Hp(q) = − 1

N

N∑i=1

log(p(yi)) (3.13)

Donde:

N : Total de muestras del conjunto de entrenamiento

20

Hp(q): Entropıa cruzada

p(yi): Distribucion de probabilidad experimental de la clase yi.

Ahora se calcula el promedio de todas las instancias en ambas clases, positivo y

negativo:

Hp(q) = − 1

Npos +Nneg

[Npos∑i=1

log(p(yi)) +

Nneg∑i=1

log(1− p(yi))

](3.14)

Donde:

Npos: Total de muestras de la clase positiva del conjunto de entrenamiento

Nneg: Total de muestras de la clase negativa del conjunto de entrenamiento

p(yi): Distribucion de probabilidad experimental de la clase yi.

Finalmente, se manipula la ecuacion 3.14, para poder tomar cualquier instancia, ya

sea de la clase positiva o negativa, bajo una misma ecuacion:

J(θ) = − 1

N

N∑i=1

[y(i)log

(p(i))

+(1− y(i)

)log(1− p(i)

)](3.15)

Donde:

N : Total de muestras del conjunto de entrenamiento

p: Probabilidad predicha

y: Dato real (1 o 0)

3.12.2. Redes bayesianas

Las redes bayesianas (RB) son una representacion grafica de dependencias para ra-

zonamiento probabilıstico donde se estima la probabilidad posterior de las variables no

conocidas, Sucar (2004). El clasificador aprende a partir de los datos de entrenamiento,

la probabilidad condicional de cada atributo dada una etiqueta de la clase C, Friedman

(1997). Estos modelos pueden tener diversas aplicaciones, para clasificacion, prediccion,

diagnostico, etc. Ademas, pueden dar informacion interesante en cuanto a como se rela-

cionan las variables del dominio, las cuales pueden ser interpretadas en ocasiones como

relaciones de causa–efecto, Sucar (2004).

21

Las RB se caracterizan por ser parte del aprendizaje supervisado y el no supervisado,

donde se requiere de una serie de datos adquiridos de un experto para ası generar el

modelo.

Las RB generan una simplificacion a los problemas algorıtmicos presentados, este

modelo se caracteriza por tener en cuenta las variables mas significativas del conjunto

de entrenamiento, dicho proceso de seleccion se hace a traves de la regla de la cadena,

generando ası una independencia.

P (a|b) = P (a) (3.16)

P (a|b) ∗ P (b) = P (a) ∗ P (b) (3.17)

P (X1, X2, ..., Xn) =n∏i=1

P (Xi|padre(Xi)) (3.18)

La ecuacion 3.16 significa la probabilidad de que se de a dado b.

La ecuacion 3.17 significa la probabilidad de que se de a dado b multiplicado por la

probabilidad de b.

La ecuacion 3.18 representa la regla de la cadena, donde xi son los nodos,∏n

i=1 es el

producto de las probabilidad del hijo dado su padre Xi.

D - separacion

Es un criterio que establece una serie de reglas para verificar la independencia con-

dicional, las cuales estableceran si un nodo es o no independiente, para este caso se

tratara con una tripleta de nodos.

Un nodo es dependiente si cada una de las tripletas de las que se componen son

dependientes.

Si algun nodo es independiente ese nodo bloqueara la independencia de la red.

Dos variables son independientes si todos los caminos entre ambos son indepen-

dientes.

Independencia condicional de tripletes:

Cadena Causal: Se da cuando la probabilidad del hijo depende de la probabilidad

22

de su padre y del padre de su padre.

X 7−→ Y 7−→ Z

P (X, Y, Z) = P (X) ∗ P (X|Y ) ∗ P (Y |Z) (3.19)

Cadena comun: Se da cuando la probabilidad del hijo y la del padre de su padre

dependen de la probabilidad del padre.

X ←− Y 7−→ Z

P (X, Y, Z) = P (Y ) ∗ P (X|Y ) ∗ P (Z|Y ) (3.20)

Efecto comun: Se da cuando la probabilidad del padre depende de la probabilidad

de su padre y la de su hijo.

X 7−→ Y ←− Z

P (X, Y, Z) = P (X) ∗ P (Z) ∗ P (ZY |X,Z) (3.21)

Donde Z es el hijo, Y es el padre del hijo y X es el padre del padre del hijo.

Manto de Markov

El manto de Markov de un nodo es condicionalmente independiente del resto de

nodos de una red bayesiana dado su padre, su hijo y otros padres de los hijos.

Distribucion canonica

En la figura 3.7 se aprecia un ejemplo de una tabla de probabilidad condicional,

donde la salida E tiene dos padres y uno de ellos tiene un padre; al aplicar la regla de la

cadena (ecuacion 3.18) y las independencias condicionales se obtendra la probabilidad

final que se busca P (E|B,C).

23

Figura 3.7: Parametros asociados a una red bayesiana. Sucar (2004)

El tamano de la tabla de probabilidad condicional crece exponencialmente con el

numero de padres de un nodo, por lo que puede crecer demasiado. Una forma de reducir

este problema es utilizando la distribucion canonica donde los principales son:

Modelo de interaccion disyuntiva (Noisy OR).

Modelo de interaccion conjuntiva (Noisy AND).

Compuerta Max (Noisy Max gate).

Compuerta Min (Noisy Min gate).

El modelo mas usado es el Noisy OR, el cual se usa cuando el valor verdadero no es

categorico, se le puede asignar una probabilidad donde:

Todas las causas deben estar presentes.

Las causas deben ser independientes.

24

P (Xi|padres(Xi)) = 1−∏

ρj (3.22)

ρj = P (Xi|Xj = V erdadero) (3.23)

Le ecuacion 3.22 y 3.23 representa la probabilidad del hijo Xi dado que la probabilidad

del padre Xj sea verdadera.

25

Capıtulo 4

Metodologıa y resultados

Para el presente proyecto se planteo la evaluacion de dos modelos de clasificacion

para la prediccion de heladas, dichos modelos fueron regresion logıstica (RL) y redes

bayesianas (RB); para realizar su respectiva evaluacion fue necesario el uso de los datos

meteorologicos de la zona de estudio otorgados por el IDEAM (estacion de Tibaitata),

dichos datos corresponden a un intervalo diario de mas de quince (15) anos, desde el

02 de febrero del 2005 hasta el 18 de Julio del 2019, para un total de 5277 dıas de

adquisicion de datos, las variables meteorologicas medidas y entregadas fueron:

Temperatura maxima del aire en Grados Celsius.

Temperatura mınima del aire en Grados Celsius.

Humedad media relativa en porcentaje.

Precipitacion en milımetros por hora.

Dıa pluviometrico en milımetros.

Temperatura seca maxima en Grados Celsius.

Temperaturas seca mınima en Grados Celsius.

A continuacion, se explicara el paso a paso que se realizo para el desarrollo del

presente proyecto.

1. Identificar y obtener los datos relacionados con el problema.

2. Preparar los datos obtenidos.

a) Exploracion de los datos.

26

b) Pre-procesamiento.

1) Limpieza.

a ′ valores perdidos.

b ′ datos inconsistentes.

c ′ datos duplicados.

d ′ Outliers.

2) Seleccion.

c) Analisis de datos.

1) Seleccion de la tecnica.

2) Construccion del modelo.

3) Evaluacion del modelo.

Con el fin de hacer mas claro el proceso realizado se implementan el siguiente dia-

grama donde se detalla el paso a paso realizado para la implementacion de los modelos

y la obtencion de los resultados.

Figura 4.1: Diagrama de procesos modelos implementados.

27

4.1. Procesamiento de datos

Los datos fueron entregados por el IDEAM en un archivo de valores separados por

comas (CSV), se hizo uso de Pandas para cargar los datos en Python, la cual devuelve

un objeto Pandas DataFrame que contiene todos los datos. Con la funcion .head() se

obtiene las primeras 5 muestras de los datos cargados en Python:

Figura 4.2: Primeras cinco muestras de los datos. Obtenidos del IDEAM, digitados en Python.

Como se observa en la figura 4.2, se aprecia que cada fila es una muestra de los datos

y las columnas son los descriptores de entrada, en este caso son: Dıa, temperatura

maxima del aire, temperatura mınima del aire, humedad Relativa, precipitacion, dıa

pluviometrico, temperatura seca maxima y temperatura seca mınima, respectivamente.

Despues de cargar los datos se realizo un pre-proceso a estos, con el fin de crear

datos utiles para su futuro analisis. Al inspeccionar cada una de las filas de los datos,

se aprecio que en algunas de estas los valores obtenidos eran erroneos, por ejemplo, en

algunos de ellas la Tmax era menor que la Tmin, algo que no es posible, por ello se

recurrio a realizar una etapa de limpieza en busca de valores perdidos, valores inconsis-

tentes, datos duplicados, ruido y outliers, se detectaron todos los casos y se realizo una

tecnica de sustitucion de datos, donde se tomaron los valores numericos de estos y se

genero un promedio de todos los dıas para reemplazar los datos inconsistentes.

Ejemplo.

Se detecto que en la fecha del dıa 27 de marzo del 2005 (dıa 86 del ano) no se

registraba toma alguna de los datos, para ello se tomaron los datos de todos los

dıas 86 de cada ano de la base de datos obtenida y se genero un promedio para

ası sustituir los datos inexistentes.

28

Despues de realizar la limpieza de datos se calcularon los coeficientes de correlacion

de Pearson, el cual arrojo la siguiente informacion, la cual se puede ver en la figura 4.3.

Figura 4.3: Coeficientes de correlacion de Pearson

Al observar los coeficientes de correlacion de Pearson, indican que las variables tienen

una baja relacion lineal entre sı, descartando por completo los modelos de tipo regre-

sion. Por otra parte, esta baja relacion lineal es favorable para modelos de clasificacion,

en este caso binaria. Para ello se define la clase de Helada a todas las temperaturas

mınimas menor a 2 grados centıgrados.

Con la intencion de observar la nula o baja relacion lineal entre los descriptores (lo

que indican los coeficientes de correlacion de Pearson), se grafica Temperatura mınima

versus cada uno del resto de los descriptores, como se observa en la figura 4.4.

29

(a) Humedad media relativa Vs T mınima (b) Dıa pluviometrico Vs T mınima

(c) Precipitacion Vs T mınima (d) T maxima Vs T mınima

(e) T maxima seca Vs T mınima (f) T mınima seca Vs T mınima

Figura 4.4: Descriptores Versus Temperatura mınima.

Seguido a esto se procede a realizar una investigacion a cerca de que modelos serıan

los ideales para aplicar al proyecto, para ellos se uso como base de investigacion el ma-

terial bibliografico hallado y citado en la introduccion del documento, donde se dedujo

que los mas indicados eran Regresion Logıstica y Redes Bayesianas.

Tabulando los datos en su respectivo conjunto de datos se encuentra que la clase

etiquetada como HELADA (1) es una clase minoritaria, ya que se tienen muy pocas

muestras de esta clase, mientras que la clase tomada como NO HELADA (0) es la

30

mayoritaria.

Figura 4.5: Histrograma de observaciones por clase.

Como se observa en la figura anterior no hay una cantidad suficientes de mediciones

de la clase heladas (1) en los datos, lo cual es un factor importante al momento de

entrenar los modelos, por tal motivo se decide crear muestras sinteticas utilizando el

algoritmo SMOTE.

4.2. Synthetic Minority Over-sampling TEchnique

- SMOTE

Este algoritmo sintetiza nuevas instancias minoritarias entre las instancias minori-

tarias existentes. El algoritmo genera lıneas imaginarias entre las minorıas existentes

como se ve en la siguiente figura:

31

Figura 4.6: SMOTE: Conexion entre punto.Rikunert (s.f.).

Despues genera nuevas instancias minoritarias en algun lugar de esas lıneas.

Figura 4.7: SMOTE: Muestras sinteticas entre puntos existentes.Rikunert (s.f.).

En el cuadro 4.1 se muestran las cantidades de cada clase sin y con SMOTE.

Cantidad de eventos

sin SMOTE con SMOTE

Clase Cantidad Clase Cantidad0 5233 0 52331 44 1 209

Cuadro 4.1: Cantidad de eventos antes y despues de aplicar SMOTE.

Como se observa se generaron 165 muestras de la clase minoritaria (Heladas). Ahora

se procede a dividir el conjunto de datos en un 80 % para entrenamiento y un 20 % para

validacion. La seleccion de cada instancia perteneciente a estos subconjuntos (entrena-

miento y validacion) se hizo de manera aleatoria. En el cuadro 4.2 muestra la cantidad

de eventos de cada subconjunto.

32

Cantidad de eventos

Entrenamiento (80 %) Validacion (20 %)

Clase Cantidad Clase Cantidad0 4189 0 10441 164 1 45

Cuadro 4.2: Cantidad de eventos por subconjunto.

4.3. Regresion logıstica

Usando la libreria Scikit-Learn de Python, se entrena el modelo de regresion logıstica

con el subconjunto de entrenamiento (cuadro 4.2), obteniendo los siguientes coeficientes:

Coeficientes del modelo logıstico

Variable Coeficienteintercepto β0 0.47783101

dia β1 0.0016943055454572776Tmax β2 0.5894723676517903Tmin β3 -3.0041914777443615

HumRel β4 -0.13998367717245364Preci β5 -1.27435006432352Pluvi β6 -1.8100049151074287

TsMax β7 0.11719469452498886Tsmin β8 -0.1980760144422531

Cuadro 4.3: Coeficientes del modelo logıstico.

Observando los coeficientes hallados, se puede afirmar que la temperatura mınima

tiene un gran peso en el modelo de regresion logıstica debido a que tiene el coeficiente

mas pequeno que se obtuvo despues del uso de la librerıa, ademas, hay que tener en

cuenta que a altos valores de temperatura mınima es menor la probabilidad de que se

presente una helada y es por ello que se vuelve la variable mas importante en el caso

de estudio, mientras que el coeficiente que menor peso tiene es la temperatura seca

maxima debido a que fue el coeficiente que mayor valor obtuvo.

El modelo hallado se encuentra reemplazando los coeficientes en la ecuacion 3.5:

σ(t) =1

1 + e−(β0+β1x1+β2x2+β3x3+β4x4+β5x5+β6x6+β7x7+β8x8)(4.1)

33

4.4. Redes bayesianas

Para el desarrollo del presente modelo se hizo uso del software Matlab, donde en

primer lugar se discretizaron los descriptores de entrada ya que todos eran reales y el

modelo a implementar requerıa que estos fueran discretos, es decir, unos (1) y ceros (0),

este proceso se hizo a partir de la funcion logıstica (ecuacion 3.5), donde se ingreso como

entrada uno a uno de los descriptores de entrada y como salida el descriptor de salida

(Helada), generando ası un valor binario para el descriptor de entrada, al momento de

discretizar se procede a hallar la probabilidad inicial de cada uno de los descriptores

de entrada respecto a los de salida, generando ası dos (2) probabilidades para cada

descriptor (cumple, no cumple), donde el indicador ”cumple” significa la probabilidad

de que el descriptor este dentro del rango que permite la presencia de heladas mientras

que la ”no cumple” representa todo lo contrario.

En el software de desarrollo se ubicaron los descriptores de entrada y salida estrategi-

camente del conjunto de entrenamiento para ası mismo asignarles un peso a cada uno

de los descriptores, donde al que mas peso se le asigno fue a la temperatura mınima

despues del dıa del ano, debido a que son las variables que mayor influencia tienen para

la presencia de heladas, dicha informacion de ubicacion se encuentra en el cuadro 4.4.

Descriptores de entrada y salida

TSm TM HR P DP Tm TSM Helada

Cuadro 4.4: Tabla de ubicacion de descriptores.

Donde:

TSm = Temperatura seca mınima.

TM = Temperatura Maxima.

HR = Humedad relativa.

P = Precipitacion.

DP = Dıa pluviometrico.

Tm = Temperatura mınima.

TSM = Temperatura seca maxima.

Helada = Descriptor de salida.

34

4.4.1. Matriz de frecuencia

A partir de los datos de entrenamiento se procede a generar la matriz de frecuencia

de los descriptores previamente discretizadas; se puede apreciar en el cuadro 4.6 que

existe mayor probabilidad de que se presente uno de esos eventos meteorologicos con

menos peso en la zona de estudio, en cambio, la probabilidad de que se presente una

baja temperatura es mınima, por lo que se opto por la reorganizacion de probabilidades,

hay que tener en cuenta que dichas probabilidades se toman como un nodo indepen-

diente, es decir, no depende de los otros descriptores de entrada.

Descriptores de entrada y salida

TSm TM HR P Dp Tm TSM1 220 3481 1397 3298 2645 66 35640 4002 741 2825 924 1577 4156 658

Cuadro 4.5: Matriz de frecuencia del conjunto de entrenamiento.

Despues de obtener la matriz de frecuencia se procede a discretizar dichos valores

numericos, esto se hace a partir de la siguiente ecuacion:

P (x) =x

XTotal

(4.2)

Donde x es el evento en uno (1) o cero (0) de la matriz de frecuencia del descriptor de

entrada y Xtotal es la sumatoria de eventos del descriptor de entrada.

Matriz de frecuencia normalizada

TSm TM HR P Dp Tm TSM1 0.052 0.824 0.330 0.781 0.626 0.016 0.8440 0.945 0.176 0.669 0.219 0.374 0.984 0.156

Cuadro 4.6: Matriz de frecuencia normalizada del conjunto de entrenamiento.

Despues de normalizar la matriz de frecuencia se procede a ajustar el cuadro 4.6

para que la probabilidad en uno (1) siempre sea mayor que la probabilidad en cero (0),

esto se puede ver en el siguiente cuadro.

35

Matriz de frecuencia normalizada ajustada

TSm TM HR P Dp Tm TSM1 0.945 0.824 0.669 0.781 0.626 0.984 0.8440 0.052 0.176 0.330 0.219 0.374 0.016 0.156

Cuadro 4.7: Matriz de frecuencia normalizada del conjunto de entrenamiento ajustada.

4.4.2. Tablas de probabilidad

Al tener las probabilidades independientes se procede a generar una matriz de pro-

babilidades conjuntas, donde se agruparon dos descriptores y se obtuvieron sus corres-

pondientes probabilidades y sucesivamente se fueron generando nodos como se puede

apreciar en el cuadro 4.8 con el fin de generar una probabilidad final con las diferentes

combinaciones posibles.

Figura 4.8: Red bayesiana propuesta.

Donde:

A = Nodo generado por la combinacion de TM y HR.

B = Nodo generado por la combinacion de P y DP.

C = Nodo generado por la combinacion de Tm y TSM.

D = Nodo generado por la combinacion de TSm y A.

36

E = Nodo generado por la combinacion de B y C.

F = Nodo generado por la combinacion de Tm y TSM.

De la combinacion de la red presentada anteriormente surgieron las siguientes matrices

de probabilidad, donde se hallan sus respectivas probabilidades cuando se presentan los

eventos y se genera un nuevo nodo, el cual se normalizara para seguir continuando el

algoritmo con variables discretas.

P (A|TSM, Tm) Normalizacion

1 1 0.9485 11 0 0.0515 00 1 0.9985 10 0 0.0015 0

Cuadro 4.8: Probabilidad de que se de el nodo A dada la temperatura seca maxima (TSM) y latemperatura mınima (Tm).

P (B|DP,P ) Normalizacion

1 1 0.8562 11 0 0.1438 00 1 0.7200 10 0 0.2800 0

Cuadro 4.9: Probabilidad de que se de el nodo B dado el dıa pluviometrico (DP) y la precipitacion(P).

P (C|HR, TM) Normalizacion

1 1 0.9118 11 0 0.0882 00 1 0.7800 10 0 0.2200 0

Cuadro 4.10: Probabilidad de que se de el nodo C dada la humedad relativa (HR) y la temperaturamaxima (TM).

37

P (D|TSm,A) Normalizacion

1 1 0.9756 11 0 0.0244 00 1 0.8180 10 0 0.1820 0

Cuadro 4.11: Probabilidad de que se de el nodo D dada la temperatura seca mınima (TSm) y elnodo A.

P (E|B,C) Normalizacion

1 1 0.9841 11 0 0.0159 00 1 0.8213 10 0 0.1787 0

Cuadro 4.12: Probabilidad de que se de el nodo E dodo los nodos B y C.

P (F |E,D) Normalizacion

1 1 0.9841 11 0 0.0159 00 1 0.8213 10 0 0.1787 0

Cuadro 4.13: Probabilidad de que se de el nodo F dados los nodos E y D.

4.4.3. Calculos de probabilidad

Al ingresar unos descriptores de prueba la red espera que estos cumplan con las

condiciones necesarias para dar una alta probabilidad de helada, si este no es el caso,

comienza a iterar con las probabilidades dadas en las anteriores tablas para sı arrojar

la probabilidad de que haya o no helada, teniendo en cuenta que la probabilidad final

arrojada por la iteracion de las tablas sera multiplicada por la probabilidad de que se

presente o no helada en el dıa del ano que se introduzca ya que como dice Gonzales Ol-

ga (2012) las heladas en alturas iguales o mayores a los 2500 m.s.n.m se presentan en

ciertos meses del ano, unos con mayor frecuencia que otros, por tal motivo es que no

se discretizo este descriptor y se le dio el mayor peso, como se muestra en el siguiente

cuadro.

38

Figura 4.9: Red bayesiana propuesta con descriptor dıa.

Donde:

DIA = Dıa del ano que se quiere predecir.

G = Probabilidad de que se presente helada con los descriptores de entrada.

Teniendo en cuenta la tablas anteriores la ecuacion probabilıstica que define el mo-

delo es:

P (Helada|TSm, TM,HR,P,DP, Tm, TSM) (4.3)

Para obtener la probabilidad de que se presente helada en un dıa determinado del

ano se hizo a partir de la frecuencia con la que se presentan heladas en cada mes del

ano, para ello se sumaron todos los dıas que se presento helada en un mes y se dividio

en el total de dıas de la muestras de heladas, es decir, en el caso de enero se sumaron

la cantidad de heladas que existieron en todos los enero del 2005 al 2019 y se dividio

entre toda las heladas existentes en el intervalo de anos mencionado anteriormente.

39

4.4.4. Pseudocodigo

Algorithm 1 Redes bayesianas

1: RB . Main del algoritmo2: Des . Cargar descriptores de entrenamiento y validacion3: Porcent . Definir porcentaje para conjunto de entrenamiento4: DesTrein . Descriptores de entrenamiento5: DesV al . Descriptores de Validacion6: n . Cantidad de iteraciones a realizar7: for i← 1 to n do8: function Dis( DesTrein ) . Discretiza los descriptores de entrenamiento

9: DDtrein . Descriptores de entrenamiento discretizados10: if DDtrein = True then11: function MFrec( DDtrein ) . Genera la matriz de frecuencia

12: MFrecT . Matriz de frecuencia conjunto entrenamiento13: if MFrecT = True then14: function ProbIni(MFrecT ) . Probibilidades iniciales de los

descriptores

15: function TProbIni(ProbIn) . Tabla de probabilidades

16: DesV al17: if TProbIni = True then18: function Prob(TProbIni,DesV al) . Probabilidad para el

conjunto de datos.

19: function Norm(Prob) . Normalizar probabilidad

20: Helada . Define si es o no helada21:

endend

endend

4.4.5. Ejemplo

En la presente seccion se realizara un ejemplo con valores aleatorios (no registrados

en la base de datos) para mostrar el funcionamiento del algoritmo desarrollado, para

ello se deben escoger un valor numerico de los descriptores de entrada, para los cuales

se usaran:

Temperatura seca mınima = 3 ◦ C.

Temperatura seca maxima = 18 ◦ C.

Temperatura mınima del aire = 1 ◦ C.

40

Temperatura maxima del aire = 20 ◦ C.

Humedad relativa = 50 %.

Precipitacion = 0.4 mm/h.

Dıa pluviometrico = 2 mm.

Dıa del ano = 14 (enero, mes con probabilidad de helada).

Al ingresar estos datos el algoritmo arroja una serie de matrices, las cuales corroboran

el funcionamiento del algoritmo.

Descriptores

Ingresados 1 1 0 1 0 1 1Deseados 1 1 1 1 1 1 1

Cuadro 4.14: Descriptores de entrada discretizados vs descriptores deseados discretizados.

Se introduce los descriptores discretizados al algoritmo y este hace los calculos necesa-

rios para arrojar la matriz de probabilidades, dichos calculos los hace con base en los

cuadros del 4.8 hasta el 4.13, para este caso arrojo el siguiente cuadro:

Probabilidades por nodos

A B C D E F

Salidas 1 1 1 1 1 1Probabilidad 0.9485 0.7200 0.7800 0.9756 0.9464 0.9841

Cuadro 4.15: Probabilidad generada por nodos.

Como se puede apreciar en el cuadro 4.15 se observa que los valores numericos genera-

dos corresponden a los mismos mostrados en las anteriores tablas.

La probabilidad final del nodo F se debe multiplicar por la probabilidad de que se de

helada en ese dıa del ano y normalizarla, para este caso la probabilidad de que se de

helada en ese dıa del ano es de 0,3049, hay que tener en cuenta, que esa probabilidad

se hizo por meses del ano.

41

Probabilidad final

F DIA Probabilidad sin discretizar Probabilidad discretizada

0.4840 0.3049 0.1475 0.6878

Cuadro 4.16: Probabilidad final mes enero, entradas ejemplo.

Para apreciar el peso que tiene el dıa del ano se ha optado por hacer la misma prue-

ba pero para un dıa del mes de febrero, dicha prueba arrojo la siguiente probabilidad:

Probabilidad

Sı 0.5035

No 0.4965

Cuadro 4.17: Probabilidad final mes de Febrero entradas ejemplo.

Al comparar la tabla 4.16 y 4.17 se evidencia una disminucion de cerca del 20 % por

el hecho de un cambio de mes.

4.5. Resultados

4.5.1. Matriz de confusion

El conjunto de datos de validacion esta compuesto por 1089 datos de los mismos

descriptores de entrada, de los cuales existe evidencia de 45 heladas; al someter el con-

junto de validacion en cada uno de lo modelos desarrollados se obtuvieron las siguientes

matrices de confusion:

- Heladas predecidas

- No helada Helada

Heladasreales

No helada 1040 4

Helada 3 42

Cuadro 4.18: Matriz de confusion de regresion logıstica.

42

- Heladas predecidas

- No helada Helada

Heladasreales

No helada 1039 5

Helada 2 43

Cuadro 4.19: Matriz de confusion de redes bayesianas.

La cuales representan la cantidad de heladas y no heladas predichas correctamente

y las que no fueron correctas, es decir, la columna de No helada que coincide con la fila

de No helada representa el acierto de no heladas predichas correctamente, mientras que

la que coincide con la fila de Helada, fueron no heladas predichas incorrectamente, es

decir, no heladas que realmente fueron heladas. Por otra parte, la columna Helada que

coincide con No helada fueron heladas mal predichas, es decir, heladas que en realidad

no fueron heladas, mientras la que coincide con helada fueron las heladas bien predichas.

De la matriz de confusion se pueden calcular las siguientes metricas:

Reporte de los resultados

Clase precision recall f1- score supporte0 1.00 1.00 1.00 10441 0.91 0.93 0.92 45

Cuadro 4.20: Reporte de resultados. Modelo logıstico.

Reporte de los resultados

Clase precision recall f1- score supporte0 1.00 1.00 1.00 10441 0.90 0.96 0.92 45

Cuadro 4.21: Reporte de resultados. Redes bayesianas.

Donde:

Precision: Indica que tan confiable es el modelo en responder si una instancia co-

rresponde a esa clase.

Recall: Indica que tan bien puede el modelo detectar a esa clase.

Analizando la matrices de confusion se aprecia que ambas tuvieron un comporta-

miento similar, ya que la matriz de la tabla 4.18 tiene siete (7) predicciones erroneas

(haladas y no heladas predichas incorrectamente), igual que la de la tabla 4.19.

43

4.5.2. Log - loss

A continuacion se presentan las graficas de Log Loss, las cuales indican que tan

buenas o malas son las probabilidades predichas por el modelo, para ello se hace uso

de la ecuacion 3.1, la cual se usa dependiendo si es para la clase negativa o positiva, en

ella se reemplazan toda las probabilidades P(x) obtenidas dependiendo el evento Y.

(a) Regresion logıstica (b) Redes bayesianas

Figura 4.10: Log loss para una clase positiva (Helada).


Figura 4.11: Log loss para una clase negativa (No Helada).

En las graficas 4.10 (a) y (b) se observa como el costo aumenta a medida que la

probabilidad se acerca a cero para una clase positiva. Por otra parte en las graficas

4.11 (a) y (b) se observa que el costo aumenta a medida que la probabilidad se acerca

a uno para una clase negativa. Un alto costo significa que la probabilidad resultante

del modelo no es tan buena, caso contrario, un bajo costo indica una buena probabilidad.

44

La media de todos los costos del modelo logıstico es 0.01501 y del modelo de redes

bayesianas es 0.0196, siendo este el valor de Cross-Entropy / Log loss, el cual indica un

excelente rendimiento por parte de los modelos.

4.5.3. Curva ROC

Otra forma de validar el rendimiento del modelo es mediante el area bajo de curva

de la ROC (Receiver Operating Characteristic), lo que significa una curva desplazada

hacia arriba y a la izquierda.


Figura 4.12: Curva ROC.

Como se puede apreciar se obtuvo un 0.96 en el area bajo la curva en el modelo

logıstico y un 0.98 en el modelo bayesiano, lo cual muestra un buen funcionamiento de

los modelos ya que la maxima area bajo la curva es 1.

4.5.4. Validacion cruzada

Finalizada la implementacion de ambos modelos se procede a realizar la validacion

cruzada para estas, donde se divide el total de datos (5442) en diez grupos y se organizan

aleatoriamente (9 grupos para entrenar y 1 grupo para validar) durante 10 iteraciones,

donde se obtuvo una precision de 0.993016 en el modelo de regresion logıstica y del

0.9948 en el modelo de redes bayesianas; se evidencia una precision similar al que se

obtuvo con el grupo de datos originales, sin embargo, hay que tener en cuenta que como

la validacion cruzada se genera de una manera aleatoria la precision puede variar.

45

4.5.5. Valor esperado

Para el presente proyecto se hace necesario hallar el valor esperado de la temperatu-

ra mınima el cual se hace a partir de la ecuacion 3.2, al introducir los datos necesarios

(del conjunto de validacion) en la ecuacion se obtiene la temperatura mınima que se

espera para el dıa predicho, a continuacion se realizo la tabulacion de los resultados

obtenidos para 10 muestras de prueba.

Figura 4.13: Resultados obtenidos a partir de 10 muestras del conjunto de validacion

Se aprecia que existe una diferencia entre la temperatura mınima real y la tempe-

ratura mınima predicha, esto se debe a que la probabilidad al alejarse del 1 exacto,

genere un mayor error al predecir la temperatura, teniendo en cuenta que es un modelo

probabilıstico.

De igual manera se grafican los valores esperados de la temperatura mınima del

conjunto de validacion vs dıa de prediccion.

46

Figura 4.14: Valor esperado de Temperatura mınima

En la anterior figura se aprecia que hay una concentracion de bajas temperaturas

(zonas delimitadas en rojo) en los primeros 60 dıas del ano, es decir, los primeros dos

meses de este, de igual manera, en los ultimos 120 dıas, los cuales corresponden a los

ultimos cuatro meses del ano.

A diferencia del resultado obtenido de un modelo determinista como una regresion

lineal, el valor esperado (ecuacion 3.2) tiene asociado una probabilidad dada por el

modelo probabilıstico en este caso regresion logıstica.

47

Capıtulo 5

Conclusiones

1. Al implementar el algoritmo de SMOTE a cualquier modelo se evidencia un au-

mento en el rendimiento de los modelos de clasificacion, como lo fue en el caso de

los modelos aquı implementados, donde se redujeron los errores de prediccion, de

igual manera, al someter el conjunto de validacion sobre los modelos realizados

se obtuvieron las matrices de confusion de las cuales se concluye que el modelo

de regresion logıstica tiene una tendencia a predecir no heladas, mientras que el

modelo de redes bayesianas tiene tendencia a predecir heladas.

2. El valor esperado obtenido con la ecuacion 3.2 genera un estimado de la tempera-

tura mınima que se predice para el conjunto de descriptores de entrada, apreciando

las concentraciones de bajas temperaturas que se evidencian en la figura 4.14 y

4.13 se percibe que coinciden con los meses mas secos del ano, es decir, los meses

donde mas heladas se presentan en la zona, por lo cual se concluye que la estima-

cion de la temperatura mınima funciona de una manera ideal para el conjunto de

datos de validacion.

3. Los modelos implementados funcionan de una manera adaptativa, es decir, se

adaptan a cualquier tipo de dato, sin importar su orden, esto se evidencia al

realizar la validacion cruzada, ya que se combinan de diferentes maneras los datos

de validacion y entrenamiento y aun ası se sigue obteniendo una alta precision,

de igual manera, esto se evidencia al realizar la curva ROC ya que cuando el area

bajo la curva se aproxima a 1 se dice que el modelo es adaptativo, en el presente

proyecto se concluye que en el caso del metodo de Redes Bayesianas funciona de

una manera mas adaptativa que el de regresion logıstica.

4. Comparando los valores obtenidos de Log loss de los modelos (0.0196 para redes

bayesiana y 0.01501 para la regresion logıstica), se observa que el valor del modelo

48

de regresion logıstica es menor al de redes bayesianas, indicando que las probabi-

lidades obtenidas del modelo logıstico son mas confiables que las obtenidas de la

Red Bayesiana.

5. Los valores de Recall de la clase positiva (Tabla 4.20 y Tabla 4.21) afirman que

el modelo de Redes Bayesianas es mas confiable a la hora de detectar eventos de

heladas.

49

Bibliografıa

Aguilar, J. A. C. (1997). Respuesta de 36 clones promisorios de melloco (ullucus

tuberosus loz.) al efecto de heladas en dos provincias de la sierra ecuatoriana . Escuela

Superior Politecnica de Chimborazo.

Aluja, T. (2001). La minerıa de datos, entre la estadıstica y la inteligencia artificial.

Artuduaga, R. (1980). Las heladas y su control. toa – temas de orientacion agropecua-

ria.

Bonilla Jose Ebert, R. , Ramırez Jairo. (2006). Metodologıa para el diseno de un

modelo univariado de red neuronal para el pronostico de la temperatura mınima en

la zona de mosquera (cundinamarca, colombia).

Borda Perez Mariela, N. L. E., Tuesca Molina Rafael. (2009). Metodos cuantitativos,

herramientas para la investigacion en salud.

Brownlee, J. (2020). Probability for machine learning.

Cifuentes, V. (2018). Cultivos del paıs podrıan afectarse por heladas traıdas por el

nino.

Caceres, R. A. (1995). Estadıstica multivariable y no parametrica con spss.

Diedrichs Ana Laura, T. W. (2013). Prediction of frost events using machine learning

and iot sensing devices.

Evans Michael J, R. J. (2004). Probabilidad y estadıstica. la ciencia de la incertidumbre.

Friedman, G. (1997). Bayesian network classifier. Kluwer academic publisher .

Gonzales Olga, T. F. (2012). Actualizacion nota tecnica heladas 2012.

Geron, A. (2017). Hands-on machine learning with scikit-learn and tensorflow.

50

Haupt Sue Ellen, L. S., Cowie Jim. (2018). Machine learning for applied weather

prediction. . Amsterdam, Netherlands.

Juez Martel Pedro, D. F. (1997). Probabilidad y estadıstica en medicina.

Latorre, D. A. G. (2014). Caracterizacion, pronostico y alternativas de manejo de las

heladas en el sistema de produccion lechero del valle de ubate y chiquinqura (colombia)

. Universidad Nacional de Colombia.

Malhotra, N. K. (2004). Investigacion de mercados.

MathWorksSupportTeam. (s.f.). What is matlab? Descargado de https://la

.mathworks.com/discovery/what-is-matlab.html ([Accessed: Mai. 2018])

Ministerio de agricultura. (2019).

Mitchell, T. M. (1997). Machine learning.

Moller Acuna Patricia, R. S. J., Ahumada Garcıa Roberto. (2016). Prediction of frost

episodes based in agrometeorological information and machine learning techniques. .

Universidad de Talca, Chile.

Malaga, U. (s.f.). Curvas roc: Eleccion de puntos de corte y area bajo la curva (auc).

Descargado de https://www.bioestadistica.uma.es/analisis/roc1/

Ng, A. (2011). Machine learning.

Ovando Gustavo, S. S., Bocco Monica. (2004). Redes neuronales para modelar prediccion

de heladas. . Universidad Nacional de Cordoba, Argentina.

PythonSupportTeam. (s.f.). What is python? Descargado de https://www.python

.org/doc/essays/blurb/

Rikunert. (s.f.). Smote explained. Descargado de http://rikunert.com/SMOTE

explained ([Accessed: 2019])

Samuel, A. (1959). Machine learning.

Sucar, L. E. (2004). Redes bayesianas. INAOE.

Zelada Carlos, R. (s.f.). Evaluacion de modelos de clasificacion. Descargado de

https://rpubs.com/chzelada/275494

51

https://la.mathworks.com/discovery/what-is-matlab.html

https://la.mathworks.com/discovery/what-is-matlab.html

https://www.bioestadistica.uma.es/analisis/roc1/

https://www.python.org/doc/essays/blurb/

https://www.python.org/doc/essays/blurb/

http://rikunert.com/SMOTE_explained

http://rikunert.com/SMOTE_explained

https://rpubs.com/chzelada/275494

Evaluación de modelos de clasificación para la predicción ...

Documents

Transcript of Evaluación de modelos de clasificación para la predicción ...