LA MINERÍA DE DATOS COMO HERRAMIENTA DE APOYO EN LOS PROCESOS DE INVESTIGACIÓN

23
LA MINERÍA DE DATOS COMO HERRAMIENTA DE APOYO EN LOS PROCESOS DE INVESTIGACIÓN. Uso del software RapidMiner para el análisis de las limitantes en la recepción de las alertas ante fenómenos naturales en la zona norte de la región andina de Colombia. FABIÁN LEONARDO YORY SANABRIA Estudiante de Doctorado en Tecnologías de Información y Análisis de Decisiones Universidad Popular Autónoma del Estado de Puebla Docente del Programa de Ingeniería Ambiental de la Universidad Libre Seccional Socorro [email protected] Línea de Investigación Sistemas de Gestión y Conservación Socorro, Septiembre de 2015 JUAN PABLO SALAZAR GIRALDO Doctor en Ingeniería - énfasis Ambiental Grupo GIRNA, Centro de Recursos Naturales Renovables, La Salada Sena – Antioquia. [email protected], [email protected]

description

Uso del software RapidMiner para el análisis de las limitantes en la recepción de las alertas ante fenómenos naturales en la zona norte de la región andina de Colombia.

Transcript of LA MINERÍA DE DATOS COMO HERRAMIENTA DE APOYO EN LOS PROCESOS DE INVESTIGACIÓN

Page 1: LA MINERÍA DE DATOS COMO HERRAMIENTA DE APOYO EN LOS PROCESOS DE INVESTIGACIÓN

LA MINERÍA DE DATOS COMO HERRAMIENTA DE APOYO EN LOS PROCESOS DE INVESTIGACIÓN.

Uso del software RapidMiner para el análisis de las limitantes en la recepción de las alertas ante fenómenos naturales en la zona norte de la región andina de Colombia.

FABIÁN LEONARDO YORY SANABRIAEstudiante de Doctorado en Tecnologías de Información y

Análisis de DecisionesUniversidad Popular Autónoma del Estado de PueblaDocente del Programa de Ingeniería Ambiental de la

Universidad Libre Seccional [email protected]

Línea de Investigación Sistemas de Gestión y

Conservación

Socorro, Septiembre de 2015

JUAN PABLO SALAZAR GIRALDODoctor en Ingeniería - énfasis Ambiental

Grupo GIRNA, Centro de Recursos Naturales Renovables, La Salada Sena – Antioquia.

[email protected], [email protected]

Page 2: LA MINERÍA DE DATOS COMO HERRAMIENTA DE APOYO EN LOS PROCESOS DE INVESTIGACIÓN

La necesidad de encontrar relaciones ocultas engrandes volúmenes de datos obtenidos al medirlas diversas variables presentes en unainvestigación, es una tarea que puede encontrarsoporte en la minería de datos y surepresentación en los árboles de decisión, loscuales son gráficos generados a partir de cálculoscomo la entropía e impureza de los datos (Gini).

La aplicación de esta técnica ha permitidoestablecer que la sociedad presenta un alto nivelde vulnerabilidad ante los fenómenos naturalespor diversos aspectos enmarcados en laslimitantes políticas, académicas y tecnológicasprincipalmente. Los resultados dejan ver que lasalertas generadas no cuentan con el soporteadecuado para llegar hasta la población y porconsiguiente no logran el objetivo de reducir lavulnerabilidad.

RESUMEN

2

Page 3: LA MINERÍA DE DATOS COMO HERRAMIENTA DE APOYO EN LOS PROCESOS DE INVESTIGACIÓN

En el trabajo de investigación presentado, se requiere establecer elcomportamiento de las limitantes académicas, tecnológicas, políticas yeconómicas que impiden que la sociedad reciba las alertas generadas antefenómenos naturales. Para establecer comportamientos se han planteadoalgunas preguntas objetivo como (no se presentan todas por su extensión):

1. ¿Qué tipo de población es la que más se interesa por indagarpor la amenaza ante fenómenos naturales en su área deresidencia?

2. ¿Qué nivel de estudio tienen las personas que se preocupan porindagar por la amenaza ante fenómenos naturales?

3. ¿Cuáles son las características de la población que ha recibido yentendido las alertas por fenómenos naturales en su área deresidencia?

4. ¿Dónde se encuentra y cuál es el nivel de estudio de lapoblación que tiene problemas para acceder a internet?

PROBLEMA

3

Page 4: LA MINERÍA DE DATOS COMO HERRAMIENTA DE APOYO EN LOS PROCESOS DE INVESTIGACIÓN

En total se realizaron 314 entrevistas.

1. MATERIALES Y MÉTODOS

4Figura 1. Tabla de datos con la fuente de información ya pre-procesada.

1.1 Consolidación de Datos

Page 5: LA MINERÍA DE DATOS COMO HERRAMIENTA DE APOYO EN LOS PROCESOS DE INVESTIGACIÓN

Análisis estándar de la información

1. MATERIALES Y MÉTODOS

5

Tabla 1. Distribución de las entrevistas por departamento. Fuente: Autor.

¿Cuál Departamento? Frecuencia Porcentaje Porcentaje

válido

Porcentaje

acumulado

Válidos

Boyacá 53 16,9 16,9 16,9

Norte de Santander 11 3,5 3,5 20,4

Santander 250 79,6 79,6 100,0

Total 314 100,0 100,0

Tabla 2. Distribución de los habitantes según el sitio de residencia. Fuente: Autor.

¿Vive en la Ciudad o en el

Campo?

Frecuencia Porcentaje Porcentaje

válido

Porcentaje

acumulado

Válidos

Ciudad 192 61,1 61,1 61,1

Campo 122 38,9 38,9 100,0

Total 314 100,0 100,0

1.2 Análisis Estadístico de los Datos

Page 6: LA MINERÍA DE DATOS COMO HERRAMIENTA DE APOYO EN LOS PROCESOS DE INVESTIGACIÓN

1. MATERIALES Y MÉTODOS

6

¿Cuál Departamento?

Boyacá Norte de

Santander

Santander Total

% del N de

la columna

% del N

de la

columna

% del N de

la columna

% del N de

la columna

¿En la zona

donde vive

se presentan

algunos

fenómenos

de estos?

No

¿Alguna vez ha

intentado averiguar

sobre los

fenómenos

naturales que

ocurren en su área

de residencia?

No 92,6% 100,0% 93,7% 93,7%

Si7,4% 0,0% 6,3% 6,3%

Si

¿Alguna vez ha

intentado averiguar

sobre los

fenómenos

naturales que

ocurren en su área

de residencia?

No 73,1% 57,1% 73,4% 72,7%

Si26,9% 42,9% 26,6% 27,3%

Tabla 5. Nivel de indagación de fenómenos naturales en el área de residencia. Fuente: Autor.

1.2 Análisis Estadístico de los Datos

Page 7: LA MINERÍA DE DATOS COMO HERRAMIENTA DE APOYO EN LOS PROCESOS DE INVESTIGACIÓN

1. MATERIALES Y MÉTODOS

7

¿Cuál Departamento?

Boyacá Norte de

Santander

Santander Total

% del N de

la columna

% del N de

la columna

% del N de

la columna

% del N de

la columna

¿En la zona

donde vive se

presentan

algunos

fenómenos de

estos?

No

¿En algún momento

de su vida ha recibido

algún tipo de aviso

para que pueda

protegerse de un

fenómeno natural?

No 66,7% 100,0% 67,6% 68,3%

Si33,3% 0,0% 32,4% 31,7%

Si

¿En algún momento

de su vida ha recibido

algún tipo de aviso

para que pueda

protegerse de un

fenómeno natural?

No 53,8% 42,9% 62,6% 60,5%

Si46,2% 57,1% 37,4% 39,5%

Tabla 6. Recepción de alertas por fenómenos naturales en zonas afectadas. Fuente: Autor.

1.2 Análisis Estadístico de los Datos

Page 8: LA MINERÍA DE DATOS COMO HERRAMIENTA DE APOYO EN LOS PROCESOS DE INVESTIGACIÓN

1. MATERIALES Y MÉTODOS

8

La Minería de Datos

Nemati & Barko, 2004 plantea que “para poder

encontrar de manera más amigable la relación

entre las diversas variables en estudio, la

minería de datos puede convertirse en un

aliado del investigador, dicha técnica puede

definirse como el proceso de descubrimiento e

interpretación de patrones desconocidos en

bases de datos”

Tufféry, 2011 que dice que es “el conjunto de

métodos y técnicas para la exploración y el

análisis de grandes conjuntos de datos, de

forma automática o semiautomática, con el fin

de encontrar entre estos datos ciertas reglas,

asociaciones o tendencias desconocidas u

ocultas”

Hancock, 2011 la propone asociada al

campo de la investigación como que “la

minería de datos encuentra sus

definiciones como la aplicación del

método científico a los datos”.

Page 9: LA MINERÍA DE DATOS COMO HERRAMIENTA DE APOYO EN LOS PROCESOS DE INVESTIGACIÓN

1. MATERIALES Y MÉTODOS

9

La Minería de Datos y los Árboles de Decisión

La herramienta que se utilizó para encontrar las asociaciones entre las

diversas variables medidas en la investigación adelantada, fue la de los

árboles de decisión, utilizados por Bramer, 2013 quien expresa que “son

creados por un proceso conocido como división sobre el valor de los

atributos y tienen como objetivos fundamentales la compresión de los

datos y la predicción”.

La compresión de los datos debería ser entendida realmente como la

representación de los grandes volúmenes de datos obtenidos por el

investigador en un diagrama que facilita la comprensión de los

mismos. Para su desarrollo, se comprueba el valor de un atributo clave

para el investigador como perspectiva (objetivo de predicción) y luego

se crea una rama para cada uno de sus posibles valores. En el caso de

atributos continuos, la prueba que se aplica normalmente es determinar si

el valor es -menor o igual a- o -mayor que- un valor dado conocido como

el valor de división. El proceso de división continúa hasta que cada rama

se puede marcar con sólo una clasificación.

Page 10: LA MINERÍA DE DATOS COMO HERRAMIENTA DE APOYO EN LOS PROCESOS DE INVESTIGACIÓN

1. MATERIALES Y MÉTODOS

10

RapidMiner® 5.3: es un programa informático para el análisis y minería de datos.

Permite el desarrollo de procesos de análisis de datos mediante el encadenamiento de

operadores a través de un entorno gráfico.

1.3 Aplicación en RapidMiner

FASES PARA LA IMPLEMENTACIÓN

1. Definición del Problema: Planteamiento de preguntas y definición de variable

objetivo

2. Preparación de los Datos: Importación de datos y configuración en función de la

pregunta a resolver

3. Exploración de los Datos: Cálculo de estadísticas descriptivas y análisis

preliminar de los datos

4. Fase de Modelamiento: Generación del modelo de predicción, visualización del

resultado y análisis el nivel de riesgo.

Page 11: LA MINERÍA DE DATOS COMO HERRAMIENTA DE APOYO EN LOS PROCESOS DE INVESTIGACIÓN

1. MATERIALES Y MÉTODOS

11

1.3 Aplicación en RapidMiner

VARIABLES CONFIGURADAS EN EL SOFTWARE

ID: secuencial numérico.

GENERO: masculino, femenino.

EDAD: numérico.

NIVEL_ESTUDIO: Primaria, Secundaria, Técnico, Tecnológico, Universitario

Pregrado y Universitario Posgrado.

VIVIENDA: Ciudad, Campo. Indica donde vive el entrevistado.

DEPARTAMENTO: Boyacá, Santander, Norte de Santander.

INDAGA_FN: Si, No. Indica si el entrevistado se ha preocupado por indagar su

nivel de amenaza.

VIVIENDA_FN: Si, No. Indica si en la zona de residencia del entrevistado se

presenta alguna amenaza por fenómeno natural.

RECIBE_AVISO: Si, No. Advierte si el entrevistado ha recibido algún tipo de

alerta ante fenómenos naturales.

COMPRENDE_AVISO: Si, No. Establece si se ha comprendido el aviso recibido

ante la amenaza por fenómenos naturales.

Page 12: LA MINERÍA DE DATOS COMO HERRAMIENTA DE APOYO EN LOS PROCESOS DE INVESTIGACIÓN

1. MATERIALES Y MÉTODOS

12

1.3 Aplicación en RapidMiner

FASE DE MODELAMIENTO

1. Retrieve

2. Set Role

3. Split Validation

4. Decision Tree

• Criterion

• Maximal Depth

• Confidence

• No Pre-Pruning

• No Pruning

5. Apply Model

6. Performance

Page 13: LA MINERÍA DE DATOS COMO HERRAMIENTA DE APOYO EN LOS PROCESOS DE INVESTIGACIÓN

1. MATERIALES Y MÉTODOS

13

1.3 Aplicación en RapidMiner

FASE DE MODELAMIENTO

1. Retrieve

2. Set Role

3. Split Validation

4. Decision Tree

• Criterion

• Maximal Depth

• Confidence

• No Pre-Pruning

• No Pruning

5. Apply Model

6. Performance

Page 14: LA MINERÍA DE DATOS COMO HERRAMIENTA DE APOYO EN LOS PROCESOS DE INVESTIGACIÓN

2. RESULTADOS

14

Pregunta 1

¿Qué tipo de población es la que más se interesa por indagar por la amenaza

ante fenómenos naturales en su área de residencia?

Solamente los entrevistados del

Departamento de Norte de

Santander que viven en la ciudad y

que en su área de residencia se

presenta algún tipo de problemática

por fenómenos naturales se han

preocupado por indagar acerca del

tema relacionado.Precisión de predicción del modelo del 87,30%

Page 15: LA MINERÍA DE DATOS COMO HERRAMIENTA DE APOYO EN LOS PROCESOS DE INVESTIGACIÓN

2. RESULTADOS

15

Pregunta 2

¿Qué nivel de estudio tienen las personas que se preocupan por indagar por la

amenaza ante fenómenos naturales?

• Ninguna persona que en su área de

residencia se crea susceptible a la amenaza

por fenómenos naturales indaga acerca de

esta problemática.

• Solamente los entrevistados de nivel

técnico y tecnológico que viven en el

campo y que en su zona de residencia se

presentan fenómenos naturales han

indagado acerca del tema.

Precisión de predicción del modelo del 87,30%

• Solamente los entrevistados que viven en la ciudad

y que en su zona de residencia se presentan

fenómenos naturales han indagado acerca del tema

si su nivel de estudio corresponde a primaria o

técnico.

• Ningún entrevistado cuyo nivel de formación sea

pregrado universitario que viva en la ciudad o el

campo y que en su zona de residencia se presentan

fenómenos naturales han indagado acerca del tema.

Page 16: LA MINERÍA DE DATOS COMO HERRAMIENTA DE APOYO EN LOS PROCESOS DE INVESTIGACIÓN

2. RESULTADOS

16

Pregunta 3

¿Cuáles son las características de la población que ha recibido y entendido las

alertas por fenómenos naturales en su área de residencia?

Calculado con las Frecuencias:

• Sólo el 46,75% de la

población ha recibido algún

tipo de alerta por fenómenos

naturales.

• El 47,15% de la población

que no recibe ningún aviso

manifiesta que en su área de

residencia se presenta algún

tipo de fenómeno natural.

• El 25,92% de la población

que recibe los mensajes

reside en el campo.

Precisión de predicción del modelo del 75%

Page 17: LA MINERÍA DE DATOS COMO HERRAMIENTA DE APOYO EN LOS PROCESOS DE INVESTIGACIÓN

2. RESULTADOS

17

Pregunta 4

¿Dónde se encuentra y cuál es el nivel de estudio de la población que tiene

problemas para acceder a internet?

Precisión de predicción del modelo del 80,89%.

• Se establece que la población que vive en el

campo es la que tiene menor conocimiento

en lo referente al acceso a internet.

• Todos los entrevistados con nivel de

formación de técnico, tecnólogo y

universitarios tanto de pregrado como de

posgrado saben cómo acceder a internet.

• Ningún entrevistado con nivel de formación de

primaria sabe cómo acceder a internet.

• Los únicos entrevistados con nivel de

formación de secundaria que manifiestan no

saber cómo acceder a internet son los que viven

en el campo en el departamento de Norte de

Santander.

Page 18: LA MINERÍA DE DATOS COMO HERRAMIENTA DE APOYO EN LOS PROCESOS DE INVESTIGACIÓN

3. DISCUSIÓN

18

En el trabajo titulado “Modelo aumentado

de árbol de decisión utilizando mapas auto

organizados”, Castillo-Rojas, Medina-

Quispe, & Meneses-Villegas, 2014

proponen que “la visualización de datos

apoya el análisis exploratorio de los datos

en la etapa previa al proceso de minería de

datos y que puede ser utilizada para

obtener un entendimiento preliminar de los

datos y refinar los objetivos y tareas

definidas inicialmente por el usuario en la

fase de formulación del problema”, esta

afirmación es coherente con los resultados

obtenidos al poder establecer con claridad

algunas relaciones que no son evidentes en

las tablas de datos.

La facilidad en la interpretación de

éste tipo de gráficas permite que sean

una alternativa viable sobre todo para

aquellos investigadores que requieran

más que un análisis estadístico

encontrar estas relaciones entre las

variables, criterio que comparte

Fernando, 2002 donde expresa que “a

pesar de carecer de la expresividad de

las redes semánticas o de la lógica de

primer orden, la sencillez de los

árboles de decisión los convierte en

una alternativa muy atractiva de cara

al usuario final de un sistema de

extracción de conocimiento”.

Page 19: LA MINERÍA DE DATOS COMO HERRAMIENTA DE APOYO EN LOS PROCESOS DE INVESTIGACIÓN

3. DISCUSIÓN

19

Respecto de la precisión de los modelos

presentados en los árboles de decisión, tal

como lo plantea Yan-yan SONG & Ying LU,

2015 “la principal desventaja es que puede

estar sujeto a fallas en su ajuste, en particular

cuando se utiliza un conjunto de datos pequeño

y que este problema puede limitar la

generalización y la robustez de los modelos

resultantes”.

Este aspecto sin duda justificado, el

investigador puede compensarlo con un tamaño

de muestra adecuado a su proyecto ya que

como se explicó previamente la técnica

propuesta no pretende reemplazar el soporte

estadístico de cada investigación sino funcionar

como una herramienta que facilite la labor del

investigador.

Page 20: LA MINERÍA DE DATOS COMO HERRAMIENTA DE APOYO EN LOS PROCESOS DE INVESTIGACIÓN

4. CONCLUSIONES

20

La aplicación de los árboles de decisión en

el estudio de las limitantes en la recepción

de las alertas ante fenómenos naturales en la

zona norte de la región andina de Colombia

como herramienta de apoyo en el análisis de

los datos, ha permitido encontrar

asociaciones entres las variables que

complementan los análisis realizados

pudiendo generarse una mejor

caracterización de la población en estudio y

su comportamiento con las diferentes

limitantes planteadas en el proyecto de

investigación.

Las principales conclusiones se resumen en:

LIMITANTES ACADÉMICAS

• La población en estudio no es consciente

de los fenómenos naturales que los

amenazan y esto eleva su índice de

vulnerabilidad

• Solamente aquellas personas de

formación superior a la secundaria

presentan algún grado de interés en

averiguar acerca de la temática

• La población de las ciudades que se han

visto afectados por al menos un

fenómeno natural es la más preocupada

por la ocurrencia de los mismos

Page 21: LA MINERÍA DE DATOS COMO HERRAMIENTA DE APOYO EN LOS PROCESOS DE INVESTIGACIÓN

4. CONCLUSIONES

21

LIMITANTES POLÍTICAS

• A pesar que existen diferentes tipos de

alerta, menos de la mitad de la población

reciben información que le sirva de

soporte a la toma de decisiones

• Casi la mitad de la población que no

recibe ningún tipo de alerta, reporta que

en su área de residencia se presenta algún

fenómeno natural

LIMITANTES TECNOLÓGICAS

• Como era de esperarse la población que

vive en el campo es la que menos

presenta competencias en el manejo de

información a través de internet

• Ningún entrevistado con nivel de

formación de primaria sabe cómo

acceder a internet.

Page 22: LA MINERÍA DE DATOS COMO HERRAMIENTA DE APOYO EN LOS PROCESOS DE INVESTIGACIÓN

5. REFERENTES

22

Ato García, M., & López García, J. J. (1996). Análisis Estadístico para Datos Categóricos.

SÍNTESIS. Recuperado a partir de http://www.casadellibro.com/libro-analisis-estadistico-para-

datos-categoricos/9788477383925/536612

Bramer, M. (2013). Principles of Data Mining (2d ed.). Springer. Recuperado a partir de

http://library.books24x7.com/toc.aspx?bookid=77035

Castillo-Rojas, W., Medina-Quispe, F., & Meneses-Villegas, C. (2014). Modelo aumentado

de árbol de decisión utilizando mapas autoorganizados. Augmented decision tree models using

self-organizing maps. (English), 22(3), 351-362.

Fernando, B. G. (2002). Art: un método alternativo para la construcción de árboles de

decisión. Universidad de Granada. Recuperado a partir de

http://sibulgem.unilibre.edu.co:2051/servlet/tesis?codigo=12069

Hancock, M. F. (2011). Practical Data Mining. Auerbach Publications. Recuperado a partir de

http://library.books24x7.com/assetviewer.aspx?bookid=47194&chunkid=298662833&rowid=4

0&noteMenuToggle=0&hitSectionMenuToggle=0&leftMenuState=1

Nemati, N. R., & Barko, C. D. (2004). Organizational Data Mining: Leveraging Enterprise

Data Resources for Optimal Performance. IGI Global. Recuperado a partir de

http://library.books24x7.com/toc.aspx?bookid=6518

Page 23: LA MINERÍA DE DATOS COMO HERRAMIENTA DE APOYO EN LOS PROCESOS DE INVESTIGACIÓN

5. REFERENTES

23

Pérez López, C. (2004). Técnicas de Análisis Multivariante de Datos. Aplicaciones con SPSS.

Recuperado a partir de http://www.casadellibro.com/libro-tecnicas-de-analisis-multivariante-

de-datos-aplicaciones-con-sps-s/9788420541044/974026

Sayad, S. (2014). Data Mining Map. Recuperado 10 de mayo de 2015, a partir de http://chem-

eng.utoronto.ca/~datamining/dmc/data_mining_map.htm

Torres, D. L., Meyer, R. D., & Cárdenas, V. T. (2011). Minería de Datos en la Encuesta

Permanente de Hogares2009, Universidad Nacional del Litoral, Argentina. Application Of Data

Mining To Panel Surveys 2009, National University Of The Litoral, Argentina. (English),

10(1), 19-28.

Tufféry, S. (2011). Data Mining and Statistics for Decision Making. John Wiley & Sons.

Recuperado a partir de http://library.books24x7.com/toc.aspx?bookid=40918

Wilford Rivera, I. (2010). MINERÍA DE DATOS: HERRAMIENTA DE APOYO EN LA

SELECCIÓN DE EQUIPOS DE PROYECTOS INFORMÁTICOS. Ingeniería Industrial, 27(2-

3), 4 pág.

Yan-yan SONG, & Ying LU. (2015). Decision tree methods: applications for classification

and prediction. Shanghai Archives of Psychiatry, 27(2), 130-135.

http://doi.org/10.11919/j.issn.1002-0829.215044