UNIVERSIDAD DE GUAYAQUIL FACULTAD DE...

143
UNIVERSIDAD DE GUAYAQUIL FACULTAD DE CIENCIAS MATEMATICAS Y FISICAS CARRERA DE INGENIERIA EN SISTEMAS COMPUTACIONALES “SISTEMA DE AUTOGESTION DE LA SALUD PARA PACIENTES CON DIABETES Y ASMA, DESARROLLADO E IMPLEMENTADO EN UNA PLATAFORMA ANDROID, CON MONITOREO DE UNA APLICACIÓN WEB EN PHP DIRIGIDA A LOS MEDICOS TRATANTES. ENFOCADO EN EL DESARROLLO WEB EN PHP CON LA APLICACION DE TECNICAS DE MINERIA DE DATOS EN REDES SOCIALES MEDIANTE ETL PARA EL ANALISIS Y EXTRACCION DE LA INFORMACION GENERADA EN EL SECTOR DE LA SALUD.” PROYECTO DE TITULACIÓN Previa a la obtención del Título de: INGENIERO EN SISTEMAS COMPUTACIONALES AUTOR: DAVID ROBERTO MALDONADO PLUA TUTOR: Ing. Fabricio Medina MDPR GUAYAQUIL – ECUADOR 2017

Transcript of UNIVERSIDAD DE GUAYAQUIL FACULTAD DE...

Page 1: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

UNIVERSIDAD DE GUAYAQUIL

FACULTAD DE CIENCIAS MATEMATICAS Y FISICAS

CARRERA DE INGENIERIA EN SISTEMAS

COMPUTACIONALES

“SISTEMA DE AUTOGESTION DE LA SALUD PARA PACIENTES CON

DIABETES Y ASMA, DESARROLLADO E IMPLEMENTADO EN UNA

PLATAFORMA ANDROID, CON MONITOREO DE UNA APLICACIÓN

WEB EN PHP DIRIGIDA A LOS MEDICOS TRATANTES. ENFOCADO

EN EL DESARROLLO WEB EN PHP CON LA APLICACION DE

TECNICAS DE MINERIA DE DATOS EN REDES SOCIALES

MEDIANTE ETL PARA EL ANALISIS Y EXTRACCION

DE LA INFORMACION GENERADA EN EL

SECTOR DE LA SALUD.”

PROYECTO DE TITULACIÓN

Previa a la obtención del Título de:

INGENIERO EN SISTEMAS COMPUTACIONALES

AUTOR:

DAVID ROBERTO MALDONADO PLUA

TUTOR:

Ing. Fabricio Medina MDPR

GUAYAQUIL – ECUADOR

2017

Page 2: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

I

REPOSITORIO NACIONAL EN CIENCIAS Y TECNOLOGÍA FICHA DE REGISTRO DE TESIS

TÍTULO Y SUBTÍTULO:

Sistema de autogestión de la salud para pacientes con diabetes y asma, desarrollado e implementado en una plataforma Android; con monitoreo de una aplicación web en PHP dirigida a los médicos tratantes, enfocado en el desarrollo web en php con la aplicación de técnicas de minería de datos en redes sociales mediante ETL para el análisis y extracción de la información generada en el sector de la salud.

AUTOR: MALDONADO PLUA DAVID ROBERTO

REVISOR/TUTOR: INGFABRICIO MEDINA, MDPR ING. FABRICIO SÁNCHEZ, M.Sc.

INSTITUCIÓN: UNIVERSIDAD DE GUAYAQUIL

FACULTAD: CIENCIAS MATEMÁTICAS Y FÍSICAS

ESPECIALIDAD: INGENIERÍA EN SISTEMAS COMPUTACIONALES

GRADO OBTENIDO: TERCER NIVEL

FECHA DE PUBLICACIÓN: 2017 No. DE PÁGINAS 122 PÁGINAS

ÁREAS TEMÁTICAS: DESARROLLO WEB

PALABRAS CLAVES / KEYWORDS: ASMA, PORTAL WEB, INDICADORES DE RED SOCIAL TWITTER

RESUMEN/ABSTRACT: El presente proyecto pretende explicar el impacto que actualmente tiene la red social Twitter en el ámbito de la salud, está enfocado en casos de pacientes con síntomas de asma y/o diabetes, se busca aprovechar la información que genera el usuarios en la red social Twitter, promoviendo mayor control y apoyo por parte de los profesionales de la salud sobre sus paciente. Las Redes Sociales pertenecen a una rama de aplicación de las TIC’s, se construye en base a lo que cada usuario aporta. Las empresas de distintos sectores están interesadas en el análisis de estos datos, por esta razón optan por aplicar técnicas de minería de datos, para averiguar que patrones de comportamiento les permitirán aprovechar los resultados obtenidos, focalizando sus esfuerzos en objetivos específicos.

ADJUNTO PDF: SI NO

CONTACTO CON AUTOR: Teléfono: 0996732412 E-mail: [email protected]

CONTACTO CON LA INSTITUCIÓN:

Nombre: AB. JUAN CHÁVEZ ATOCHA

Teléfono: 2307729

E-mail: [email protected]

Page 3: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

II

CARTA APROBACION DEL TUTOR

En mi calidad de Tutor del trabajo de titulación, “SISTEMA DE

AUTOGESTIÓN DE LA SALUD PARA PACIENTES CON DIABETES Y

ASMA, DESARROLLADO E IMPLEMENTADO EN UNA PLATAFORMA

ANDROID; CON MONITOREO DE UNA APLICACIÓN WEB EN PHP

DIRIGIDA A LOS MÉDICOS TRATANTES, ENFOCADO EN EL

DESARROLLO WEB EN PHP CON LA APLICACIÓN DE TÉCNICAS DE

MINERÍA DE DATOS EN REDES SOCIALES MEDIANTE ETL PARA EL

ANÁLISIS Y EXTRACCIÓN DE LA INFORMACIÓN GENERADA EN EL

SECTOR DE LA SALUD” elaborado por el Sr. DAVID ROBERTO

MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería

en Sistemas Computacionales, Facultad de Ciencias Matemáticas y

Físicas de la Universidad de Guayaquil, previo a la obtención del Título

de Ingeniero en Sistemas, me permito declarar que luego de haber

orientado, estudiado y revisado, la Apruebo en todas sus partes.

Atentamente

__________________________________

Ing. Fabricio Medina Palacios MDPR

TUTOR

Page 4: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

III

DEDICATORIA

Dios, por la salud y guiarme en cada

decisión que tomaba para poder seguir

adelante permitiéndome alcanzar mis

objetivos. Le agradezco a Dios por mi

hijo quien me motiva a seguir

esforzándome día a día, al saber que

seguirá mis ejemplos es motivo

suficiente para dar lo mejor de mí.

Mi madre Narciza, por su bondad, los

consejos su paciencia que han hecho

de mí una persona de bien pero sobre

todo por su amor, mi padre Alberto por

sus enseñanzas y perseverancia en los

momentos más difíciles lo cual me han

permitido aprender y ser una mejor

persona. Mi hermano Steven tal vez no

seamos los mejores hermanos del

mundo pero sé que cuento con su

apoyo. A Diana que ha sido un pilar

fundamental en la culminación de este

proyecto ya que he contado con su

apoyo, consejos y mucha paciencia.

David

Page 5: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

IV

AGRADECIMIENTO

El presente trabajo me gustaría agradecer a

Dios por permitirme alcanzar esta meta en

mi vida, la Universidad de Guayaquil por

permitirme estudiar y ser un profesional.

Son muchas las personas que han formado

parte de mi vida profesional a las que les

encantaría agradecerles su amistad,

consejos, apoyo, ánimo y compañía en los

momentos más difíciles de mi vida. Algunas

están aquí conmigo y otras en mis

recuerdos y en mi corazón, sin importar en

donde estén quiero darles las gracias por

formar parte de mí, por todo lo que me han

brindado y por todas sus bendiciones.

David

Page 6: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

V

TRIBUNAL PROYECTO DE TITULACIÓN

Ing. Eduardo Santos Baquerizo, M. Sc. DECANO DE LA FACULTAD CIENCIAS MATEMATICAS Y

FISICAS

Ing. Fabricio Medina Palacios, MDPR PROFESOR TUTOR DEL

PROYECTO DE TITULACIÓN

Ing. Abel Alarcón Salvatierra, M. Sc DIRECTOR DE LA CARRERA DE

INGENIERÍA EN SISTEMAS COMPUTACIONALES.

Ing. Jimmy Sornoza Moreira, M. Sc PROFESOR REVISOR DEL

PROYECTO DE TITULACIÓN

Ab. Juan Chávez Atocha, Esp. SECRETARIO

Page 7: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

VI

DECLARACIÓN EXPRESA

“La responsabilidad del contenido de este Proyecto de Titulación, me

corresponden exclusivamente; y el patrimonio intelectual de la misma a la

UNIVERSIDAD DE GUAYAQUIL”

_______________________________ David Roberto Maldonado Plua

Page 8: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

VII

UNIVERSIDAD DE GUAYAQUIL

FACULTAD DE CIENCIAS MATEMATICAS Y FISICAS

CARRERA DE INGENIERIA EN SISTEMAS

COMPUTACIONALES

“SISTEMA DE AUTOGESTION DE LA SALUD PARA PACIENTES CON

DIABETES Y ASMA, DESARROLLADO E IMPLEMENTADO EN UNA

PLATAFORMA ANDROID, CON MONITOREO DE UNA APLICACIÓN

WEB EN PHP DIRIGIDA A LOS MEDICOS TRATANTES. ENFOCADO

EN EL DESARROLLO WEB EN PHP CON LA APLICACION DE

TECNICAS DE MINERIA DE DATOS EN REDES SOCIALES

MEDIANTE ETL PARA EL ANALISIS Y EXTRACCION

DE LA INFORMACION GENERADA EN EL

SECTOR DE LA SALUD.”

Proyecto de Titulación que se presenta como requisito para optar por el

título de INGENIERO en SISTEMAS COMPUTACIONALES

Autor: David Roberto Maldonado Plua

C.I.: 0928000447

Tutor: Ing. Fabricio Medina MDPR

Guayaquil, de 2017

Page 9: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

VIII

CERTIFICADO DE ACEPTACIÓN DEL TUTOR

En mi calidad de Tutor del proyecto de titulación, nombrado por el

Consejo Directivo de la Facultad de Ciencias Matemáticas y Físicas de la

Universidad de Guayaquil.

CERTIFICO:

Que he analizado el Proyecto de Titulación presentado por el estudiante

DAVID ROBERTO MALDONADO PLUA, como requisito previo para optar

por el título de Ingeniero en Sistemas Computacionales cuyo problema es:

SISTEMA DE AUTOGESTIÓN DE LA SALUD PARA PACIENTES CON

DIABETES Y ASMA, DESARROLLADO E IMPLEMENTADO EN UNA

PLATAFORMA ANDROID, CON MONITOREO DE UNA APLICACIÓN

WEB EN PHP DIRIGIDA A LOS MÉDICOS TRATANTES. ENFOCADO

EN EL DESARROLLO WEB EN PHP CON LA APLICACIÓN DE

TÉCNICAS DE MINERÍA DE DATOS EN REDES SOCIALES MEDIANTE

ETL PARA EL ANÁLISIS Y EXTRACCIÓN DE LA INFORMACIÓN

GENERADA EN EL SECTOR DE LA SALUD. Considero aprobado el trabajo en su totalidad.

Presentado por:

Maldonado Plua David Roberto C.I.: 0928000447

Tutor: Ing. Fabricio Medina, MDPR

Guayaquil, del 2017

Page 10: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

IX

UNIVERSIDAD DE GUAYAQUIL

FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS

CARRERA DE INGENIERIA EN SISTEMAS

COMPUTACIONALES

Autorización para Publicación de Proyecto de Titulación en

Formato Digital

1. Identificación del Proyecto de Titulación

Nombre Alumno: David Roberto Maldonado Plua

Dirección: Durán Cdla. Héctor Cobos Mz. F Sl. 11

Teléfono: 2988402 E-mail: [email protected]

Facultad: Ciencias Matemáticas y Físicas

Carrera: Ingeniería en Sistemas Computacionales

Proyecto de titulación al que opta: Ingeniero en Sistemas

Computacionales

Profesor tutor: Ing. Fabricio Medina Palacios MDPR

Título del Proyecto de titulación: SISTEMA DE AUTOGESTIÓN DE LA SALUD PARA PACIENTES CON DIABETES Y ASMA, DESARROLLADO E IMPLEMENTADO EN UNA PLATAFORMA ANDROID, CON MONITOREO DE UNA APLICACIÓN WEB EN PHP DIRIGIDA A LOS MÉDICOS TRATANTES. ENFOCADO EN EL DESARROLLO WEB EN PHP CON LA APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS EN REDES SOCIALES MEDIANTE ETL PARA EL ANÁLISIS Y EXTRACCIÓN DE LA INFORMACIÓN GENERADA EN EL SECTOR DE LA SALUD.

Tema del Proyecto de Titulación: Asma, Data Mining, Diabetes, Twitter, TIC´s

Page 11: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

X

2. Autorización de Publicación de Versión Electrónica del

Proyecto de Titulación

A través de este medio autorizo a la Biblioteca de la Universidad de

Guayaquil y a la Facultad de Ciencias Matemáticas y Físicas a publicar la

versión electrónica de este Proyecto de titulación.

Publicación electrónica:

Inmediata X Después de 1 año X Firma Alumno:

David Roberto Maldonado Plua

C.I.: 092800044-7

3. Forma de envío:

El texto del proyecto de titulación debe ser enviado en formato Word, como

archivo .Doc. O .RTF y .Puf para PC. Las imágenes que la acompañen pueden

ser: .gif, .jpg o .TIFF.

DVDROM CDROM X

Page 12: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

XI

ÍNDICE GENERAL

CARTA APROBACION DEL TUTOR ......................................................... II

DEDICATORIA ......................................................................................... III

AGRADECIMIENTO ................................................................................. IV

DECLARACIÓN EXPRESA ...................................................................... VI

CERTIFICADO DE ACEPTACIÓN DEL TUTOR .................................... VIII

ÍNDICE GENERAL .................................................................................... XI

ABREVIATURAS .................................................................................... XV

SIMBOLOGÍA ........................................................................................ XVI

ÍNDICE DE CUADROS Y TABLAS ....................................................... XVII

ÍNDICE DE GRÁFICOS ....................................................................... XVIII

RESUMEN ............................................................................................. XIX

ABSTRACT ............................................................................................. XX

INTRODUCCIÓN ....................................................................................... 1

CAPITULO I ............................................................................................... 4

EL PROBLEMA .......................................................................................... 4

PLANTEAMIENTO DEL PROBLEMA ........................................................ 4

UBICACIÓN DEL PROBLEMA EN UN CONTEXTO ................................. 6

SITUACIÓN CONFLICTO. NUDOS CRÍTICOS ......................................... 6

CAUSAS Y CONSECUENCIAS DEL PROBLEMA .................................... 7

DELIMITACIÓN DEL PROBLEMA ............................................................. 8

FORMULACIÓN DEL PROBLEMA ............................................................ 8

EVALUACIÓN DEL PROBLEMA ............................................................... 8

DELIMITADO ............................................................................................. 9

Page 13: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

XII

CLARO ...................................................................................................... 9

EVIDENTE ................................................................................................. 9

CONCRETO .............................................................................................. 9

CONTEXTUAL ......................................................................................... 10

ORIGINAL ................................................................................................ 10

ALCANCE DEL PROBLEMA ................................................................... 10

OBJETIVOS DE LA INVESTIGACIÓN .................................................... 12

OBJETIVO GENERAL ............................................................................. 12

OBJETIVOS ESPECÍFICOS .................................................................... 12

JUSTIFICACIÓN E IMPORTANCIA DE LA INVESTIGACIÓN ................ 12

CAPITULO II ............................................................................................ 14

MARCO TEÓRICO .................................................................................. 14

ANTECEDENTES DEL ESTUDIO ........................................................... 14

FUNDAMENTACIÓN TEÓRICA .............................................................. 15

REDES SOCIALES .................................................................................. 15

TWITTER ................................................................................................. 15

MINERÍA DE DATOS DE LA WEB .......................................................... 16

COMPONENTES DE LA MINERÍA DE DATOS ...................................... 17

EXTRACCIÓN DE DATOS DE TWITTER ............................................... 17

DEPURACIÓN DE LOS DATOS .............................................................. 22

HERRAMIENTAS UTILIZADAS EN EL DESARROLLO DEL PROYECTO

................................................................................................................. 23

USUARIOS DE TWITTER ....................................................................... 23

DIABETES ............................................................................................... 23

TIPOS DE DIABETES ............................................................................. 24

SÍNTOMAS Y CONSECUENCIAS DE PADECER LA ENFERMEDAD DE

DIABETES ............................................................................................... 24

ASMA ....................................................................................................... 26

ATAQUE DE ASMA, ¿EN QUÉ CONSISTE? .......................................... 26

SÍNTOMAS .............................................................................................. 27

Page 14: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

XIII

FUNDAMENTACIÓN SOCIAL ................................................................. 27

FUNDAMENTACIÓN LEGAL ................................................................... 29

IDEA A DEFENDER ................................................................................ 32

DEFINICIONES CONCEPTUALES ......................................................... 32

CAPITULO III ........................................................................................... 33

METODOLOGÍA ...................................................................................... 33

DISEÑO DE LA INVESTIGACIÓN ........................................................... 33

MODALIDAD DE LA INVESTIGACIÓN ................................................... 33

TIPO DE INVESTIGACIÓN...................................................................... 33

POBLACIÓN Y MUESTRA ...................................................................... 34

TÉCNICAS E INSTRUMENTOS DE RECOLECCION DE DATOS ......... 35

RECOLECCIÓN DE LA INFORMACIÓN ................................................. 36

PROCESAMIENTO Y ANÁLISIS ............................................................. 36

VALIDACIÓN DE LA IDEA A DEFENDER .............................................. 38

CAPITULO IV ........................................................................................... 39

PROPUESTA TECNOLÓGICA ................................................................ 39

PASOS PARA DESARROLLAR EL PROYECTO .................................... 40

PRESENTACIÓN DE REPORTES UTILIZANDO WEKA ........................ 56

REPORTERÍA .......................................................................................... 56

DIABETES ............................................................................................... 57

ASMA ....................................................................................................... 77

ANÁLISIS DE FACTIBILIDAD ................................................................ 106

FACTIBILIDAD OPERACIONAL ............................................................ 106

FACTIBILIDAD TÉCNICA ...................................................................... 106

FACTIBILIDAD LEGAL .......................................................................... 106

FACTIBILIDAD ECONÓMICA................................................................ 107

ETAPAS DE METODOLOGÍA DEL PROYECTO ................................... 107

ENTREGABLES DEL PROYECTO ........................................................ 112

CRITERIOS DE ACEPTACIÓN DEL PRODUCTO ................................. 112

CONCLUSIONES .................................................................................. 114

Page 15: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

XIV

RECOMENDACIONES .......................................................................... 115

BIBLIOGRAFÍA ...................................................................................... 116

ANEXOS ................................................................................................ 118

Page 16: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

XV

ABREVIATURAS

API Interfaz de Programación de Aplicaciones

App Aplicación Móvil

CC.MM.FF Facultad de Ciencias Matemáticas y Físicas

HTTP Protocolo de Transferencia de Hipertexto

IDE Entorno de Desarrollo Integrado

INEC Instituto Nacional de Estadística y Censos

Ing. Ingeniero

JSON Notación de Objetos JavaScript

S.O. Sistema operativo

TIC Tecnologías de la Información y la Comunicación

UG Universidad de Guayaquil

Page 17: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

XVI

SIMBOLOGÍA

s Desviación estándar

e Error

s Estimador de la desviación estándar

n Tamaño de la muestra

N Tamaño de la población

Z Nivel de confianza deseado

p Proporción de individuos que poseen características de estudios

la población

q Proporción de individuos que no poseen esas características

Page 18: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

XVII

ÍNDICE DE CUADROS Y TABLAS

Cuadro 1. Causas y Consecuencias. ......................................................... 7

Cuadro 2. Tabla de Varianza ................................................................... 35

Cuadro 3. Detalle de las Muestras ........................................................... 35

Cuadro 4. Cuentas recomendadas para pacientes con Asma ................. 36

Cuadro 5. Cuentas recomendadas para profesionales sanitarios

implicados en patologías respiratorias ..................................................... 37

Cuadro 6. Cuadro comparativo – Herramientas de minería de datos. ..... 55

Cuadro 7. Roles SCRUM ....................................................................... 108

Cuadro 8. Requerimientos y Criterios de Aceptación. ........................... 112

Page 19: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

XVIII

ÍNDICE DE GRÁFICOS

Gráfico 1. Impacto en redes Sociales ...................................................... 15

Gráfico 2. Logotipo de Twitter .................................................................. 16

Gráfico 3. Creación de una nueva Aplicación .......................................... 18

Gráfico 4. Obtener Claves o Tokens ........................................................ 19

Gráfico 5. Pantalla para guardar API KEY y API Secret .......................... 19

Gráfico 6. Botón para Crear TOKEN Access ........................................... 19

Gráfico 7. Tokens :"Access token" y "Access token secret" .................... 20

Gráfico 8. Gráfico del Json que devuelve la Api de Twitter ...................... 21

Gráfico 9. Encuesta realizada por la Encuesta Nacional de Salud y

Nutrición ................................................................................................... 25

Gráfico 10. Cuando se produce un ataque de Asma ............................... 26

Gráfico 11. Fórmula para obtener Tamaño De Muestra .......................... 34

Gráfico 12. Página para descargar las librería de Twitter. ....................... 43

Gráfico 13. Xamp ..................................................................................... 40

Gráfico 14. Librería de API de Twitter ...................................................... 41

Gráfico 15. Estructura de la tabla abreviaturas ........................................ 50

Gráfico 16. Consulta realizada sobre la tabla abreviaturas ...................... 50

Gráfico 17. Estructura de la tabla estado de ánimo ................................ 51

Gráfico 18. Consulta realizada sobre la tabla estado_animo ................... 52

Gráfico 19. Estructura de la tabla usuario_twitter ................................... 52

Gráfico 20. Consulta realizada sobre la tabla estado_animo ................... 53

Gráfico 21. Estructura de la tabla usuario_twitter ................................... 53

Gráfico 22. Consulta realizada sobre la tabla publicaciones. ................... 54

Gráfico 23. Análisis del proceso. ........................................................... 111

Page 20: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

XIX

UNIVERSIDAD DE GUAYAQUIL

FACULTAD DE CIENCIAS MATEMATICAS Y FISICAS

CARRERA DE INGENIERIA EN SISTEMAS

COMPUTACIONALES

“SISTEMA DE AUTOGESTION DE LA SALUD PARA PACIENTES CON

DIABETES Y ASMA, DESARROLLADO E IMPLEMENTADO EN UNA

PLATAFORMA ANDROID, CON MONITOREO DE UNA APLICACIÓN

WEB EN PHP DIRIGIDA A LOS MEDICOS TRATANTES. ENFOCADO

EN EL DESARROLLO WEB EN PHP CON LA APLICACION DE

TECNICAS DE MINERIA DE DATOS EN REDES SOCIALES

MEDIANTE ETL PARA EL ANALISIS Y EXTRACCION

DE LA INFORMACION GENERADA EN EL

SECTOR DE LA SALUD.”

RESUMEN

El presente proyecto pretende explicar el impacto que actualmente tiene la red social Twitter en el ámbito de la salud, está enfocado en casos de pacientes con síntomas de asma y/o diabetes, se busca aprovechar la información que genera el usuarios en la red social Twitter, promoviendo mayor control y apoyo por parte de los profesionales de la salud sobre sus paciente. Las Redes Sociales pertenecen a una rama de aplicación de las TIC’s, se construye en base a lo que cada usuario aporta. Las empresas de distintos sectores están interesadas en el análisis de estos datos, por esta razón optan por aplicar técnicas de minería de datos, para averiguar que patrones de comportamiento les permitirán aprovechar los resultados obtenidos, focalizando sus esfuerzos en objetivos específicos.

Palabras Claves: Minería de Datos, Tics, Twitter

Autor: David Maldonado Plua

Tutor: Ing. Fabricio Medina MDPR

Page 21: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

XX

UNIVERSIDAD DE GUAYAQUIL

FACULTAD DE CIENCIAS MATEMATICAS Y FISICAS

CARRERA DE INGENIERIA EN SISTEMAS

COMPUTACIONALES

“SISTEMA DE AUTOGESTION DE LA SALUD PARA PACIENTES CON

DIABETES Y ASMA, DESARROLLADO E IMPLEMENTADO EN UNA

PLATAFORMA ANDROID, CON MONITOREO DE UNA APLICACIÓN

WEB EN PHP DIRIGIDA A LOS MEDICOS TRATANTES. ENFOCADO

EN EL DESARROLLO WEB EN PHP CON LA APLICACION DE

TECNICAS DE MINERIA DE DATOS EN REDES SOCIALES

MEDIANTE ETL PARA EL ANALISIS Y EXTRACCION

DE LA INFORMACION GENERADA EN EL

SECTOR DE LA SALUD.”

ABSTRACT

This project aims to explain the impact that the social network Twitter currently has in the field of health, is focused on cases of patients with symptoms of asthma and / or diabetes, it seeks to take advantage of the information generated by users in the social network Twitter, promoting greater control and support by health professionals about their patients. Social Networks belong to a branch of application of ICT, is built on the basis of what each user provides. Companies from different sectors are interested in the analysis of these data, for this reason they choose to apply data mining techniques, to find out which patterns of behavior will allow them to take advantage of the results obtained, focusing their efforts on specific objectives.

Key Words: Data Mining, Tics, Twitter

Author: David Maldonado Plua Tutor: Ing. Fabricio Medina

Autor: David Maldonado Plua

Tutor: Ing. Fabricio Medina MDPR

Page 22: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

1

INTRODUCCIÓN

Es imprescindible que las organizaciones persigan agresivamente la

captura y análisis de nuevas fuentes de datos con el propósito de

alcanzar conocimientos y oportunidades de mejora o expansión.

Actualmente la utilización de las redes sociales están en todo su apogeo,

y es ahí donde reside una fuente con datos valiosa.

Debido a su gran impacto las redes sociales están en todas partes y en

los cuidados de la salud no son la excepción, por esta razón siendo la

salud uno de los sectores de atención prioritaria es importante trabajar

con herramientas que nos permitan tomar decisiones en base a los datos

que se van obteniendo de la población, con el fin de satisfacer sus

necesidades sin discriminación ni exclusión social.

Las instituciones que brindan servicios de salud así como los

profesionales médicos ya cuentan con redes sociales para relacionarse, a

medida de que los pacientes, usuarios y médicos intercambian

conocimientos sobre la medicina, tratamientos, exponen dudas, casos, y

experiencias (positivas, negativas), que van influenciando en las

decisiones que toman, se va generando información que posteriormente

puede ser utilizada en beneficio de la población.

Page 23: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

2

En el presente proyecto de titulación utilizaremos las redes sociales para

el análisis y apoyo de pacientes con asma y diabetes, por dicha razón se

incluirá un recopilador de información publicada en las redes sociales,

específicamente en Twitter, que contendrá un analizador de sentimientos

o minería de opiniones para mostrarles esa información a los usuarios y

los médicos.

La necesidad de implementar este proyecto surge debido a que en la

actualidad el uso de las redes sociales se ha incrementado

considerablemente, es ahí donde se encuentra una gran oportunidad de

ayudar a los médicos tratantes de enfermedades como asma y diabetes

en la implementación de métodos de apoyo para la toma de decisiones

presentado reportes, encontrando patrones de comportamiento, y con la

interpretación que se obtiene del análisis ayudar a mejorar la salud y

estilo de vida de los pacientes usuarios de las redes.

A continuación, se presenta breve resumen del contenido de cada

capítulo del proyecto.

En el Capítulo 1, se describe la situación actual en una introducción,

partiendo de esto plantearemos el problema, se determinará la ubicación

del argumento, se realizará la descripción de la situación del conflicto

además identificaremos los nudos críticos, cuáles fueron las causas y

consecuencias, delimitaremos el problema, lo formularemos, se realizara

la respectiva evaluación y determinaremos el alcance del proyecto, se

obtendrá el objetivo general y los objetivos específicos a alcanzar en el

desarrollo de la aplicación.

Page 24: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

3

El Capítulo 2, se procederá con la investigación sobre el tema a

desarrollar para obtener antecedentes de la temática propuesta, es decir

este capítulo hace referencia al marco teórico sobre el cual estará basado

el proyecto, se da a conocer definiciones acerca de las herramientas

utilizadas en la aplicación de técnicas de minería de datos en redes

sociales para el análisis de la información generada.

En el Capítulo, 3 se mostrará la metodología utilizada para la

investigación, también se detallará varios aspectos de la investigación

tales como la modalidad y el tipo de la investigación, además se hablará

de la población, la muestra y el proceso para la recopilación de

información con la respectiva validación de la propuesta planteada para el

presente proyecto de investigación.

En el capítulo 4, se presenta la propuesta tecnológica, donde en base a

los resultados del levantamiento de información llevados a cabo, se

establece el plan de trabajo para elaborar y se detallará las herramientas

y todo lo necesario para la implementación del recopilador de información

publicada en la red social Twitter el cual también incluirá un analizador de

sentimientos o minería de opiniones para mostrarle esa información a los

usuarios y los médicos. Se explica el proceso llevado a cabo en la

adaptación de la solución, se detallaran las recomendaciones y

conclusiones que nos dejó la experiencia de la implementación de la

propuesta del recopilador de información publicada en la red social

Twitter, con el respectivo resultado obtenido del análisis.

Page 25: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

4

CAPITULO I

EL PROBLEMA

PLANTEAMIENTO DEL PROBLEMA

La salud es un tema prioritario y delicado, en las redes sociales es

donde podemos encontrar todo tipo de información relacionada, que

muchas veces no sabemos cómo interpretarla, mucho menos utilizarla

para beneficio de la población.

Por este motivo surge la necesidad de obtener herramientas de uso

sencillo, que permita llevar un control e interacción entre los pacientes y

los médicos tratantes de enfermedades tales como Asma y Diabetes

mellitus tipo 1 y tipo 2, facilitando de cierta manera el trabajo que realizan

los profesionales de la salud diariamente con el propósito de compartir

información de calidad y consejos útiles para el público interesado en

estas enfermedades, debido a esta causa se plantea el proyecto:

“SISTEMA DE AUTOGESTION DE LA SALUD PARA PACIENTES CON

DIABETES Y ASMA, DESARROLLADO E IMPLEMENTADO EN UNA

PLATAFORMA ANDROID, CON MONITOREO DE UNA APLICACIÓN

WEB EN PHP DIRIGIDA A LOS MEDICOS TRATANTES. ENFOCADO

EN EL DESARROLLO WEB EN PHP CON LA APLICACION DE

TECNICAS DE MINERIA DE DATOS EN REDES SOCIALES MEDIANTE

Page 26: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

5

ETL PARA EL ANALISIS Y EXTRACCION DE LA INFORMACION

GENERADA EN EL SECTOR DE LA SALUD.”

Para este proyecto se plantea la utilización de herramientas de minería

de datos, ya que al ser aplicada en el sector salud trae un sinnúmero de

beneficios, debido a que con los resultados que se obtienen de estos

análisis se pueden crear planes que finalmente pueden beneficiar e

influenciar de manera positiva en los usuarios de redes sociales que

padezcan o tengan familiares con alguna de estas enfermedades.

En la minería de datos permanentemente se presentan nuevos retos

que se deben afrontar en los algoritmos de extracción de conocimiento

que se desarrollen, entre estos retos podemos mencionar:

• Clasificación multietiqueta.

• Clases no balanceadas

• Extracción de reglas descriptivas a través de inducción supervisada

(patrones emergentes o descubrimiento de subgrupos)

• Posibilidades de éxito en el proceso de extracción de conocimiento a

través de la mejora de la calidad de los datos a analizar

• Interpretación de los resultados

• Escalabilidad de los algoritmos

Si tomamos en cuenta toda la información que se puede obtener de las

redes sociales, se puede posteriormente presentar propuestas de nuevos

planes de manera efectiva.

Page 27: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

6

UBICACIÓN DEL PROBLEMA EN UN CONTEXTO

En la actualidad en Ecuador no disponemos de registros claros que

cuenten con información sobre personas afectadas con enfermedades

como asma y diabetes; tampoco se cuenta con portales web médicos

oficiales que traten sobre estas enfermedades, por lo tanto los usuarios

de la web que necesitan alguna ayuda o recomendaciones de primera

mano deben seguir o suscribirse en portales extranjeros.

Enfermedades como el asma afectan actualmente al 7% de la

población ecuatoriana de los cuales el mayor grupo afectado son los

niños en edad escolar. En referencia a la diabetes tenemos un panorama

bastante preocupante ya que a nivel mundial se encuentra en sexto lugar

de causa de defunción, mientras en Ecuador se ubica en tercer lugar,

antes esta enfermedad era atribuible solo a los adultos mayores pero hoy

en día los jóvenes y niños también la padecen.

SITUACIÓN CONFLICTO. NUDOS CRÍTICOS

Actualmente no existe un aplicativo que permita realizar la extracción

de las publicaciones sobre las patologías de asma y diabetes en las redes

sociales específicamente twitter y para el análisis de esa información a

nivel nacional específicamente en la ciudad de Guayaquil.

Las redes sociales están en auge y son recursos que no son utilizados

y poseen fuente de información valiosa que con su respectivo tratamiento

podría ayudar a mejorar las tomas de decisiones ahorrar y mejorar la

utilización de los recursos.

Page 28: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

7

CAUSAS Y CONSECUENCIAS DEL PROBLEMA

En la actualidad con los avances tecnológicos y la facilidad de conexión

que se ha obtenido por los dispositivos móviles ha provocado que se

incremente el uso de las redes sociales, de cada 5 persona a nivel

mundial existe por lo menos una que usa alguna red social, durante el día

las personas realizan una o varias publicaciones causando que existe una

exorbitante cantidad de datos no estructurado provocando que no pueda

ser analizado con los métodos tradicionales.

Cuadro 1. Causas y Consecuencias.

Causas Consecuencias

No existen registros actualizados

oficiales sobre enfermedades como

Asma y Diabetes

Se desconoce cifras oficiales de

personas que padezcan de estas

enfermedades

Poca información acerca de

tratamientos y recomendaciones a

seguir para pacientes

Basados en la poca información

que se tiene es difícil crear planes

para mejor el estilo de vida de los

pacientes.

No se utiliza apropiadamente la

información que generan las redes

sociales respecto a enfermedades

como asma y diabetes

Quienes toman las decisiones

acostumbran a dejar de lado

algunos criterios que deberían

saber e incluso aparentan estar

informados pero con información

errónea o No actualizada

Usuario no conoce, ni el objetivo

preciso del análisis, ni la naturaleza

exacta de los datos.

La falta de conocimiento es uno de

los principales indicadores de

procesos y proyectos fallidos,

siendo también la principal

causante de las decisiones

erróneas.

Page 29: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

8

DELIMITACIÓN DEL PROBLEMA

Campo: Tecnología - Salud.

Área: Desarrollo web.

Aspecto: Desarrollo de una aplicación que permita la extracción de las

publicaciones sobre la patología de asma y diabetes de la red social

twitter para luego realizar su realizar análisis, interpretación, presentación

de reportes y encuentre patrones de comportamiento con la herramienta

weka.

Tema: Sistema de autogestion de la salud para pacientes con diabetes y

asma, desarrollado e implementado en una plataforma android, con

monitoreo de una aplicación Web en php dirigida a los médicos tratantes.

Enfocado en el desarrollo web en php con la aplicacion de técnicas de

minería de datos en redes sociales mediante etl para el análisis y

extraccion de la informacion generada en el sector de la salud.

FORMULACIÓN DEL PROBLEMA

¿Cómo el uso de minería de datos en la red social twitter de las

patologías de asma y diabetes contribuirá a mejorar la calidad de vida y

de servicio de la salud?

EVALUACIÓN DEL PROBLEMA

Esta herramienta de minería de datos de la red social de twitter sobre

las patologías de asma y diabetes ofrece un mejor análisis e

interpretación de la información lo que permitirá ayudar a la toma de

decisiones y contribuirá a la mejora de la calidad de vida de las personas

que padecen enfermedades como asma y la diabetes.

Page 30: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

9

A continuación se mencionan los aspectos generales de evaluación del

problema que se analizaron en el presente proyecto:

DELIMITADO

La propuesta se delimita a recopilar información generada en las redes

sociales específicamente en Twitter, es decir extraer las publicaciones

referentes a la enfermedad de Asma y Diabetes, para posterior análisis e

interpretación.

CLARO

Los pacientes y familiares de pacientes que sufren de patologías como

asma y diabetes necesitan ayuda en la autogestión de la salud de su

enfermedad por lo cual la tecnología por medio de las redes sociales

(Twitter) ayudaría significativamente, y se mejoraría el monitoreo de los

mismos.

EVIDENTE

Se evidencia la necesidad de un control sobre pacientes que sufren de

patologías como Asma y Diabetes mellitus tipo 1 y tipo 2 y de una

comunidad de usuarios, con ayuda herramientas innovadoras se podrá

dar seguimiento los siete días de la semana buscando crear propuestas

para mejorar su situación.

CONCRETO

La propuesta actual de este trabajo de investigación desea dar una

solución para el tratamiento de la información publicada en redes sociales

referentes a enfermedades como asma y diabetes, aprovechando esta

información de manera eficaz en busca de patrones de comportamiento

de los datos extraídos, tratados y cargados en la base de datos.

Page 31: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

10

CONTEXTUAL

La propuesta está dirigida para tratar de beneficiar a personas que

sufren de enfermedades como Asma y de la Diabetes mellitus tipo 1 y tipo

2 en general. Se deja sentadas las bases para que este proyecto sea

escalable hacia nuevas patologías.

ORIGINAL

La presente propuesta es presentada como un proyecto innovador ya

que actualmente en nuestro medio aún no se ha introducido el uso de

herramienta de minería de datos con fines médicos para analizar

publicaciones cargadas referentes a patologías como Asma y de la

Diabetes mellitus tipo 1 y tipo 2.

ALCANCE DEL PROBLEMA

La presente propuesta describe el desarrollo de una aplicación Web en

PHP que permite extraer las publicaciones realizadas por los usuarios

sobre patologías referentes a asma y diabetes desde la red social Twitter.

Para iniciar con el proyecto necesitaremos registrarnos como en la

página oficial para desarrolladores en Twitter para poder acceder al uso

de su API. Posteriormente solicitaremos al equipo de proceso que realice

un análisis y facilite la información de las cuentas principales que traten

sobre las patologías de asma y diabetes para poder extraer publicaciones

de estas cuentas y de sus seguidores, de las cuales solo realizaremos

análisis de las cuentas que sean de Ecuador.

Luego que se determina la población procedemos a transformar estos

datos, para ello procedemos a quitar los caracteres especiales,

reemplazar las abreviaturas por las palabras completas, reemplazar las

palabras con el tipo de escritura CamelCase y una vez depurada la

Page 32: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

11

información utilizaremos el api de una inteligencia artificial llamada

MonkeyLearn la cual se podrá utilizar su versión gratuita una vez nos

hayamos registrados.

Cuando ingresamos con nuestras credenciales podremos ver que

existen módulos clasificadores ya creados del cual usaremos la versión

en español para el análisis de las opiniones, luego almacenaremos la

información en la base de datos mysql.

Una vez realizado el proceso de extracción, trasformación y carga de la

información utilizaremos una herramienta de uso gratuito llamada WEKA

el cual nos permitirá realizar el análisis de minería de datos, presentar

reportes tales como: Arboles de decisiones, Clúster tanto para patologías

de Asma como diabetes, adicionalmente permite obtener regresiones

lineales simple, todo esto permitirá luego sacar nuestras propias

conclusiones e interpretaciones de la información analizada.

Dentro de esta propuesta No se realizará:

• No se utilizara una fans page propia, si no que la recopilación de la

información se realizara desde las páginas de terceros en conjunto

con la de sus seguidores, y estas cuentas serán proporcionadas por el

equipo de proceso.

• La aplicación no contendrá una interfaz gráfica sino que realizara un

proceso por background realizado desde el servidor.

• La versión de MonkeyLearn utilizada para el análisis de sentimientos o

minería de opiniones es la gratuita, existe una versión mejorada que

es la de pago.

• Generación de archivo CSV con información de los datos recopilados

desde la red social Twitter sobre las patologías de asma y diabetes

desde la aplicación Web desarrollada en PHP. Debe ser realizada

manualmente con apoyo del equipo de Base de datos.

Page 33: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

12

• La Carga de datos desde el archivo CSV a la herramienta de minería

de datos Weka se deberá realizar manualmente.

OBJETIVOS DE LA INVESTIGACIÓN

OBJETIVO GENERAL

Implementar un recopilador de información que extraiga datos de la red

social Twitter, el cual también incluirá un analizador de sentimientos o

minería de opiniones, se utilizará la herramienta weka, para

posteriormente mostrar los resultados obtenidos a los usuarios y los

médicos.

OBJETIVOS ESPECÍFICOS

Los objetivos específicos del proyecto son:

1. Utilizar una herramienta que permita recopilar tweets relacionados a

enfermedades como asma y diabetes, mediante el uso de API´s que

proporcionan Twitter.

2. Clasificar los tweets registrados con información sobre asma y

diabetes según el tipo de publicación.

3. Analizar los resultados obtenidos para aplicar minería de datos sobre

los registros almacenados en la base de datos MySql.

4. Presentar reportes con información de los resultados alcanzados, con

su respectiva gráfica e interpretación.

JUSTIFICACIÓN E IMPORTANCIA DE LA INVESTIGACIÓN

Partiendo de la importancia que tienen actualmente las redes sociales

en la vida de las personas, además de que a través de ellas podemos

conseguir una cantidad abundante de datos referentes al entorno de la

salud, ofreceremos a los profesionales de la salud herramientas que les

Page 34: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

13

permita mejorar la calidad de la atención sanitaria que brindan,

impulsando procedimientos más eficaces, y por consiguiente la calidad de

vida de los pacientes.

Tomando en cuenta el problema, se plantea la necesidad e importancia

de recopilar toda la información referente al asma y diabetes que se

registran en las redes sociales.

El proyecto se propone desarrollar una interfaz que incluya recopilador

de la información publicada en redes sociales, más concretamente

Twitter, donde se apliquen técnicas de minerías de datos, adicionalmente

contará con un analizador de sentimientos o minería de opiniones, la

captura de estos datos y su análisis más allá de las conclusiones lógicas

a las que llegaremos partiendo de las experiencias permitirá mostrar esta

información a los usuarios y los médicos.

Con este sistema experto se busca una mejor calidad y rapidez en las

respuestas dando así lugar a una mejora en los servicios que se brindan.

Es posible contar con un sistema de salud más sostenible, si se integra

todo tipo de datos tales como: Población, pacientes, profesionales. Estos

datos posteriormente se miden y se analizan para planificar tareas, lo que

permitirá generar alertas que apoyen la toma de decisiones y la atención

sanitaria, etc.

Page 35: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

14

CAPITULO II

MARCO TEÓRICO

ANTECEDENTES DEL ESTUDIO

La idea de adquirir información partiendo de un conjunto de datos no es

nueva, inicialmente para la exploración en datos se utilizaba el análisis

estadístico que incluía utilizar prácticas clásicas tales como correlación,

regresión, etc. Pero debido a los adelantos tecnológicos en relación a

automatización de procesos, almacenamiento, etc., las empresas cada

vez podían recopilar más cantidades de información con registros de años

anteriores, convirtiéndose en fuentes de información y de conocimientos

valiosos (Hernández, 2014)

Dado que el conocimiento es poder, y el poder nos da la destreza de

tener control o influenciar en los eventos, se necesitó realizar el proceso

de obtención, exploración e identificación de datos útiles de manera más

eficaz y eficiente, ampliando la manera como se ejecutaban se empezó a

utilizar técnicas aprendizaje automático como la Inteligencia Artificial,

lógica difusa, razonamiento heurísticos, redes neuronales, encaminadas

principalmente, a la visualización, análisis, y modelización de información

de bases de datos masivas (Campos & Leticia, 2015).

Page 36: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

15

FUNDAMENTACIÓN TEÓRICA

REDES SOCIALES

Es de donde se va a realizar la extracción de la población. Una red

social no es otra cosa más que una aplicación web que permite y ayuda a

que el contacto entre individuos sea mucho más fácil y cómodo. Para esto

las personas pueden previamente conocerse o hacerlo recién a través de

la red. Muchas veces relacionarse a través de una red social puede llevar

a un conocimiento directo o, incluso, la formación de nuevas parejas.

El Internet y las nuevas tecnologías impulsan el desarrollo y ampliación

de las redes sociales haciendo que cada vez sea más fácil y esté al

alcance de todos estar conectados.

El uso de las redes sociales en la actualidad permite el análisis de

comportamiento, tendencias que pude llegar a tener la población, es una

fuente muy valiosa para obtener información, por lo tanto se ha convertido

en un método de estudio en ciencias como la antropología o la sociología.

TWITTER

Se utilizara su api para la extracción de la información. La red social

Twitter genera mucha interacción, visitas recurrentes a la red y consumo

Ilustración 1. Impacto en redes Sociales

Page 37: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

16

intensivo de noticias, actualidad, comunicación y servicio al cliente.

Actualmente está entre las redes sociales más usadas a nivel mundial con

un aproximado de 317 millones de usuarios a nivel mundial, en Ecuador la

red social Twitter cuenta con un promedio de 2millones de usuarios con

cuentas activas de los cuales alrededor de 800mil acceden desde

dispositivos móviles (Ponce, 2017). La ilustración 2 presenta el logotipo

de Twitter.

MINERÍA DE DATOS DE LA WEB

Se utilizara para extraer la información de las redes sociales. Uno de

los motivos de que en los últimos años la minería de datos de la web haya

crecido aceleradamente, es que la Web es actualmente completamente

dinámica, debido a que sus páginas y la estructura de sus enlaces como

de su uso por parte de las personas, contienen y generan un número

infinitos de datos. Estos datos poseen una importancia transcendental en

el mejoramiento de la misma, tanto minería Web (Fernando & Sonia,

2013) (ITelligent Information Technologies, 2015):

• Minería de contenido: Obtiene Valor de: texto, imágenes, etiquetas

(tags), metadatos, etc.;

• Minería de estructura: Los enlaces y sus relaciones. En las redes

sociales un elemento estructural serían sus seguidores.

• Minería de uso: Interacción de los usuarios con la Web, utilizando

Logs recopilados por servidores para este tipo de minería (Log

mining).

Ilustración 2. Logotipo de Twitter

Page 38: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

17

COMPONENTES DE LA MINERÍA DE DATOS

Concepto general para determinar los pasos a proceder para poder

extraer la información. Los componentes básicos de los métodos de la

minería de datos son (Bernardo, 2016):

• Lenguaje de representación del modelo: comprende las suposiciones y

restricciones utilizadas en la representación empleada.

• Evaluación del modelo: incluye el uso de técnicas de validación

cruzada para la productividad y aplicación de principios como el de

máxima verosimilitud o el de descripción mínima para evaluar la

calidad descriptiva del modelo.

• Método de búsqueda: puede dividirse en búsqueda de parámetros y

del modelo, determinan los criterios que se siguen para encontrar los

modelos.

A continuación se nombran algunas de las técnicas que

frecuentemente se utilizan en la minería de datos (Ponce, 2017):

• Árboles de decisión y reglas de clasificación.

• Métodos de clasificación y regresiones no-lineales.

• Métodos basados en ejemplos prototípicos.

• Modelos gráficos de dependencias probabilísticas.

• Modelos relacionales.

EXTRACCIÓN DE DATOS DE TWITTER

Para el presente proyecto de titulación se utilizara un API de Twitter

para la extracción de los datos. A continuación se detallan los pasos para

su utilización (Rodríguez, 2015):

• En primer lugar cabe mencionar que vamos a usar la versión 1.1 de la

API de Twitter debido a que la 1.0 esta deprecated, la versión 1.1

requiere que para poder usar la aplicación tengamos que usar

autentificación OAUTH.

Page 39: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

18

Para ello debemos realizar los siguientes pasos:

1. Crear una cuenta de desarrollador y una nueva Aplicación.

2. Crear los Tokens de acceso.

3. Crear acceso desde php a la API de Twitter y obtener un JSON de

los tweets de un usuario.

4. Filtrar la información útil y crear un array multidimensional del

mismo.

1. Crear una cuenta de desarrollador y una nueva Aplicación

1. Para crear una cuenta de desarrollador tenemos que dirigirnos a la

siguiente dirección:

https://dev.twitter.com/

2. Y loguearnos con nuestra cuenta de usuario. Seguidamente pulsamos

el siguiente enlace:

https://apps.twitter.com/

3. Y creamos una nueva aplicación:

4. Completamos los campos con los datos de nuestra APP, tal como se

muestra en la figura 3

Ilustración 3. Creación de una nueva Aplicación

Page 40: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

19

2. Crear el Token de acceso

Los Tokens de acceso son las claves que vamos a necesitar para

comunicarnos con la API de Twitter, vamos a necesitar cuatro Tokens o

claves:

• The api key

• The api secret

• The access token

• The access token secret

Para obtener estas claves o Tokens tenemos que dirigirnos a la

pestaña API Keys.

Nos guardamos la API key y la API Secret que nos aparece en

pantalla.

Seguidamente le damos a generar El Token Access:

Ilustración 4. Obtener Claves o Tokens

Ilustración 5. Pantalla para guardar API KEY y API Secret

Ilustración 6. Botón para Crear TOKEN Access

Page 41: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

20

Vemos que se nos han generado dos Tokens "Access token" y el

"Access token secret" los cuales tenemos que guardar:

3. Crear acceso desde php a la API de Twitter y Obtener un Json con

los últimos tweets de un usuario

Una vez que tenemos todas las claves necesarias para hacer funcionar

la API de Twitter vamos a ir a lo bueno, en primer lugar vamos a ver como

poder autentificarnos mediante PHP en la API de Twitter.

Existen distintas librerías hechas en PHP para gestionar la API de

Twitter, se ha decidido utilizar La librería TwitterAPIExchange y la podéis

descargar desde el mismo GitHub del autor.

Para la realización del proyecto se crearon 3 archivos PHP llamado

• indexSeguidores.php,

• indexPublicacionAsma.php,

• indexPublicacionDiabete.php

Los cuales contendrán una clase llamada Twitter con las siguientes

funciones:

• getTweets() : Devuelve el JSON obtenido en la consulta.

• contenido ($tweet): Devuelve un array multidimensional con los datos

que vamos a depurar y almacenar.

Ilustración 7. Tokens :"Access token" y "Access token secret"

Page 42: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

21

Por lo tanto lo único que tendremos que hacer será llamar a estas

funciones para que nos extraiga la información.

Así pues, la primera función getTweets() se creará con ayuda de la

librería TwitterAPIExchange. En primer lugar vamos a introducir todas

nuestra claves para identificarnos mediante OAuth en la API v1.1 de

Twitter.

require_once('TwitterAPIExchange.php');

$settings = array (

'oauth_access_token' => "YOUR_OAUTH_ACCESS_TOKEN",

'oauth_access_token_secret' => "YOUR_OAUTH_ACCESS_TOKEN_SECRET",

'consumer_key' => "YOUR_CONSUMER_KEY",

'consumer_secret' => "YOUR_CONSUMER_SECRET”);

Seguidamente podemos escoger hacer las peticiones mediante

método GET o POST, en este caso se ha elegido el método GET. Para

obtener un JSON con:

• Los seguidores de una cuenta

• Las publicaciones sobre asma

• Las publicaciones sobre diabetes

Gráfico del Json que devuelve la Api de Twitter

Ilustración 8. Gráfico del Json que devuelve la Api de Twitter

Page 43: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

22

4. Filtrar la información útil y crear un array multidimensional del

mismo.

El siguiente paso que vamos a hacer es filtrar la información que nos

interesa y almacenarla en un array multidimensional para más tarde

mostrarlo en una tabla. Para esto vamos a crear una función

llamada contenido ($tweet) que aceptara una variable donde se

almacenará el JSON para poder sacar información útil de él. Esta función

va a devolver un array multidimensional con los datos que hemos filtrado.

a) De los seguidores extraeremos:

b) De las publicaciones de asma y diabetes

Crear una Tabla a partir de un array multidimensional.

La función que implementaremos será displayTable($rawdata), esta

función mostrará en pantalla la información filtrada en el paso anterior.

DEPURACIÓN DE LOS DATOS

1. Se creó una clase sanear_string.php en php en la carpeta

validaciones:

require "validaciones/sanear_string.php";

Esta clase contiene 2 funciones

• sanear_string la cual quita los caracteres especiales y tildes

NOMBRE, UBICACION, IDIOMA, CONT_PUBLICACION, CONT_FAVORITOS, CONT_AMIGOS, FECHA_INGRESO,

IDPUBLICACION, PUBLICACION, URL, IDUSUARIO, SCREEN_NAME, NAME_USER, APLICATIVO, COUNT_FAVORITE, COUNT_RETWEET, IDIOMA, LOCATION, FECHA_CREACION, FECHA_REGISTRO, FECHA_ACTUALIZACION, ESTADO,

Page 44: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

23

• parseCamelCase Separa las palabras CamelCase y las convierte en

minúscula

2. Se utilizó un diccionario de abreviatura en la base de datos para

reemplazar las abreviaturas que usan los usuarios por las palabras

completas

HERRAMIENTAS UTILIZADAS EN EL DESARROLLO DEL PROYECTO

Dentro de la solución propuesta por el siguiente proyecto está la

creación de una aplicación que se encargara de la extracción de la

información para ello se utilizará las siguientes aplicaciones:

• Api twitter

• Xamp( que nos realiza la configuración de un servidor local, php y

mysql los cuales usaremos para el desarrollo del aplicativo que

extraerá y depurara la información de las publicaciones)

• Api de emociones de MonkeyLearn el cual nos permitirá determinar

el estado emocional de las publicaciones de seguidores

USUARIOS DE TWITTER

Publicaciones referente a enfermedades como Diabetes y Asma.

El presente proyecto de titulación pretende realizar su análisis basado en

casos de usuarios que realicen publicaciones acerca de enfermedades

tales como:

• Diabetes

• Asma

DIABETES

La diabetes es una enfermedad que se produce cuando los niveles de

glucosa (azúcar) en la sangre son muy altos. La glucosa generalmente

procede de los alimentos que se consumen. La insulina ayuda a que la

Page 45: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

24

glucosa entre a las células para suministrarles energía (MedlinePlus,

2017).

TIPOS DE DIABETES

A continuación tenemos los tipos de diabetes:

• Diabetes tipo 1: cuando el cuerpo no produce insulina.

• Diabetes tipo 2: cuando el cuerpo no produce o no usa la insulina de

manera adecuada. Sin suficiente insulina, la glucosa permanece en la

sangre. Es el tipo más común de la enfermedad.

SÍNTOMAS Y CONSECUENCIAS DE PADECER LA ENFERMEDAD DE

DIABETES

A continuación se mencionan los síntomas que generalmente

relacionados con la diabetes según su tipo (American Diabetes

Association, 2015):

Diabetes de tipo 1

• Recurrente ganas de orinar

• Sed constante e inusual

• Pérdida inusual de peso

• Fatiga e irritabilidad, variación de estado de animo

• Hambre exagerada

Diabetes de tipo 2

• Cualquiera de los síntomas de la diabetes tipo 1

• Frecuentemente sufre de infecciones (Piel, encías, Vejiga)

• Las Heridas y los moretones demoran en sanar

• Entumecimiento en las manos y/o los pies

• La visión se torna borrosa

Page 46: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

25

En algunos casos es posible que no se llegue a desarrollar los

síntomas, sin embargo puedes padecer de esta enfermedad, por tal

motivo es importante realizarse los respectivos exámenes a tiempo, para

evitar futuras complicaciones.

Como consecuencias de padecer diabetes y tener exceso de glucosa

en la sangre podemos mencionar (MedlinePlus, 2017):

• Puede dañar los ojos, los riñones y los nervios.

• Puede derivar en enfermedades cardíacas, derrames cerebrales

• Necesidad de amputar alguna parte del cuerpo.

• En mujeres embarazadas se puede desarrollar diabetes gestacional.

La Población ecuatoriana, tiene cada vez más personas que sufren de

diabetes, las tasas de personas afectadas cada vez son más elevadas.

Según encuestas realizadas por ENSANUT, el 1.7% de la población

entre 10 a 59 años sufren de esta enfermedad.

A partir de los 30 años de edad esta tendencia tiende a subir, a la edad

de 50 años se puede decir que uno de cada diez ecuatorianos posee

diabetes.

Entre las causas principales que acelera la adquisición de esta

enfermedad tenemos (OPS/OMS, s.f.):

• Alimentación poco saludable

• Inactividad física

• Abuso de alcohol y el consumo de cigarrillos.

Ilustración 9. Encuesta realizada por la Encuesta

Nacional de Salud y Nutrición

Page 47: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

26

ASMA

El asma es una enfermedad crónica, que se caracteriza porque los

pacientes que la adquieren tienen ataques periódicos de falta de aire y

sibilancias, La gravedad de los casos que se presentan y la frecuencia

varía de una a otra persona. Normalmente afecta a los niños.

ATAQUE DE ASMA, ¿EN QUÉ CONSISTE?

Cuando una persona sufre un ataque de asma el revestimiento de sus

bronquios se inflama, provocando un estrechamiento de las vías

respiratorias y una disminución del flujo de aire que entra y sale de los

pulmones.

En la Figura 5 podemos apreciar cómo se encuentran las vías

respiratorias de una persona sin asma vs una con asma

Ilustración 10. Cuando se produce un ataque de Asma

Page 48: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

27

SÍNTOMAS

Entre los síntomas más recurrentes en casos de ataques de asma

tenemos:

• Insomnio frecuentemente,

• Fatiga diurna

• Disminución de la actividad

• Absentismo escolar y laboral.

La tasa de mortalidad por causas del asma es relativamente baja

comparándolas con otras enfermedades crónicas. Según la OMS

aproximadamente 150 millones de personas padecen este trastorno y los

casos de mortalidad directa bordean los 2 millones cada año. Y en

el Ecuador, se estima que el asma afecta al 7% de la población.

FUNDAMENTACIÓN SOCIAL

En la actualidad muchos sectores tales como empresas, gobiernos,

salud, educación, entre otros han incorporado técnicas de data mining

para explotar sus bases de datos con el objetivo de aprovechar de mejor

manera la información que se genera. Aunque cada sector es un mundo

distinto, el proceso de Data mining atraviesa por cuatro etapas

principales, las cuales se mencionan a continuación (Bernardo, 2016):

1. Determinación de objetivos.

En esta etapa se fijan los objetivos que el cliente-usuario requiere, en

conjunto con especialistas en data mining.

2. Pre-procesamiento de los datos.

En esta etapa se procede con la selección, depuración y la transformación

de las bases de datos; por lo general consume aproximadamente el

setenta por ciento del tiempo total de un proyecto de data mining

Page 49: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

28

3. Determinación del modelo.

Esta etapa comienza realizando unos análisis estadísticos de los datos, y

después genera la visualización gráfica de los mismos lo que permite

obtener una primera aproximación.

Se puede utilizar algoritmos desarrollados en diferentes áreas de la

Inteligencia Artificial, dependiendo de los objetivos planeados y las tareas

que corresponde realizar.

4. Análisis de los resultados.

En esta etapa se comprueban los resultados en la minería de datos, se

validan si estos son coherentes; para posteriormente compararlos con los

resultados que se obtuvieron durante el análisis estadístico y en la

visualización de gráficos.

El usuario-cliente determina si los resultados que se obtuvieron son

valiosos y si le aportan un nuevo conocimiento que le favorezca en

la toma de decisiones.

Entre los beneficios que una organización puede obtener tenemos (ITelligent Information Technologies, 2016)]:

• Revela Información que no se esperaba obtener, añadiendo valor

• Analiza enormes cantidades de datos.

• Los resultados obtenidos son fáciles de entender e interpretar.

• Partiendo de la Información obtenida la organización puede mejorar la

atención y la relación con sus clientes-Usuarios

• Permite ofrecer a tus clientes los productos y/o servicios que

necesitan.

• Permite obtener modelos confiables, debido a que estos son probados

y comprobados empleando técnicas estadísticas, para que las

predicciones que se obtengan sean válidas.

Page 50: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

29

• Genera nuevas oportunidades y ahorra costes a la organización.

FUNDAMENTACIÓN LEGAL

El presente trabajo de titulación se lo ha propuesto adentro del entorno

legal equivalente, realizando audiencias bibliográficas de una guisa

correcta en la averiguación y así mismo efectuando las respectivas

narraciones bibliográficas de adonde se obtuvo la noticia, con el término

de no disimular a los derechos de ejecutante de los certificados de los

cuales se extrajo la comunicación.

La factibilidad legal en el presente trabajo permite definir los derechos

de guionista que se da en la credencial y otros entregables que se

realicen, esta se convierte en exclusiva para el personal involucrado, por

lo que queda definida la colocación y explotación de este patente,

comparables como la periódica impresa, su impresión, siquiera venias del

contenido divisado en otra enjundia.

Esta propuesta está constituida en las siguientes bases legales y

jurídicas que expide la Asamblea Nacional del Ecuador: (Pública, 2015).

• Art. 32.- La salud es un derecho que garantiza el Estado, cuya

realización se vincula al ejercicio de otros derechos, entre ellos el derecho

al agua, la alimentación, la educación, la cultura física, el trabajo, la

seguridad social, los ambientes sanos y otros que sustentan el buen vivir.

El Estado garantizará este derecho mediante políticas económicas,

sociales, culturales, educativas y ambientales; y el acceso permanente,

oportuno y sin exclusión a programas, acciones y servicios de promoción

y atención integral de salud, salud sexual y salud reproductiva. La

prestación de los servicios de salud se regirá por los principios de

Page 51: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

30

equidad, universalidad, solidaridad, interculturalidad, calidad, eficiencia,

eficacia, precaución y bioética, con enfoque de género y generacional

Sección segunda

Salud

• Art. 358.- El sistema nacional de salud tendrá por finalidad el

desarrollo, protección y recuperación de las capacidades y

potencialidades para una vida saludable e integral, tanto individual como

colectiva, y reconocerá la diversidad social y cultural. El sistema se guiará

por los principios generales del sistema nacional de inclusión y equidad

social, y por los de bioética, suficiencia e interculturalidad, con enfoque de

género y generacional.

• Art. 359.- El sistema nacional de salud comprenderá las

instituciones, programas, políticas, recursos, acciones y actores en salud;

abarcará todas las dimensiones del derecho a la salud; garantizará la

promoción, prevención, recuperación y rehabilitación en todos los niveles;

y propiciará la participación ciudadana y el control social.

• Art. 363.- El Estado será responsable de:

3. Formular políticas públicas que garanticen la promoción, prevención,

curación, rehabilitación y atención integral en salud y fomentar

prácticas saludables en los ámbitos familiar, laboral y comunitario.

4. Universalizar la atención en salud, mejorar permanentemente la

calidad y ampliar la cobertura.

5. Fortalecer los servicios estatales de salud, incorporar el talento

humano y proporcionar la infraestructura física y el equipamiento a las

instituciones públicas de salud.

Page 52: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

31

6. Garantizar las prácticas de salud ancestral y alternativa mediante el

reconocimiento, respeto y promoción del uso de sus conocimientos,

medicinas e instrumentos.

7. Brindar cuidado especializado a los grupos de atención prioritaria

establecidos en la Constitución.

8. Asegurar acciones y servicios de salud sexual y de salud reproductiva,

y garantizar la salud integral y la vida de las mujeres, en especial

durante el embarazo, parto y postparto.

9. Garantizar la disponibilidad y acceso a medicamentos de calidad,

seguros y eficaces, regular su comercialización y promover la

producción nacional y la utilización de medicamentos genéricos que

respondan a las necesidades epidemiológicas de la población. En el

acceso a medicamentos, los intereses de la salud pública

prevalecerán sobre los económicos y comerciales.

10. Promover el desarrollo integral del personal de salud.

• Art. 365.- Por ningún motivo los establecimientos públicos o

privados ni los profesionales de la salud negarán la atención de

emergencia. Dicha negativa se sancionará de acuerdo con la ley.

• Art. 366.- El financiamiento público en salud será oportuno, regular

y suficiente, y deberá provenir de fuentes permanentes del Presupuesto

General del Estado. Los recursos públicos serán distribuidos con base en

criterios de población y en las necesidades de salud. El Estado financiará

a las instituciones estatales de salud y podrá apoyar financieramente a las

autónomas y privadas siempre que no tengan fines de lucro, que

garanticen gratuidad en las prestaciones, cumplan las políticas públicas y

aseguren calidad, seguridad y respeto a los derechos. Estas instituciones

estarán sujetas a control y regulación del Estado.

Page 53: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

32

IDEA A DEFENDER

La creación de la aplicación que permita realizar la extracción de las

publicaciones sobre las patologías de asma y diabetes, la transformación

en información y la carga en la base de datos de MySql permitirá realizar

el respectivo análisis utilizando la herramienta Weka para posteriormente

presentar reportes los cuales podrán ser analizados e interpretados y así

poder ayudar a la población mejorando la calidad del servicio y a los

especialistas de la salud con consejos útiles.

DEFINICIONES CONCEPTUALES

ETL (Extracción, Transformación y Carga): Se denomina ETL al

proceso que se realiza para obtener información de algún origen de datos

luego se procede con la transformación que consiste en quitar de los

datos aquello que no arroja un beneficio para continuar con el proceso de

carga que consiste en almacenar la información depurada en un

repositorio.

Minería de datos: Se denomina como una ciencia que nos permite

obtener grandes lotes de información para poder realizar análisis e

interpretación de la información.

Page 54: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

33

CAPITULO III

METODOLOGÍA

DISEÑO DE LA INVESTIGACIÓN

MODALIDAD DE LA INVESTIGACIÓN

Para el presente proyecto de titulación se utilizó una metodología de

tipo Descriptiva puesto que pretendemos describir los hechos tal como

van sucediendo. También trabajaremos con una metodología tipo

Aplicativa debido a que se utilizará los datos obtenidos para el análisis.

TIPO DE INVESTIGACIÓN

Se utilizó una metodología de tipo Descriptiva debido a que este tipo de

investigación parte de la observación que se realiza sobre un sujeto

buscando obtener conclusiones a partir de las experiencias, para

posteriormente describir detalladamente su comportamiento, sin interferir

ni influir sobre él. Siendo así en este proyecto se procederá con el análisis

de las tendencias de las publicaciones de los usuarios en la red social

Twitter y clasificar según los de intereses en el estudio.

El uso de la metodología tipo Aplicativa se debe a que luego de la

extracción de los datos se utilizará herramientas que permitan utilizar

dicha información para mejorar la toma de decisiones, optimizar recursos

Page 55: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

34

y brindar un mejor servicio a los usuarios. Debido a que este tipo de

análisis se indaga sobre el porqué de los hechos suscitados,

estableciendo relaciones de causa- efecto.

POBLACIÓN Y MUESTRA

Población (asma y diabetes)

Se conoce como población a un grupo de individuos que tienen

características comunes (Sánchez & Inzunza, 2015)], Para el presente

caso de estudio la población se centra en el número de seguidores que

tienen de las cuentas principales de asma y diabetes sobre las cuales se

va a realizar el análisis. Por lo tanto, la población definida es de 35900

usuarios que pueden padecer de asma o diabetes.

Muestra (asma y diabetes)

Es un subconjunto de la población, los cuales son representativos de la

misma para realizar el análisis que se desee realizar (Sánchez & Inzunza,

2015)]. La muestra debe contar con toda la información deseada de la

población por lo que es importante utilizar una técnica de muestreo

adecuada.

Cálculo de la muestra Para obtener el valor de la muestra de la población

de seguidores se realiza mediante el uso de la siguiente fórmula:

Elaboración: David Maldonado,

Fuente: Datos de investigación.

Ilustración 11. Fórmula para obtener Tamaño De Muestra

Page 56: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

35

Dónde: El margen de error e es del 5%, el nivel de confianza Z es del

90%, se suele suponer que p=q=0.5, y q=1-p

Elaboración: David Maldonado,

Fuente: Datos de investigación.

Tamaño de la Muestra (Pacientes):

� = 1.645^2 ∗ 0.5 ∗ 0.5 ∗ 35900___ = 270.60

35900 ∗ 0.05 * 0.05 + 1.645^2 ∗ 0.5 ∗ 0.5

DESCRIPCIÓN POBLACIÓN (N) TAMAÑO DE LA MUESTRA (n)

Usuarios 35900 271

Elaboración: David Maldonado,

Fuente: Datos de investigación.

TÉCNICAS E INSTRUMENTOS DE RECOLECCION DE DATOS

La técnica que se aplicara en el presente proyecto de investigación será

la Extracción de datos a través de la base MySql.

Cuadro 2. Tabla de Varianza

Cuadro 3. Detalle de las Muestras

Page 57: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

36

RECOLECCIÓN DE LA INFORMACIÓN

El método aplicado para la recolección de datos será a través de la

minería de datos de la red social twitter utilizando su API.

PROCESAMIENTO Y ANÁLISIS

La recolección de la información se realizara a través del API de twitter

para ello se solicitó al equipo de proceso que nos faciliten el nombre de

las cuentas principales que traten sobre asma y diabetes:

Cuentas de Twitter a utilizar con sus seguidores (Muestra)

El departamento de procesos creado para el presente proyecto asignó

desde donde se extraería la información, en las tablas 1 y 2 se detalla la

información de las cuentas para el análisis.

Cuentas Seguidores Descripción

Separ

@SeparRespira

#DiccionarioRespira

>3500

seguidores

Esta cuenta pone a disposición de

los usuarios vídeos informativos

con recomendaciones acerca de

patologías respiratorias.

Fundacion Lovexair

@Lovexair

#HappyAir

>1800

seguidores

El contenido de esta cuenta está

dirigido a la difusión de eventos

relacionados a mejorar el control

de patologías respiratorias.

Neumomadrid

@Neumomadrid

>1300

seguidores

Esta cuenta se dedica a compartir

las últimas novedades, noticias y

consejos más destacados sobre

diversas patologías respiratorias.

Guía GEMA >1200 Esta cuenta es utilizada con el

Cuadro 4. Cuentas recomendadas para pacientes con Asma

Page 58: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

37

@Gemasma seguidores objetivo de prevenir y concienciar a

la población sobre el Asma y

comparte con sus seguidores las

últimas noticias, campañas y datos

epidemiológicos más relevantes.

GVR

@RespirarGVR

>1200

seguidores

El twitter de este grupo está

dirigido a profesionales, pacientes

y familiares, proporcionando

información de calidad sobre la

enfermedad del Asma en la

infancia y adolescencia.

Elaboración: David Maldonado,

Fuente: Datos de investigación.

Cuentas Seguidores Descripción

American Thoracic

@atscommunity

>15.100

seguidores

Presentan publicaciones

relevantes sobre patologías

respiratorias.

SEAIC

@SEAIC_Alergia

>4300

seguidores

Publica información sobre las

próximas jornadas, simposios,

iniciativas y consensos sobre

alergias, dirigidas a

profesionales.

Alergia y Asma

@Alergólogos

>1500

seguidores

Esta cuenta da a conocer las

últimas publicaciones sobre

Asma, Alergias, y noticias del

Cuadro 5. Cuentas recomendadas para profesionales sanitarios implicados en patologías respiratorias

Page 59: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

38

ámbito respiratorio.

Asthma Papers >500

seguidores

Destaca artículos científicos

relevantes sobre Asma.

ERS Publications

@ERSPublications

>5500

seguidores

Presenta estudios publicados en

revistas y novedades importantes

a nivel internacional.

Elaboración: David Maldonado,

Fuente: Datos de investigación.

Para la muestra de publicaciones de diabetes usaremos las cuentas de

los usuarios de asma y cuentas aleatorias que se encuentren, ya que no

se ha definido cuentas principales de donde se extraerá la información.

VALIDACIÓN DE LA IDEA A DEFENDER

Según los resultados alcanzados luego del análisis de la minería de

datos se pudieron determinar que la población que padecen de diabetes

en la ciudad de Guayaquil está con un estado de ánimo malo esto se

debe a varios factores como la atención por parte de los médicos, la

carencia de medicina o el tratamiento de la patología.

Los pacientes que padecen de asma en Guayaquil están con un estado

de ánimo bueno esto se debe a que el tratamiento es bueno o la

ubicación geográfica es buena para el tratamiento de la enfermedad.

Page 60: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

39

CAPITULO IV

PROPUESTA TECNOLÓGICA

Partiendo de la importancia que tienen actualmente las redes sociales

en la vida de las personas, además de que a través de ellas podemos

conseguir una cantidad abundante de datos referentes al entorno de la

salud, ofreceremos a los profesionales de la salud herramientas que les

permita mejorar la calidad de la atención sanitaria que brindan,

impulsando procedimientos más eficaces, y por consiguiente la calidad de

vida de los pacientes.

Tomando en cuenta el problema, se plantea la necesidad e importancia

de recopilar toda la información referente al asma y diabetes que se

registran en las redes sociales.

El presente proyecto se propone desarrollar una interfaz que incluya

recopilador de la información publicada en redes sociales, más

concretamente Twitter, donde se apliquen técnicas de minerías de datos,

adicionalmente contará con un analizador de sentimientos o minería de

opiniones, la captura de estos datos y su análisis más allá de las

conclusiones lógicas a las que llegaremos partiendo de las experiencias

permitirá mostrar esta información a los usuarios y los médicos.

Page 61: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

40

Con este sistema experto se busca una mejor calidad y rapidez en las

respuestas dando así lugar a una mejora en los servicios que se brindan.

Es posible contar con un sistema de salud más sostenible, si se integra

todo tipo de datos tales como: Población, pacientes, profesionales. Estos

datos posteriormente se miden y se analizan para planificar tareas, lo que

permitirá generar alertas que apoyen la toma de decisiones y la atención

sanitaria, etc.

PASOS PARA DESARROLLAR EL PROYECTO

1.-API TWITTER: REST API aplicado sobre las cuentas de estudio

Luego del registro como desarrolladores para hacer uso del api de

Twitter, se procede a realizar configuración para el uso del api de twitter y

el desarrollo del programa.

• Descargar la librería de twitter que se encuentra en githut

(https://github.com/abraham/twitteroauth).

• Como trabajamos de manera local se tuvo que instalar xamp como

servidor, luego procedimos a iniciarlo.

Ilustración 13. Xamp

Page 62: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

41

• En la ruta donde se ejecuta el proyecto “C:\xampp\htdocs” creamos

una carpeta llamada twitter.

• En la carpeta twitter descomprimimos la librería del api de twitter, la

cual contiene los siguientes archivos presentados en la Gráfico 14

2.-PHP Uso de credenciales que extraen con el API

• Se elaboró el archivo

“indexSeguidores.php”

• En donde se incluye la ruta de donde se encuentra el Api de twitter:

require "twitteroauth-master/autoload.php";

• Luego el archivo de configuración de la conexión a la base de dato

require "conexion.php";

• Las credenciales de la base de datos son las siguientes:

$servername = "192.168.10.3"; $username = "php"; $password = "SERVERBD123."; $dbname = "oap";

Ilustración 14. Librería de API de Twitter

Page 63: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

42

• Validación para la cadena de conexión: • Luego procedemos a asignar las credenciales de twitter a unas

variables

• Luego realizamos la conexión a twitter con la siguiente sintaxis

• Cargo en el siguiente arreglo las cuentas principales y las que deseo

extraer sus seguidores

$cuentas = array()

• Creo un ciclo que va a ir recorriendo las cuentas principales de donde

extraeré los seguidores, a medida que pasa el ciclo va cambiando el

nombre del seguidor en esta variable $cuentas[$i] , a continuación se

muestra la sintaxis de extracción de información:

• Luego se recorre el json para ir descomponiéndolo en arreglos que me

traerá el perfil de cada usuario:

$consumer_key = "0u7mPaPgHhUa4VEgEyQDWGXoF"; $consumer_secret = "oueJuUNhDE5uA14mOICQ2Y5Vg6unobkUKVDHcSn8RuBTUfnKlo"; $token = "874437109834186752-8GnvXBpB9hcoAwjMgkasbBqp6raOumP"; $token_secret = "DCbrwJoqrZMSqeL5dKUuUKJRO5hDk5i6TF4c2bLq0KnsT";

$connection = new TwitterOAuth($consumer_key, $consumer_secret, $token, $token_secret);

$ids = $connection->get('followers/ids', ["screen_name" => $cuentas[$i], "count" => 100]);

Page 64: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

43

• Luego en cada arreglo lo recorro para poder extraer la información que

necesito

• Y estas variables las paso por parámetro para almacenarla en la base

de datos 1. Para la extracción de publicaciones del asma Se elaboró el archivo “indexPublicacionAsma.php”

Aquí se incluye la ruta donde se encuentra el api de Twitter:

require "twitteroauth-master/autoload.php";

Luego el archivo de configuración de la conexión a la base de dato

// Chunk the ids in to arrays of 100. $ids_arrays = array_chunk($ids->ids, 100); // Loop through each array of 100 ids. foreach($ids_arrays as $implode) { // Perform a lookup for each chunk of 100 ids. $results = $connection->get('users/lookup', array('user_id' => implode(',', $implode)));

// Loop through each profile result. foreach($results as $profile) { // Use screen_name as key for $profiles array. $profiles[$profile->id] = $profile; $profiles[$profile->screen_name] = $profile; $profiles[$profile->location] = $profile;

$profiles[$profile->lang] = $profile; $profiles[$profile->followers_count] = $profile; $profiles[$profile->friends_count] = $profile; $profiles[$profile->created_at] = $profile;

$PN_ID_USUARIO = $profile->id ; $PV_NOMBRE = sanear_string($profile->screen_name); $PV_UBICACION = sanear_string($profile->location); $PV_IDIOMA = $profile->lang ; $PN_CONT_PUBLICACION = $profile->followers_count ; $PN_CONT_FAVORITOS = $profile->listed_count ; $PN_CONT_AMIGOS = $profile->friends_count ; $CREATED_AT = $profile->created_at ; $SOURCE = $CREATED_AT;//'2012-07-31'; $FECHA = new DateTime($SOURCE); $AUX =""; $ESTADO ="A";

Page 65: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

44

require "conexion.php";

Las credenciales de la base de datos son las siguientes: Y esta es la validación para la cadena de conexión Procedemos a asignar las credenciales de Twitter a unas variables:

Luego realizamos la conexión a twitter con la siguiente sintaxis:

Se carga en el siguiente arreglo las cuentas que almacene de los

seguidores de las cuentas principales

Para verificar si la cuenta seguidores registrado tendremos la siguiente

condición, $ consulta

Si tenemos datos entonces realiza un ciclo con el siguiente código:

// Crear Conexion $conn = new mysqli($servername, $username, $password, $dbname); //Validar la conexion if ($conn->connect_error) { die("Connection failed: " . $conn->connect_error); } else{ echo "Conexion exitosa"; }

$consumer_key = "0u7mPaPgHhUa4VEgEyQDWGXoF"; $consumer_secret = "oueJuUNhDE5uA14mOICQ2Y5Vg6unobkUKVDHcSn8RuBTUfnKlo"; $token = "874437109834186752-8GnvXBpB9hcoAwjMgkasbBqp6raOumP"; $token_secret = "DCbrwJoqrZMSqeL5dKUuUKJRO5hDk5i6TF4c2bLq0KnsT";

$connection = new TwitterOAuth($consumer_key, $consumer_secret, $token, $token_secret);

$servername = "192.168.10.3"; $username = "php"; $password = "SERVERBD123."; $dbname = "oap";

if ($resultado = $conn->query($consulta)) {

while ($row=$resultado->fetch_Assoc()) {

Page 66: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

45

Luego utilizamos el siguiente código para extraer información de las

publicaciones de los usuarios:

A continuación se crea un ciclo que va a ir recorriendo las cuentas de los

seguidores de donde extraeremos las publicaciones:

Puede darse el caso que el usuario tenga bloqueada la cuenta o no nos

de permisos necesarios para consultar, en ese caso el código a utilizar

será la siguiente validación para salir del ciclo de ese usuario ya que no

nos arrojará información

En el caso de tener los permisos necesarios se recorre el json para ir

descomponiéndolo en arreglos que me traerá las publicaciones de cada

seguidor

$i ++; $id=$tweet->id; $id_str=$tweet->id_str; $favorite_count=$tweet->favorite_count; $retweet_count=$tweet->retweet_count; $created_at=$tweet->created_at; $name=$tweet->user->name; $screen_name=$tweet->user->screen_name; $lang=$tweet->lang; $geo=$tweet->geo; $source = $created_at ; $date1 = new DateTime($source); $fecha_inicial= new DateTime($source); $url=" "; $tweeter='asma'; $lann=is_null($tweet->lang)?" ":$tweet->lang; $geoo=is_null($tweet->geo)?" ":$tweet->geo; $text=$tweet->text;

$contenido = $conexion->get("statuses/user_timeline", ["screen_name" => $row["nombre"], "count" => 100]);

foreach($contenido as $tweet) {

if (!isset($tweet->id)) { //echo "no existe"."-".$i."<br>"; break; }

Page 67: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

46

De estas variables luego se procederá a realizar la depuración análisis de

sentimiento y correcciones ortográficas

2. Para la extracción de publicaciones del diabetes Se elaboró el archivo “indexPublicacionDiabete.php”

En donde se incluye la ruta de donde se encuentra el api de twitter:

require "twitteroauth-master/autoload.php";

Luego el archivo de configuración de la conexión a la base de dato

require "conexion.php";

Las credenciales de la base de datos son las siguientes:

Y esta es la validación para la cadena de conexión Luego procedemos a asignar las credenciales de twitter a unas variables

Luego realizamos la conexión a twitter con la siguiente sintaxis

$consumer_key = "0u7mPaPgHhUa4VEgEyQDWGXoF"; $consumer_secret = "oueJuUNhDE5uA14mOICQ2Y5Vg6unobkUKVDHcSn8RuBTUfnKlo"; $token = "874437109834186752-8GnvXBpB9hcoAwjMgkasbBqp6raOumP"; $token_secret = "DCbrwJoqrZMSqeL5dKUuUKJRO5hDk5i6TF4c2bLq0KnsT";

$connection = new TwitterOAuth($consumer_key, $consumer_secret, $token, $token_secret);

$servername = "192.168.10.3"; $username = "php"; $password = "SERVERBD123."; $dbname = "oap";

Page 68: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

47

Cargo en el siguiente arreglo las cuentas que almacene de los seguidores

de las cuentas principales $ consulta

Para verificar si tenemos seguidores registrado tendremos la siguiente

condición if ($resultado = $conn->query($consulta)){

Si tenemos datos entonces realiza un ciclo con el siguiente código

while ($row=$resultado->fetch_Assoc()) {

Luego utilizamos el siguiente código para extraer información de las

publicaciones de los usuarios

Creo un ciclo que va a ir recorriendo las cuentas de los seguidores de

donde extraeremos las publicaciones:

Puede darse el caso que el usuario tenga bloqueada la cuenta o no nos

de permisos necesarios para consultar, entonces ponemos la siguiente

validación para salir del ciclo de ese usuario ya que no nos arrojara

información

En el caso de tener los permisos necesarios se recorre el json para ir

descomponiéndolo en arreglos que traerá las publicaciones de cada

seguidor

$contenido = $conexion->get ("statuses/user_timeline", ["screen_name" => $row["nombre"], "count" => 100]);

foreach($contenido as $tweet) {

f if (!isset($tweet->id)) { //echo "no existe"."-".$i."<br>"; break; }

Page 69: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

48

De estas variables luego procederé a realizar la depuración análisis de

sentimiento y correcciones ortográficas.

3. Depurar información: Herramientas a usar y el Código

Para la depuración de las publicaciones que extraemos se procedió a

crear una clase “sanear_string.php”

Esta clase tiene 2 métodos “sanear_string($string)” el cual se encarga

de reemplazar caracteres especiales, tildes, ñ por caracteres normales, la

otra función es “parseCamelCase” el cual separa las palabras unidas

como los hasttag y los convierte en minúscula

Se valida que este bien escrito.

Se valida que si tiene abreviaturas las reemplazamos por la palabra

completa para ello usamos un diccionario de abreviaturas que tenemos en

la base.

4. Kit para análisis de emociones: Herramientas a usar y el

Código y credenciales

Nos registramos en la página oficial

(https://app.monkeylearn.com/accounts/register/)

Obtenemos las credenciales

$i ++; $id=$tweet->id; $id_str=$tweet->id_str; $favorite_count=$tweet->favorite_count; $retweet_count=$tweet->retweet_count; $created_at=$tweet->created_at; $name=$tweet->user->name; $screen_name=$tweet->user->screen_name; $lang=$tweet->lang; $geo=$tweet->geo; $source = $created_at ; $date1 = new DateTime($source); $fecha_inicial= new DateTime($source); $url=" "; $tweeter=diabete; $lann=is_null($tweet->lang)?" ":$tweet->lang; $geoo=is_null($tweet->geo)?" ":$tweet->geo; $text=$tweet->text;

Page 70: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

49

Bajamos el código de githut

Debemos incluirlo en nuestro proyecto la carpeta que bajamos

En el php para extraer las publicaciones de los seguidores añadimos la

ruta del archivo:

require 'autoload.php';

• Añadimos las credenciales

En donde $text_list = [“estoy triste”] seria la publicación la cual

analizaríamos y determinaríamos el estado emocional de la publicación

Luego procedemos a verificar si existe o no la publicación; de existir la

actualizamos, si no existe la insertamos

5. Almacenamiento de la Información en la base de datos

La Base de datos que se va a utilizar en el presente proyecto es: Mysql; el

nombre de la base es ¨OAP¨. Trabajaremos con las siguientes tablas:

1. Abreviaturas:

2. Estado_animo

3. Usuario_twitter

4. Publicaciones.

A continuación se detalla la estructura de cada tabla a utilizar:

Abreviaturas

Almacena un diccionario con palabras claves predefinidas con modismos

utilizados comúnmente por las personas en sus publicaciones con su

respectiva traducción al lenguaje universal. El gráfico 15 presenta la

estructura de la tabla abreviaturas

$ml = new MonkeyLearn\Client('4127aa9b904552b9bb59e63a24ced5daf60a208f'); $text_list = ["estoy triste"]; $module_id = 'cl_u9PRHNzf'; $res = $ml->classifiers->classify($module_id, $text_list, true);

Page 71: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

50

El Gráfico 16 muestra una consulta realizada sobre la tabla abreviaturas,

en donde podemos apreciar algunos de los modismos más utilizados

registrados en la tabla con su respectiva traducción al lenguaje universal:

Ilustración 16. Consulta realizada sobre la tabla abreviaturas

Ilustración 15. Estructura de la tabla abreviaturas

Page 72: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

51

estado_animo En esta tabla se almacenan las categorías a utilizar al momento de

analizar en las publicaciones de las personas, el estado de ánimo de cada

una.

El Gráfico 17 presenta la estructura de la tabla estado_animo:

Al momento esta clasificación constará de 5 categorías:

1. Horrible

2. Mal

3. Normal

4. Bien

5. Increíble

Ilustración 17. Estructura de la tabla estado de ánimo

Page 73: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

52

El Gráfico 18 muestra una consulta realizada sobre la tabla estado_animo

en donde podemos apreciar las categorías anteriormente mencionadas

usuario_twitter En esta tabla se almacenaran los datos de los usuarios de Twitter sobre

los cuales se realizará el posterior análisis de sus publicaciones. En el

Gráfico 19 podemos observar la estructura de la tabla Usuario_twitter

Ilustración 18. Consulta realizada sobre la tabla estado_animo

Ilustración 19. Estructura de la tabla usuario_twitter

Page 74: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

53

En la Gráfico 20 presentamos la consulta realizada sobre la tabla Usuario_twitter Publicaciones

En esta tabla se guardará todas las publicaciones referente a Asma y a

Diabetes tomadas de los usuarios que se almacenaron en la tabla

Usuario_twitter.

En el Gráfico 21 podemos revisar la estructura de la tabla publicaciones.

Ilustración 20. Consulta realizada sobre la tabla estado_animo

Ilustración 21. Estructura de la tabla usuario_twitter

Page 75: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

54

En la Figura 22 presentamos la consulta realizada sobre la tabla publicaciones: 6. Minería de datos con weka

Para el presente proyecto de titulación se utilizara una aplicación llamada

Weka, es de uso libre, esta herramienta es usada en la minería de datos y

visualización de resultados (Rohit & Arora, 2012)].

Características de Weka Entre las características principales de Weka tenemos que puede soportar

tareas estándares de la minería de datos tales como (Rohit & Arora,

2012)]:

• Procesamiento de datos

• Regresión

• Clasificación

• Clusterin

• Selección de los datos

Ilustración 22. Consulta realizada sobre la tabla publicaciones.

Page 76: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

55

Cada registro de datos en WEKA esta descrito por un número fijo de

atributos que pueden ser nominales o numéricos (Rohit & Arora, 2012)].

Cuadro Comparativo

En la actualidad existen en el mercado una gran variedad de aplicaciones

para la minería de datos, los cuales unos son mejores a otros en ciertos

aspectos, pero todos tienen el mismo fin. A continuación se realiza un

cuadro comparativo entre Weka y otras aplicaciones que tienen acogida

en el mercado, de los cuales podemos ver que Weka se adapta mejor a

nuestras necesidades (Rohit & Arora, 2012)].

Característica Clementine SAS Enterprise Miner Tariykdd Weka

Licencia libre NO NO SI SI

Requiere conocimientos

avanzados

NO NO NO NO

Acceso a SQL SI NO SI SI

Multiplataforma NO SI SI SI

Requiere bases de datos

especializadas

NO --- NO NO

Métodos de máquinas de

soporte vectorial

SI SI NO SI

Métodos bayesianos SI --- NO SI

Puede combinar modelos SI SI NO SI (NO resulta

muy eficiente)

Modelos de clasificación SI SI SI SI

Implementa arboles de

decisión

SI SI SI SI

Modelos de regresión SI SI NO SI

Clusterin y agrupamiento SI SI NO SI

Interfaz amigable SI SI SI SI

Permite visualización de datos SI SI SI SI

Elaboración: Luis Córdoba Fallas,

Fuente: Blog Minería de Datos – Weka

Cuadro 6. Cuadro comparativo – Herramientas de minería de datos.

Page 77: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

56

PRESENTACIÓN DE REPORTES UTILIZANDO WEKA

Para el presente proyecto utilizaremos una herramienta llamada WEKA. Esta es

una plataforma de software para el aprendizaje automático y la minería de datos,

que contiene una colección de herramientas de visualización y algoritmos para

análisis de datos y modelado predictivo, unidos a una interfaz gráfica de usuario

para acceder fácilmente a sus funcionalidades.

Se extraerá de la Base de Datos la información que se registraran los usuarios,

para este caso utilizaremos los siguientes campos:

Estructura de la Base de Datos

CAMPO DESCRIPCIÓN NAME_USER Nombre del Usuario COUNT_FAVORITE Número de Likes tuvo su publicación COUNT_RETWEET Número de Retweets que tuvo la

publicación ESTADO_ANIMO Calificación de la Publicación

(Increíble, Buena, Normal, Mal, Terrible)

FECHA_CREACION Fecha de creación de la Publicación FECHA_INGRESO_USUARIO Fecha de registro del usuario UBICACION_USUARIO Ubicación del Usuario CONT_PUBLICACION_USUARIO Número de Publicaciones del Usuario CONT_FAVORITOS_USUARIO CONT_AMIGOS_USUARIO Número de seguidores del Usuario

En base a la información extraída desde la base de datos se procede a armar un

documento con extensión *.CSV el cual será procesado por WEKA.

REPORTERÍA

A continuación presentamos los gráficos que podemos obtener utilizando esta

herramienta de minería de datos:

Page 78: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

57

DIABETES

Gráficos Estadísticos

Gráficos Generales categorizando según el estado de ánimo

Increíble Normal Mal

Elaborado por: David Maldonado

Page 79: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

58

Árboles de Decisión

Análisis del Estado de Animo de los usuarios en sus publicaciones referente a la DIABETES

Elaborado por: David Maldonado

Page 80: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

59

Análisis de las publicaciones realizadas relacionadas a la DIABETES por Ciudad.

Page 81: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

60

Análisis retweet que obtuvieron las Publicaciones referentes a DIABETES según Estado de Animo del usuario y según su ubicación

De las Publicaciones que realizaron los usuarios las que obtuvieron menos a 3 retweets se encuentran en Guayaquil,

Quito y Cuenca.

De Quito la mayoría de las publicaciones realizadas por los usuarios tenía un estado de ánimo Increíble un total dos de

tres publicaciones. Por otro lado las publicaciones de Cuenca la mayoría tenía un estado de ánimo Malo.

En Guayaquil las publicaciones obtuvieron favoritos, las que obtuvieron menos de 4 favoritos tenían un estado de ánimo

negativo, mientras que las que tuvieron más de 4 favoritos tenían un estado de ánimo increíble.

Page 82: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

61

Publicaciones referentes a Diabetes donde se analizó la cantidad de Amigos que tiene el usuario que realizó la

publicación, el número de publicaciones realizadas, los favoritos, seguidores, estado de ánimo y ubicación.

Page 83: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

62

Análisis de publicaciones referentes a Diabetes, clasificadas por ciudad, numero de amigos del usuario que realizó la

publicación, número total de publicaciones realizadas por el usuario, numero de retweets y estado de ánimo.

Page 84: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

63

Análisis de publicaciones realizadas referentes a Diabetes. Clasificados por el número de favoritos obtenidos en una

publicación por ciudad.

Page 85: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

64

Análisis de publicaciones realizadas referentes a Diabetes. Clasificados por el idioma, numero de retweets, favoritos

obtenidos en una publicación, por estado de ánimos.

Page 86: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

65

Análisis de publicaciones realizadas referentes a Diabetes. Clasificados por Ubicación, numero de favoritos, estado de

ánimo de usuarios obtenidos en una publicación, por estado de ánimos.

Page 87: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

66

Análisis de publicaciones realizadas referentes a Diabetes de los principales usuarios. Clasificados por Ubicación,

estado de ánimo e idioma de usuarios obtenidos en una publicación.

Page 88: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

67

Clúster

Análisis de agrupamiento por múltiples Atributos: Estado de ánimo y Cantidad de Retweets obtenidos en una

Publicación referente a Diabetes

Elaborado por: David Maldonado

Page 89: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

68

Análisis de agrupamiento por múltiples Atributos: Estado de ánimo y Cantidad de Retweets obtenidos en una Publicación referente a Diabetes, identificando la cuidad desde donde se realizó la publicación

Elaborado por: David Maldonado

Page 90: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

69

Análisis de agrupamiento por múltiples Atributos: Ubicación y Cantidad de Retweets obtenidos en una Publicación

referente a Diabetes, identificando el estado de Animo de los Usuarios

Elaborado por: David Maldonado

Page 91: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

70

Análisis de agrupamiento por múltiples Atributos: Estado de ánimo y Cantidad de Favoritos obtenidos en una

Publicación referente a Diabetes, identificando la cuidad desde donde se realizó la publicación.

Elaborado por: David Maldonado

Page 92: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

71

Análisis de agrupamiento por múltiples Atributos: Ubicación y Cantidad de Favoritos obtenidos en una Publicación

referente a Diabetes, identificando el estado de ánimo que tuvo el usuario al realizar la publicación

Elaborado por: David Maldonado

Page 93: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

72

Análisis de agrupamiento por múltiples Atributos: Número de seguidores que tiene un usuario vs el estado de ánimo con

el que realizó una Publicación referente a Diabetes, identificando también la ubicación desde donde se realizó la

publicación

Elaborado por: David Maldonado

Page 94: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

73

Análisis de agrupamiento por múltiples Atributos: Número de seguidores que tiene un usuario vs la ubicación,

identificando también es estado de ánimo con el que realizó la publicación referente a Diabetes.

Elaborado por: David Maldonado

Page 95: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

74

Regresiones En este caso quiero ver la aplicar la función de regresión lineal para determinar Cantidad de retweet obtenidos en función al

número de seguidores que obtuvo una publicación de un usuario.

Instances: 106 Attributes: 2 count_retweet SEGUIDORES Linear Regression Model

count_retweet = 0.0001 * SEGUIDORES + 0.7535 === Summary === Correlation coefficient 0.2319 Mean absolute error 1.4647 Root mean squared error 4.3742 Relative absolute error 98.3354 % Root relative squared error 97.2741 % Total Number of Instances 106

Elaborado por: David Maldonado

Page 96: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

75

En este caso quiero ver la aplicar la función de regresión lineal para determinar Cantidad de retweet obtenidos en

función al número de favoritos que obtuvo una publicación de un usuario.

Instances: 106 Attributes: 2 count_favorite count_retweet Test mode: evaluate on training data Linear Regression Model

count_retweet = 0.548 * count_favorite + 0.1966 === Summary === Correlation coefficient 0.991 Mean absolute error 0.4258 Root mean squared error 0.602 Relative absolute error 28.585 % Root relative squared error 13.3871 % Total Number of Instances 106

Elaborado por: David Maldonado

Page 97: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

76

Asociación:

Instances: 106 Attributes: 9 count_favorite count_retweet estado_animo UBICACION IDIOMA CONT_PUBLICACION CONT_FAVORITOS CONT_AMIGOS SEGUIDORES Minimum support: 0.4 (42 instances) Minimum metric <confidence>: 0.9 Number of cycles performed: 12 Generated sets of large itemsets: Size of set of large itemsets L(1): 5 Size of set of large itemsets L(2): 8 Size of set of large itemsets L(3): 5 Size of set of large itemsets L(4): 1

Elaborado por: David Maldonado

Best rules found: 1. estado_animo=Increible 56 ==> IDIOMA=es 56 <conf:(1)> lift:(1.02) lev:(0.01) [1] conv:(1.06) 2. estado_animo=Increible UBICACION=Guayaquil 44 ==> IDIOMA=es 44 <conf:(1)> lift:(1.02) lev:(0.01) [0] conv:(0.83) 3. UBICACION=Guayaquil 82 ==> IDIOMA=es 80 <conf:(0.98)> lift:(0.99) lev:(-0) [0] conv:(0.52) 4. count_retweet='(-inf-0.5]' 72 ==> IDIOMA=es 70 <conf:(0.97)> lift:(0.99) lev:(-0.01) [0] conv:(0.45) 5. count_favorite='(-inf-0.5]' 64 ==> IDIOMA=es 62 <conf:(0.97)> lift:(0.99) lev:(-0.01) [0] conv:(0.4) 6. count_favorite='(-inf-0.5]' count_retweet='(-inf-0.5]' 58 ==> IDIOMA=es 56 <conf:(0.97)> lift:(0.98) lev:(-0.01) [0] conv:(0.36) 7. count_retweet='(-inf-0.5]' UBICACION=Guayaquil 58 ==> IDIOMA=es 56 <conf:(0.97)> lift:(0.98) lev:(-0.01) [0] conv:(0.36) 8. count_favorite='(-inf-0.5]' UBICACION=Guayaquil 52 ==> IDIOMA=es 50 <conf:(0.96)> lift:(0.98) lev:(-0.01) [-1] conv:(0.33) 9. count_favorite='(-inf-0.5]' count_retweet='(-inf-0.5]' UBICACION=Guayaquil 46 ==> IDIOMA=es 44 <conf:(0.96)> lift:(0.97) lev:(-0.01) [-1] conv:(0.29) 10. count_favorite='(-inf-0.5]' 64 ==> count_retweet='(-inf-0.5]' 58 <conf:(0.91)>

Page 98: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

77

ASMA

Gráficos Estadísticos

Gráficos Generales categorizando según el estado de Animo

Elaborado por: David Maldonado

Page 99: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

78

Gráfica estadística sobre estado de ánimo

12+361012

Elaborado por: David Maldonado

Page 100: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

79

Elaborado por: David Maldonado

Page 101: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

80

Árboles de Decisión

Análisis de las publicaciones realizadas por usuarios sobre ASMA tomando en cuenta la ciudad de origen del Usuario,

cantidad de Favoritos obtenidos en la publicación, cantidad de favoritos obtenidos en total de todas sus publicaciones y

el estado de ánimo al momento de realizar la publicación referente a ASMA.

Page 102: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

81

Análisis de las publicaciones realizadas por usuarios sobre ASMA tomando en cuenta la ciudad de origen del Usuario,

cantidad de Favoritos obtenidos en la publicación, cantidad de favoritos obtenidos en total de todas sus publicaciones y

el estado de ánimo al momento de realizar la publicación referente a ASMA.

Page 103: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

82

Publicaciones realizadas referentes a ASMA donde se analiza el estado de ánimo de los Usuarios obtenidos por ubicación

De las Personas que publicaron sobre Asma, el estado de ánimo de estas personas que era normal y que estaban en

Guayaquil eran 4 de los 9 casos. Las personas que tenían un Mal estado de ánimo la mayoría se encontraban en Quito,

es decir 7 de los 13 registros. Con respecto a las personas con estado de Animo increíble la mayoría se encontraba en

Quito, un total de 2 de los 4 registros.

Page 104: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

83

Publicaciones realizadas referentes a ASMA donde se analiza la Ubicación de los Usuarios, el Número de seguidores,

los favoritos obtenidos por la publicación y en total y el estado de ánimo del usuario. El número de Seguidores

compuestos en un rango igual o menor a 907, se ubican en Guayaquil, Quito y Cuenca. En Guayaquil hay más favoritos

de los cuales Tienen estado de ánimo Normal y Mal.

De los que tienen un número de seguidores mayor a 907 que se ubican en Guayaquil, quito y cuenca tienen como

estado de ánimo en su mayoría Increíble en Guayaquil y quito, y Mal en cuenca.

Page 105: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

84

Análisis de los retweets realizados sobre publicaciones realizadas referentes a ASMA por Ubicación

En el presente gráfico se puede apreciar que en la ciudad de Guayaquil 26 de las 55 publicaciones obtuvieron uno o

menos retweets, en Cuenca tres de las seis publicaciones obtuvieron dos retweets mientras que en Quito uno de las tres

publicaciones obtuvo más de dos retweets.

Page 106: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

85

Análisis por Ubicación de los retweets y favoritos obtenidos sobre publicaciones referentes a ASMA en donde también

se considera el estado de ánimo del usuario al realizar la publicación

Es una Técnica que permite analizar decisiones secuenciales basada en el uso de resultados y probabilidades

asociadas.

Los árboles de decisión se usan en los sistemas expertos porque son más precisos que el hombre para poder

desarrollar un diagnostico con respecto a algo, ya que el hombre puede dejar pasar sin querer un detalle, en

cambio la maquina mediante un sistema experto con un árbol de decisión puede dar un resultado exacto.

Page 107: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

86

A continuación se presenta un ejemplo de un sistema experto y de cómo puede llegar a conocer la tendencia que tienen

las personas en cuanto a estado de ánimo cuando realizan publicaciones sobre el Asma y que tan influyentes resulta

para que los seguidores los retwiteen.

Page 108: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

87

Análisis por clasificación de Idiomas en publicaciones realizadas referentes a ASMA, distribuidos por los atributos:

número de Seguidores, Favoritos, Amigos, estado de ánimo, numero de publicaciones, retweets obtenidos y ubicación

del usuario que realizo la publicación.

Page 109: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

88

Análisis por Ubicación de las publicaciones realizadas referentes a ASMA, clasificados por los siguientes atributos: número de retweets obtenidos en la publicación, estado de ánimo, número de amigos, Seguidores, contador de Favoritos.

Page 110: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

89

Análisis por Estado de Ánimo de los usuarios sobre publicaciones realizadas referentes a ASMA, clasificados por los siguientes atributos: número de retweets obtenidos en la publicación, Idioma en el que se realizó la publicación, ubicación y favoritos alcanzados.

Page 111: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

90

Clúster

Análisis de agrupamiento por múltiples Atributos: Estado de ánimo y Cantidad de RETWEETS obtenidos en una

Publicación referente a ASMA, identificando la cuidad desde donde se realizó la publicación

Elaborado por: David Maldonado

Page 112: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

91

Análisis de agrupamiento por múltiples Atributos: Estado de ánimo y Cantidad de FAVORITOS obtenidos en una

Publicación referente a ASMA, identificando la Ubicación desde donde se realizó la publicación

Elaborado por: David Maldonado

Page 113: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

92

Análisis de agrupamiento por múltiples Atributos: TOTAL DE PUBLICACIONES (cont_publicaciones) vs la Cantidad de FAVORITOS obtenidos en una Publicación referente a ASMA, identificando el estado de ánimo del usuario.

Elaborado por: David Maldonado

Page 114: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

93

Análisis de agrupamiento por múltiples Atributos: Ubicación Vs estado de Ánimo del usuario al realizar una publicación

sobre ASMA, donde se establece el número de retweet que obtuvo dicha publicación.

Elaborado por: David Maldonado

Page 115: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

94

Análisis de agrupamiento por múltiples Atributos: estado de Ánimo vs Favoritos obtenidos por el usuario al realizar una

publicación sobre ASMA.

Para el siguiente cuadro estadístico presentamos 2 variables:

1. Estado de Animo en el Eje X 2. Favoritos en el Eje Y,

Lo que pretende mostrar este gráfico es cuantas veces los seguidores de una persona que realiza una publicación le dan likes a sus publicaciones, clasificándolas según el estado de ánimo

Elaborado por: David Maldonado

Page 116: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

95

El siguiente grafico presenta la relación entre las Variables Favoritos Vs Retweets, clasificándolas también por el estado

de Animo de las publicaciones.

Elaborado por: David Maldonado

Page 117: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

96

Para el Siguiente grafico trabajamos con las Variables: Usuario y Favoritos.

Lo que pretendemos mostrar es según las publicaciones que realiza un usuario cuantos likes obtuvo en su publicación,

adicionalmente podemos identificar el estado de ánimo de cada publicación.

Elaborado por: David Maldonado

Page 118: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

97

Para el Siguiente grafico trabajamos con las Variables: Idioma y Favoritos.

Lo que pretendemos mostrar es según las publicaciones que realiza un usuario cuantos likes obtuvo en su publicación,

adicionalmente podemos identificar el estado de ánimo de cada publicación.

Elaborado por: David Maldonado

Page 119: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

98

Con este grafico se pretende demostrar que tan influyente es un usuario, según el número de retweets que obtuvo de

las publicaciones que realiza, adicionalmente clasificando estas publicaciones según el tipo de estado de ánimo.

Elaborado por: David Maldonado

Page 120: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

99

Para el Siguiente grafico trabajamos con las Variables: Ubicación y Retweets.

Lo que pretendemos mostrar es según la ubicación de las publicaciones que realiza un usuario cuantos retweets

obtuvieron por su publicación, adicionalmente podemos identificar el estado de ánimo de cada publicación.

Elaborado por: David Maldonado

Page 121: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

100

Regresiones

El análisis de la regresión es un proceso estadístico para estimar las relaciones entre variables. Incluye muchas

técnicas para el modelado y análisis de diversas variables, cuando la atención se centra en la relación entre una variable

dependiente y una o más variables independientes (o predictores).

En este caso quiero ver la aplicar la función de regresión lineal para determinar retweets obtenidos en función al número

de amigos que tiene un usuario A continuación tenemos la fórmula para calcular regresiones.

Elaborado por: David Maldonado

Page 122: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

101

También obtenemos el coeficiente de correlación. En este caso indica que no hay mucha correlación entre los retweet y

la cantidad de seguidores. Y puede haber un error de 97%, es decir una regresión no es exacta puede haber un margen

de error.

Elaborado por: David Maldonado

Page 123: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

102

En este caso quiero ver la aplicar la función de regresión lineal para determinar Cantidad de favoritos obtenidos en

función al número de seguidores que tiene un usuario.

=== Run information === Scheme: weka.classifiers.functions.SimpleLinearRegression Relation: asma30-weka.filters.unsupervised.attribute. Instances: 128 Attributes: 2 count_favorite SEGUIDORES Linear regression on count_favorite

95.22 * count_favorite + 608.69 === Summary === Correlation coefficient 0.3102 Mean absolute error 804.5163 Root mean squared error 1259.9404 Relative absolute error 87.8518 % Root relative squared error 93.941 % Total Number of Instances 128

Elaborado por: David Maldonado

Page 124: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

103

En este caso quiero ver la aplicar la función de regresión lineal para determinar Cantidad de retweet obtenidos en

función al número de favoritos que obtuvo una publicación de un usuario.

=== Run information === Scheme: weka.classifiers.functions.SimpleLinearRegression Relation: asma20-weka.filters.unsupervised. Instances: 128 Attributes: 2 count_favorite count_retweet Linear regression on count_retweet

0.65 * count_retweet + 2.23 === Summary === Correlation coefficient 0.1038 Mean absolute error 3.1302 Root mean squared error 5.2335 Relative absolute error 99.1747 % Root relative squared error 99.4602 % Total Number of Instances 128

Elaborado por: David Maldonado

Page 125: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

104

En este caso quiero ver la aplicar la función de regresión lineal para determinar Cantidad de retweets obtenidos en

función al número de seguidores que tiene un usuario.

=== Run information === Scheme: weka.classifiers.functions.SimpleLinearRegression Relation: asma20-weka.filters.unsupervised.attribute. Instances: 128 Attributes: 2 count_retweet SEGUIDORES Linear regression on SEGUIDORES

0 * SEGUIDORES + 0.16 === Summary === Correlation coefficient 0.4842 Mean absolute error 0.5187 Root mean squared error 0.7386 Relative absolute error 80.3003 % Root relative squared error 87.4933 % Total Number of Instances 128

Elaborado por: David Maldonado

Page 126: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

105

Asociación:

Instances: 128 Attributes: 10 name_user count_favorite count_retweet estado_animo UBICACION IDIOMA CONT_PUBLICACION CONT_FAVORITOS CONT_AMIGOS SEGUIDORES Minimum support: 0.3 (38 instances) Minimum metric <confidence>: 0.9 Number of cycles performed: 14 Generated sets of large itemsets: Size of set of large itemsets L(1): 5 Size of set of large itemsets L(2): 7 Size of set of large itemsets L(3): 3

Elaborado por: David Maldonado

Best rules found: 1. UBICACION=Guayaquil 46 ==> IDIOMA=es 46 <conf:(1)> lift:(1.07) lev:(0.02) [2] conv:(2.88) 2. count_retweet='(-inf-0.5]' UBICACION=Guayaquil 42 ==> IDIOMA=es 42 <conf:(1)> lift:(1.07) lev:(0.02) [2] conv:(2.63) 3. count_retweet='(-inf-0.5]' estado_animo=Mal 54 ==> IDIOMA=es 52 <conf:(0.96)> lift:(1.03) lev:(0.01) [1] conv:(1.13) 4. count_favorite='(-inf-0.5]' count_retweet='(-inf-0.5]' 48 ==> IDIOMA=es 46 <conf:(0.96)> lift:(1.02) lev:(0.01) [1] conv:(1) 5. estado_animo=Mal 72 ==> IDIOMA=es 68 <conf:(0.94)> lift:(1.01) lev:(0) [0] conv:(0.9) 6. count_retweet='(-inf-0.5]' 98 ==> IDIOMA=es 92 <conf:(0.94)> lift:(1) lev:(0) [0] conv:(0.88) 7. count_favorite='(-inf-0.5]' 60 ==> IDIOMA=es 56 <conf:(0.93)> lift:(1) lev:(-0) [0] conv:(0.75) 8. UBICACION=Guayaquil 46 ==> count_retweet='(-inf-0.5]' 42 <conf:(0.91)> lift:(1.19) lev:(0.05) [6] conv:(2.16) 9. UBICACION=Guayaquil IDIOMA=es 46 ==> count_retweet='(-inf-0.5]' 42 <conf:(0.91)> lift:(1.19) lev:(0.05) [6] conv:(2.16) 10. UBICACION=Guayaquil 46 ==> count_retweet='(-inf-0.5]' IDIOMA=es 42 <conf:(0.91)> lift:(1.27) lev:(0.07) [8] conv:(2.59)

Page 127: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

106

ANÁLISIS DE FACTIBILIDAD

FACTIBILIDAD OPERACIONAL

La propuesta tecnológica planteada en este proyecto de titulación es

factible debido a que se desarrollará una aplicación Web en PHP junto

con el API de Twiter, su uso será sencillo pero útil y permitirá la extracción

de las publicaciones referentes a enfermedades como diabetes y asma.

Para el posterior tratamiento, carga y análisis de la información se utilizará

herramientas ya existentes en el mercado tales como MonkeyLearn y

Weka, ambas se utilizaran en su versión gratuita. Weka además provee

de una interfaz amigable que hace que su uso y aprendizaje no tome

mucho tiempo

FACTIBILIDAD TÉCNICA

Para el desarrollo de la propuesta tecnológica se utilizaron las

siguientes herramientas:

Hardware

• Laptop core i5 disco duro 500 gb, 4 de RAM.

Software:

• Xamp server 3.2.2

• El API de Twitter 1.1

• MonkeyLearn la versión gratuita

• Weka 3.8.1

FACTIBILIDAD LEGAL

Este proyecto es factible legalmente ya que no infringe ninguna de las

leyes que se expresan en la Ley de la Constitución de la Republica, así

mismo se respeta la propiedad intelectual, dado que la información

Page 128: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

107

obtenida se ha basado en fuentes científicas legítimas, que se encuentran

debidamente citadas mediante la descripción de sus autores, editoriales,

direcciones URL, etc.

Adicionalmente No se incurre en infracciones de licencias de usabilidad

sobre algún hardware o software utilizado en todo el proyecto.

FACTIBILIDAD ECONÓMICA

El proyecto fue autosustentable debido a que para el desarrollo del

mismo la versión de software que se utilizó fue de licencia libre y con

referencia al hardware se utilizó el servidor proporcionado por el equipo

de infraestructura.

ETAPAS DE METODOLOGÍA DEL PROYECTO

Para el desarrollo del presente proyecto se aplicó la metodología ágiles

en los marcos de desarrollo de SCRUM en la ingeniería de software que

describe un conjunto de prácticas y roles, adoptando una estrategia de

desarrollo incremental para así definir el proceso de desarrollo que se

ejecutará durante el proyecto.

Roles SCRUM

• Product Owner: Conoce el negocio a detalle, es la persona

responsable del Proyecto.

• SCRUM Master: Lidera el proyecto, guía al equipo en el cumplimiento

de los procesos y reglas de la metodología

• SCRUM Team: Personas encargadas de desarrollar el proyecto

(equipo de desarrollo, certificadores, etc)

Page 129: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

108

Product Owner SCRUM Master SCRUM Team

Aníbal Arévalo Aníbal Arévalo Luis cadena

David Maldonado

Elaboración: David Maldonado,

Fuente: Datos de investigación.

Ciclos de la Metodología Scrum

Sprint

El proyecto se dividió en 7 ciclos, llamados Sprint. A continuación el

detalle de cada uno:

Sprint 1

Objetivo: Análisis de las funcionalidades del Api de Twitter.

Actividades:

• Investigación de las Apis, se encontró que tienen 3:

o Streaming API's

o Search API's

o REST APIs

• Implementación de REST API's que se ajusta con las necesidades del

proyecto.

• Registro en Twitter para hacer uso de la Api

• Generación de código de usuario y autenticación.

Cuadro 7. Roles SCRUM

Page 130: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

109

Sprint 2

Objetivo: Análisis del Manual del API de Twitter para trabajarlo con PHP.

Actividades:

• Se revisó la documentación del api REST API's para la

programación.

Sprint 3

Objetivo: Revisión de la estructura de la información que trae el Api de

Twitter.

Actividades:

• Validación de la data a nivel de campos, que retorna el api de twitter

• Revisión del json con la información que trae el api de Twitter

Sprint 4

Objetivo: Validación de la información se guarde correctamente en la

base de datos.

Actividades:

• Macheo(unión) de la información que devuelve el Api de twitter contra

las estructuras creadas por BD, utilizando los procedimientos

almacenados que facilitó BD: Guardar y actualizar data

• Cambio del código de php para realizar el insert utilizando los store

procedure facilitados por base de datos

• Validación para poder guardar las modificaciones

• Optimización del código que realiza la minería de datos del api de

twitter. Realice testing de la funcionalidad del proceso de minería

Sprint 5

Objetivo: Definición de la estructura de Data Mining a red social twitter.

Actividades:

Page 131: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

110

• Nos facilitaron un enlace de las 10 mejores cuentas en Twitter que

hablan sobre el asma. Cada de una de estas cuentas tienen arriba de

1000 seguidores que hablan del ASMA

• http://www.asmanet.es/blog/22/los-10-mejores-twitter-asma.

• Capturar al menos 400 twits, Opiniones positivas, negativas y

neutrales.

• Se analizó con Anibal el nuevo enfoque con el que se va a manejar la

parte de twitter el cual se implementara en su respectivo sprint

• Se realizó una reunión para poder resolver los requerimientos sobre la

polaridad de sentimientos.

o Extracción de caracteres especiales.

o Este módulo se cubrirá a nivel de programación al momento

que se realiza la extracción de la data se validaran los

caracteres especiales y se los eliminara.

o Normalización hashtag.

• Este módulo se cubrirá a nivel de programación una vez realizada la

extracción de los caracteres especiales se realizara la normalización

del hashtag, se validara el camelcase y se separara cada palabra

como se lo requiere.

• Las abreviaturas.

• Este módulo se cubrirá con una función que se basa a un catálogo

que se crearan a nivel de Base de datos y nos ayudara a validar este

módulo, teniendo en cuenta que la función recibe como parámetro la

abreviatura y devuelve la palabra o frase correcta como se lo

requiere.

• Corrección de errores de ortografía.

• Este módulo se cubrirá mediante una herramienta que consume un

diccionario de datos (Hunspell) y que se utiliza o llama con un código

PHP con el que se están realizando pruebas de funcionamiento, este

tema si requiere un tiempo de 12 a 16 debido a que es nuevo.

Page 132: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

111

Sprint 6

Objetivo: Desarrollo de la estructura de Data Mining para depurar la

información extraída de Twitter.

Actividades:

• Macheo(unión) de la información que devuelve el Api de Twitter

contra las estructuras creadas por BD, utilizando los

procedimientos almacenados que facilitó BD: Guardar y actualizar

data

Sprint 7

Objetivo: Diseño de los gráficos de Datamining.

Actividades:

• Utilización de la herramienta weka para el desarrollo de las

graficas

Ilustración 23. Análisis del proceso.

Page 133: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

112

ENTREGABLES DEL PROYECTO

A continuación se detalla el entregable del proyecto:

• Programa fuente que contiene la programación para la

extracción de las publicaciones de Twitter.

CRITERIOS DE ACEPTACIÓN DEL PRODUCTO

Para el presente proyecto se ha hecho uso de una serie de

herramientas y tecnologías las cuales con su correcto funcionamiento nos

permite obtener los resultados esperados para su respectivo análisis, para

probar que se cumple con la estructura necesaria para el correcto

funcionamiento de la aplicación se detalla el siguiente cuadro. (Rafael

Filio PMP, s.f.)]

REQUERIMIENTOS CRITERIOS DE ACEPTACIÓN

Extracción de las publicaciones

sobre asma y diabetes en Twitter,

de los seguidores de las cuentas

principales Facilitada por el área

de procesos

El servidor donde se encuentre

instalada la aplicación debe tener

acceso a internet las 24 horas del

día

Uso de la herramienta Weka que

contiene una colección de

herramientas de visualización y

algoritmos para análisis de datos y

modelado predictivo, unidos a una

interfaz gráfica de usuario para

acceder fácilmente a sus

funcionalidades

Se presentaran gráficos de:

árboles de decisiones

Clúster

Regresiones

Sobre asma y diabetes

Cuadro 8. Requerimientos y Criterios de Aceptación.

Page 134: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

113

Extracción de los datos(ETL)

Uso del API de Twitter Registro como desarrollador para

utilizar el API de Twitter

Eliminación de caracteres

especiales

Uso de funciones para presentar

el texto sin caracteres extraños

Palabras CamelCase Presentación de los hashtag de

manera separada

Abreviaturas

Corrección de modismos y

presentación de palabras

completas

Ortografía Presentación de palabras sin

faltas ortográficas

Base de dato Almacenamiento de datos limpios

para su posterior análisis

Monitoreo de usuarios y

publicaciones

Se ejecuta dos Jobs diariamente:

Uno se encarga de censar las

publicaciones y el otro de censar

los usuarios

Presentación de Gráficos

Uso de Weka

El usuario con conocimientos

técnicos podrá realizar

presentación e interpretación de

los resultados obtenidos

Podrá analizar la información de

las personas que padecen de

asma y/o diabetes mediante los

gráficos

De árbol de decisiones,

regresiones y clúster

Page 135: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

114

CONCLUSIONES

Después de haber realizado el análisis, el diseño y la implementación de

la propuesta obtenemos las siguientes conclusiones:

• Después de realizar una búsqueda y análisis de herramientas que

permitan realizar la recopilación de Tweets se eligió Rest API, debido

a la importancia de obtener conocimiento en “tiempo real” que

permitan predecir patrones en las publicaciones realizadas en Twitter

relacionadas al asma y a la diabetes, se consideró que este API de

Twitter es la herramienta más adecuada.

• El uso de la herramienta MonkeyLearn permitió analizar los tweets

registrados con información real de pacientes con patologías como el

asma y la diabetes; mediante el análisis de estados de ánimos

ejecutados sobre sus publicaciones; estas se clasificaron como

Increíble, Normal y Mal.

• El uso de la herramienta Weka permitió realizar el análisis de la

información almacenada en la base de datos MySql luego de haber

realizado la Extracción, transformación y carga (ETL) que previamente

fue depurada y pasada a un archivo CSV.

• Los resultados de los análisis de minería de datos se presentaron en

reportes, con la interpretación de gráficos para a futuro contribuir con

la elaboración de planes de acción, correctivas y de mejoras de la

calidad de los servicios ofrecidos por los profesionales de la salud con

la ayuda de la herramienta Healt –Monitor UG.

Page 136: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

115

RECOMENDACIONES

Luego de haber implementado el proyecto, a continuación se detallan las

recomendaciones:

• Mantener actualizada las herramientas tecnológicas que permiten

realizar la extracción y análisis de datos a las versiones posteriores

siguiendo las sugerencias recomendadas de los administradores de

twitter sobre su API.

• Utilizar la versión de paga MonkeyLearn ya que posee un ilimitado

número de consulta y generaría resultados mensuales más exactos en

su análisis, y permitirá agregar más cuentas fan page de Twitter para

abarcar un mayor número de usuarios a analizar a nivel nacional.

• Implementar en una nueva fase del proyecto una funcionalidad que

genere y descargue automáticamente en un repositorio el archivo .csv

que se genera luego de la extracción de los datos, y sobre el cual

posteriormente se realizara el análisis de la información obtenida de la

minería de datos.

• Investigar nuevas alternativas de reportaría de minería de datos que

den nuevas opciones para toma de decisiones, proporcionando así

nuevas opciones de análisis.

Page 137: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

116

BIBLIOGRAFÍA

Agencia Pública de Noticias del Ecuador y Sudamérica. (07 de Mayo de

2013). andes. Recuperado el 21 de 07 de 2017, de

http://www.andes.info.ec/es/sociedad/este-martes-conmemora-dia-

mundial-asma.html

American Diabetes Association. (2015). Sintomas de la Diabetes.

Obtenido de http://www.diabetes.org/es/informacion-basica-de-la-

diabetes/sintomas-de-la-diabetes/

Arturo, G. O., & Alfonso, P. (2016). Revisión de los principales modelos

para aplicar técnicas de Minería de Procesos (Review of models for

applying process mining techniques).

Bernardo, M. (2016). Identificación de técnicas de minería de datos para

apoyar la toma de decisiones en la solución de problemas empresariales.

Revista Ontare, 33-51.

Campos, C., & Leticia, R. (2015). El estudio de los hábitos de conexión en

redes sociales virtuales, por medio de la minería de datos. Innovación

educativa (México, DF), 99-114.

Fernando, S., & Sonia, S. (2013). Evolución y tendencias actuales de los

web crawlers. Ingeniería, 19-35.

Hernández, H. J. (2014). Aplicación de minería de datos a información de

pacientes prediabéticos. Congreso Virtual sobre Cuerpos Académicos y

Grupos de Investigación en Iberoamérica.

Instituto Nacional de Estadísticas y Censos. (08 de Noviembre de 2016).

Instituto Nacional de Estadísticas y Censos. Recuperado el 21 de 07 de

2017, de http://www.ecuadorencifras.gob.ec/el-numero-de-medicos-en-

ecuador-crece-1351-en-10-anos/

ITelligent Information Technologies. (5 de diciembre de 2015). Minería

web: de contenidos, de estructuras y de usos. Obtenido de ITelligent

Information Technologies: http://www.itelligent.es/es/mineria-web-de-

contenidos-estructuras-usos/

Page 138: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

117

ITelligent Information Technologies. (8 de abril de 2016). 10 ventajas de la

minería de datos. Obtenido de ITelligent Information Technologies:

http://www.itelligent.es/es/10-ventajas-la-mineria-web/

MedlinePlus. (2017). Diabetes. Obtenido de

https://medlineplus.gov/spanish/diabetes.html

OPS/OMS. (s.f.). La diabetes, un problema prioritario de salud pública en

el Ecuador y la región de las Américas. Obtenido de

http://www.paho.org/ecu/index.php?option=com_content&view=article&id=

1400:la-diabetes-un-problema-prioritario-de-salud-publica-en-el-ecuador-

y-la-region-de-las-americas&Itemid=360

Orallo, H. R. (2014). Introducción a la Minería de Datos. . Pearson

Prentice Hall.

Organización Mundial de la Salud. (2014). OPS/OMS. Recuperado el 21

de 07 de 2017, de

http://www.paho.org/ecu/index.php?option=com_content&view=article&id=

1400:la-diabetes-un-problema-prioritario-de-salud-publica-en-el-ecuador-

y-la-region-de-las-americas&Itemid=360

Ponce, J. P. (22 de Febrero de 2017). Ranking Redes Sociales, Sitios

Web y Aplicaciones Móviles Ecuador 2017. Obtenido de Formación

Gerencial: http://blog.formaciongerencial.com/ranking-redes-sociales-

sitios-web-aplicaciones-moviles-ecuador-2017/

Rafael Filio PMP, C. S. (s.f.). ¿Cómo redactar los Criterios de Aceptación?

Obtenido de https://es.linkedin.com/pulse/c%C3%B3mo-redactar-los-

criterios-de-aceptaci%C3%B3n-pmp-cbap-smc-ssgb

Rodríguez, A. E. (2015). Cómo usar la API de Twitter en PHP. Obtenido

de https://geekytheory.com/como-usar-la-api-de-twitter-en-php

Rohit, & Arora. (2012). Comparative analysis of classification algorithms

on different datasets using WEKA. International Journal of Computer

Applications.

Sánchez, E. A., & Inzunza, S. (2015). Probabilidad y Estadística 1. Grupo

Editorial Patria.

Page 139: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

118

ANEXOS

Page 140: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

119

UNIVERSIDAD DE GUAYAQUIL

FACULTAD DE CIENCIAS MATEMATICAS Y FISICAS

CARRERA DE INGENIERIA EN SISTEMAS

COMPUTACIONALES

ANEXO 1

Infraestructura en la nube

AUTOR:

David Roberto Maldonado Plua

TUTOR:

Ing. Fabricio Medina, MDPR

GUAYAQUIL – ECUADOR

2017

Page 141: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

120

Page 142: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

121

UNIVERSIDAD DE GUAYAQUIL

FACULTAD DE CIENCIAS MATEMATICAS Y FISICAS

CARRERA DE INGENIERIA EN SISTEMAS

COMPUTACIONALES

ANEXO 2

Modelo E-R de la Base de Datos

AUTOR:

David Roberto Maldonado Plua

TUTOR:

Ing. Fabricio Medina MDPR

GUAYAQUIL – ECUADOR

2017

Page 143: UNIVERSIDAD DE GUAYAQUIL FACULTAD DE …repositorio.ug.edu.ec/bitstream/redug/24123/1/B-CISC-PTG...MALDONADO PLUA, Alumno no titulado de la Carrera de Ingeniería en Sistemas Computacionales,

122