UNIDAD DIDÁCTICA10 CASO DE ESTUDIO: …dspace.cedia.org.ec/bitstream/123456789/965/15/caso_e...te...

www.udima.es 261

OBJETIVOS DE LA UNIDAD

1. Introducción

2. Dominio médico de aplicación: estabilometría

2.1. Unilateral Stance (UNI) 2.2. RhythmicWeightShift(RWS) 2.3. Limits of Stability (LOS)

3. Marco para el descubrimiento de conocimiento en el entorno médico

3.1. Definicióndeeventosenseriestemporales 3.2. Comparación entre dos series temporales 3.3. Generación de modelos de referencia de series temporales 3.4. Sistema implementado

4. Conclusiones

CONCEPTOS BÁSICOS A RETENER

ACTIVIDADES DE AUTOCOMPROBACIÓN

ACTIVIDADES DE REPASO

EJERCICIOS VOLUNTARIOS

REFERENCIAS BIBLIOGRÁFICAS

UNIDADDIDÁCTICA

10CASO DE ESTUDIO:APLICACIÓN DE LA MINERÍA DE DATOS EN EL DOMINIO DE LA MEDICINA

Sumario │

"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".

MINERÍA DE DATOS

262 www.udima.es

OBJETIVOS DE LA UNIDAD

A lo largo de la asignatura, se han descrito los fundamentos de la minería de datos y se han estudiado diferentes técnicas y algoritmos para la extracción de conocimiento útil a partir de grandes volúmenes de datos.

En esta Unidad didáctica, se estudiará cómo aplicar las técnicas de minería de datos a un proyecto real.

El objetivo principal de esta Unidad es que el alumno adquiera una panorámica ge-neral de cómo es posible resolver problemas reales de gran magnitud utilizando las téc-nicas de minería de datos estudiadas a lo largo de la asignatura.

Las principales competencias que debe adquirir el alumno, tras la lectura y estudio de esta Unidad didáctica son las siguientes:

• Conocerunaaplicaciónparticulardelastécnicasdedataminingparalare-solución de un problema real de análisis de datos.

• Tomarconcienciadelasdificultadesqueentrañalarealizacióndeunpro-yecto real de data mining.

│ Sumario


Caso de estudio: aplicación deJ. A. Lara Torralbo la minería de datos en el dominio de la medicina

www.udima.es 263

1. INTRODUCCIÓN

A lo largo de esta asignatura, se han descrito los fundamentos de la minería de datos, y se han explicado algunas de las técnicas y algoritmos más representativos dentro de esta disciplina de la informática.

Entodomomento,sehaintentadoejemplificarlosalgoritmosdescritoscondatossimilares a los que se pueden encontrar en el mundo real. Sin embargo, dichos ejemplos se han presentado de forma aislada e independiente.

El objetivo de esta Unidad didáctica es describir una propuesta de aplicación de data mining sobre datos reales para resolver un problema real. En la Unidad 1 se men-cionaron algunos de los dominios típicos en los que la minería de datos aporta grandes soluciones. Uno de ellos es el dominio de la medicina.

En esta Unidad, se describirá un marco de trabajo, propuesto en Lara (2011), que permite extraer conocimiento a partir de grandes volúmenes de datos generados por un dispositivo denominado posturógrafo. Se trata de una herramienta utilizada dentro del área médica conocida como estabilometría, que estudia el equilibrio y el control pos-tural de los seres humanos.

El marco de trabajo en cuestión será descrito en el epígrafe 3. Previo a ello, el dominio de aplicabilidad de dicho marco, la estabilometría, será presentado en el epígrafe 2.

2. DOMINIO MÉDICO DE APLICACIÓN: ESTABILOMETRÍA

La estabilometría es una rama de la medicina que se encarga de estudiar el equi-librio de los seres humanos. El equilibrio se mide por medio de un dispositivo, llamado posturógrafo, que se utiliza para medir las funcionalidades relacionadas con el equilibrio. Para ello, cada paciente se sitúa sobre una plataforma para realizar una serie de tests, tal ycomoilustralafigura1.

Sumario │


MINERÍA DE DATOS

264 www.udima.es

La plataforma en cuestión posee cuatro sensores, uno en cada una de las cuatro esquinas: la esquina fron-tal-derecha (FR), la frontal-izquierda (FL), la trasera-derecha (RR) y la tra-sera-izquierda (RL). Mientras el pa-ciente está realizando un test, cada uno de los sensores recoge un dato cada 10 milisegundos. Este dato es la intensidad de presión que el pacien-te está ejerciendo sobre dicho sensor. Portanto,alfinalizaruntest,setieneuna serie temporal.

Entre los tests posturográfi-cos más destacados se encuentran el Unilateral Stance (UNI), Rhythmic Weight Shift (RWS) y Limits of Stability (LOS). En los tres tests se generan series tem-porales en las que pueden aparecer eventos, es decir, zonas de especial interés para los expertos en el dominio. Dichos eventos están caracterizados, según el test, por una serie de atributos. En los siguientes epígrafes, se detallarán los tres tests citados. En concre-to, se describirán los eventos que pueden aparecer en las series temporales de cada test y los atributos que se usan para caracterizar dichos eventos.

2.1. UNILATERAL STANCE (UNI)

Este test pretende medir la ca-pacidad que tiene el paciente para mantener el equilibrio, apoyando una pierna y manteniendo la otra elevada, tanto con los ojos abiertos como ce-rrados,talycomoreflejalafigura2.

Para este test, lo ideal sería que el paciente no se balanceara nunca, sino que se mantuviera estático durante todo el test. Los eventos interesantes de este

Figura 1. Persona realizando un test sobre un pos-turógrafo

Fuente:tomadadehttp://www.onbalance.com.

Figura 2. Paciente realizando el test UNI

Fuente:tomadadehttp://www.onbalance.com.

│ Sumario



www.udima.es 265

test se localizan en aquellos momentos en los que el paciente pierde el equilibrio y apoya la pierna que ha de tener levantada sobre la plataforma. Este tipo de evento se conoce en el dominio como caída. Al producirse una caída, los sensores correspondientes a la pierna quehademantenerseelevada,recogeránelaumentodepresión.Enlafigura3apareceunejemplodeseriedeltestUNI.Lascurvasqueaparecenenlapartesuperiordelafigurasecorresponden con los valores registrados por los sensores RR y RF, es decir, los sensores de la pierna derecha, que se mantiene apoyada. Las curvas que aparecen en la parte inferior delafigurasecorrespondenconlosvaloresregistradosporlossensoresLRyLF,esdecir,lossensoresdelapiernaizquierda,quehademantenerseelevada.Enestafigura,apare-cen resaltados los picos de presión que se generan cuando se produce un evento de caída.

Figura 3. Serie temporal del test UNI, en la que resaltan dos eventos de caída

Fuente: tomada de Lara (2011).

Los eventos de este test, conocidos como caídas, vienen caracterizados por los si-guientes atributos:

• Duración.

• Intensidad.

Sumario │


MINERÍA DE DATOS

266 www.udima.es

• Momentodeltestenqueseproducen.

• Zonahacialaquesedirigeelpacientecuandopierdeelequilibrioycae.

2.2. RHYTHMIC WEIGHT SHIFT (RWS)

Este test tiene como objetivo medir la capacidad que tiene un paciente para desplazar rítmicamente su centro de gravedad de manera horizontal (de izquierda a derecha y de de-recha a izquierda) y de manera vertical (de delante hacia atrás y de atrás hacia adelante).

En el caso del desplazamiento horizontal, por ejemplo, el hecho de que el paciente se desplace continuamente de izquierda a derecha y luego de derecha a izquierda, hace que las cuatro series temporales (LF, LR, RR y RF) vayan por parejas (las dos series temporales correspondientes a la pierna izquierda van juntas, así como las dos series tem-porales correspondientes a la pierna derecha). Por otra parte, al realizar dicho desplaza-miento en repetidas ocasiones, la serie temporal resultante tiene apariencia sinusoidal. Ambascircunstanciassepuedenapreciarclaramenteenlafigura4.

En este caso, los eventos interesantes para el experto son cada una de las transicio-nes que realiza el paciente, tanto hacia un lado, como hacia otro. Lo deseable es que di-chas transiciones sean lo más armónicas posibles, de tal forma, que la curva de las series temporales se parezca lo más posible a una curva sinusoidal, que representaría el caso idealdecontroldireccional.Cadaeventoestácaracterizadoporlossiguientesatributos:

• Duración.

• Amplitud.

• Suavidad.

• Gradodeajustealacurvasinusoidalideal.

Enlafigura4apareceresaltadouneventodetransiciónderecha-izquierda.Sesabeque es este tipo de evento porque al inicio del mismo, la presión sobre los sensores co-rrespondientes a la pierna derecha (RF y RR) es muy grande, mientras que la de los sen-sorescorrespondientesalapiernaizquierda(LFyLR)esmuypequeña.Amedidaqueel paciente va desplazando su centro de gravedad hacia la izquierda, la presión sobre los sensores LF y LR va aumentando mientras que la presión sobre los sensores RF y RR disminuye. Al terminar ese evento, comienza uno nuevo, pero en este caso de tran-siciónizquierda-derecha.Así,sevanalternandolosdostiposdeeventos,hastaelfinalde la serie temporal.

│ Sumario



www.udima.es 267

Figura 4. Serie temporal del test RWS, con un evento resaltado


120

100

80

60

40

20

0 0 100 200 300 400 500

LF LR RF RR

2.3. LIMITS OF STABILITY (LOS)

Este test tiene una duración de 10 segundos, durante los cuales el paciente ha de intentar desplazar su centro de gravedad hacia una posición determinada en el espacio (llamadaobjetivo)ymantenerloallíhastaelfinaldeltest.

En este caso, lo deseable es que solo haya movimientos de acercamiento al objeti-vo (movimientos positivos) y, una vez alcanzado este, el centro de gravedad del sujeto no se desplace. Sin embargo, en la realidad el paciente vacila y realiza movimientos de alejamiento del objetivo (movimientos negativos). Dichos movimientos positivos y ne-gativos son los eventos interesantes para el experto en este test.

Enlafigura5apareceunejemplodetrayectoriaseguidaporunpacientedurantelamodalidad derecha del test LOS. En este caso, el objetivo se sitúa a la derecha del pa-ciente, que ha de desplazar su centro de gravedad hasta alcanzarlo. En color verde se destacan los movimientos positivos mientras que los negativos aparecen resaltados en color rojo. En este caso concreto, hay un primer movimiento que parte del origen y se acerca al objetivo, un segundo movimiento en el que el paciente se aleja del mismo y un tercer movimiento, es este caso positivo, en el que el paciente se acerca nuevamente al objetivo hasta alcanzarlo.

Sumario │


MINERÍA DE DATOS

268 www.udima.es

Figura 5. Ejemplo de trayectoria seguida por un paciente durante el test LOS


Para este test, los eventos vienen caracterizados por los siguientes atributos:

• Duración.

• Momentodeltestenqueseproducen.

• Espaciorecorridoporelcentrodegravedaddelsujeto.

3. MARCO PARA EL DESCUBRIMIENTO DE CONOCIMIENTO EN EL ENTORNO MÉDICO

Los datos estabilométricos pueden ser de gran utilidad en el diagnóstico y tratamien-to de enfermedades relacionadas con el equilibrio y el control postural del ser humano. Una de esas dolencias es, por ejemplo, la enfermedad de Parkinson.

Comosehavistoenelepígrafeanterior,laestabilometríaesunadisciplinaenlaque los pacientes realizan una serie de tests, cada uno de los cuales da como resultado una serie temporal. Además, dichas series temporales poseen la particularidad de que no son interesantes en su totalidad, sino solo cuando recogen la ocurrencia de un deter-minado evento de interés.

El marco de descubrimiento de cocimiento que se describe en esta Unidad didác-tica representa un importante paso en el área de la estabilometría, ya que permite resol-ver importantes problemas relacionados con el análisis de datos estabilométricos. En concreto, algunos de los problemas que aborda el marco en cuestión son los siguientes:

│ Sumario



www.udima.es 269

• Identificación automática de los eventos presentes en las series tempo-rales estabilométricas. En el epígrafe 3.1, se describirá el mecanismo que incluyeenelmarcoparaidentificareventos.

• Comparación entre dos series temporales estabilométricas, con el ob-jetivo de obtener una medida que indica cómo de parecidas son esas dos series temporales. Para ello, el marco descrito propone un método que se detalla en el epígrafe 3.2.

• Creación de modelos de referencia a partir de un conjunto de series tem-porales. Dicho modelo será un arquetipo de serie temporal que representa a las series temporales del conjunto en cuestión. El epígrafe 3.3, se dedica a explicar el método de creación de modelos de referencia de series tempo-rales que incluye el marco estudiado.

La integración de esas y otras funcionalidades da lugar a un sistema completo de extracción de conocimiento a partir de datos estabilométricos, cuyos detalles y resulta-dosmásinteresantessemostraránenelepígrafe3.4.

3.1. DEFINICIÓN DE EVENTOS EN SERIES TEMPORALES

Elmecanismoqueincluyeelmarcoencuestiónparalaidentificacióndeeven-tos en series temporales se basa en la propuesta de un lenguaje que utiliza conceptos básicos de la teoría de conjuntos, la lógica, el álgebra y la estadística descriptiva. En ellenguajeexistenunaseriedeelementospredefinidos,quepotencialmentepuedenserútilesenlamayoríadelosdominios,yotrosquedeberándefinirseparacadado-minio concreto.

Paradefinireventos,elusuariodellenguajedeberáestablecer,enesteorden,lossiguientes elementos:

• Elementos necesarios para poder definir los eventos de un determi-nado dominio. Comoocurreconcualquierlenguajedealtonivel,porejemplo los lenguajes de programación, el lenguaje cuenta con operadores (aritméticos, relacionales y de conjunto) y con otros elementos básicos comolaspalabrasreservadas,losidentificadores,lasconstantesnuméri-cas y lógicas o funciones aritméticas básicas. Además de los elementos citados,enellenguajededefinicióndeeventossehanconcebidootros

Sumario │


MINERÍA DE DATOS

270 www.udima.es

elementosbásicospredefinidos,quepuedenserutilizadosencualquierdominio, como son las propias series temporales, las medidas estadísti-cas calculadas sobre dichas series temporales (media, moda o mediana) yconjuntosdedatospredefinidos(como,porejemplo,elconjuntodetodos los máximos de una serie temporal), que suelen ser interesantes en cualquier dominio.

• Conjuntos de puntos interesantes en las series temporales. En cada do-minio, es necesario establecer una serie de conjuntos de puntos de interés, quesonlabasedeladefinicióndeeventos.Paradefinirdichosconjuntos,el lenguaje permite hacer uso de cualquiera de los elementos básicos del mismo.Lasintaxisparaladefinicióndeestosconjuntosdepuntoseslasi-guiente:

set name {puntos in Conjunto_Anterior that Condición};

Es decir, se indica el nombre del conjunto, que está compuesto por aquellos puntosdeunconjuntodefinidoanteriormentequecumpleunadeterminadacondición.

• Eventos. Paradefiniruntipodeevento,sepuedenutilizarlosconjuntosdepuntos particulares de cada dominio, y los elementos básicos del lenguaje.

Uneventoseconcibecomounpuntodeinicio,unpuntodefinyunpuntosingular que se encuentra entre ambos. Para que los tres puntos citados for-men un evento han de cumplir una determinada condición. La sintaxis para definireventoseslasiguiente:

events name { PS in Cj, start in Cj’, end in Cj’’ | Condición };

Esdecir,enladefinicióndeeventosseindicaelnombredeltipodeeventoy,acontinuación, el punto singular (PS), el punto de comienzo (start)yelpuntofinaldelmismo (end).

Para que el estudiante se haga una idea de cómo se podría aplicar el lenguaje en la identificacióndeloseventosestabilométricosasociadosaltestUNI,sepresentaaconti-nuaciónunaposibledefiniciónformaldeestosutilizandoellenguaje:

│ Sumario



www.udima.es 271

ts lf; ts lr; ts rf; ts rr;

stat modlf mode(lf); stat modlr mode(lr);

basicset maxlf max(lf); basicset maxlr max(lr);

basicset minrr min(rr); basicset minrf min(rf);

basicset tslf timestamp(lf);

set cand1 {

x in tslf that (x in maxlr)&& (near(x in maxlf))&& (near(x in minrf)) && (near(x in minrr)) };

set cand2 { y in cand1

that muchGreater(lf(y).value + lr(y).value, modlf + modlr)};

set intersec { z in tslf that lf(z).value == modlf };

events caidas {

pico in cand2, start in intersec, end in intersec

that (icl(start,pico)) && (icr(pico,end)) };

3.2. COMPARACIÓN ENTRE DOS SERIES TEMPORALES

La comparación entre dos series temporales es un problema consistente en encon-trar una función Similaridad que recibe dos series temporales A y B y devuelve un valor de similaridad en el intervalo [0,1], donde 0 indica que las dos series son completamen-te diferentes y el valor 1 denota que las dos series son idénticas:

Similaridad:STA,STB→[0,1] (1)

Para determinar dicha similaridad, se intenta buscar eventos que se producen en ambas series a la vez. La similaridad entre las dos series a comparar será tanto más cer-cana a 1 cuanto mayor número de eventos tengan en común.

Para determinar si un evento de una serie temporal aparece en la otra, es necesario caracterizarlo mediante un vector de atributos y compararlo con el resto de eventos de la otra serie. Para agilizar este proceso, se hace un clustering de todos los eventos pre-sentes en ambas series temporales. Las técnicas de clustering intentan agrupar, dentro de un mismo cluster a elementos similares. Por tanto, si dos eventos pertenecen al mismo

Sumario │


MINERÍA DE DATOS

272 www.udima.es

clustersonsimilares.Elobjetivofinalesencontrareventosqueseencuentrandentrodelmismo cluster y son de series temporales diferentes.

Por tanto, el algoritmo para extraer eventos comunes a dos series temporales A y B es el siguiente:

1. Extraer todos los eventos Ej de ambas series (eventos que aparecen en A o en B) y caracterizar cada uno mediante un vector de atributos.

2. Realizar un clustering de todos los eventos extraídos en el punto 1. Para ello es necesario calcular la distancia existente entre cada par de vec-tores de los explicados en el punto 1 del algoritmo. Se ha optado por utilizar la distancia City-Block, que calcula el sumatorio del valor absoluto de la di-ferencia de cada una de las coordenadas de los dos vectores:

p

dij = ∑ |xik – xjk| (2)k=1

En la fórmula (2), i y j son los vectores a comparar y p es el número de coor-denadas (dimensión).

3. Para cada cluster resultante del paso 2: mientras haya eventos de las dos series que se están comparando, hacer lo siguiente:

3.1. Crear todos los posibles pares de eventos (Ei,Ek) que cumplan que Ei ∈ A y Ek ∈ B.

3.2. Elegir de entre todos los pares, aquel que minimice la expresión distancia (Ei,Ek). La distancia a utilizar es la descrita en la fórmula (2).

(Con ello se consigue extraer los dos eventos que están en el mismo cluster, son de series diferentes y son los más parecidos)

3.3. Eliminar los eventos Ei y Ek del cluster.

3.4. Devolver el par (Ei,Ek) como evento común a ambas series.

Una vez realizado este proceso, se ha conseguido extraer los eventos que están pre-sentes en ambas series. La técnica aquí descrita también propone un mecanismo para, una vez obtenidos dichos eventos comunes, establecer el grado de similaridad entre las dos series temporales que se están comparando. La idea subyacente es la siguiente: la similaridad tendrá un valor más cercano a 1 cuanto mayor sea el número de eventos que las series A y B poseen en común.

│ Sumario



www.udima.es 273

Un evento común, Ci es un par Ci = (Ei,Ek) | Ei ∈ A, Ek ∈ B, obtenido en el punto 3.4delalgoritmoanterior.Formalmente,sedefinelalongituddeuneventocomúnCi de la siguiente forma:

Longitud(Ci) = ∑ longitud(Ei) + longitud(Ek) (3)i,k

En la fórmula (3), longitud(Ei) y longitud(Ek) representan las longitudes de los eventos Ei y Ek,respectivamente.Lalongituddeuneventosedefinecomoelnúmerodeinstantesdetiempoquetranscurrenentreelprincipioyelfinaldelevento.Unavezdescritalafórmuladelalongituddeuneventocomún,esposibledefinirlafórmuladelasimilaridadentrelasdos series temporales A y B. Si E = {Ej, j = 1, …, n} es el conjunto de todos los eventos presentes en A o B (obtenido en el punto 1 del algoritmo) y C = {Ci, i = 1, ..., m} es el conjunto de eventos comunes, presentes en A y B al mismo tiempo, entonces la similaridad entre ambas es la siguiente:

m

∑ longitud(Ci)i=1

Similaridad(A, B) = (4)n

∑ longitud(Ej)j=1

Enlafórmula(4),longitud(Ci) representa la longitud de cada uno de los eventos co-munes a A y B, que se calcula según la fórmula (3); por su parte, longitud(Ej) representa la longitud de todos y cada uno de los eventos presentes en A o en B.

Lafórmula(4)pretenderecogerlasiguienteidea:seintentacompararlacantidadde serie temporal que es común a las dos series temporales (numerador) con la cantidad totaldeserietemporalinteresante(denominador).Cuantosmáseventosencomúnten-gan las series a comparar, la similaridad será más cercana a 1.

En el caso extremo de que no haya eventos en ninguna de las dos series a compa-rar,eldenominadordelafórmula(4)tomaríaelvalorde0.Enestecaso,elalgoritmono puede funcionar ya que las series temporales no son comparables.

A modo de resumen, se puede decir que la técnica consiste en extraer todos los even-tos presentes en A y B y caracterizar cada uno de ellos mediante un vector de atributos. Posteriormente, se calcula la distancia entre cada par de eventos y se realiza un cluste-ring de los mismos. Si un evento de A y otro de B están en el mismo cluster, se tiene un

Sumario │


MINERÍA DE DATOS

274 www.udima.es

.../...

evento común a las dos series. A continuación, se calcula la similaridad entre las series, comparando la suma de las longitudes de los eventos que aparecen en ambas series a la vez con la suma de las longitudes de todos los eventos de A y B.

3.3. GENERACIÓN DE MODELOS DE REFERENCIA DE SERIES TEM-PORALES

El método de generación de modelos de referencia recibe un conjunto de series tem-porales S = {S1, S 2, …, S n}, conteniendo, cada una de ellas, un número determinado de eventos, y genera un modelo Mquerepresentaadichoconjuntodeseriestemporales.Comose verá más adelante, el algoritmo de generación de modelos se encarga de determinar los eventosmáscaracterísticosdelasseriestemporalesydefinir,enbaseaellos,elmodeloM.

Para determinar si un determinado evento de una serie temporal S i aparece tam-bién en el resto de las series temporales, es necesario caracterizarlo mediante un vector de atributos y compararlo con el resto de eventos de las demás series. Para agilizar este proceso, se hace un clustering de todos los eventos presentes en las series temporales. Por tanto, los eventos que pertenecen al mismo cluster, son similares entre sí. El objeti-vo es encontrar aquellos clusters que tengan eventos del mayor número posible de series temporales. Una vez localizados aquellos grupos representativos de eventos similares, se extraen representantes de cada uno de dichos grupos. Estos representantes extraídos formaránpartedelmodelofinal.

De manera más formal, supóngase un conjunto de n series temporales S = {S 1, S 2, …, S n}, tal m es el número típico de eventos que aparecen en las series temporales de S. En ese caso, el algoritmo para generar un modelo M representativo del conjunto S es el que se detallaacontinuación(trasladescripcióndelalgoritmo,sejustificaranlasdecisionesmásrelevantes):

1. Inicialización del modelo. M = Ø.

2. Identificación de eventos. Extraer todos los eventos Ev de las series de S y caracterizar cada uno de ellos mediante un vector de atributos.

3. Determinación del número típico de eventos m. m es el número típico de eventos presente en cada una de las series de S.

│ Sumario



www.udima.es 275

4. Clustering de eventos. Realizar un clustering de todos los eventos extraí-dos en el paso 2. Para ello es necesario calcular la distancia existente entre cada par de eventos.

Repetir m veces los pasos del 5 al 9.

5. Obtención de cluster más representativo. Determinar, de todos los cluster obtenidos en el paso 4, aquel cluster Ck con mayor representatividad. La representatividad de un cluster se mide con la fórmula (5).

#TS(Ck)REP(Ck) = (5)

n

Es decir, la representatividad de un cluster viene dada por el número de series temporales que tienen eventos en dicho cluster, en relación con el número total de series temporales n. Para el cómputo del numerador no se tienen en cuenta aquellos eventos ya estudiados.

6. Extracción del representante del cluster. Extraer como representante del cluster Ck el evento más representativo del mismo, es decir, aquel evento Ec que minimice la distancia al resto de eventos del propio cluster. Sea Aj la serie temporal a la que pertenece el evento Ec.

7. Añadir evento Ec al modelo. M = M ∪ {Ec}.

8. Marcar como estudiado el evento Ec.

9. Determinación de eventos similares. La filosofía del algoritmo se basa en buscar eventos, similares entre sí, que aparezcan en el mayor número po-sible de series temporales. Por ello, al incluir en el modelo un determinado evento y descartarlo para posteriores iteraciones, también debemos descar-tar aquellos eventos similares de las otras series temporales presentes en dicho cluster, tal y como se detalla en los pasos 9.1 y 9.2.

9.1. Para cada serie temporal Ai ≠ Aj, obtener, si existe, aquel even-to Ep ≠ Ec de la serie temporal Ai presente en el cluster Ck, que más se parezca al evento representativo obtenido en el paso 6. El evento Ep será aquel que minimice la distancia al evento repre-sentativo, según la condición expresada en la fórmula (6):

dist(Ec, Ep) = min(dist(Ec,E1)) ∀E1 ∈ Ck (6)

9.2. Marcar como estudiado el evento Ep.

10. Devolver M, como modelo del conjunto S.

.../...

Sumario │


MINERÍA DE DATOS

276 www.udima.es

Para obtener los eventos que forman parte del modelo, se ha realizado un análisis de los clusters más representativos, es decir, aquellos que contienen eventos presentes en muchas de las series temporales. Para ello, se repite mveceselprocesodeidentificarel cluster más representativo, obtener de él un representante, y marcar, como ya usado, tanto el representante obtenido como los eventos similares al mismo de cada serie tem-poral. Es importante realizar varias aclaraciones al algoritmo:

• Alobtenereleventorepresentantedeunclusterrepresentativo,yanosedebe considerar para la siguiente iteración, y se marca como evento ya con-siderado (paso 8).

• Puedeocurrirlacircunstanciadequeunclustercontengavarioseventosdecada serie temporal, en lugar de uno solo. Por esta razón, una vez obtenido un evento representante de un cluster, dicho clus-ter no se descarta para posteriores iteraciones, sino que simplemente se marcan como usados los eventos ya tratados.

El número de eventos que forman parte del modelo es otro aspecto impor-tante. En este caso, se ha optado por tomar la moda (m) del número de even-tos de las series temporales de S. Esta decisión se fundamenta en el hecho de que si las series temporales originales tienen un número típico de eventos m, tiene sentido que el modelo que las re-presente contenga también dicho nú-mero de eventos m. Puede ocurrir la circunstancia de que la distribución del número típico de evento en las series temporales de A no sea unimodal. Esto podría ocurrir sobre todo si el conjunto S está compuesto por pocas series tem-porales. Si la distribución no es uni-modal, se ha optado por tomar el valor entero más cercano a la media.

Figura 6. Esquema general del algoritmo de crea-ción de modelos de referencia a partir de un conjunto de series temporales

S = {S1, S2, …, Sn}

Extraer eventos

Clustering de eventos

Obtener el clustermás significativo

Extraer el representate del cluster e incorporarlo al

modelo

Modelo M

m veces

DEP

END

IEN

TED

EL D

OM

INIO

IND

EPEN

DIE

NTE

DEL

DO

MIN

IO


│ Sumario



www.udima.es 277

Lafigura6ilustra,gráficamente,elprocesollevadoacaboporelalgoritmodescritopara construir el modelo de referencia M a partir del conjunto inicial de series temporales S.

Un último aspecto a comentar acerca de la técnica de generación de modelos de referencia es que, antes de ejecutarse, se aplica un método previo de detección de series temporalesatípicas,quesonfiltradasalahoradeconstruirelmodelo.Dichométodorealiza una segmentación entre series temporales y analiza clusters con series temporales aisladas, que son analizadas para determinar si se trata o no de series temporales atípicas.

3.4. SISTEMA IMPLEMENTADO

Las funcionalidades anteriormente descritas, se han implementado en un sistema que actualmente está siendo utilizado como herramienta de apoyo al diagnóstico de en-fermedades relacionadas con el equilibrio y el control postural.

Entreotrasfuncionalidades,elsistemaencuestiónpermitedefinireventosenseriestemporaleseidentificarlosdeformaautomática.Elsistematambiénpermitecrearyvi-sualizar modelos de referencia de varias series temporales estabilométricas, tal y como semuestraenlafigura7,enlaqueapareceresaltadouneventodeserietemporalqueforma parte de un modelo de referencia. Además, también incluye la funcionalidad para comparar dos series temporales estabilométricas de varios pacientes entre sí, lo que per-mite conocer el grado de similaridad entre ambas.

La funcionalidad de comparación entre dos series temporales no está limitada a la comparaciónentredosseriescorrespondientesadospacientes.Tambiénesposibleapli-carla en la comparación de un modelo de referencia con la serie de un paciente. Proba-blemente sea esta la funcionalidad más potente del marco descrito.

Combinandolacapacidaddegenerarmodelosdereferenciaconlaposibilidaddecompararlos con los datos de un paciente, es posible utilizar el marco como herramien-ta de diagnóstico de enfermedades relacionadas con el equilibrio. Desde su puesta en marcha, el marco se ha aplicado en la creación de modelos de referencia de pacientes con una determinada patología relacionada con el equilibrio. Dichos modelos han sido validados comparando pacientes sanos y enfermos con dicho modelo y con un modelo depacientessanos,obteniéndoseunatasadeaciertoeneldiagnósticodemásdel95%.

Estos resultados son un indicador de la utilidad potencial de la minería de datos en la extracción de conocimiento a partir de datos no convencionales como los generados en el dominio de la estabilometría.

Sumario │


MINERÍA DE DATOS

278 www.udima.es

Figura 7. Captura de pantalla del sistema de KDD para datos estabilométricos

4. CONCLUSIONES

En esta Unidad didáctica, se ha explicado la aplicación de diferentes técnicas de minería de datos en la resolución de un problema real de análisis de datos.

En primer lugar, se ha realizado una breve descripción de la estabilometría, domi-nio de referencia del que se han obtenido los datos a analizar.

Se han descrito las tres exploraciones estabilométricas más interesantes en términos de cantidad de información relevante que generan:

│ Sumario



www.udima.es 279

• UNI.

• RWS.

• LOS.

Para cada uno de los tests anteriores, se han descrito los eventos más interesantes que aparecen en sus series temporales y los atributos que los caracterizan.

Seguidamente, se ha descrito un marco de descubrimiento de conocimiento a partir de datos estabilométricos. Los datos estabilométricos son, en su mayoría, series tempo-rales que contienen eventos. El marco presentado incluye las siguientes funcionalidades:

• Identificaciónautomáticadeeventosenseriestemporales.Paraello,seuti-lizaunlenguajededefinicióndeeventosenseriestemporales.

• Comparaciónentredosseriestemporalesquecontieneneventos.Paraello,se realiza clustering con los eventos de las series temporales. Dichos even-tossonanalizadosparaidentificaraquelloseventosqueaparecenenambasseries.

• Generacióndemodelosdereferenciaapartirdeunconjuntodeseriestem-porales que contienen eventos. Para ello, las series temporales atípicas son filtradasenprimerlugar.Acontinuación,seanalizanloseventosdelasse-riesnoatípicasyseincorporanalmodelofinalaquelloseventosmásrepre-sentativos, es decir, que se encuentran presentes en un mayor número de series temporales.

Por último se han descrito algunos aspectos generales sobre el sistema que imple-menta el marco descrito, y se han comentado algunos de sus posibles usos en el diagnós-tico de dolencias relacionadas con el equilibrio. Se han citado algunos de los resultados obtenidos al aplicar el sistema en cuestión sobre datos reales.

Sumario │


MINERÍA DE DATOS

280 www.udima.es

CONCEPTOS BÁSICOS A RETENER

• Laestabilometría es la rama de la medicina que se encarga del estudio de las enfermedades relacionadas con el equilibrio y el control postural de los seres humanos.

• Dentrodelaestabilometría,paramedirlacapacidaddeequilibriodeunpa-ciente, se utiliza un dispositivo denominado posturógrafo, que consta de una plataforma con sensores que registran la presión ejercida por el paciente.

• Existendiferentesexploracionesestabilométricas,denominadastests. Al-gunos de los más representativos son:

– UNI.

– RWS.

– LOS.

• Lostestsestabilométricosgenerancomoresultadossecuenciasdedatosenforma de series temporales. Las series temporales estabilométricos recogen eventos de interés para los expertos médicos en el área.

• ElmarcodescritoenestaUnidaddidácticaextraeconocimientoapartirdeseries estabilométricas que contienen eventos. En particular, las funciona-lidades que incluye son:

– Identificación de eventos.

– Comparación entre dos series temporales que contienen eventos.

– Generación de modelos de referencia a partir de un conjunto de series temporales que contienen eventos.

• Elmarcodescritohasidodesarrolladoyseencuentraenaplicaciónactual-mente, de forma que constituye una importante herramienta de ayuda al diagnóstico de trastornos relacionados con el equilibrio y el control postural.

│ Sumario



www.udima.es 281

ACTIVIDADES DE AUTOCOMPROBACIÓN

A partir del contenido de la presente Unidad didáctica, se propone la realización de las siguientes actividades de autocomprobación por parte del alumno, como ejercicio general de repaso y asimilación de la información básica proporcionada por el texto.

Enunciado 1

Indicar cuál es el dominio de referencia utilizado en el marco de descubrimiento de conocimiento descrito en esta unidad:

a) Cardiología

b) Oncología.

c) Psiquiatría.

d) Estabilometría.

e) Endocrinología.

Enunciado 2

Enlazar cada uno de los tests estabilométricos de la parte izquierda de la tabla con su correspondiente objetivo de la parte derecha:

Test Objetivo

a) UNI a) Medir la capacidad de un paciente de desplazar su centro de gra-vedadhastaunaposiciónymantenerloallíduranteunperiododetiempo determinado.

b) RWS b) Medir la capacidad de equilibrio de un paciente apoyando una única pierna.

c) LOS c) Medir la capacidad de un paciente para desplazar su centro de gra-vedaddeformaarmónica.

Sumario │


MINERÍA DE DATOS

282 www.udima.es

Enunciado 3

Indicar cuál(es) de la(s) funcionalidad(es) del marco de descubrimiento presentado aplica(n) la tarea de clustering y por qué lo hacen.

Enunciado 4

Indicar cuál(es) de la(s) funcionalidad(es) del marco de descubrimiento presentado aplica(n) la tarea de detección de atípicos y por qué lo hacen.

Enunciado 5

Indicarsilasafirmacionesquesepresentanacontinuaciónsonciertasofalsas.Encualquiercaso,justificarporqué:

a) Las series temporales estabilométricas aportan información en todos los puntos de las mismas.

b) El marco de descubrimiento de conocimiento descrito se basa en un análi-sis de los eventos presentes en las series temporales estabilométricas.

│ Sumario



www.udima.es 283

Solución 1

d) Estabilometría.

Solución 2

a)-b), b)-c), c)-a)

Solución 3

La tarea de clustering se utiliza para agrupar los eventos de las series temporales ypoderasícompararlosdeformamáseficiente.Lasegmentacióndeeventosseaplicaen la funcionalidad de comparación entre dos series y en la de creación de modelos de referencia.

Solución 4

Latareadeidentificacióndeatípicosseaplicacomopasoprevioalacreacióndemodelos de referencia de un conjunto de series temporales. El objetivo de aplicarla es filtraraquellasseriesque,porsualtogradodeatipicidaddentrodelconjunto,puedandesvirtuar el modelo de referencia resultante.

Solución 5

a) Falso. Las series temporales estabilométricas solo aportan información en aquellasregionesdeinterésquereflejanlaocurrenciadeunevento.

b) Verdadero.Comosepuedeverenlosmétodosdescritos,elobjetocentralde análisis es el evento en la serie temporal.

Sumario │


MINERÍA DE DATOS

284 www.udima.es

ACTIVIDADES DE REPASO

Enunciado 1

Explicar brevemente el dominio de la estabilometría, utilizado como referencia el marco de extracción de conocimiento descrito a lo largo de esta Unidad didáctica. Describir, así mismo, la naturaleza y características más relevantes de los datos esta-bilométricos.

Enunciado 2

Explicar brevemente los aspectos generales de la funcionalidad de identificación de eventos en series temporales, incluida dentro del marco de extracción de conocimiento descrito a lo largo de esta Unidad didáctica.

Enunciado 3

Explicar brevemente los aspectos generales de la funcionalidad de comparación entre dos series temporales, incluida dentro del marco de extracción de conocimiento descrito a lo largo de esta Unidad didáctica.

Enunciado 4

Explicar brevemente los aspectos generales de la funcionalidad de creación de modelos de referencia a partir de un conjunto de series temporales, incluida dentro del marco de extracción de conocimiento descrito a lo largo de esta Unidad didáctica.

Enunciado 5

Explicar brevemente cómo se puede utilizar el marco de extracción de conocimiento descrito a lo largo de esta Unidad didáctica para diagnosticar enfermedades o patologías relacionadas con el equilibrio de las personas.

│ Sumario



www.udima.es 285

EJERCICIOS VOLUNTARIOS

TraselestudiodeestaUnidaddidáctica,elestudiantepuedehacer,porsucuenta,una serie de ejercicios voluntarios, como los siguientes:

1. Recopilar información sobre el marco de extracción de conocimiento descri-to a lo largo de esta Unidad didáctica, y profundizar, para su mejor compren-sión, en la funcionalidad de identificación de eventos en series temporales.

2. Recopilar información sobre el marco de extracción de conocimiento des-crito a lo largo de esta Unidad didáctica, y profundizar, para su mejor com-prensión, en la funcionalidad de comparación entre dos series temporales.

3. Recopilar información sobre el marco de extracción de conocimiento des-crito a lo largo de esta Unidad didáctica, y profundizar, para su mejor com-prensión, en la funcionalidad de creación de modelos de referencia a partir de un conjunto de series temporales.

4. Recopilar información sobre el marco de extracción de conocimiento descri-to a lo largo de esta Unidad didáctica, y profundizar, para su mejor compren-sión, en la funcionalidad de identificación de series temporales atípicas, que se ejecuta como tarea previa a la creación de modelos de referencia.

5. Recopilar información sobre el marco de extracción de conocimiento pre-sentado a lo largo de esta Unidad didáctica, y estudiar otras funcionalidades que dicho marco incluye, diferentes a las descritas en este texto.

REFERENCIAS BIBLIOGRÁFICAS

Básica

LARA, J. A.: Marco de descubrimiento de conocimiento para datos estructuralmente complejos con énfa-sis en el análisis de eventos en series temporales,UniversidadPolitécnicadeMadrid,TesisDoctoral,2011.

Sumario │


MINERÍA DE DATOS

286 www.udima.es

En la red

http://www.onbalance.com

http://oa.upm.es/5729/

http://oa.upm.es/5973/

Avanzada

LARA,J.A.;MORENO,G.;PÉREZ,A.;VALENTE,J.P.yLÓPEZ-ILLESCAS,A.:Comparing pos-turographic time series through event detection, Proceedings of the 21st IEEE internacional symposium on computer-basedmedicalsystems,Jyväskylä,Finland,2008,pág.293-295.

LARA,J.A.;LÓPEZ-ILLESCAS,A.;PÉREZ,A.yVALENTE,J.P.:A language for defining events in multi-dimensional time series: application to a medical domain, Proceedings of the 1st international work-shoponminingofnon-conventionaldata,Sevilla,España,2009,págs.1-7.

LARA,J.A.;PÉREZ,A.;VALENTE,J.P.yLÓPEZ-ILLESCAS,A.: Modelling stabilometric time se-ries,Proceedingsofthe3rdinternationalconferenceonhealthinformatics,Valencia,España,2010,págs.485-488.

LARA,J.A.;PÉREZ,A.;VALENTE,J.P.yLÓPEZ-ILLESCAS,A.: Generating time series reference models based on event analysis, Proceedings of the 19th european conference on artificial intelligence-ECAI2010,Lisboa,Portugal,2010,págs.1115-1116.

ANGUERA,A.;LARA,J.A.;LIZCANO,D.;MARTÍNEZ,M.A.yPAZOS,J.:Sensor-generated time series events: a definition language,Sensorsjournal12(9),11811-52,2012.

│ Sumario


UNIDAD DIDÁCTICA10 CASO DE ESTUDIO: …dspace.cedia.org.ec/bitstream/123456789/965/15/caso_e...te...

Documents

Transcript of UNIDAD DIDÁCTICA10 CASO DE ESTUDIO: …dspace.cedia.org.ec/bitstream/123456789/965/15/caso_e...te...