Supervisión de Procesos Complejos mediante Técnicas de Data...

134
Universidad de Oviedo Departamento de Ingenier´ ıa El´ ectrica, Electr´ onica, de Computadores y Sistemas Tesis Doctoral Supervisi´ on de Procesos Complejos mediante ecnicas de Data Mining con Incorporaci´ on de Conocimiento Previo Abel Alberto Cuadrado Vega Noviembre 2002

Transcript of Supervisión de Procesos Complejos mediante Técnicas de Data...

Page 1: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

Universidad de Oviedo

Departamento de Ingenierıa Electrica, Electronica,

de Computadores y Sistemas

Tesis Doctoral

Supervision de Procesos Complejos medianteTecnicas de Data Mining con Incorporacion

de Conocimiento Previo

Abel Alberto Cuadrado Vega

Noviembre 2002

Page 2: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

2

Page 3: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

Universidad de Oviedo

Departamento de Ingenierıa Electrica, Electronica,

de Computadores y Sistemas

TESIS

SUPERVISION DE PROCESOS COMPLEJOSMEDIANTE TECNICAS DE DATA MINING CONINCORPORACION DE CONOCIMIENTO PREVIO

Memoria presentada para la obtencion del grado de

Doctor por la Universidad de Oviedo

Autor: Abel Alberto Cuadrado Vega

Directores: Alberto B. Diez GonzalezIgnacio Dıaz Blanco

Gijon, Noviembre de 2002

Page 4: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

4

Page 5: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

Agradecimientos

Este trabajo solo ha podido salir adelante con la inestimable ayuda yapoyo incondicional de mis directores, Alberto Diez e Ignacio Dıaz. Muchasgracias por darme esta oportunidad, por ensenarme, por orientarme, y porproporcionarme proyectos tan interesantes durante estos cuatro anos.

Una gran parte de la “culpa” de que, despues varios anos de agotadoracarrera, recuperara la ilusion inicial por hacer Ingenierıa Industrial el mismodıa que empece el proyecto fin de carrera la tiene Nacho (bueno, unos mesesdespues; ese dıa concretamente me dejo a cuadros). Desde entonces, cada dıame contagia con su entusiasmo por descubrir cosas nuevas.

Gracias a toda la gente del Area de Ingenierıa de Sistemas y Automatica(incluidos los que ya no estan): desde proyectantes, becarios, PAS, profeso-res, hasta el mismo Director del Departamento, Guillermo Ojea. No podrıahaberme imaginado un lugar de trabajo mejor. Gracias a Alberto Diez y aJuan Carlos Alvarez por darme unas pistas de lo que es la vida real; a Hila-rio Lopez, por inspirarme la idea de hacer esta carrera; a Diego Alvarez y aJuan Manuel Guerrero, porque nos ha tocado seguir caminos paralelos desdeque empezamos la carrera alla por el 91, y muchas veces me han servidode referencia y me han echado una mano cuando me hacıa falta; a AlfonsoFernandez de Lera por hacer que pasar la jornada entera en el campus seamas ameno; Gracias a Felipe Gonzalez, Alfonso Fernandez Vazquez, AlbertoPintado y Eva Janeiro, por trabajar tan duramente conmigo en diferentesproyectos (y a Pablo Garcıa, que encima me ha prestado una pedalera parala guitarra). Gracias a todos, porque quisiera nombrar uno a uno, y hacermas menciones especiales, pero ni hay espacio ni vienen a cuento aquı.

Gracias al personal de Aceralia, porque nos ponen en contacto con laindustria real: Faustino Obeso, Jose Luis Rendueles, Luis Rodrıguez Loredo,Pablo Fernandez Quiroga y demas.

Por supuesto, gracias a mis amigos, sin los cuales la vida serıa bastantemas aburrida: Angel, Adriana, Jorge (y ahora Sara tambien), Eloy, Ana,Pedro C., Pedro F., Fran, Jose, Joseba, Sonia, Rafa, Ernesto y, como no,Carlos (ese ınclito elemento que hasta recuerda alguna que otra rabieta mıa

5

Page 6: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

6

en segundo de EGB).Por ultimo, gracias a mi familia. A mi madre y a mi padre, que han sido

capaces de criar a “los tres mosqueteros” (estos se llaman Marcos, Sonia yAlberto, no Athos, Porthos y Aramis), y que han confiado en mı y siempreme han ayudado en mi objetivo de trabajar en lo que mas me gusta.

Page 7: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

Resumen

La calidad del producto fabricado y la ausencia de fallos en el proceso defabricacion son requisitos fundamentales en una planta industrial. Cada vezse desarrollan metodos mas eficaces y eficientes de asegurar el cumplimientode estos dos requisitos, metodos que generalmente se basan en enfoques to-talmente automaticos implementados en un computador. Esta tesis proponeun enfoque global de aplicacion de tecnicas de visualizacion a la supervisionde procesos que complementa la enorme potencia de calculo y memoria de uncomputador con la creatividad y grandes capacidades de percepcion visualdel ser humano, permitiendo incorporar conocimiento previo que este poseesobre el proceso, y extraer nuevo conocimiento relacionando leyes fısicas, re-glas extraıdas de la experiencia y datos provenientes del proceso. La ideaprincipal es representar graficamente toda esta informacion bajo una mismaforma unificada, que, sobre todo, facilita la comprension del gran volumende datos que se pueden generar en un proceso.

Esta forma unificada de representacion esta constituida por un espacio devisualizacion, al que por medio de tecnicas de proyeccion no lineal se trasladainformacion/conocimiento disponible en el espacio de las variables del pro-ceso, espacio este de muy alta dimensionalidad y por tanto no visualizabledirectamente. Este esquema se complementa con la aplicacion de una tecnicade redundancia analıtica que se basa en el modelo del proceso constituidopor una tecnica de proyeccion y que encaja perfectamente en el marco de esteenfoque de Data Mining Visual para la supervision de procesos complejos.

En esta tesis, ademas, se presenta una aplicacion software disenada segunestos mismos principios y se muestran algunos resultados de esta metodologıaaplicada sobre casos reales: un motor de induccion de 4 kW en laboratorio yun motor de continua de 6000 kW de un tren de laminacion de la empresasiderurgica Aceralia.

7

Page 8: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

8

Page 9: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

Indice general

1. Introduccion y Objetivos 131.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.2. Motivacion y objetivos . . . . . . . . . . . . . . . . . . . . . . 141.3. Formulacion del problema . . . . . . . . . . . . . . . . . . . . 18

2. Tecnicas de Supervision de Procesos 232.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.2. Tecnicas basadas en modelos analıticos . . . . . . . . . . . . . 25

2.2.1. Ecuaciones de paridad . . . . . . . . . . . . . . . . . . 262.2.2. Estimacion de parametros . . . . . . . . . . . . . . . . 262.2.3. Observadores de estado . . . . . . . . . . . . . . . . . . 27

2.3. Tecnicas basadas en conocimiento . . . . . . . . . . . . . . . . 272.3.1. Metodos cualitativos . . . . . . . . . . . . . . . . . . . 272.3.2. Sistemas expertos basados en reglas . . . . . . . . . . . 282.3.3. Sistemas de inferencia borrosos . . . . . . . . . . . . . 28

2.4. Tecnicas basadas en datos . . . . . . . . . . . . . . . . . . . . 302.4.1. Clasificadores . . . . . . . . . . . . . . . . . . . . . . . 302.4.2. Redundancia analıtica basada en datos . . . . . . . . . 312.4.3. Control estadıstico de procesos . . . . . . . . . . . . . 32

2.5. Tecnicas hıbridas . . . . . . . . . . . . . . . . . . . . . . . . . 332.5.1. Tecnicas de visualizacion . . . . . . . . . . . . . . . . . 34

3. Tecnicas de Reduccion de la Dimension 353.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.2. Seleccion de variables . . . . . . . . . . . . . . . . . . . . . . . 363.3. Extraccion de caracterısticas . . . . . . . . . . . . . . . . . . . 37

3.3.1. Normalizacion . . . . . . . . . . . . . . . . . . . . . . . 393.3.2. Tecnicas de analisis espectral . . . . . . . . . . . . . . 403.3.3. Otras tecnicas de extraccion de caracterısticas . . . . . 49

3.4. Tecnicas de proyeccion . . . . . . . . . . . . . . . . . . . . . . 493.4.1. Tecnicas de Proyeccion Lineal . . . . . . . . . . . . . . 50

9

Page 10: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

10 INDICE GENERAL

3.4.2. Escalado Multidimensional . . . . . . . . . . . . . . . . 523.4.3. Modelos Autoasociativos . . . . . . . . . . . . . . . . . 543.4.4. Mapas Topologicos . . . . . . . . . . . . . . . . . . . . 573.4.5. Otras tecnicas de proyeccion . . . . . . . . . . . . . . . 63

4. Data Mining Visual 654.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 654.2. Formas basicas de representacion . . . . . . . . . . . . . . . . 664.3. Proyeccion de datos . . . . . . . . . . . . . . . . . . . . . . . . 694.4. El error de modelado . . . . . . . . . . . . . . . . . . . . . . . 704.5. Representacion visual de conocimiento . . . . . . . . . . . . . 72

4.5.1. Etiquetado . . . . . . . . . . . . . . . . . . . . . . . . . 724.5.2. Planos de componentes . . . . . . . . . . . . . . . . . . 724.5.3. Mapa de distancias . . . . . . . . . . . . . . . . . . . . 734.5.4. Mapas de activacion . . . . . . . . . . . . . . . . . . . 744.5.5. Mapas borrosos . . . . . . . . . . . . . . . . . . . . . . 754.5.6. Mapas de modelos . . . . . . . . . . . . . . . . . . . . 764.5.7. Mapas de correlaciones . . . . . . . . . . . . . . . . . . 78

5. Residuos en Modelos de Datos 815.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 815.2. Generacion de residuos . . . . . . . . . . . . . . . . . . . . . . 815.3. Deteccion de Novedades . . . . . . . . . . . . . . . . . . . . . 825.4. Residuo vectorial . . . . . . . . . . . . . . . . . . . . . . . . . 84

5.4.1. Validez del residuo vectorial . . . . . . . . . . . . . . . 845.4.2. Representacion del residuo vectorial . . . . . . . . . . . 86

5.5. Consideraciones en el uso de residuos . . . . . . . . . . . . . . 865.5.1. Eleccion de datos para el modelo . . . . . . . . . . . . 875.5.2. Modelo con interpolacion . . . . . . . . . . . . . . . . . 87

6. Metodologıa de Supervision 896.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 896.2. El sistema MAPREX . . . . . . . . . . . . . . . . . . . . . . . 89

6.2.1. MAPREX: un sistema de monitorizacion . . . . . . . . 896.2.2. MAPREX: una herramienta de Data Mining Visual . . 906.2.3. Estructura de la aplicacion MAPREX . . . . . . . . . . 93

6.3. Una sesion con MAPREX . . . . . . . . . . . . . . . . . . . . 946.3.1. Seleccion de senales . . . . . . . . . . . . . . . . . . . . 946.3.2. Visualizacion de las senales en tiempo real . . . . . . . 946.3.3. Seleccion de caracterısticas . . . . . . . . . . . . . . . . 946.3.4. Preparacion de datos para modelado . . . . . . . . . . 96

Page 11: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

INDICE GENERAL 11

6.3.5. Generacion del modelo . . . . . . . . . . . . . . . . . . 966.3.6. Explotacion del modelo . . . . . . . . . . . . . . . . . . 96

7. Resultados 997.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 997.2. Monitorizacion de sistemas en tiempo real . . . . . . . . . . . 99

7.2.1. Descripcion del sistema . . . . . . . . . . . . . . . . . . 997.2.2. Obtencion del modelo . . . . . . . . . . . . . . . . . . 1017.2.3. Aplicacion del modelo . . . . . . . . . . . . . . . . . . 101

7.3. Data Mining de procesos industriales . . . . . . . . . . . . . . 1067.3.1. Descripcion del proceso . . . . . . . . . . . . . . . . . . 1067.3.2. Obtencion del modelo . . . . . . . . . . . . . . . . . . 1087.3.3. Aplicacion del modelo . . . . . . . . . . . . . . . . . . 108

8. Conclusiones 1178.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1178.2. Aportaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 1188.3. Lıneas futuras . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

A. Nomenclatura 123

Page 12: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

12 INDICE GENERAL

Page 13: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

Capıtulo 1

Introduccion y Objetivos

1.1. Introduccion

El buen funcionamiento de una planta industrial viene condicionado porla eficacia y eficiencia de cada uno de los tres niveles en los que se sueledividir la automatizacion de la misma: gestion, supervision y control. Cadanivel tiene unos objetivos diferenciados y actua sobre el nivel inmediatamen-te inferior para lograrlos1. El nivel de gestion es el que marca los objetivosprincipalmente economicos, realiza la planificacion y tiene unos tiempos en-tre actuaciones sobre el nivel de supervision relativamente largos. El nivelde supervision tiene la funcion de verificar el correcto funcionamiento de laplanta, pudiendo incluirse en ello la busqueda de la calidad en la produc-cion, tan importante hoy en dıa para cumplir objetivos economicos debido ala gran competencia existente en el mercado mundial. Ello lo consigue pormedio de acciones sobre el nivel mas bajo, el nivel de control, reconfigurandosus estrategias o realizando acciones radicales, como paradas completas, anteuna posibilidad de fallo catastrofico. El nivel de control es el que interaccionade forma mas cercana con los procesos de fabricacion, actuando directamen-te sobre la maquinaria y requiriendo velocidades de actuacion muy elevadasante eventos en el proceso.

Ası pues, la importancia de la supervision radica, primero, en la necesi-dad de verificar que los procesos de control funcionan de manera adecuada,y segundo, que lo hagan con la precision que los objetivos de calidad delproducto final requieren. El verificar que el control del proceso funcione demanera adecuada tiene que ver con el buen estado de toda la maquinaria delproceso. Un elemento del proceso en mal estado no estara de acuerdo con losmodelos matematicos que se tienen de el y, por tanto, el sistema de control,

1O sobre el proceso directamente, en el caso del nivel mas bajo, el de control.

13

Page 14: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

14 CAPITULO 1. INTRODUCCION Y OBJETIVOS

que se habra disenado teniendo en cuenta dichos modelos, no realizara sutrabajo correctamente, dando lugar a un producto de baja calidad. Tambien,en caso extremo, se podrıa producir un fallo grave que pudiera hacer que elproceso de fabricacion se detuviera completamente.

1.2. Motivacion y objetivos

La detencion completa de un proceso de fabricacion suele conllevar gran-des perdidas economicas. A su vez, un producto de mala calidad es unadesventaja para la competitividad de la empresa en los mercados, lo cualsupone un obstaculo para el objetivo de maximizacion de beneficios. Comoconsecuencia de ello, las estrategias de mantenimiento han evolucionado alo largo del tiempo para evitar estos inconvenientes interfiriendo lo menosposible en la continuidad del proceso de fabricacion.

Ası, en un sistema de mantenimiento basico, la sustitucion de componen-tes en el proceso de fabricacion solo se realiza cuando se produce el fallo delos mismos (mantenimiento correctivo). Este sistema tiene tres inconvenien-tes principalmente. Por un lado, un fallo que provoque la parada total delproceso puede producirse en un momento inconveniente, en el que las perdi-das economicas sean mayores respecto a otro momento. Por otro lado, unfallo total en un elemento del proceso puede dar lugar a fallos en elementosadyacentes, y puede convertirse incluso en un problema de seguridad para lostrabajadores de la planta, generando accidentes. Una tercera razon tambienpodrıa ser el stock de componentes que habrıa que tener para la sustitucion.

Otra estrategia de mantenimiento que intenta evitar estos inconvenienteses el mantenimiento preventivo, que consiste en la sustitucion de componentesen funcion de datos estadısticos de vida util de los mismos. Ello permitetambien planificar paradas del proceso con antelacion, cuando sea necesario,para la sustitucion. Sin embargo este sistema de mantenimiento tambientiene un inconveniente, sobre todo en componentes de alto coste, y es quea veces se desperdician componentes que todavıa estan en perfecto estado.Ademas, siempre existe la posibilidad de que los componentes fallen antes delo previsto.

El sistema que actualmente presenta mas ventajas es el mantenimien-to predictivo o mantenimiento por condicion. Por este metodo se realiza lasustitucion de los componentes basandose en el estado de los mismos, dedu-cido a traves de su monitorizacion, ya sea continua o discontinua en funcionprincipalmente de lo crıtico que sea el elemento dentro del proceso.

La funcion de la supervision de procesos, por consiguiente, se puede re-sumir como la verificacion del funcionamiento optimo de procesos, con tres

Page 15: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

1.2. MOTIVACION Y OBJETIVOS 15

objetivos:

Detectar fallos en la maquinaria e instrumentacion de forma anticipadapara prevenir paradas no planificadas del proceso.

Detectar en el proceso desviaciones del funcionamiento correcto y quedan lugar a la fabricacion de producto defectuoso o de baja calidad.

Actuar o sugerir actuacion para volver al optimo en los dos casos an-teriores.

Llevar a cabo estos objetivos a traves de la monitorizacion no es, sinembargo, tarea facil. La mayorıa de los procesos industriales se pueden cali-ficar como “complejos”. Este adjetivo se deriva del hecho de que los procesosindustriales generan una cantidad enorme de datos provenientes de muchasvariables que suelen estar relacionadas de forma no lineal. La caracterısticade no linealidad es un problema importante, puesto que la mayor parte dela teorıa de control de sistemas se centra en sistemas lineales. Un modeloen ecuaciones explıcitas de un proceso no lineal suficientemente preciso, siexiste, suele ser difıcil de tratar. En cuanto al gran numero de variables,es un inconveniente debido a la maldicion de la dimensionalidad (curse ofdimensionality) que plantea que el numero de datos que hace falta para ha-cer estimaciones suficientemente precisas a partir de los mismos (estimacionde funciones de densidad de probabilidad, aproximacion de funciones, etc.)aumenta exponencialmente con la dimension del espacio de datos [7].

El problema de la no linealidad, y la dificultad derivada de obtener mo-delos explıcitos, hace que se piense en recurrir a modelos basados en datosfrente a otros modelos analıticos basados en ecuaciones explıcitas. Respectoal problema de la dimensionalidad, hace necesario el uso de tecnicas de re-duccion de la dimensionalidad para eliminar componentes de los vectores dedatos (variables) que no contengan informacion significativa o que contenganinformacion redundante.

Para la supervision de maquinaria son tıpicos los metodos que fijan um-brales para determinadas variables como metodo para detectar problemas(metodos de umbral). Es muy comun en maquinas rotativas (motores y gene-radores electricos, bombas, ventiladores, turbinas, . . . ) medir valores de ni-veles de vibracion (valor eficaz en una banda de frecuencia), que no deberansobrepasar unos valores estandar o dados por el fabricante para considerarque funcionan correctamente [88]. En estos casos tambien se suelen emplearmetodos algo mas sofisticados de analisis espectral de las vibraciones paradescubrir que fallo concreto que se esta produciendo.

Quizas, el mayor esfuerzo en investigacion en los ultimos anos para ladeteccion y diagnostico de fallos se ha dirigido hacia enfoques en los que

Page 16: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

16 CAPITULO 1. INTRODUCCION Y OBJETIVOS

todo el proceso de deteccion y diagnostico, desde la adquisicion de datoshasta la senalizacion e indicacion de fallos, se realiza de forma automatica.

Ası, son de aparicion frecuente en la bibliografıa tecnicas como las deredundancia analıtica, en las que para el diagnostico se usan las diferenciasentre las salidas de un modelo analıtico del proceso y el proceso real. En reali-dad, el concepto de redundancia analıtica se puede referir al uso de cualquiermodelo no fısico (matematico) para ese fin. Las tecnicas que usan un mo-delo matematico en forma de ecuaciones explıcitas, como las de ecuacionesde paridad, las de estimacion de parametros y las de estimacion de estado,se pueden englobar dentro de un grupo que podrıamos denominar tecnicasbasadas en modelos analıticos. Sin embargo este grupo de tecnicas necesitanpara su aplicacion un modelo del proceso suficientemente preciso, lo cual esinfrecuente en procesos complejos. Gertler, en [37], hace un resumen de es-tas tecnicas para deteccion y diagnostico de fallos basadas en modelos paraplantas complejas.

Otro grupo de tecnicas no tienen unos requerimientos tan fuertes en cuan-to al conocimiento del modelo del proceso y les basta con un conocimientoimpreciso, incompleto o incluso mas bien intuitivo, expresado en forma si-milar al lenguaje humano. Entre ellas se encuentran las tecnicas basadas enconocimiento. Estas incluyen enfoques como el razonamiento cualitativo, lalogica difusa o los sistemas expertos basados en reglas. Por ejemplo, relacio-nado con este grupo de tecnicas, Isermann [44] presenta aplicaciones de logicadifusa para control, supervision y diagnostico de fallos.

Tambien son posibles combinaciones de modelos analıticos y modelos ba-sados en conocimiento. Ası, Balle [3] enfoca la deteccion y diagnostico defallos en procesos no lineales a traves de modelos difusos lineales locales yestimacion de parametros. Isermann [46] integra informacion analıtica y cono-cimiento heurıstico para diagnostico de fallos a traves de logica difusa. Patton[70] resume varias tecnicas disponibles de inteligencia artificial aplicadas aldiagnostico de fallos, y de ellas escoge B-splines como metodo que integra unenfoque cualitativo y otro cuantitativo, y que se demuestra equivalente a lossistemas difusos. Gertler [38] anade la posibilidad de razonamiento aproxima-do (evidential reasoning) en la metodologıa basada en modelos, aumentandola capacidad de toma de decisiones en el diagnostico.

Sin embargo, a veces el conocimiento previo sobre el proceso que se poseees practicamente nulo, pero en cambio se dispone de una gran cantidad dedatos de historial de variables del proceso. Para esos casos son aplicableslas tecnicas basadas en datos. Este tipo de tecnicas incluye desde metodosestadısticos hasta metodos de inteligencia artificial como las redes neuronales.Ası, dentro de las tecnicas basadas en datos se han propuesto metodologıasde reconocimiento de patrones (clasificadores), de redundancia analıtica con

Page 17: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

1.2. MOTIVACION Y OBJETIVOS 17

modelos basados en datos y de control estadıstico de procesos (StatisticalProcess Control, SPC). Sorsa [84] aplica con exito perceptrones multicapa enla deteccion de fallos, usandolos como clasificadores. Dıaz [30] muestra, encuanto a la generacion de residuos a partir de modelos basados en datos, lasventajas de enfoques que tienen en cuenta el dominio de los datos en la etapade calculo del modelo (GRNN, por ejemplo) frente a los que no (perceptronmulticapa, Radial Basis Functions networks,. . . ). Wilson [103] presenta unmetodo en el que se halla un modelo basado en redes RBF (Radial BasisFunctions), con el que se realiza una proyeccion de los datos en un espaciobidimensional y como criterio para detectar fallos se usa el error de modelado.Esto ultimo tambien lo realiza Harris [39], pero por medio de una red SOM(Self-Organizing Map).

Tambien son posibles combinaciones de tecnicas basadas en datos con lasanteriormente mencionadas. Sugeno [86] estudia el modelado cualitativo ba-sado en logica difusa a partir de datos. De forma semejante, Lu [59] presentaun sistema de diagnostico de fallos para automoviles basado en un sistemadifuso, con la particularidad de que a partir de datos se deducen reglas y seajustan las funciones de pertenencia. Bonissone [14] trata las combinacionesposibles entre las distintas tecnicas de computacion flexible (Soft Compu-ting) aplicadas a tareas de diagnosis, control y prediccion. Filippetti [34]hace una recopilacion de recientes desarrollos en el diagnostico de fallos enaccionamientos de motores de induccion a traves de tecnicas de inteligenciaartificial, concretamente sistemas expertos basados en reglas, redes neurona-les, logica difusa y neuro-fuzzy.

Sin embargo, todas estas tecnicas no pueden evitar completamente la po-sibilidad de detecciones erroneas, y muchas veces no dan informacion acercade como se realizo cada diagnostico concreto, o no proporcionan una medi-da de la fiabilidad de dichos diagnosticos. Esto puede llegar a hacer que elpersonal tecnico desconfıe de los equipos de monitorizacion basados en estastecnicas, o bien deje de confiar despues de sucesivos diagnosticos erroneos.

Un enfoque bien distinto es el proporcionado por la tecnicas de visuali-zacion aplicadas a la monitorizacion de la condicion [56] [83] [93] [13]. Enellas el diagnostico final lo realiza el ser humano, gracias a que los datosse han transformado y se representan de forma que este pueda aprovecharsus habilidades de procesamiento visual de la informacion, superiores a la decualquier maquina. Para llevarlo a cabo se cuenta con numerosas tecnicasde proyeccion no lineal, muy usadas en tareas de procesamiento de datosde alta dimensionalidad en numerosos campos de la ciencia, como el Self-Organizing Map (SOM) [53], Generative Topographic Mapping (GTM) [13],Curvilinear Component Analysis (CCA) [23], y otras [89] [79]. Esta tesis secentrara en este enfoque de visualizacion para la incorporacion y extraccion

Page 18: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

18 CAPITULO 1. INTRODUCCION Y OBJETIVOS

Técnicas basadas en modelos analíticos

Técnicas basadas en datos

Técnicas basadas en conocimiento

Técnicas híbridas

Ecuaciones de paridadEstimación de parámetrosObservadores de estado

Métodos cualitativosSistemas expertos basados en reglasSistemas de inferencia borrosos

ClasificadoresRedundancia analítica basada en datos

Control estadístico de procesos

Hibridación de técnicas de soft computingTécnicas de visualización

Figura 1.1: Clasificacion de tecnicas de deteccion y diagnostico de fallos.

de conocimiento en la supervision de procesos industriales.

1.3. Formulacion del problema

El planteamiento del problema de la supervision de procesos complejos sepuede realizar a traves de la Teorıa de Sistemas en Espacio de Estados (verpor ejemplo [69] para una explicacion de las ideas basicas). El estado de unsistema (el proceso) puede ser descrito completamente por un conjunto devariables denominadas variables de estado. No existe un unico conjunto devariables de estado para un sistema, pero lo que siempre se cumple es que elnumero de variables de estado en cada conjunto de un sistema es siempre elmismo. Sea x(t) el vector de variables de estado en cada instante de tiempot. Este vector x(t) describe una trayectoria en el espacio de todos los posiblesestados del sistema X ⊂ Rn, siendo n el numero de variables de estado delsistema. Esta trayectoria sera funcion del estado inicial del sistema x(t0), y delas entradas u(t) que reciba el sistema en cada instante t ≥ t0. Esta relacionse puede expresar como una ecuacion diferencial, denominada ecuacion deestado:

x(t) = f(x(t),u(t), t) (1.1)

Page 19: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

1.3. FORMULACION DEL PROBLEMA 19

Las variables de estado de un sistema no tienen por que ser accesibles paramedir, e incluso no necesariamente tienen interpretacion fısica. Sin embargo,los valores de las medidas que se puedan tomar en el sistema, dependeranpor un lado de su estado, y por otro de la entrada al sistema, lo cual se puedeexpresar con la llamada ecuacion de salida:

y(t) = g(x(t),u(t), t) (1.2)

siendo y(t) un vector de medidas del proceso. La dependencia de t en (1.1) yen (1.2) expresa el hecho de que tanto f como g pueden ser, en caso general,variantes con el tiempo.

Cuando se trata de procesos complejos, la dimension del espacio de es-tados puede ser enorme, haciendo el problema del seguimiento del estadocomputacionalmente casi imposible. Sin embargo, manejar tal numero de va-riables de estado puede ser totalmente innecesario para los objetivos que sesuelen plantear en la supervision de procesos. Esto es exactamente lo queocurre, por ejemplo, en el estudio de un fluido. El “estado” de un fluidopuede caracterizarse tanto por variables macroscopicas (presion, temperatu-ra, volumen; tres dimensiones) como por variables microscopicas (posicion ycantidad de movimiento de cada molecula; numero de dimensiones de ordensuperior a 1015). La eleccion de uno u otro punto de vista depende del nivelde detalle necesario para los objetivos del estudio. Ası, por ejemplo, para de-terminar en que fase se encuentra un fluido en equilibrio, bastan las variablesmacroscopicas “presion” y “temperatura”.

Basandose en estas ideas, se puede definir condicion de un proceso comoun conjunto de estados del mismo que se etiquetan bajo el mismo nombre.La distincion del estado dentro de cada conjunto en general no sera relevantepara la supervision. Es decir, una condicion que podamos denominar “nor-mal”, por ejemplo, correspondera habitualmente a un conjunto de estados,y el conocimiento del estado concreto en cada instante no interesara. Comoresultado, el espacio de estados del proceso quedara dividido en regiones yel problema sera determinar en que region se encuentra el proceso en cadainstante, no el punto concreto.

Un enfoque visual para la supervision de procesos tiene como objetivo larepresentacion grafica de las regiones correspondientes a las diferentes condi-ciones de los procesos. Esto presenta un problema fundamental puesto que,como ya se dijo, las variables de estado pueden no ser accesibles para su medi-cion. La deduccion del valor de x(t) a partir de un vector de medidas y(t) enprocesos complejos en general tampoco es posible, ya sea por la complejidadde f y g, o por la no observabilidad [69] de dichos procesos.

Sin embargo, lo que se pretende no es hallar el valor de x(t), sino quese trata de detectar la presencia del proceso en uno de los conjuntos de

Page 20: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

20 CAPITULO 1. INTRODUCCION Y OBJETIVOS

estados, o condiciones. Cabe pensar que el vector de medidas y(t) puede llevarsuficiente informacion sobre el estado para poder discernir en que condicionse encuentra el sistema en cada instante. En general, esta hipotesis no esmuy restrictiva y suele ser suficiente elegir de forma adecuada las variables amedir en el sistema para que su condicion se refleje en el vector de medidas.Esta eleccion es lo que determina la funcion g. Como resultado, se trasladael problema de la representacion de las regiones de las distintas condicionesen el espacio de estados a un problema equivalente pero en un espacio demedidas.

La evolucion a lo largo del tiempo del vector de medidas en su espaciopuede ser muy complejo. Aun permaneciendo el proceso en una determinadacondicion, las medidas pueden estar variando de forma rapida y con patronescomplicados. Esto provoca que las regiones correspondientes a las distintascondiciones del proceso esten fuertemente entrelazadas, resultando muy difi-cultosa su interpretacion y separacion en el mencionado espacio de medidas.Teniendo en cuenta esto, se pueden clasificar las senales del proceso en dosgrandes grupos:

Senales estaticas, que son senales que pueden considerarse invariantesrespecto a la condicion del proceso.

Senales dinamicas, que son senales que varıan aun permaneciendo cons-tante la condicion del proceso.

De las senales estaticas se puede usar directamente su valor instantaneo pa-ra el vector de medidas. En cambio, sobre las senales dinamicas habra querealizar un proceso denominado extraccion de caracterısticas que pretendeobtener un vector de parametros representativos de la dinamica de la senal(caracterısticas) que sean constantes respecto a la condicion del proceso2.Se trata ası de eliminar la informacion redundante presente en el complica-do patron de variacion de la senal original y que no sirva para diferenciarcondiciones del proceso. Como resultado de la extraccion de caracterısticas—incluyendo los valores de las senales estaticas, que pueden considerarse re-sultado de una extraccion de caracterısticas trivial, o haber sufrido un filtradopara eliminar ruido— de nuevo se ha trasladado el problema de un espacio aotro, en este caso de un espacio de medidas a un espacio de caracterısticas.

Finalmente, ya solo queda abordar el problema de la representacion grafi-ca de la trayectoria que sera indicacion de la condicion del proceso en el espa-cio de caracterısticas. Salvo procesos muy simples, el espacio de caracterısti-cas tendra una dimension mayor de tres y no sera, por tanto, representable

2Es decir, que no cambien a menos que cambie la condicion del proceso.

Page 21: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

1.3. FORMULACION DEL PROBLEMA 21

graficamente. La solucion consiste en realizar una proyeccion del espacio decaracterısticas en un espacio que se pueda representar (2D, por ejemplo) quese denominara espacio de visualizacion.

En principio se podrıan poner dos objeciones a esta solucion. La prime-ra es que en el espacio de caracterısticas apareceran relaciones no linealesentre variables (caracterısticas), al igual que ocurrıa en el espacio de esta-dos original entre las variables de estado. En ese caso, el uso de una tecnicade proyeccion lineal (por ser mas simple) hara que probablemente se pierdainformacion referente a la condicion del proceso. Es decir, regiones corres-pondientes a distintas condiciones del proceso podrıan aparecer proyectadasen el mismo lugar del espacio de visualizacion. Como segunda objecion, sepodrıa argumentar que al proyectar se pierde toda la informacion sobre lasvariables del proceso que se tenıa en el espacio de caracterısticas y puestoque las caracterısticas generalmente tendran un significado fısico acerca delproceso, convendrıa conservarlas.

Para evitar el inconveniente apuntado por la primera objecion sera nece-sario utilizar un metodo de proyeccion no lineal. Respecto al inconvenientecitado en la segunda objecion, a lo largo de esta tesis se vera que empleandolas tecnicas adecuadas no solo puede conservarse la informacion del procesoque se poseıa en el espacio de caracterısticas al proyectar sobre el espaciode visualizacion, sino que ademas se facilitara la extraccion de nuevo conoci-miento en dicho espacio de visualizacion que relacione variables del procesodel espacio de caracterısticas. Un esquema que ilustra las ideas mencionadasen este apartado se muestra en la figura 1.2.

El resto de esta tesis se distribuye de la siguiente forma. En el capıtulo 2se describen las diferentes tecnicas existentes para la supervision de procesos.En el capıtulo 3 se explican las tecnicas de reduccion de la dimension queserviran de base para el planteamiento del enfoque de Data Mining Visualpara supervision de procesos que se propondra en el capıtulo 4. Ello se com-plementa con una descripcion, en el capıtulo 5, de un metodo de aplicacion deredundancia analıtica aprovechando las mismas tecnicas de proyeccion quese usan en Data Mining Visual. En el capıtulo 6 se enmarcara este enfoquede Data Mining Visual aplicado a supervision dentro de un estandar de DataMining, como es CRISP-DM, y se describira una implementacion real de unsistema de supervision que aplica las tecnicas de los capıtulos 4 y 5, un sis-tema denominado MAPREX. Por ultimo, se muestran algunos resultados deaplicacion a un motor de induccion en laboratorio y a un motor de continuade 6000 kW de un tren de laminacion en el capıtulo 7, y se termina con lasconclusiones y algunas propuestas de trabajo futuro dentro de la misma lıneaen el capıtulo 8.

Page 22: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

22 CAPITULO 1. INTRODUCCION Y OBJETIVOS

Con

ocim

ient

o pr

evio

se u

sa a

quí p

ara

la in

terp

reta

ción

de la

s re

gion

es.

Esp

acio

de

Med

idas

(Sig

nific

ado

físic

o)~

105 Dsensores

Esp

acio

de

Est

ados

(Inac

cesi

ble)

~10

15DEl e

nfo

qu

e d

e R

edu

cció

n d

e la

Dim

ensi

ón

Ext

racc

ión

de

Car

acte

ríst

icas

(EC

)U

sa c

onoc

imie

nto

prev

io s

obre

la

geo

met

ría

de la

s re

gion

es

O s

obre

la fí

sica

del

pro

ceso

Téc

nic

a d

e P

roye

cció

n (T

P)

Poc

as o

nin

guna

hip

ótes

is

sobr

e lo

s da

tos.

T

ípic

amen

te a

prov

echa

la e

stru

ctur

aes

tadí

stic

a de

los

dato

s.

EC

Esp

acio

de

Car

acte

rístic

as(T

odav

ía c

on s

igni

ficad

o fís

ico)

~101 D

TP

Esp

acio

de

Vis

ualiz

ació

n2D

, 3D?A

pri

ori

no

phy

sica

lm

ean

ing

AB

C

Figura 1.2: Esquema de reduccion de la dimension para el enfoque visual dela supervision de procesos.

Page 23: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

Capıtulo 2

Tecnicas de Supervision deProcesos

2.1. Introduccion

Para poder hablar acerca de “supervision de procesos” es necesario definirpreviamente ciertos terminos fundamentales. Se puede definir supervision1

como la monitorizacion de un sistema fısico y la ejecucion de las accionesapropiadas para mantener el funcionamiento en caso de fallo. A su vez, seentiende por monitorizacion (monitoring) como una tarea en tiempo realpara determinar las condiciones de un sistema fısico registrando informacion,y reconociendo e indicando anomalıas en su comportamiento.

Un fallo (fault) es una desviacion no permitida de al menos una propiedadcaracterıstica o variable del sistema respecto al comportamiento consideradoaceptable/usual/estandar/nominal. Un fallo total (failure) es un fallo queimplica una interrupcion permanente de la capacidad del sistema para llevar acabo una funcion requerida bajo condiciones de funcionamiento especificadas.Una perturbacion es una entrada desconocida y no controlada actuandosobre el sistema.

La deteccion de fallos (fault detection) es determinar si hay fallos pre-sentes en el sistema. El aislamiento de fallos (fault isolation) es la deter-minacion de la localizacion del fallo, es decir, de que componente ha fallado.La identificacion de fallos (fault identification) es la determinacion de lacuantıa y el comportamiento a lo largo del tiempo de un fallo.

Ası, el termino “diagnostico de fallos” (fault diagnosis) de forma genericasuele referirse algunas veces a deteccion, aislamiento e identificacion de fallos,y otras solamente a aislamiento e identificacion de fallos. En la bibliografıa

1Estas y otras definiciones en este apartado han sido tomadas de [45].

23

Page 24: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

24 CAPITULO 2. TECNICAS DE SUPERVISION DE PROCESOS

Generador

(con modelo

de la planta)

de residuos

Metodo de

decision

residuos

diagnostico

salidas

ruido perturbacion

fallos

entradas PLANTA

Figura 2.1: Diagrama de bloques de la aplicacion de redundancia analıtica.

estan bien asentados terminos como “deteccion y aislamiento de fallos” (FDI,Fault Detection and Isolation) y “deteccion, aislamiento e identificacion defallos” (FDII, Fault Detection, Isolation and Identification).

El problema de la deteccion, aislamiento e identificacion de fallos es unsubconjunto del problema de la supervision, puesto que en principio no in-cluye la actuacion sobre el sistema estudiado para llevarlo al funcionamientoconsiderado correcto. Sin embargo, si se puede llegar hasta la identificaciondel fallo, la accion correctora a realizar suele ser inmediatamente deducible,ademas de ser muy especıfica del problema y proceso concreto.

Son muchas las herramientas usadas en el problema de la deteccion, ais-lamiento e identificacion de fallos. Generalmente las tecnicas usadas para esefin se basan en el uso de modelos del sistema, en muy diversas formas, queson usados como referencia para comparar con el comportamiento real delsistema y descubrir fallos (desviaciones en el comportamiento del sistema).Esta idea, denominada redundancia analıtica deriva del uso que se hizo tra-dicionalmente de multiples elementos (sensores, indicadores, etc.) realizandola misma funcion (midiendo la misma magnitud) para poder ser compara-dos y detectar fallos en ellos2 y a lo que se denomina redundancia fısica. Unesquema de un sistema de redundancia analıtica se representa en la figura2.1.

Existe una clase de metodos, muy empleados, denominados metodos de

2Con dos se detecta que hay fallo, con mas se puede detectar que elemento, o elementos,segun numero, han fallado.

Page 25: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

2.2. TECNICAS BASADAS EN MODELOS ANALITICOS 25

umbral que, estrictamente hablando, usan modelos —muy burdos, en ciertoscasos— consistentes en la comprobacion de lımites y el analisis frecuencial(o modelos de senales en general, como lo denomina Isermann [46] [44]).

Los modelos mas simples despues de los mencionados, menos frecuente-mente aplicables en procesos complejos, son los modelos lineales. Los modeloslineales de sistemas han sido ampliamente estudiados por la Teorıa de Con-trol y para ellos existen multitud de tecnicas aplicables a deteccion de fallos.Otra forma de modelar sistemas, aplicable ya a sistemas mas complejos, deri-va de la llamada fısica cualitativa. Los modelos cualitativos son descripcionesno numericas de los sistemas y estan orientados a captar los aspectos fun-damentales del sistema o mecanismo, suprimiendo gran parte del detalle ymanteniendo las propiedades mas significativas de su comportamiento. Lossistemas expertos basados en reglas y los sistemas borrosos de inferencia sebasan tambien en este conocimiento impreciso tıpico del ser humano.

Muchas veces no se dispone ni de modelos analıticos ni de conocimientodel proceso pero sı de una cantidad ingente de datos provenientes del mismo.En estos casos tradicionalmente se han aplicado tecnicas estadısticas y, masrecientemente, han aparecido tecnicas que apenas dependen de una estruc-tura fija para el modelo y sı mas de un gran numero de parametros que seobtienen a partir de los datos por medio de un “aprendizaje” o “entrena-miento”. Las redes neuronales, por ejemplo, son buenos aproximadores defunciones no lineales y son por tanto muy utiles cuando se trata con sistemascomplejos.

En los siguientes apartados se profundizara algo mas en todas estas tecni-cas y en sus ambitos de aplicacion, que dependen de la informacion previaque se tenga del sistema o proceso.

2.2. Tecnicas basadas en modelos analıticos

Las tecnicas basadas en modelos analıticos son aplicables cuando se tienenmodelos analıticos del sistema (ecuaciones explıcitas). Esto ocurre especial-mente con sistemas lineales. En muchos casos, sin embargo, no son aplicablesestos metodos porque los modelos disponibles son solo aproximaciones queno son lo suficientemente precisas [70] [44].

Page 26: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

26 CAPITULO 2. TECNICAS DE SUPERVISION DE PROCESOS

2.2.1. Ecuaciones de paridad

Se basa en expresar el comportamiento del sistema por medio de ecua-ciones diferenciales3 lineales explıcitas de la forma:

fi(x) = 0 i = 1, . . . , n (2.1)

donde x es el vector de variables y sus derivadas. Cuando, en un momentodeterminado de la evolucion del proceso, no se cumple el modelo dado poresas ecuaciones debido a un fallo se obtiene:

fi(x) = εi i = 1, . . . , n (2.2)

donde al menos un εi es distinto de cero. Esos εi se denominan residuos.Un residuo es, en general, un indicador de fallo basado en la desviacionentre medidas y calculos derivados de modelos del sistema. La utilidad delos residuos no reside solo en su capacidad para detectar fallos, sino tambienpara aislarlos. Esto es posible transformando las ecuaciones de forma quecada εi sea indicador de un determinado fallo [37] [38].

Realmente los residuos nunca son exactamente nulos debidos a impreci-siones del modelo y ruidos en las medidas. Debido a ellos hay que aplicarsobre los residuos metodos de decision.

2.2.2. Estimacion de parametros

Los metodos de estimacion de parametros se basan en modelos analıticospara detectar e identificar los fallos a traves de desviaciones en los parametrosdel proceso respecto a valores esperados. Los parametros del proceso puedenestimarse de forma continua (on line) a traves de tecnicas como RLS, el filtrode Kalman, etc.

Un caso especialmente interesante se presenta cuando los parametros tie-nen un significado fısico claro (la resistencia del rotor en un motor de induc-cion, por ejemplo [6]). En esos casos es inmediata la aplicacion de conoci-miento experto para el aislamiento de los fallos.

Una forma particular de estimacion de parametros se aplica cuando existeuna variable que no es medible o facilmente medible directamente, pero sepuede deducir de otras variables que si estan accesibles para su medicion.Las tecnicas que se emplean con este fin suelen recibir el nombre de sensoresvirtuales [73].

3O ecuaciones en diferencias para sistemas muestreados.

Page 27: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

2.3. TECNICAS BASADAS EN CONOCIMIENTO 27

2.2.3. Observadores de estado

Este tipo de metodos tambien estan basados en modelos analıticos. Sedetectan e identifican los fallos a traves de la estimacion del estado por mediode tecnicas como el filtro de Kalman, el filtro de Wiener, etc., denominados,en general, observadores.

2.3. Tecnicas basadas en conocimiento

Cuando no se dispone de modelos analıticos del proceso, una alternativala constituye lo que se puede denominar como tecnicas basadas en cono-cimiento. Estas tecnicas hacen uso del conocimiento acerca del proceso decaracter incompleto e impreciso, tıpico del ser humano, y que es codificadoy representado de diversas formas, como se vera a continuacion.

2.3.1. Metodos cualitativos

Una forma de modelar sistemas aplicable a sistemas complejos deriva dela llamada fısica cualitativa o tambien razonamiento cualitativo [35] [57].Los modelos cualitativos son descripciones no numericas de los sistemas yestan orientados a captar los aspectos fundamentales del sistema o mecanis-mo, suprimiendo gran parte del detalle y manteniendo las propiedades massignificativas de su comportamiento.

Por medio de simulacion cualitativa se puede obtener la evolucion delsistema a traves de diferentes estados cualitativos. Un ejemplo puede ser ladescripcion del estado cualitativo de un balon subiendo:

la posicion del balon esta ascendiendo y la velocidad haciaarriba esta descendiendo.

Posteriormente, por simulacion cualitativa, se obtendrıa el resultado de queel balon en algun punto de su ascenso se detendra y comenzara a descender(sucesion de estados cualitativos). En muchos casos, dependiendo del nivelde detalle de la informacion que se usa en la simulacion (resolucion), puedenobtenerse diferentes soluciones alternativas para dicha sucesion de estados.

Para intentar eliminar estas ambiguedades se puede anadir informacioncuantitativa. Una simulacion semicuantitativa es una simulacion cualitativaque usa informacion cuantitativa, como valores numericos o intervalos, pararestringir (acotar) sus resultados [95] [47].

Page 28: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

28 CAPITULO 2. TECNICAS DE SUPERVISION DE PROCESOS

2.3.2. Sistemas expertos basados en reglas

Los sistemas expertos basados en reglas (rule-based expert systems) iden-tifican fallos por medio de conocimiento sobre el proceso puesto en forma deun conjunto de reglas “SI-ENTONCES” de la forma:

SI sıntoma ENTONCES conclusion

donde la conclusion de una regla puede servir como sıntoma de otra. El siste-ma experto las evalua hasta que llega a conclusiones finales que seran sobrela existencia o no de fallos y su aislamiento. Los sıntomas en las primeras re-glas del arbol de deducciones seran relaciones de observaciones en el proceso(medidas de variables o valores derivados de estas, propiedades del procesoque pueden ser percibidas por el operador, etc.) [34] [37] [76]. El conjunto dereglas que usa el sistema experto se denomina base de conocimiento. El ele-mento que realiza el proceso de razonamiento o decision se denomina motorde inferencia.

2.3.3. Sistemas de inferencia borrosos

Los sistemas de inferencia borrosos (FIS, Fuzzy Inference System) sonsemejantes a los sistemas basados en reglas del apartado anterior en cuantoa que el conocimiento se expresa en forma de reglas “SI-ENTONCES”. Sinembargo, los sistemas borrosos son mucho mas adecuados cuando se tratacon informacion vaga, imprecisa e incompleta [48] [58].

Un sistema de inferencia borroso (en adelante FIS), cuyo esquema semuestra en la figura 2.2, incluye tres elementos:

Un conjunto de reglas, que codifican un conocimiento disponible.

Un conjunto de funciones de pertenencia, cuya finalidad es codificar ydecodificar informacion numerica en informacion difusa (borrosa).

Un mecanismo de razonamiento, que realiza la inferencia a partir delas reglas y unas variables de entrada o “hechos” para obtener unasvariables de salidas o “conclusiones”.

Un FIS funciona de la siguiente manera4. Las variables de entrada puedenser crisp (valores numericos concretos) o fuzzy (valores imprecisos). Lo queen la figura 2.2 aparece como (x es A1) es una forma compacta de expresar:

(x1 es A11) y (x2 es A2

1) y . . . y (xn es An1 )

4Como ejemplo de FIS se va a explicar el caso de un FIS Mamdani.

Page 29: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

2.3. TECNICAS BASADAS EN CONOCIMIENTO 29

x es A1 y es B1w1

x es A2 y es B2w2

x es Ar y es Brwr

(Crisp ofuzzy)

Regla 1

Regla r

(Fuzzy)

(Fuzzy)Agregador

Regla 2

(Crisp)x

(Fuzzy)

Defuzzificadory

Figura 2.2: Diagrama de bloques de un sistema de inferencia borroso.

que es el antecedente de la regla. Con (x1 es A11) se esta evaluando la per-

tenencia del valor de x1 a un conjunto borroso denominado A11. Al contrario

que en la teorıa de conjuntos crisp tradicional, donde la pertenencia de unelemento a un conjunto solo puede ser “pertenece ” o “no pertenece” (1 o0 respectivamente), en los conjuntos borrosos la pertenencia puede ser cual-quier valor real en el intervalo [0, 1], indicando un mayor grado de pertenenciacuanto mas se acerque dicho valor a 1. La pertenencia de una variable a unconjunto borroso se define por medio de una funcion de pertenencia que tie-ne el mismo dominio que la variable en cuestion y devuelve valores en elintervalo [0, 1].

Los resultados de evaluar los (xi es Aij) se combinan por los operado-

res logicos (“y”, “o”) que intervengan en cada regla (en el ejemplo solo hay“y”). Estos operadores logicos se denominan respectivamente t-norma y t-conorma, y existen varias opciones en cuanto la eleccion de estos operadoresmientras cumplan ciertas condiciones. Se suelen tomar las funciones “mıni-mo” y “maximo” respectivamente.

El siguiente paso es evaluar el consecuente “entonces (y es Bi)”. La im-plicacion consiste en recortar la funcion de pertenencia que aparece en elconsecuente, que en este caso denominamos Bi, con el resultado que se obtu-vo en el antecedente wi (grado de cumplimiento o fuerza de activacion). Comoresultado se obtiene una nueva funcion de pertenencia (variable borrosa).

Todo estos pasos se realizan para cada regla. Posteriormente hay queagregar los resultados de todas las reglas para obtener un unico resultado

Page 30: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

30 CAPITULO 2. TECNICAS DE SUPERVISION DE PROCESOS

borroso. Ello se suele hacer con una t-conorma (la funcion maximo, porejemplo). Finalmente, si lo que se necesita es un resultado crisp, hay querealizar lo que se denomina defuzzificacion, que consiste en extraer un unicovalor a partir de la funcion de pertenencia resultado de la agregacion de lasreglas. Existen varios metodos para realizarlo, como pueden ser el centroidedel area bajo la funcion, el bisector de dicha area, la media de los puntosdonde la funcion de pertenencia es maxima, el extremo superior de los puntosdonde es maxima, el extremo inferior de los puntos donde es maxima, etc.

Se puede observar que un FIS es equivalente a una funcion no linealy = f(x), o lo que es lo mismo, una hipersuperficie, y puede constituir, portanto, un modelo de un proceso [86] [48] [58] [59] [9]. Esta idea se utiliza enel apartado 4.5.5.

2.4. Tecnicas basadas en datos

Ademas de los modelos analıticos y el conocimiento fısico que se tiene delfuncionamiento de un proceso, existe otra importante fuente de informacionacerca del mismo: las magnitudes medibles en el durante su funcionamiento.

2.4.1. Clasificadores

Los clasificadores son un conjunto de tecnicas incluidas en la disciplinadenominada Reconocimiento de Patrones que sirven para indicar a que grupopertenece un dato muestra de entre un conjunto de grupos predeterminados.Este tipo de tecnicas son muy utiles cuando se dispone de datos del procesopara los diferentes estados o tipos de fallos que se quieren detectar, que apa-receran en dichos datos como agrupaciones. Al implementar un clasificador,se le proporcionan los datos de los que se dispone y, posteriormente, antedatos nuevos “decide” a que grupo de los datos proporcionados previamentepertenecen. Algunos metodos generan ademas una probabilidad o grado depertenencia a cada uno de los grupos, que da una idea de la fiabilidad de laclasificacion de cada nuevo dato. Existen multitud de tipos de clasificadores,pero en los siguientes subapartados solo se menciona un pequeno numerode ellos. Una descripcion mas completa puede encontrarse en bibliografıa deReconocimiento de Patrones [12] [32] [90].

Clasificadores no supervisados

Los clasificadores no supervisados (tambien llamadas tecnicas de clus-tering) no necesitan conocer de antemano la pertenencia de cada dato de

Page 31: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

2.4. TECNICAS BASADAS EN DATOS 31

entrenamiento para realizar los agrupamientos, por lo que estas tecnicas sepueden aplicar cuando no se dispone de dicha informacion. Si se dispone deella, sin embargo, esa informacion puede utilizarse posteriormente para eva-luar la calidad de los agrupamientos y para “etiquetar” (ponerle nombre) acada grupo.

Existe una enorme variedad de metodos de clasificacion no supervisados.Entre los metodos mas conocidos con origen estadıstico se tiene k-means.Una generalizacion de este empleando funciones de pertenencia borrosas esel llamado fuzzy c-means, que proporciona un grado de certeza de pertenenciaa cada grupo de datos. Tambien existen clasificadores no supervisados entrelas redes neuronales, como el Self-Organizing Map (SOM).

Existen tambien tecnicas que realizan agrupamientos a distintos nivelesde detalle. Son las tecnicas de Agrupamiento Jerarquico, que pueden tenerdos enfoques: aglomerativo, que partiendo de datos individuales van creandogrupos cada vez mas grandes, y partitivo, que parten de un unico grupo quese descompone progresivamente en grupos mas pequenos.

Clasificadores supervisados

Estas tecnicas de clasificacion de patrones aprovechan la informacion su-ministrada por un “tutor” externo, relativa a la pertenencia a grupos pre-determinados de los datos que se usan en su aprendizaje. Entre los metodoscon base estadıstica se encuentran, por ejemplo, los clasificadores de Bayes yel discriminante de Fisher.

Otros metodos son Learning Vector Quantization (LVQ) [53] [54], SupportVector Machines [81], redes neuronales feedforward [100] [102] [36] y redesRBF (Radial Basis Functions) [12] [41].

El uso de clasificadores supervisados permite la aplicacion posterior dela filosofıa del razonamiento basado en casos (Case-Based Reasoning), quepara supervision de procesos consistirıa en la interpolacion y extrapolacionsobre casos ya conocidos en cuanto a diagnostico y aplicacion de accionescorrectoras.

2.4.2. Redundancia analıtica basada en datos

Una caracterıstica deseable en los metodos de clasificacion aplicados aFDI es poder detectar “novedades” (novelty detection), o lo que es lo mismo,datos que no pertenecen a ninguno de los grupos predeterminados y que,por tanto, corresponderan con condiciones nuevas del proceso, condicionesque no se presentan en los datos disponibles previamente. Esta caracterısticaesta muy relacionada con la generacion de residuos. La generacion de residuos

Page 32: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

32 CAPITULO 2. TECNICAS DE SUPERVISION DE PROCESOS

a partir de modelos no solo es posible con modelos analıticos, sino tambiencon modelos que se pueden denominar “basados en datos”.

Puede decirse que un modelo basado en datos se diferencia de uno analıti-co en que su estructura es bastante generica y polivalente, es decir, aplicablea cualquier sistema, lineal o no lineal. En un modelo analıtico tiene tantaimportancia (o quiza mas) la estructura como los parametros. En un mo-delo basado en datos, sin embargo, la dificultad estriba en encontrar unosparametros adecuados. Dichos parametros se hallaran por aprendizaje o en-trenamiento a partir de datos tomados del proceso. Este aprendizaje o entre-namiento consiste en la aplicacion de metodos de optimizacion de una funcionobjetivo relacionada con el error de ajuste a los datos de entrenamiento.

La idea basica de la redundancia analıtica basada en datos es semejantea la de modelos analıticos. Se le introduce al modelo un vector de variables(caracterısticas) del proceso y el generador de residuos devuelve un vector deresiduos que da indicaciones de fallos.

En sucesivos capıtulos se vera que usando una tecnica de proyeccion (pro-yeccion lineal, red neuronal autoasociativa, mapa topologico, etc.) el genera-dor de residuos puede consistir en proyectar el vector de variables del procesoen el subespacio topologico definido por el modelo de datos, siendo el vectorde residuos la diferencia entre en el original y el proyectado [104] [103] [26][30].

2.4.3. Control estadıstico de procesos

El control estadıstico de procesos (Statistical Process Control, SPC) hasido tradicionalmente aplicado al control de calidad de productos de fabri-cacion por lotes (batch). Basicamente trata de comparar el estado actualdel proceso con las condiciones operativas consideradas normales; cuando noesta en dichas condiciones normales, se dice que el proceso esta fuera decontrol. Los metodos clasicos se basan en la representacion en graficas de laevolucion de unas pocas caracterısticas de calidad obtenidas en cada lote apartir de muestras del producto final. Los graficos de Shewhart, CUSUM yEWMA (Exponentially Weighted Moving Average), son metodos monovaria-ble de este estilo [4], aunque tambien existen versiones multivariable de losmismos.

Recientemente se ha derivado hacia enfoques multivariable y on line, masprecisos y que permiten acciones correctoras inmediatas sobre el proceso.Ejemplos de este ultimo enfoque son las tecnicas Multiway Principal Com-ponent Analysis (MPCA) y Multi-way Partial Least Squares (MPLS), muyrelacionadas con las tecnicas de visualizacion multivariable del siguiente apar-tado, y los graficos de contribucion (contribution plots) [63] [42] [33].

Page 33: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

2.5. TECNICAS HIBRIDAS 33

2.5. Tecnicas hıbridas

La clasificacion expuesta en este capıtulo no pretende abarcar todos los ca-sos posibles, sino quiza los mas relevantes en la bibliografıa sobre diagnosticode fallos. Serıa importante resaltar que tambien existen multiples combina-ciones de muchos de ellos, que podrıamos denominar tecnicas hıbridas, y queintentan aprovechar las ventajas de cada tecnica, combinando informacionsobre el proceso de las diversas fuentes: modelos analıticos, conocimiento,datos [14].

El conocimiento a priori particularmente esta presente en formas muydiversas y sutiles —en forma linguıstica, en imagenes, . . .— y todos ellosgeneralmente son de caracter impreciso, difuso. Los metodos matematicosque aprovechan estas caracterısticas de la forma de razonar del ser humanoestan en auge en los ultimos anos. Debido a este caracter heterogeneo delconocimiento, muchos de esos metodos hay que clasificarlos como tecnicashıbridas puesto que combinan tecnicas que por separado se ocupan de unsolo aspecto de la forma de razonar del ser humano. Como primeros ejem-plos de aplicacion practica se pueden mencionar la combinacion de metodosanalıticos con metodos basados en conocimiento como la logica borrosa [46][70] [3], el uso de metodos de datos para obtener una interpretacion cualita-tiva [101], sistemas expertos y redes neuronales [99], y la generacion de reglasborrosas y funciones de pertenencia a partir de datos [59] [68].

Un caso en el que la hibridacion se da frecuentemente es entre tecnicas desoft computing. Soft computing (computacion flexible) es un grupo de meto-dologıas de computacion que incluye la logica borrosa, las redes neuronales,la computacion evolutiva y la computacion probabilıstica [14]. En general sontodas metodologıas que aprovechan la tolerancia a la imprecision, la incerti-dumbre y la verdad parcial para conseguir maleabilidad, robustez, bajo costeen la solucion, y mayor compenetracion con la realidad. Esta especialmenteextendida la combinacion de redes neuronales con logica borrosa, aportandolas primeras su capacidad para aprender de datos y anadiendose la posibili-dad de interpretar lo aprendido de los datos en terminos de logica borrosa[66] [34] [48] [58]. Un ejemplo de hibridacion de computacion evolutiva conredes neuronales es el uso de la primera para la eleccion de la topologıa o elcalculo de los pesos de las segundas.

Un caso particular de hibridacion, que se considerara aparte por constituirel tema central de esta tesis, es el caso de las tecnicas de visualizacion.

Page 34: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

34 CAPITULO 2. TECNICAS DE SUPERVISION DE PROCESOS

2.5.1. Tecnicas de visualizacion

El objetivo final de practicamente todas las tecnicas mencionadas hastaahora es el de detectar y dar diagnosticos de fallos, desde los mas incipien-tes hasta los mas severos, a traves de la informacion recogida del procesoen diversas formas y de multiples procedencias —principalmente datos, perotambien informacion proveniente de los sentidos (informacion visual, auditi-va, olfativa, etc.)— que es comparada con los modelos del proceso generadosa partir de informacion y conocimiento acerca del proceso disponibles pre-viamente, tambien en varias formas. Todo ello es realizado generalmente deforma automatica5 por el sistema de diagnostico, que es una maquina (com-putador). Sin embargo, con este enfoque, las habilidades del ser humano encuanto a reconocimiento de patrones (sobre todo de forma visual), superioresa las de cualquier maquina, no son aprovechadas.

La idea de las tecnicas de visualizacion es “traducir” modelos de com-portamiento complejos a forma visual [15] [50] [51] [52]. La informacion sepuede codificar para fluir a traves de diversos canales visuales de transmisionmultidimensional: color, tamano, posicion, forma, movimiento. El especta-dor (observador), posteriormente, pasa de patrones visuales a la abstraccion,genera modelos mentales, razona con ellos e incluso puede filtrar ruido em-pleando conocimiento a priori. Por supuesto, para que todo ello sea efectivohay conseguir reducir una cantidad ingente de datos a la informacion estric-tamente necesaria y util, y elegir las formas de representacion grafica masadecuadas.

Esta tesis transcurrira en esta lınea de aplicacion de tecnicas de visua-lizacion. Ası, el enfoque aquı adoptado consiste en aplicar las tecnicas dereduccion de la dimension para proyectar datos del proceso con multitudde variables sobre un espacio visualizable, para posteriormente “cartogra-fiar” este espacio, relacionando cada zona con cada condicion del proceso,pudiendo usar para este fin conocimiento expresable en forma de reglas di-fusas (mapas borrosos), modelos analıticos conocidos (mapas de modelos) ycasos conocidos —datos etiquetados— (mapas de activacion). Este enfoquetambien hace posible la extraccion de nuevo conocimiento acerca del proceso(data mining, minerıa de datos) en este espacio de visualizacion (mapas decorrelaciones), dejando todavıa la puerta abierta a numerosas ideas dentrode esta misma lınea.

5O semiautomatica. Obviamente la informacion recogida por los sentidos del operarioo tecnico, por ejemplo, debe introducirse en el sistema de diagnostico de forma manual.

Page 35: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

Capıtulo 3

Tecnicas de Reduccion de laDimension

3.1. Introduccion

Las tecnicas de reduccion de la dimension se usan tıpicamente en proble-mas con manejo de datos de alta dimensionalidad (gran numero de variables).Los objetivos mas comunes que justifican el empleo de tecnicas de reduccionde la dimension son esquivar inconvenientes como la maldicion de la dimen-sionalidad (curse of dimensionality), la mejora de la capacidad de generali-zacion en clasificadores y la reduccion de los requerimientos computacionalesen la clasificacion de patrones [62].

En el marco de Data Mining Visual, en el que se encuadra esta tesis, elobjetivo es llegar hasta un espacio visualizable (2D, 3D) donde sean represen-tables los conceptos procedentes del espacio multidimensional original, queson con los que es posible razonar. En la aplicacion de Data Mining Visuala procesos complejos son imprescindibles las tecnicas de reduccion de la di-mension, incluso varias usadas en cadena, puesto que tales procesos son, pornaturaleza, de una altısima dimensionalidad. Se puede realizar una clasifica-cion de estas tecnicas atendiendo a la aplicacion de conocimiento previo, delos datos y del problema en sı, que requieren:

Seleccion de variables. Puede realizarse tanto usando conocimiento pre-vio como sin el (de forma automatica).

Extraccion de caracterısticas. Generalmente se aplica conocimiento pre-vio en la eleccion de caracterısticas.

Tecnicas de proyeccion. No suelen aplicar conocimiento previo, sinosolo consideraciones en la geometrıa de la distribucion de los datos.

35

Page 36: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

36 CAPITULO 3. TECNICAS DE REDUCCION DE LA DIMENSION

Ademas, este orden expuesto suele ser en general el orden de aplicacion a losdatos de este tipo de tecnicas, y en particular para Data Mining Visual. Alo largo de este capıtulo se describiran diversas tecnicas disponibles de lostres tipos, haciendo especial enfasis en aquellas mas utiles para Data MiningVisual.

3.2. Seleccion de variables

Cuando el numero de variables del proceso disponibles inicialmente esextremadamente grande, de tal forma que aparecen problemas derivados dela maldicion de la dimensionalidad (curse of dimensionality) [7], puede sernecesario un paso previo de seleccion de variables, que puede realizarse tantoaplicando conocimiento a priori —escogiendo variables que ya se sabe queson significativas en cuanto a la condicion del proceso— como por meto-dos estadısticos —basandose en medidas de la cantidad de informacion quecontiene cada variable o grupo de variables—.

Un esquema tıpico para la seleccion del subconjunto de variables optimopor metodos estadısticos tiene dos partes:

1. Escoger un criterio de seleccion: para decidir de entre dos subconjuntosde variables cual es mejor. Cuando se trata de diseno de clasificadorespara reconocimiento de patrones, el criterio suele ser la minimizaciondel error de clasificacion. En otros casos los criterios pueden derivar dela Teorıa de la Informacion (entropıa, informacion mutua, etc.). Entreposibles criterios de seleccion se encuentran los metodos de contrastesde hipotesis y los de medidas de separabilidad de clases (divergencia1,lımite de Chernoff y distancia de Brattacharyya, matrices de disper-sion).

2. Ejecutar un procedimiento de busqueda: escoger subconjuntos de varia-bles para compararlos posteriormente por medio del criterio de seleccionmencionado. Para esta busqueda existen multitud de metodos:

Busqueda exhaustiva (exhaustive search).

Rama y lımite (branch and bound).

Seleccion secuencial hacia adelante (sequential forward selection).Genera soluciones no optimas pero es mas rapido.

1Una forma de la medida de distancia Kullback-Leibler.

Page 37: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

3.3. EXTRACCION DE CARACTERISTICAS 37

Eliminacion secuencial hacia atras (sequential backward elimina-tion). Al igual que el anterior genera soluciones no optimas peroes mas rapido.

Busqueda flotante (floating search).

Algoritmos de Programacion Dinamica.

Estos metodos son tambien aplicables a caracterısticas (resultado de ex-tracciones de caracterısticas, que se veran en el siguiente apartado) en lugarde a variables. En ese caso, estos metodos se pueden denominar “pasivos”porque seleccionan caracterısticas de entre las ya obtenidas. Existen tambienmetodos que se pueden denominar “activos” que tratan de hallar caracterısti-cas que sean optimas.

Se puede encontrar abundante informacion sobre estas tecnicas en algunasde las referencias clasicas de Reconocimiento de Patrones [12] y [90].

3.3. Extraccion de caracterısticas

El primer obstaculo que se encuentra al interpretar los datos que se ge-neran en un proceso es el gran volumen de los mismos. Los datos puedenimaginarse organizados como una gran matriz en la que las filas son las mvariables del proceso y las columnas son las n sucesivas muestras de dichasvariables tomadas a lo largo del tiempo, como se puede ver en la figura 3.1. Elnumero total de datos vendra dado por el producto de ambos valores: m · n.Una de las justificaciones del proceso de extraccion de caracterısticas es lapretension de reducir este valor. La razon es la gran carga computacional quesuele conllevar en pasos posteriores ese gran volumen de datos.

Otra razon para aplicar una extraccion de caracterısticas a los datos pro-cedentes de un proceso es la reduccion de la complejidad en la variaciones delos datos. El objetivo ultimo es la deteccion de diferentes condiciones en elproceso y un patron de variacion complejo en los valores de sus variables a lolargo del tiempo dificulta dicho objetivo. Se trata, en definitiva, de obtenerun vector de caracterısticas invariante a la condicion, es decir, que no cambiea menos que cambie la condicion del proceso, como se planteo en el apartado1.3. Respecto a este problema de busqueda de invarianza ante la condicionse puede hablar de dos tipos de senales:

1. Senales estaticas. Son senales consideradas invariantes respecto a lacondicion del proceso. De ellas se usaran como caracterısticas sus va-lores instantaneos (o filtrados, medias, para eliminar ruidos). Ejemplotıpico de senal estatica es la temperatura.

Page 38: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

38 CAPITULO 3. TECNICAS DE REDUCCION DE LA DIMENSION

2. Senales dinamicas. Son senales que varıan aun permaneciendo el pro-ceso dentro de una condicion dada. Requieren la aplicacion de tecnicasque generen caracterısticas que sean invariantes respecto a la condi-cion. Ejemplo de ello pueden ser las tecnicas de analisis espectral, parala obtencion de energıas en determinadas bandas de frecuencias de ca-da senal. En estos caso puede obtenerse mas de una caracterıstica porcada variable del proceso (varias bandas) o puede interesar caracterizaruna senal dinamica por un unico valor (su valor eficaz por ejemplo).Ejemplo tıpico de senal dinamica es la vibracion.

Teniendo en cuenta esto, hay que resaltar que con la extraccion de carac-terısticas sobre senales dinamicas se esta, de alguna forma, “encapsulando ladinamica” en las caracterısticas, convirtiendo ası un problema con dinamicaen un problema estatico.

A la hora de escoger las caracterısticas que se obtendran a partir de lasvariables del proceso hay que aplicar conocimiento a priori. El decidir si unadeterminada senal es considerada estatica o dinamica implica un conocimien-to sobre la forma de variacion de la misma dentro del proceso. Asimismo, enlas senales dinamicas sobre las que se aplique analisis espectral, hay que saberpreviamente que bandas de frecuencia contienen informacion que sea signifi-cativa en cuanto a descubrir el estado en el que se halla el proceso en cadainstante.

Como resultado de la extraccion de caracterısticas obtendremos un con-junto de datos que nuevamente se podran organizar como una matriz de Mfilas, que corresponderan con cada una de las caracterısticas, y N columnasque se denominaran “muestras” y que estaran relacionadas con el tiempo (fi-gura 3.1). Debido al primer objetivo de reduccion del numero total de datos,se pretendera que se cumpla:

M ·N < m · n (3.1)

Hay que mencionar que cuando hay senales dinamicas, el numero de carac-terısticas M puede ser mayor que el numero de variables que se usaron enla extraccion de caracterısticas m. Por lo tanto, a la hora de escoger carac-terısticas de senales dinamicas, hay que tener siempre presente la maldicionde la dimensionalidad para no excederse en el numero de estas.

La extraccion de caracterısticas es un paso comun a muchas de las tecnicasbasadas en datos mencionadas en el capıtulo anterior, y conviene recalcar laimportancia de la extraccion de caracterısticas en cuanto a la efectividaddel uso posterior de los datos, sea mediante una tecnica estadıstica o unared neuronal. En cuanto a la proyeccion de la trayectoria de estado tratadaen esta tesis, un adecuado diseno de esta etapa puede significar la diferencia

Page 39: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

3.3. EXTRACCION DE CARACTERISTICAS 39

n muestrasm

vari

able

s EXTRACCION DECARACTERISTICAS

N muestras

Mca

ract

erıs

tica

s

Figura 3.1: Estructuras de datos en extraccion de caracterısticas.

entre un comportamiento erratico del puntero de estado o una pequena derivaque apunta a un fallo inminente en el proceso.

3.3.1. Normalizacion

A veces las variables a medir en un sistema o proceso son de magnitudesmuy dispares, como por ejemplo temperaturas cercanas a la ambiente enKelvin (del orden de 102) y presiones alrededor de la atmosferica en Pascales(del orden de 105). Sin embargo las tecnicas que mas adelante se aplicaransobre los datos suelen ser sensibles a diferencias en el valor relativo de lasvariables sobre las que se aplican2.

Para paliar este problema es aconsejable realizar lo que se denomina nor-malizacion de los datos. La forma mas sencilla de normalizacion es realizaruna transformacion lineal en cada variable de forma que todos los datos dis-ponibles queden contenidos en el intervalo [−1,+1]. Aunque simple, este tipode normalizacion a [−1,+1] tiene el inconveniente de que no produce un buenresultado en presencia de outliers (valores atıpicos).

Otra forma de hacerlo, sin este inconveniente, es usando para una variablex:

x =1

N

N∑k=1

xk

σ2 =1

N − 1

N∑k=1

(xk − x)2 (3.2)

siendo la nueva variable normalizada x:

x =x− x

σ(3.3)

2Este problema suele reflejarse en una mayor influencia de las variables de mayor valorrelativo en las funciones de coste, funciones de error o al considerar distancias euclıdeasen el espacio de los datos, lo cual la mayor parte de las veces no es lo que se pretende.

Page 40: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

40 CAPITULO 3. TECNICAS DE REDUCCION DE LA DIMENSION

Este metodo trata cada variable independientemente. Hay otro metodo denormalizacion conocido como whitening que tiene en cuenta las correlacionesentre variables. En este caso se usaran las variables xi agrupadas en un vectorx = (x1, . . . , xd)

T , con vector de media y matriz de covarianzas para Npuntos:

x =1

N

N∑k=1

xk (3.4)

Σ =1

N − 1

N∑k=1

(xk − x)(xk − x)T (3.5)

y los vectores transformados se obtienen por

x = Λ−1/2UT (x− x) (3.6)

donde U es la matriz que tiene como columnas los vectores propios de Σ yΛ la matriz diagonal con los valores propios correspondientes.

Sin embargo, ninguno de estos tipos de normalizacion aprovecha conoci-miento previo sobre los lımites posibles de variacion de las variables. Estopuede generar problemas en ciertos casos, cuyo extremo tendrıa lugar cuan-do se usan datos en los que algunas de las variables no presentan ningunavariacion a lo largo de toda su historia. Si se usasen estos metodos de nor-malizacion se estarıa amplificando el ruido existente en las muestras de estasvariables, poniendolo al mismo orden de magnitud que las otras variables.Por ello, en determinadas circunstancias se sugiere un metodo de normaliza-cion que no se basa solo en caracterısticas estadısticas de los datos y que esmas acorde con el significado fısico de las variables: valores por unidad.

x = xp. u. =x

xbase

(3.7)

3.3.2. Tecnicas de analisis espectral

Cuando en un proceso hay maquinas rotativas o alternativas, aparecensenales de las que antes se habıan denominado “dinamicas” y que son masfaciles de tratar —es mas facil conseguir caracterısticas invariantes frente auna condicion— en el dominio de la frecuencia. Las tecnicas que sirven parapasar del dominio temporal al frecuencial son la tecnicas de analisis espectral.

En los siguientes subapartados se describiran varias tecnicas de analisisespectral. Sin embargo hay que resaltar que la FFT, que se incluye dentrodel siguiente subapartado, es, con mucho, la mas utilizada, debido quizas acaracterısticas como rapidez de calculo, generalidad y facilidad de aplicacion.

Page 41: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

3.3. EXTRACCION DE CARACTERISTICAS 41

La Transformada de Fourier Discreta (DFT)

La Transformada de Fourier Discreta (Discrete Fourier Transform, DFT)permite expresar en el dominio de la frecuencia senales que son discretas yperiodicas en el dominio del tiempo.

Para una secuencia {xk} de N muestras (un periodo de la senal), la DFTse define como:

DFT(xk) = Fn =N−1∑k=0

xk e−j 2π

Nkn, k = 0, 1, . . . , N − 1 (3.8)

La DFT ası expresada tiene un coste computacional O(N2), lo que la haceinviable en senales de cierta envergadura. Sin embargo, tiene la ventaja de dis-poner de una version del algoritmo muy rapida, con un coste O(N logN), de-nominada Transformada Rapida de Fourier (Fast Fourier Transform, FFT),que puede aplicarse cuando el numero de muestras N es potencia de dos.

Dada una senal conN muestras, la FFT genera otrosN valores complejos,Fn, cada uno de los cuales corresponde con el armonico de frecuencia fn, devalor:

fn =n · fm

Nn = 0, 1, . . . , N − 1 (3.9)

siendo fm la frecuencia de muestreo.Pese a que la FFT esta indicada para senales periodicas, se aplica a senales

que no lo son, estrictamente hablando, porque las ventajas que ofrece, sobretodo de rapidez de calculo, son mayores que sus inconvenientes. Ası, pue-de usarse para obtener estimaciones del espectro de frecuencia de senales ydespues, de este, extraer caracterısticas que sean valores de amplitudes dedeterminados armonicos, o bien energıas o valores eficaces en determinadasbandas de frecuencia de las senales del proceso.

Una forma de usar la FFT con una secuencia indefinidamente larga, detal manera que se obtenga su espectro a lo largo del tiempo, es dividir estasecuencia en sucesivos intervalos solapados y aplicar la FFT a cada uno de losintervalos. Hay que tener en cuenta que a mas tamano de los intervalos menosresolucion temporal y mas frecuencial, y viceversa. Es lo que se denominaShort-Time Fourier Transform o espectrograma (figura 3.2).

Como se menciono, la FFT tiene un inconveniente al aplicarse a senalesque no son realmente periodicas (o a porciones con periodos no enteros desenales periodicas) consistente en una deformacion —lobulos, side-lobes— enel espectro. Para disminuir este efecto, que se denomina derrame espectral(spectral leakage), se suele multiplicar cada dato dentro de un intervalo porvalores que ponderan mas los datos centrales y menos los de los extremosdel intervalo. Existen distintos tipos de ponderacion, denominadas ventanas,

Page 42: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

42 CAPITULO 3. TECNICAS DE REDUCCION DE LA DIMENSION

Tiempo (s)

Frec

uenc

ia (H

z)

0 0.5 1 1.5 20

50

100

150

200

250

Figura 3.2: Detalle a bajas frecuencias de un espectrograma de la vibracion deun motor trifasico con un desequilibrio gradual en la alimentacion. Se puedeapreciar el aumento gradual del armonico de 100 Hz. Datos muestreados a 20kHz, tamano de ventana 16384, solapamiento 97,7%, ventana de Hanning.

como “ventana de Hanning”, “ventana de Bartlett”, etc., con propiedadesbien conocidas en la literatura de Procesamiento Digital de Senal [78] [75]. Elefecto secundario de aplicar una de estas ventanas es una distorsion armonica.

Cepstrum

El cepstrum es el resultado de aplicar la transformada discreta de Fourierinversa sobre el logaritmo del modulo de la transformada discreta de Fourierde la senal:

iDFT(log |DFT(xk)|) (3.10)

El cepstrum permite la separacion o el desacoplamiento de fenomenos quese presentan asociados de forma no lineal en una senal como resultado de unamultiplicacion o convolucion de otras senales. Ello es posible gracias a que loque son convoluciones en el dominio del tiempo y multiplicaciones en el dela frecuencia se convierten en sumas en el cepstrum:

Y (z) = H(z)U(z) log Y (z) = logH(z) + log Y (z) (3.11)

El primer coeficiente del cepstrum es el valor medio del espectro de magni-tudes logarıtmico y por tanto representa la potencia de la senal. Los primeroscoeficientes caracterizan la envolvente del espectro de la senal. Ası basta unpequeno numero de ellos para representar una version suavizada de este.

Page 43: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

3.3. EXTRACCION DE CARACTERISTICAS 43

El cepstrum, por sus propiedades frente a fenomenos convolutivos y mul-tiplicativos, es adecuado, por ejemplo, para el estudio de vibraciones en en-granajes [88]. Un campo en el que se aplica muy frecuentemente es el reco-nocimiento de voz [61].

Prediccion lineal (LPC)

Otra posibilidad consiste en usar como caracterısticas los coeficientes ai

de un modelo de prediccion lineal o autorregresivo:

xk =n∑

i=1

aixk−i + νk (3.12)

en el que νk representa ruido blanco aditivo. Los coeficientes ai se obtienenplanteando m ecuaciones: x1

...xm

=

x0 . . . x1−n...

. . ....

xm−1 . . . xm−n

a1

...an

(3.13)

De otra forma:X = W ·A (3.14)

que por mınimos cuadrados:

(WTW)A = WTX (3.15)

donde WTW es la matriz de autocorrelacion de xk. Esta ecuacion se resuelveeficientemente con el algoritmo de recursion de Levinson-Durbin.

La transformada de Fourier discreta de la funcion de transferencia delmodelo autorregresivo:

G(θ) =1

1−n∑

k=1

ake−jkθ

(3.16)

constituye una estimacion del espectro de potencias que tiende al obtenidocon la FFT al ir aumentando el numero de coeficientes ak. Es, por tanto, unaenvolvente o un promedio del espectro que se obtiene con la DFT, salvo porla escala de amplitudes.

Tambien es posible recurrir a una combinacion de cepstrum y prediccionlineal hallando el primero a partir del espectro autorregresivo. Si los polos

Page 44: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

44 CAPITULO 3. TECNICAS DE REDUCCION DE LA DIMENSION

del modelo autorregresivo z = zi estan dentro de la circunferencia unidad yla ganancia es unidad, el cepstrum clp(n) esta dado por:

clp(n) =

1

n

p∑i=1

zni n > 0

0 n ≤ 0

(3.17)

Wavelets

Uno de los inconvenientes que suele suponer el uso del espectrograma es lasolucion de compromiso que hay que tomar en cuanto a la resolucion temporaly frecuencial, que estan determinadas de forma inversa por el tamano deventana escogido. Cuando este detalle es importante en determinado analisis,una opcion a la que se puede recurrir es wavelets [18]. El analisis con waveletses semejante al espectrograma con dos diferencias importantes:

Ventanas de tamano variable: mas espacio de tiempo donde se quiereinformacion de bajas frecuencias mas precisa, y ventanas temporalesmas cortas donde se precisa mas informacion de altas frecuencias.

Funciones base distintas de las senoidales llamadas wavelets : formas deonda de duracion limitada que cumplen una serie de propiedades comomedia nula y cuya forma es mas bien irregular. Esta forma permite quelas caracterısticas locales de la senal analizada sean mejor descritas.

Consiste por tanto en descomponer la senal original en versiones desplazadasy cambiadas de escala temporal de una wavelet original en lugar de hacerloen senos y cosenos (o exponenciales complejas) como en el caso del espec-trograma. En este caso ya no se representa la amplitud de armonicos frentea frecuencia y tiempo ya que, al no ser las wavelets periodicas, no se hablade frecuencia sino de escala (respecto a una wavelet original). Tampoco sehabla de amplitud de armonicos sino de coeficientes de wavelet.

La transformada wavelet continua. La transformada wavelet continuade la funcion f(t) se define de forma muy parecida a la transformada deFourier:

C(escala, posicion) =

∫ ∞

−∞f(t)Ψ(escala, posicion, t) dt (3.18)

donde Ψ es la funcion wavelet. Existen muchas posibilidades para esta funcioncomo son la de Haar, las de Daubechies, Biorthogonal, Coiflets, Symlets, etc.cada una de las cuales tiene diferentes propiedades.

Page 45: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

3.3. EXTRACCION DE CARACTERISTICAS 45

H0

H1

↓ 2

↓ 2

Filtro paso-alto“detalles”

Filtro paso-bajo“aproximaciones”

Figura 3.3: Bloque de filtrado para transformada wavelet discreta.

La transformada wavelet discreta. La transformada wavelet continuano es adecuada para la extraccion de caracterısticas por la carga de calculoque implica. Es necesaria una version discreta para su calculo eficiente enun computador. Esta es la transformada wavelet discreta, que se calcula enescalas y tiempos potencias de dos en vez de en todos los posibles comoocurre en la continua.

La transformacion base consiste en tomar una senal y obtener de ella otrasdos, resultado de pasarla por dos filtro, uno paso-alto y otro paso-bajo. Comoqueremos obtener tantos datos como se tenıan inicialmente y sin embargo setiene el doble, se toma solo una de cada dos muestras en las dos senalesfiltradas (submuestreo o downsampling). El esquema del proceso se muestraen la figura 3.3.

La senal que contiene las bajas frecuencias es la que mas caracteriza lasenal original y por eso se denomina de aproximacion, mientras que la de altasfrecuencias es la de detalle. Si sucesivamente se repite la misma operacionsobre la senal de aproximacion, como se muestra en la figura 3.4, los datosque se obtienen corresponden a las regiones de frecuencias y tiempos que serepresentan en la figura 3.5.

En algun caso la region de frecuencias de interes podrıa no estar en la zonade bajas frecuencias sino en otra zona de frecuencias medias, por ejemplo. Elproceso anterior se podrıa realizar eligiendo segun convenga la senal de detalleo de aproximacion para obtener la zona con mayor resolucion frecuencial

Page 46: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

46 CAPITULO 3. TECNICAS DE REDUCCION DE LA DIMENSION

H0 ↓ 2

H1 ↓ 2

H0 ↓ 2

H1 ↓ 2

H0 ↓ 2

H1 ↓ 2 4

1

2

3

Figura 3.4: Filtrado para transformada wavelet discreta.

1 1 1 1

2 2

3

4

Frecuencia

Tiempo (muestras)

Figura 3.5: Frecuencias en el filtrado para transformada wavelet discreta.

Page 47: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

3.3. EXTRACCION DE CARACTERISTICAS 47

donde interese. Se entra ya en lo que se denomina wavelet packets.

Espectros de orden superior

El espectro de potencia de una senal de un proceso estacionario {xk} sepuede definir segun el teorema de Wiener-Khintchine como la transformadade Fourier de la secuencia de autocorrelacion:

Sxx(θ) =∞∑

k=−∞

rxx(k)e−jkθ (3.19)

siendo θ la frecuencia normalizada y definiendose la secuencia de autocorre-lacion de {xk} como la esperanza:

rxx(n) = E(x∗kxk+n) (3.20)

Otra definicion equivalente es:

Sxx = E{X(θ)X∗(θ)} (3.21)

Los momentos de orden superior son una generalizacion de la autocorrelacion,y como combinaciones no lineales de estos especialmente utiles se encuentranlos cumulantes. En concreto el cumulante de primer orden coincide con lamedia y el de segundo orden con la autocorrelacion:

C1x = E(xk) (3.22)

C2x(n) = E(x∗kxk+n) (3.23)

Los cumulantes de orden superior son sensibles a un desplazamiento de mediay es, por tanto, conveniente definirlos bajo la suposicion de media nula. Si elproceso tiene media no nula se restara la media y se aplicaran las definicio-nes de los cumulantes al proceso resultante. Los espectros de orden superioro poliespectros se obtienen como generalizacion de la ecuacion (3.19) a loscumulantes de orden superior. Por ejemplo, del cumulante de orden tres:

C3x(m,n) = E(x∗kxk+mxk+n) (3.24)

se obtiene el biespectro (figura 3.6):

S3x(θ, φ) =∞∑

m=−∞

∞∑n=−∞

C3x(m,n)e−jnθe−jmφ (3.25)

Los cumulantes y poliespectros de orden mayor de dos tienen utilidaddebido a las siguientes caracterısticas que poseen [65]:

Page 48: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

48 CAPITULO 3. TECNICAS DE REDUCCION DE LA DIMENSION

Figura 3.6: Biespectro de la vibracion de un motor de induccion en sus coji-netes.

Si yk y xk son procesos independientes entonces los cumulantes de lasuma zk = xk+yk son iguales a la suma de cumulantes Cnz = Cnx+Cny.

Si wk es gaussiana entonces sus cumulantes de orden mayor que dosson nulos.

De las dos anteriores propiedades se deduce que si wk es gaussiana eindependiente de xk y zk = xk + wk, entonces para cumulantes n > 2(de orden superior a dos) Cnz = Cnx. Es decir, que estos cumulantes deuna senal no gaussiana no se ven afectados por la presencia de ruidogaussiano coloreado.

Los cumulantes de orden superior a dos pueden servir para analizar nolinealidades en procesos, mientras que la secuencia de autocorrelacionno.

Los poliespectros, al contrario que el espectro de potencia, son comple-jos. Es decir, que preservan informacion de fase.

Existen otras herramientas de analisis como son la bicoherencia, que esuna version normalizada del biespectro, y todas las que se derivan para anali-zar relaciones entre distintas senales, es decir, los cumulantes y poliespectroscruzados.

Los cumulantes y poliespectros son utiles en el analisis de vibraciones demotores electricos [67] [2] [17] y en mantenimiento predictivo de maquinaselectricas en general [64].

Page 49: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

3.4. TECNICAS DE PROYECCION 49

3.3.3. Otras tecnicas de extraccion de caracterısticas

Existen multitud de tecnicas aplicables a extraccion de caracterısticas ycada campo tiene distintos subconjuntos de estas como mas usuales. En Re-conocimiento del Habla son muy tıpicas las de analisis espectral, al igual queen Vision Artificial (en la version bidimensional del analisis espectral). Laestadıstica proporciona muchas posibilidades de generacion de caracterısti-cas: estadısticos de primer orden (media), de segundo orden (varianza) yde ordenes superiores. Ası, por ejemplo, para las senales que denominamosdinamicas es tıpico usar el valor eficaz, que es equivalente a la desviaciontıpica cuando son senales de media nula, como es el caso de las vibraciones.

Algunas de las tecnicas que se comentan en el siguiente apartado (comoPCA) suelen considerarse dentro de las de extraccion de caracterısticas. Enesta tesis no se hace ası por el especial uso que se hace de ellas, aplicadassobre todo a visualizacion. Nada impedirıa usarlas para extraccion de carac-terısticas, salvo quizas el hecho de que se puede perder el significado fısicoen las caracterısticas resultantes.

3.4. Tecnicas de proyeccion

Las tecnicas de proyeccion tambien persiguen el objetivo de reduccion dela dimensionalidad de los datos, solo que en este caso dicha reduccion se llevaa cabo sin aplicar conocimiento previo, simplemente por consideraciones degeometrıa de los datos, de correlaciones entre ellos.

Una proyeccion implica crear una correspondencia de cada punto del es-pacio de los datos (espacio de entrada o espacio de caracterısticas) con unpunto de un subespacio topologico3 de menor dimension intrınseca definidoen dicho espacio de entrada (figura 3.7). Cuando el objetivo final es la vi-sualizacion, este subespacio topologico sera bidimensional o tridimensional(considerese 2D por simplicidad), y a su vez se establecera otra correspon-dencia (esta vez biyectiva) con otro espacio de igual dimension (un plano,por simplicidad) facilmente representable de forma grafica y llamado espaciode visualizacion.

El requisito fundamental para la tecnica de proyeccion en cuanto a super-vision de procesos es que no se pierda informacion relevante en la proyeccion.Siempre se pierde informacion debido a que la correspondencia entre el espa-cio de entrada y el subespacio topologico no es biyectiva (es una correspon-dencia “muchos a uno”), pero debe tratarse de que lo que se pierda no sirva

3O tambien variedad n-dimensional, como traduccion del termino ingles manifold.

Page 50: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

50 CAPITULO 3. TECNICAS DE REDUCCION DE LA DIMENSION

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2−15

−10

−5

0

5

10

15

Figura 3.7: Subespacio topologico de dimension intrınseca 1 dentro de unespacio bidimensional.

para discriminar condiciones en el proceso. Este requisito esta relacionadocon el de conservacion de la topologıa, que se comentara en el apartado 4.3.

3.4.1. Tecnicas de Proyeccion Lineal

Analisis de Componentes Principales

El Analisis de Componentes Principales (Principal Component Analysis,PCA) consiste en la proyeccion lineal de los vectores xk del espacio de entra-da en un espacio de menos dimensiones tal que tiene como base los vectorespropios correspondientes a los valores propios mayores de la matriz de cova-rianzas Σ y que se llaman componentes principales :

Σ =1

N − 1

N∑k=1

(xk − x)(xk − x)T (3.26)

donde x es la media de los vectores:

x =1

N

N∑k=1

xk (3.27)

Puesto que la matriz de covarianzas es real y simetrica sus vectores propiosson ortogonales. Cuanto mas se reduzca la dimensionalidad (menos vectores

Page 51: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

3.4. TECNICAS DE PROYECCION 51

x1

u1C1

C2

x2

u2

Figura 3.8: Perdida de discriminacion entre clases en PCA.

propios se tomen como base para el espacio final) mayor es el error cometido.Normalmente lo que se pretende es reducir la dimensionalidad lo mas posiblesin que se pierda la informacion que discrimina entre las diferentes clases con-tenidas en los datos. Este problema se puede ilustrar con el sencillo ejemplode la figura 3.8. Tomando un espacio final unidimensional, la proyeccion delas clases C1 y C2 serıa sobre el vector u1

4. Este procedimiento de reduccionde dimensionalidad descrito tambien recibe el nombre de transformacion deKarhunen-Loeve.

El PCA tiene como inconveniente, igual que todas las tecnicas de proyec-cion lineales, que no da buenos resultados cuando en los datos hay presentesno linealidades. Sin embargo, existen varios intentos de aplicarlos con exitoa casos no lineales por medio de PCA locales [91].

Projection Pursuit

Projection Pursuit es un conjunto de tecnicas no supervisadas que rea-lizan una proyeccion lineal que es de algun modo “interesante”, por mediode la optimizacion de una cierta funcion objetivo —funcion de “interes”—llamada ındice de proyeccion (projection index ). Una proyeccion se considera“interesante” cuando los datos proyectados tienen alguna estructura: corre-laciones entre variables, agrupamientos (funcion de densidad multimodal),etc. La distribucion normal es la menos estructurada de todas las posibles.

4En cambio, si se usase un metodo supervisado (teniendo en cuenta la informacionsobre las clases existentes) como el discriminante lineal de Fisher, que se mencionara masadelante, la proyeccion serıa sobre u2 y no habrıa perdida de la informacion discriminante.

Page 52: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

52 CAPITULO 3. TECNICAS DE REDUCCION DE LA DIMENSION

Cuando se aplica a estimacion de densidad o regresion, projection pursuitsufre menos la maldicion de la dimensionalidad que otras tecnicas. Por otraparte tiene las desventajas de una tecnica lineal y la de requerir una grancarga computacional.

PCA es un caso particular de projection pursuit cuando el ındice de pro-yeccion es la varianza de los datos proyectados. Otros casos particulares es-pecialmente importantes son la tecnica de Independent Component Analysis(ICA) [19][43] y el discriminante de Fisher [12][90] [32]

Random Projections

Esta tecnica, de desarrollo muy reciente, consiste en proyectar de un es-pacio de dimension d en un espacio de dimension k, por medio de una matrizk×d aleatoria, R, en la que cada vector columna se ha normalizado a modulounidad. Se aprovecha el hecho de que vectores aleatoriamente escogidos en unespacio de altısima dimensionalidad son casi ortogonales, y por tanto, para dtendiendo a infinito, R tiende a ser ortogonal: RTR ' I. Se suele usar parareducciones de dimension d desde ordenes superiores a decenas o centenas demiles hasta una dimension k de un orden de cientos5. Random Projectionsse aplica, tıpicamente, en Data Mining e indexado en grandes bases de datosde documentos de texto, de audio o de imagenes [49] [10].

3.4.2. Escalado Multidimensional

Los metodos de escalado multidimensional (Multidimensional Scaling,MDS) son un conjunto de metodos de proyeccion cuyo objetivo es conseguiren el espacio de salida unas distancias mutuas entre los puntos semejantes alas que estos tienen en el espacio de entrada. Ello se realiza por minimizacionde una funcion de coste.

El caso mas simple es el de MDS metrico, que tiene como funcion decoste:

E =∑

i

∑j 6=i

(Xij − Yij)2 (3.28)

siendo X = (Xij) e Y = (Yij) las matrices de distancias mutuas de los puntosde entrada xk ∈ Rn y los de salida yk ∈ Rp respectivamente. Las distanciasno tienen por que ser euclıdeas.

Conservar todas las distancias mutuas en los dos espacios sin mas esimposible, en general, cuando la dimension del espacio de salida es menorque la del espacio de entrada. Sin embargo suele interesar conservar mas las

5Por debajo de esos valores esta tecnica deja de ser valida.

Page 53: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

3.4. TECNICAS DE PROYECCION 53

distancias mas cortas, o lo que es lo mismo, suele interesar una conservacionde la topologıa local. Ası surge la Proyeccion de Sammon, que tiene comofuncion de coste:

E =1

c

∑i

∑j<i

(Xij − Yij)2 1

Xij

(3.29)

donde c =∑

i

∑j<iXij es una constante de normalizacion. Una evolucion de

la proyeccion de Sammon es el metodo denominado Analisis de ComponentesCurvilıneas (Curvilinear Component Analysis, CCA) [23], que tiene comofuncion de coste:

E =1

2

∑i

∑j 6=i

(Xij − Yij)2F (Yij, λy) (3.30)

Como funcion F generalmente se escoge una funcion acotada y monotonadecreciente para favorecer la preservacion de la topologıa local. Una formasimple podrıa ser la funcion escalon:

F (Yij, λy) =

{1 si Yij ≤ λy

0 si Yij > λy(3.31)

donde λy se hace decrecer a lo largo del entrenamiento. Una ventaja impor-tante de este metodo es que tiene menos carga computacional que la pro-yeccion de Sammon, ademas de ser capaz de “desdoblar datos fuertementecurvados” y de permitir escoger la escala a la que las distancias del espacio deentrada se respetan en el espacio de salida. Para las funciones F que cumplan∂F/∂Yij = 0, tenemos la siguiente expresion para actualizar los yj:

∆yj = α(t)F (Yij, λy)(Xij − Yij)yj − yi

Yij

∀j 6= i (3.32)

donde α(t) es un valor que decrece a lo largo del entrenamiento.Para comprobar la conservacion de la topologıa en CCA se usan repre-

sentaciones dx—dy, que no estan limitadas a ser usadas solo con CCA.Un enfoque similar, que puede considerarse tambien encuadrado dentro

de los metodos MDS, denominado Isomap [89], usa distancias geodesicas(camino mas corto contenido dentro del subespacio topologico de los datos),caracterıstica con la cual se afirma que es capaz de detectar mejor que otrastecnicas MDS la geometrıa de dicho subespacio topologico y su dimensiona-lidad intrınseca, incluso para casos fuertemente no lineales.

Tambien puede considerarse dentro del grupo de MDS la tecnica llamadalocally linear embedding (LLE) propuesta por Roweis et al. en [79], en la quela funcion de coste es el error de reconstruccion de cada dato como sumaponderada de sus k vecinos mas proximos.

Page 54: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

54 CAPITULO 3. TECNICAS DE REDUCCION DE LA DIMENSION

En general, este grupo de tecnicas funcionan bien cuando se tienen com-portamientos no lineales, pero:

tienen una carga computacional relativamente elevada,

es necesario iterar para proyectar nuevos puntos,

y el espacio de visualizacion tiene una distribucion irregular (aunqueesto no es un inconveniente importante).

3.4.3. Modelos Autoasociativos

Redes Neuronales Autoasociativas

Por la capacidad que tienen las redes neuronales feedforward para llevara cabo mapeos no lineales de un espacio vectorial a otro, sus aplicaciones soninnumerables. Una de las mas interesantes es la de reduccion de la dimensio-nalidad por proyeccion no lineal.

Se considera un perceptron multicapa con dos capas de pesos, teniendo dentradas y d salidas y con M neuronas en la capa oculta tal que M < d. Sicomo objetivo en el entrenamiento se usan los propios vectores de entrada, lared intenta mapear cada vector sobre sı mismo y debido al reducido numerode neuronas en la capa oculta la perfecta reconstruccion de todos los vectoresde entrada no es, en general, posible. Esta red neuronal realiza un mapeoautoasociativo.

Si las neuronas en la capa oculta tienen funciones de activacion linealesse puede demostrar que la red realiza una proyeccion lineal sobre el espaciodefinido por las M componentes principales de los datos, es decir, que esequivalente al Analisis de Componentes Principales.

Es posible conseguir una version no lineal del Analisis de ComponentesPrincipales anadiendo mas capas ocultas con funciones de activacion no li-neal. Un esquema que se puede proponer es el mostrado en la figura 3.9 dondese presenta un perceptron multicapa de cuatro capas donde las neuronas dela primera y tercera capas tienen funcion de activacion no lineal, mientrasque las de la segunda y cuarta pueden ser lineales. En la salida de las neuro-nas de la capa oculta aparecera la proyeccion no lineal del vector de entradasobre un espacio de M dimensiones [12].

El unico inconveniente que se le puede achacar es la extrapolacion querealiza la red cuando se le presenta a la entrada un vector fuera del dominio delos datos de entrenamiento, lo cual puede hacer que no sean muy adecuadaspara la generacion de residuos [30].

Page 55: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

3.4. TECNICAS DE PROYECCION 55

SALIDAS

ENTRADAS

xd

xdx1

x1

z1 zM

no lineal →

no lineal →

Figura 3.9: Perceptron multicapa en configuracion autoasociativa.

Radial Basis Functions

Las redes de funciones base radiales (Radial Basis Functions, RBF) cons-tituyen otro de los modelos de redes neuronales. La principal ventaja queposeen es la relativa rapidez y facilidad de entrenamiento. Este entrenamien-to se realiza en dos fases. En la primera se determinan los parametros delas funciones base por medio de, generalmente, metodos no supervisados. Enuna segunda fase se determinan los pesos que conforman la capa de salida dela red RBF.

Las funciones base radiales tienen su origen en tecnicas de interpolacionexacta para aproximacion de funciones multidimensionales. Se parte de unosdatos de salida yj y otros de entrada xj correspondientes, y el objetivo esencontrar la funcion f tal que:

yj = f(xj) j = 1, . . . , N (3.33)

La funcion f se escoge como suma ponderada con un conjunto de N funcionesbase φi(x) = φ(‖x− xi‖), una por cada punto:

f(x) =N∑

i=1

φi(x)wi (3.34)

Cuando el numero de puntos es muy grande, la carga de calculos puede serexcesiva si se utiliza una funcion base centrada en cada punto. En ese casose suele recurrir a usar un numero menor de centros calculados a partir delos puntos de entrada por metodos no supervisados [92].

Page 56: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

56 CAPITULO 3. TECNICAS DE REDUCCION DE LA DIMENSION

Evaluando la ecuacion (3.34) para cada punto, se obtiene el conjunto deecuaciones siguiente:

ykj =M∑i=1

φi(xj)wki j = 1, . . . , N k = 1, . . . , D (3.35)

donde D es el numero de dimensiones del espacio de salida y M el numerode centros de las funciones base. El conjunto de ecuaciones se puede poneren forma matricial:

Y = WΦ (3.36)

siendo Y = (ykj), W = (wki), y Φ = (φij) con φij = φi(xj). Resolviendo pormınimos cuadrados se obtiene:

WT = (ΦΦT )−1ΦYT (3.37)

Las funciones base φi(x) suelen ser gaussianas:

φi(x) = e−‖x−µi‖2/2σ2

(3.38)

donde los µi son los centros de las funciones base y σ su ancho. Ese ancho σ delas funciones base puede ser igual para todas, distinto para cada una, e inclusomatrices, de tal forma que las funciones base dejan de ser esfericas. Existenmultitud de metodos para la eleccion de esas σ, como metodos heurısticos,en los que muchas veces se da su valor en funcion de las distancias entrecentros, metodos de optimizacion a traves de una funcion de coste, muchasveces calculando las σ de forma simultanea a los centros, etc. [41] [60]. En laecuacion (3.34) se suele anadir un termino independiente w0 que compensa ladiferencia de media entre las activaciones de las funciones base y las salidasyj. Este termino independiente se puede incorporar al sumatorio con unanueva funcion base φ0(x) = 1.

A veces se introduce un termino en la ecuacion 3.37 para conseguir unasolucion mas “suave”, refiriendose este adjetivo a la (hiper)superficie o mapeoentrada–salida y en el sentido de que entradas parecidas correspondan consalidas parecidas. Resulta entonces la ecuacion:

WT = (ΦΦT + λI)−1ΦYT (3.39)

donde λ es el coeficiente de regularizacion. Este resultado deriva de la teorıade regularizacion que surgio con la idea de estabilizar la solucion en problemasmal condicionados por medio de una funcion auxiliar que integra informaciona priori acerca de la solucion [74] [41].

Page 57: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

3.4. TECNICAS DE PROYECCION 57

3.4.4. Mapas Topologicos

Self-Organizing Map

Self-Organizing Map (SOM) es una arquitectura de red neuronal de apren-dizaje competitivo, no supervisado o auto-organizado que fue propuesta porKohonen [53] [56] [54] [55]. Esta basado en otros metodos de aprendizajecompetitivo como Vector Quantization (VQ).

El metodo VQ trata de conseguir un conjunto finito de vectores mi ∈ Rn

llamados vectores de codificacion (codebook vectors) con una distribucion queaproxime la funcion de densidad de probabilidad continua de una variablealeatoria vectorial representada por un conjunto de muestras x ∈ Rn. Ello seconsigue con un proceso iterativo que consta de dos partes. Primero, para unamuestra xj se busca el vector de codificacion mas “parecido” mc (neuronao unidad “ganadora”). Segundo, ese vector de codificacion se actualiza deforma que sea aun mas “parecido” al xj. Generalmente se usa como criteriode semejanza entre los xj y los mi la distancia euclıdea, y entonces el mi

mas parecido a xj sera aquel tal que ‖xj −mi‖ sea mınimo. La actualizaciondel vector de codificacion sera de la forma:

mnuevoc = mc + α(k)[xj −mc] (3.40)

El proceso se repite para todas las muestras xj, con j = 1, . . . , N , y todo elloa su vez se repite un cierto numero de veces e (numero de epocas). Ademas0 < α(k) < 1 es un parametro monotonamente decreciente con el paso oepoca6 k (cada vez que se recorren todos los xj) con k = 1, . . . , e. Al cabo decierto numero de epocas, el algoritmo converge.

Un proceso semejante es el que se lleva a cabo en el algoritmo k-means,pero buscando los mc para todos los xj antes de actualizar ninguno, y luegorealizando la actualizacion de mi haciendo que cada uno de ellos se conviertaen la media de los xj que le tienen como vector de codificacion mas cercano.

El aprendizaje para el caso del SOM es igual al del VQ salvo por elhecho de que se fuerza una ordenacion en sus unidades mi. Para ello sedefine previamente dicha ordenacion sobre unas unidades gi en un espaciode generalmente dimension 1 o 2, denominado espacio de salida o espacio devisualizacion; esas unidades gi se corresponden una a una con las unidadesmi. Esta ordenacion suele consistir en un alineamiento de las unidades (enel caso 1D) o de la formacion de una rejilla regular (en el caso 2D). Tambiense define en este espacio de visualizacion una medida de distancia entre lasunidades. La ordenacion en el espacio de entrada de los mi se consigue, en

6Se puede comenzar con un valor cercano a 1 y terminar con uno muy cercano a 0, porejemplo 0,01.

Page 58: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

58 CAPITULO 3. TECNICAS DE REDUCCION DE LA DIMENSION

el algoritmo de aprendizaje, actualizando no solo la ganadora mc, sino sinotodos los mi tales que sus gi correspondientes son vecinas de la gc:

mnuevov = mv + α(k)[xj −mv] con v = {i | dv(gi,gc) ≤ nc(k)} (3.41)

donde dv() es la distancia definida en el espacio de visualizacion y nc(k) es unadistancia decreciente7 con la epoca k. La vecindad es por tanto decrecientecon el numero de epoca, consiguiendo ası una rapida ordenacion global inicialpara, posteriormente, ir afinando de forma local.

Otra posibilidad es actualizar en mayor proporcion las unidades mas cer-canas a la ganadora:

mnuevov = mv + hci(k)[xj −mv] (3.42)

donde hci es una funcion escalar de nucleo:

hci(k) = h(k) e−d2v(gi,gc)/σ2(k) (3.43)

En esta ecuacion h(k) es equivalente al α(k) de la ecuacion (3.41) y σ(k) tieneinterpretacion semejante al nc(k), indicando la amplitud del campo receptivo,esto es, las neuronas del entorno de la ganadora que se ven afectadas. Ambosse suelen hacer decrecer con la epoca k.

El SOM, una vez entrenado, define una proyeccion no lineal del espaciode entrada sobre el espacio de visualizacion, en el que un punto x del primerespacio se proyecta en el segundo como y = gc, siendo gc el nodo de larejilla correspondiente a la unidad ganadora para el dato x, es decir, el gi

correspondiente al vector de codificacion mi mas cercano a x en el espaciode entrada.

Una caracterıstica muy importante, puesto que permite la visualizacionde la proyeccion por SOM, es la preservacion de la topologıa del espacio deentrada en el espacio de visualizacion. De acuerdo con esta propiedad, uni-dades vecinas en el espacio de visualizacion lo son tambien en el espacio deentrada. Aunque la preservacion de la topologıa no esta totalmente garan-tizada en el SOM en todas las condiciones, existen medidas que indican enque grado se cumple [96] [5].

Otra caracterıstica del SOM es que sus vectores de codificacion se distri-buyen para aproximar la funcion de densidad de probabilidad de los datos deentrenamiento en el espacio de entrada8, tendiendo a conseguir una distribu-cion uniforme de estos datos proyectados en el espacio de visualizacion. Esto

7Tıpicamente, se puede comenzar con un valor mitad del tamano de la rejilla.8La relacion entre densidad de neuronas m(x), valor denominado factor de magnifica-

cion, y la densidad de datos de entrenamiento f(x) no es lineal para el algoritmo originalde entrenamiento del SOM [54] [41], sino que se tiene aproximadamente: m(x) ∝ f2/3(x).Sin embargo existen versiones del entrenamiento del SOM que sı consiguen una relacionlineal [24].

Page 59: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

3.4. TECNICAS DE PROYECCION 59

hace que el SOM dedique regiones mas grandes en el espacio de visualizaciona las agrupaciones de datos mas densas. Debido a su mayor densidad, dichosdatos pueden conformar estructuras mas complejas, que quedaran mejor des-critas en su proyeccion gracias a esta caracterıstica del SOM.

Una caracterıstica del SOM interesante para metodos de visualizacion yredundancia analıtica basada en datos es que la proyeccion se realiza en unazona delimitada; nada se proyecta fuera de la rejilla del espacio de visualiza-cion.

Kernel Regression Self-Organizing Maps

El SOM de regresion de nucleo (KR-SOM) es una ampliacion del SOM[31] [29] [26] que intenta paliar las desventajas que genera el caracter discretode este. Esto incluye la dificultad de detectar ligeras tendencias o derivas quepueda experimentar un proceso, cuando se usa el SOM para proyectar sutrayectoria de estado. El KR-SOM constituye una version continua o inter-polada del SOM. Existen dos posibilidades para realizar la interpolacion:

Interpolacion exacta: RBF.

Interpolacion no exacta: GRNN.

Las RBF, que se explicaron en apartados anteriores, son menos intere-santes para KR-SOM de cara a la generacion de residuos [30]. La definicionde KR-SOM se hara con GRNN, que se definira a continuacion.

General Regression Neural Network. La regresion de una variabledependiente y sobre una variable independiente (vectorial) x consiste en elcalculo del valor esperado de y para cada valor de x. Cuando disponemosde la funcion de densidad de probabilidad conjunta f(x, y) el calculo puederealizarse de la siguiente forma:

E[y|x] =

∫ +∞

−∞y f(x, y) dy∫ +∞

−∞f(x, y) dy

(3.44)

Si funcion de densidad de probabilidad conjunta no es conocida, se puedeestimar a partir de datos, como media de gaussianas de varianza σ2 centradasen cada dato del espacio conjunto (xi, yi); este metodo se denomina estimadorde Parzen. Bajo esas condiciones, se puede demostrar [85] que la siguiente

Page 60: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

60 CAPITULO 3. TECNICAS DE REDUCCION DE LA DIMENSION

expresion produce una estimacion de E[y|x]:

y(x) =

∑i e− ‖x−xi‖

2

2σ2 yi∑i e− ‖x−xi‖2

2σ2

(3.45)

refiriendose el ındice i a todos los datos de que se dispone. La ecuacion (3.45)recibe el nombre de General Regression Neural Network (GRNN).

Definicion de KR-SOM. En el KR-SOM la proyeccion del espacio deentrada sobre el espacio de visualizacion se realiza usando una GRNN (Gene-ralized Regression Neural Network) que realiza una aproximacion de funcioncontinua Q : Rn −→ R2 por interpolacion a partir de un conjunto de puntosmi de Rn y sus correspondientes gi de R2:

y = Q(x) =

∑i φ(‖x−mi‖)gi∑j φ(‖x−mj‖)

(3.46)

De manera analoga, tambien existe la posibilidad de realizar la proyecciondel espacio de visualizacion al espacio de entrada:

x = R(y) =

∑i φ(‖y − gi‖)mi∑

j φ(‖y − gj‖)(3.47)

La funcion de nucleo φ suele tomarse de la forma:

φ(‖z‖) = e−‖z‖2

2σ2 (3.48)

El KR-SOM presenta el problema de la no exacta equivalencia inversaentre la proyeccion del espacio de entrada al espacio de visualizacion (pro-yeccion directa) y la del espacio de visualizacion al de entrada (proyeccioninversa). Esto quiere decir que si se proyecta un punto x del espacio de en-trada al espacio de visualizacion, resultando un punto y, y este punto y asu vez se proyecta de vuelta al espacio de entrada, resulta un punto x′ queen general x′ 6= x. De este problema tampoco estan exentos otros tipos demapas topologicos (se vera en GTM), y algunos, como el PSOM de Ritter[77] [98] [97], lo resuelven por iteracion. Esto no suele ser un problema gravepuesto que el analisis visual cualitativo que se tiene como objetivo en estatesis no se ve afectado en gran medida por ello.

Sin embargo, se puede proponer una solucion sencilla y practica al proble-ma de la no igualdad de la proyeccion directa-inversa. Esta solucion consisteen realizar un SOM interpolado por proyeccion hacia el espacio de entrada, a

Page 61: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

3.4. TECNICAS DE PROYECCION 61

−2

02

−2

0

2

−1

0

1

Espacio de entrada

0 2 4 6 80

1

2

3

4

5

6

7

8

9Espacio de visualización

retroproyección

Figura 3.10: KR-SOM de retroproyeccion. Las neuronas del SOM interpoladode 30 × 30 aparecen en negro y las neuronas del SOM original de 10 × 10aparecen en rojo unidas por la malla azul.

traves de la ecuacion (3.47), de una rejilla fina en el espacio de visualizacion,o lo que es lo mismo, una rejilla con mas neuronas que ocupe el mismo espacioque la rejilla original. Posteriormente este SOM interpolado se usarıa comoun SOM normal (KR-SOM de retroproyeccion). Tambien es una solucion alproblema de eleccion de parametros de las RBF porque, al formar los centrosde origen una rejilla regular, se pueden fijar las σ2 todas iguales9. El esquemade esta idea se muestra en la figura 3.10.

Este KR-SOM de retroproyeccion introduce a su vez un inconvenienterespecto a un SOM original del mismo numero de neuronas y es que aumentael numero de neuronas interpolantes. Sin embargo, con el progresivo aumentode la capacidad de calculo del hardware para el mismo coste, es posible cadavez entrenar SOMs mas grandes en un tiempo aceptable, con lo que losinconvenientes derivados de su caracter discreto se disipan.

Existen alternativas al KR-SOM como PSOM (Parameterized SOM ) [77][98] [97], que tiene algunos inconvenientes para su aplicacion a la metodologıausada en esta tesis puesto que la proyeccion del espacio de entrada al devisualizacion requiere iteracion con un coste computacional relativamenteelevado.

9Cuando los centros origen de la interpolacion estan regularmente distribuidos, la in-terpolacion es de mayor calidad, y la σ puede ser la mitad de la distancia entre centros,por ejemplo.

Page 62: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

62 CAPITULO 3. TECNICAS DE REDUCCION DE LA DIMENSION

Generative Topographic Mapping

El Generative Topographic Mapping (GTM) es semejante al SOM, perocon base estadıstica [87] [13]. El GTM es un modelo no lineal de variableslatentes en el que se trata de encontrar una representacion para una distri-bucion p(t) de datos en un espacio con D dimensiones t = (t1, . . . , tD) enterminos de L variables latentes x = (x1, . . . , xL). Para el caso que nos ocupa,la visualizacion de espacios de alta dimensionalidad, D sera alto y L = 2.

En GTM en principio se define la proyeccion del espacio latente sobre elespacio de entrada como una funcion continua y(x;W). Esta funcion gene-ralmente tiene la forma:

y(x;W) = Wφ(x) (3.49)

donde W es una matriz D ×M de parametros y φ(x) es un vector de Mfunciones base, que se suelen tomar de la forma:

φ(x) = e−‖x−µj‖

2

2σ2j j = 1, . . . ,M (3.50)

Los parametros µj y σj se escogen para que las funciones base se repartanadecuadamente por el espacio latente (espacio de visualizacion).

Los parametros de la matriz W se hallan con un algoritmo de maximi-zacion de la esperanza (EM, Expectation Maximization), teniendo en cuentaque en el espacio de entrada se supone una funcion de densidad de probabi-lidad:

p(t|x,W, β) =

)D/2

exp

{−β

2‖y(x;W)− t‖2

}(3.51)

y en el espacio latente, en semejanza al SOM, se supone una distribucion deprobabilidad “uniforme” en una rejilla regular discreta:

p(x) =1

K

K∑i=1

δ(x− xi) (3.52)

donde xi son los K nodos de la rejilla regular discreta en el espacio latente.En la ecuacion 3.51 se observa que se ha escogido, para la distribucion de

t dado x, una gaussiana radialmente simetrica de varianza β−1.Luego, para obtener una proyeccion del espacio de entrada al de visua-

lizacion, aplicando el teorema de Bayes se puede calcular la distribucion deprobabilidad en el espacio de visualizacion:

p(xi|t) =p(t|xi,W, β)∑K

j=1 p(t|xj,W, β)(3.53)

Page 63: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

3.4. TECNICAS DE PROYECCION 63

y usar un valor representativo de dicha distribucion p(xi|t) (media, media-na,. . . ) como proyeccion de un punto t.

La proyeccion por GTM hace que una region del espacio latente puedaestar estirada o comprimida en el espacio de entrada, dependiendo de la dis-tribucion de datos en este [11]. Debido a ello, las agrupaciones de datos delespacio de entrada proyectados en el espacio latente pueden aparecer con unaseparacion relativa mayor o menor de la real. Para cuantificar este estiramien-to o compresion se dispone de los factores de magnificacion (magnificationfactors). Se define el factor de magnificacion de un punto del espacio latentex como:

dA′

dA= det1/2(ψTWTWψ) (3.54)

siendo dA′ un elemento diferencial de area en el espacio de entrada que escorrespondiente al elemento diferencial de area dA del espacio latente entorno a x, y siendo ψ(x) una matriz con elementos:

ψij =∂φi

∂xj

(3.55)

siendo las xj las componentes de x.

3.4.5. Otras tecnicas de proyeccion

Existen muchas otras tecnicas de proyeccion. Por mencionar algunas mas,el analisis de componentes principales de nucleo (Kernel PCA) consiste enaplicar PCA lineal a los datos despues de haber sido llevados por medio deuna transformacion no lineal a un espacio de dimension superior a la delespacio de entrada [80] [82]. Las curvas y superficies principales, propuestaspor Hastie y Stuetzle [40], pueden considerarse otra generalizacion no linealde PCA. Una curva principal es una curva tal que cada uno de sus puntos esel promedio de todos los datos que se proyectan sobre el.

Page 64: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

64 CAPITULO 3. TECNICAS DE REDUCCION DE LA DIMENSION

Page 65: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

Capıtulo 4

Data Mining Visual

4.1. Introduccion

El termino Data Mining se refiere a la aplicacion de un amplio numerode metodos para procesar y analizar datos. El objetivo principal del DataMining es la extraccion de conocimiento de grandes bases de datos donde ladimensionalidad (numero de variables), complejidad, o numero de muestrases demasiado grande para un analisis manual. Esta relacionado con cam-pos como el analisis exploratorio de datos (exploratory data analysis) y eldescubrimiento de conocimiento en bases de datos (knowledge discovery indatabases). El objetivo de la exploracion de datos es descubrir propiedadesen los datos por medio de medidas descriptivas (estadısticas de cada variable,entre ellas, . . . ) o visualizacion. Se trata basicamente de llegar a una cierta“comprension de los datos” y, de ahı, a comprender el proceso subyacente[94].

La idea principal del Data Mining es combinar la flexibilidad, creatividady conocimiento general de una persona con la potencia de calculo y la capa-cidad de almacenamiento de un computador para una exploracion de datosefectiva. El Data Mining Visual da un paso mas, empleando la capacidad derepresentacion grafica para integrar a la persona en el proceso de exploracionde datos, explotando sus capacidades de percepcion visual y aprovechandoel poco esfuerzo que requiere razonar con objetos visibles.

El Data Mining Visual es muy util cuando se tiene poco conocimientoa priori sobre los datos y puede ser usado para formular hipotesis sobre losmismos, que posteriormente podran ser verificados en la aplicacion de otrastecnicas estadısticas y de aprendizaje automatico (machine learning). Lastecnicas de Data Mining Visual tienen ciertas ventajas frente a estas tecnicasautomaticas de estadıstica y machine learning :

65

Page 66: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

66 CAPITULO 4. DATA MINING VISUAL

Tratan mas facilmente con datos no homogeneos y ruidosos.

Son intuitivas.

No requieren la comprension de complejos algoritmos matematicos oestadısticos.

Una representacion visual de resultados da un mayor grado de confianzaque la representacion numerica o textual.

Existen numerosos enfoques y formas de representacion para llevar a caboData Mining Visual. Para procesos industriales complejos, en esta tesis seutilizara el enfoque de la reduccion de la dimensionalidad, que consiste en pro-yectar los datos multidimensionales (medidas del proceso o transformacionesde estas, es decir, caracterısticas) en un subespacio topologico bidimensionalque se hara corresponder con un plano. Esa correspondencia sera tal que laspropiedades inteligibles del espacio multidimensional (las propiedades quepermiten realizar razonamientos directamente con ellas: variables con signi-ficado fısico, las relaciones entre ellas, etc.) podran trasladarse al plano paraser representadas y ası poder ser usadas para realizar razonamientos en dichoplano[29] [28] [26] [27] [25] [20] [22].

4.2. Formas basicas de representacion

El principal problema a la hora de representar datos multidimensionaleses precisamente la dimensionalidad. Los medios tradicionales de representa-cion (papel, pantalla) no permiten mas que dos dimensiones espaciales. Estalimitacion en principio parece sugerir como unica alternativa la representa-cion de datos como nubes de puntos (scatter plots, graficas de dispersion) enun sistema cartesiano tıpico que codifica valores de dos variables como posi-cion en dos dimensiones1. Estas simples representaciones de nubes de puntosson muy utiles para descubrir agrupamientos y correlaciones entre variables.

Sin embargo, ademas de la posicion en dos dimensiones, existen diversasformas de codificar valores en representaciones visuales como son el tamano,el color, la forma, la textura, el movimiento, etc [15]. Un ejemplo que mues-tra la codificacion por tamano se muestra en la figura 4.1, en la que las dosprimeras variables x e y se representan en los ejes de coordenadas, mientrasque una tercera variable z se muestra como un tamano de los cırculos propor-cional al valor de dicha variable z. Un ejemplo semejante, pero codificandocon color en lugar de con tamano se puede ver en la figura 4.10.

1Las representaciones 3D en un medio 2D como perspectiva tienen perdida de informa-cion, salvo que sea un medio, como un computador, que permita la rotacion interactiva.

Page 67: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

4.2. FORMAS BASICAS DE REPRESENTACION 67

−1.5 −1 −0.5 0 0.5 1 1.5−1.5

−1

−0.5

0

0.5

1

1.5

2

2.5

3

X

Y

Figura 4.1: Grafica de puntos dispersos con codificacion en tamano.

Otra posibilidad son las matrices de graficas de nubes de puntos, en lasque las graficas se hacen tomando dos a dos las variables (figura 4.2). Ladiagonal de la matriz puede aprovecharse para dibujar los valores de lasvariables frente al numero de muestra. Si se trata de series temporales yel numero de muestra esta relacionado con el tiempo, esto permite extraerconclusiones acerca de las evoluciones temporales.

Otra alternativa es table lens, un tipo de representacion por codificacionen color que permite la deteccion de relaciones entre variables. Consiste enla ordenacion de los vectores muestra en funcion del valor de una de lasvariables. Las variables que tambien presenten una ordenacion estaran re-lacionadas con la primera. En la figura 4.3 estan representadas table lenspara ordenacion de cada una de las tres variables de los datos de ejemplo(de izquierda a derecha, x, y y z respectivamente). Se observa que existe unaclara relacion directa entre las variables y y z, y una mas tenue (en una partedirecta y en otra inversa) entre x y z.

Finalmente, citar algunas mas de entre la infinidad de formas de represen-tacion aplicables a Data Mining Visual, como coordenadas paralelas (parallelcoordinates), mundos dentro de mundos (worlds within worlds), dense pi-xel displays, distorsion esferica (spherical distortion), distorsion hiperbolica(hyperbolic distortion), etc. [51] [15].

Page 68: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

68 CAPITULO 4. DATA MINING VISUAL

0 500 1000−2

−1

0

1

2x

0 500 1000−2

0

2

4y

0 500 1000−2

0

2

4z

−2 0 2−2

0

2

4x y

−2 0 2−2

0

2

4x z

−2 0 2 4−2

0

2

4y z

Figura 4.2: Graficas de puntos dispersos de pares de variables.

100

200

300

400

500

600

700

800

100

200

300

400

500

600

700

800

100

200

300

400

500

600

700

800

X Y Z X Y Z X Y Z

Figura 4.3: Graficas table lens para tres variables.

Page 69: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

4.3. PROYECCION DE DATOS 69

4.3. Proyeccion de datos

Un metodo para visualizar datos multidimensionales es la proyeccion delos mismos, lineal o no lineal, en un espacio visualizable. En principio sepierde la informacion de los valores de las variables, pero se conserva lade parecido entre muestras (como vectores) lo que permite un analisis deagrupamientos de forma visual. Sin embargo, esta perdida de informacion sepuede evitar, pudiendo trasladarse informacion inteligible relacionada con lasvariables originales del espacio de entrada al espacio de visualizacion.

Realizando el planteamiento de la proyeccion de datos para un proce-so, se parte de un espacio de caracterısticas, en el que cada componentecorresponde con una de las caracterısticas del proceso; este espacio no esvisualizable por ser de alta dimensionalidad. El objetivo es realizar una pro-yeccion del espacio de caracterısticas en un espacio de visualizacion. Latecnica de proyeccion que se vaya a usar para el analisis de procesos debecontemplar las siguientes posibilidades:

1. Proyeccion del espacio de caracterısticas sobre el de visualizacion, quees necesaria para proyectar vectores de caracterısticas individuales delproceso y, en particular, la trayectoria de estado. Se denominara a estaproyeccion Smi→gi

(x), siendo x un punto del espacio de caracterısticas.

2. Proyeccion del espacio de visualizacion sobre el espacio de caracterısti-cas, que es necesaria para trasladar informacion inteligible desde elespacio de caracterısticas al de visualizacion2. Esta proyeccion deberıaser la inversa de la del punto anterior para que la informacion mostradaen cada punto del espacio de visualizacion corresponda realmente a di-chos puntos3. Se denominara Sgi→mi

(y), siendo y un punto del espaciode visualizacion.

La proyeccion (en ambos sentidos) no tiene por que ser continua o derivable.Sin embargo, si es discreta, conviene que este definida para una rejilla regu-lar en el espacio de visualizacion por simplicidad en la representacion. Si laproyeccion es continua normalmente sera posible escoger una rejilla regular.Los puntos de esta rejilla regular estan identificados en la nomenclatura ele-gida para la proyeccion directa e inversa: gi son los puntos de la rejilla en elespacio de visualizacion y mi son los puntos correspondientes en el espaciode caracterısticas.

2Dicho de otra forma, para dibujar los mapas de colores en el espacio de visualizacion.3Sin embargo, cuando se busque una descripcion mas bien cualitativa esto no importa

mientras el error no sea muy grande.

Page 70: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

70 CAPITULO 4. DATA MINING VISUAL

Una caracterıstica que es especialmente deseable, tanto en la proyecciondirecta como en la inversa, es la conservacion de la topologıa. Esta conser-vacion de la topologıa es difıcil de definir, pero se puede dar como definicionmas restrictiva la siguiente:

una proyeccion (funcion, mapeo) conserva la topologıa cuandopuntos adyacentes (cercanos, vecinos) en el espacio inicial lo sontambien en el espacio final.

Respecto a los planteamientos de este apartado, esta bastante claro que signi-fica “adyacencia” en el espacio de visualizacion. En el espacio de caracterısti-cas no esta tan claro y hay que especificar que en dicho espacio interesa quela adyacencia se refiera a “dentro del subespacio topologico del proceso”, esdecir, que la cercanıa o lejanıa de dos puntos se mida a lo largo del camino demınima distancia contenido dentro de dicho subespacio topologico. La nece-sidad de este requisito se explica como la consecucion de una trayectoria deestado que no sufra discontinuidades (que no “de saltos”) durante cambiossuaves en la condicion del proceso.

Existen varias tecnicas de proyeccion mencionadas en el capıtulo 3 quecumplen todas estas condiciones (o al menos casi todas). Algunas de lastecnicas que dan buenos resultados, ademas de por los requisitos menciona-dos, por su buen comportamiento en la generacion de residuos, son: SOM,KR-SOM y GTM. El SOM es discreto, y por ello no es muy preciso a lahora de revelar tendencias o derivas. El KR-SOM y el GTM son continuos ysemejantes, pero ninguno cumple la condicion 2 antes mencionada. Por otraparte, el inconveniente del caracter discreto del SOM se puede reducir usandomas neuronas, viendose solamente limitado este numero por las capacidadesde calculo y almacenamiento del computador usado en su entrenamiento.

Como ejemplo para ilustrar todo lo que se explicara en este capıtulo seutilizara un ejemplo “de juguete” con datos (x, y, z) formando dos grupos.El primero y mas pequeno de los grupos son datos con y y z constantes.El segundo se ha generado con la ecuacion z = x2 + y para x, y ∈ [−1, 1]distribuidos de forma uniforme. A las tres variables se les ha anadido ruidogaussiano. En la figura 4.4 se muestran esos datos con una malla de SOMsuperpuesta que ha sido entrenado con dichos datos.

4.4. El error de modelado

Al proyectar un punto del espacio de caracterısticas sobre el espacio devisualizacion hay que distinguir dos casos:

Page 71: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

4.4. EL ERROR DE MODELADO 71

−1−0.5

00.5

1

−1

0

1

2

−1

−0.5

0

0.5

1

1.5

2

xy

z

Figura 4.4: Malla de SOM en el espacio de entrada con los datos de entrena-miento.

1. El punto esta contenido en el subespacio topologico correspondiente alfuncionamiento del proceso.

2. El punto esta fuera del subespacio del proceso.

Es posible detectar en que caso se esta, proyectando en el espacio de visuali-zacion y volviendo a proyectar el resultado sobre el espacio de caracterısticas.Cuando se esta en la primera situacion (dentro del subespacio), en un casoideal, se obtendra el punto inicial. Cuando se esta en la segunda situacionse obtiene un residuo como diferencia del punto resultante y el original. Almodulo de este vector diferencia se le denomina error de modelado4.

Para todo lo que sigue en este capıtulo se estara considerando que estamosen la primera situacion. La segunda situacion se estudiara ampliamente enel capıtulo siguiente.

4En el SOM se usa en su lugar el termino error de cuantificacion, heredado de la visiondel SOM como un cuantificador en compresion de senal. En este caso puede no ser muyadecuado su uso.

Page 72: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

72 CAPITULO 4. DATA MINING VISUAL

4.5. Representacion visual de conocimiento

Al realizar la proyeccion de la trayectoria de estado, no necesariamente sepierde toda referencia con el espacio de caracterısticas. Es posible representaren el espacio de visualizacion la informacion inteligible del proceso disponibleen los puntos del subespacio topologico de su modelo. Esta forma de repre-sentacion se basa en la codificacion de toda esa informacion por medio decolores, conformando unos “mapas de colores” en el espacio de visualizacion;cada uno de esos “mapas de colores” representa el valor de una determinadapropiedad que en el espacio de caracterısticas tiene sentido fısico. Para crearestos mapas solo hay que conocer a que punto del espacio de caracterısticascorresponde cada punto del espacio de visualizacion. Hay que recalcar quetodos esos mapas estan mostrando el mismo espacio de visualizacion, perorepresentando distintas informaciones. En esencia, lo que se va a exponer enlos siguientes subapartados es una forma de representar conocimiento en unespacio comun, el espacio de visualizacion.

4.5.1. Etiquetado

El espacio de visualizacion constituye, como ya se menciono, un autentico“mapa del proceso”. Al igual que en un mapa geografico se senalan los nom-bres de las ciudades y los accidentes geograficos, el espacio de visualizacionpuede ser etiquetado para poder localizar de un vistazo zonas particulares delespacio de visualizacion en cuanto a estados o condiciones del proceso. Parallevarlo a cabo se dispone de multiples herramientas, que seran descritas enlos siguientes apartados.

4.5.2. Planos de componentes

Los planos de componentes o mapas de caracterısticas permiten conocera traves del espacio de visualizacion, las coordenadas en el espacio de ca-racterısticas de sus puntos correspondientes [53] [56] [54] [55]. Para ello serepresenta en el espacio de visualizacion el valor de una de las coordena-das como un color. Existen, por tanto, tantos planos de componentes comodimensiones tenga el espacio de entrada.

Para obtener el plano de componentes correspondiente a la coordenadaj, se toman los puntos gi del espacio de visualizacion y se proyectan so-bre el espacio de caracterısticas, obteniendose como resultado unos puntosmi = (mi1, . . . ,mij, . . . ,miD) = Sgi→mi

(gi), de los que se toman los mij yse codifican como colores. Por sencillez de representacion se habran escogido

Page 73: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

4.5. REPRESENTACION VISUAL DE CONOCIMIENTO 73

x

0 5 10 150

5

10

15

y

0 5 10 150

5

10

15

z

0 5 10 150

5

10

15

Figura 4.5: Planos de componentes.

unos gi que formen parte de una retıcula regular. De esta forma los mij serepresentan mediante pixels coloreados en pantalla.

En la figura 4.5 se muestran los planos de componentes para los datos deejemplo.

4.5.3. Mapa de distancias

El modelo de datos que representa al proceso puede verse en el espaciode caracterısticas como una “lamina elastica” que se ajusta a los datos quesirvieron para su creacion. La “lamina elastica” puede no solo adaptarse a laforma que tienen los datos en el espacio de entrada, sino tambien estirarse yencogerse para representar mejor en el espacio de visualizacion aquellas zonasque tienen mayor densidad de muestras de entrenamiento. Ası, en el caso delSOM, se demuestra que este tiende a hacer que la distribucion de los datosde entrenamiento proyectados en el espacio de salida tengan una distribucionaproximadamente uniforme5. El GTM se plantea en [13] de tal forma que secomporte como el SOM en ese sentido. Parece claro que una informacioninteresante para ser representada en el espacio de visualizacion es el grado deestiramiento de la “lamina elastica”. En eso consisten los mapas de distanciasen el SOM y KR-SOM, y la representacion en el espacio de visualizacion delfactor de magnificacion del GTM, que por analogıa se pueden denominar dela misma forma.

Debido a esta propiedad del SOM y del GTM de estirarse en las zonasdonde hay menos densidad de datos, el mapa de distancias sirve para detec-tar, a traves del espacio de visualizacion, agrupaciones de datos en el espaciode entrada.

5Propiamente dicho sera uniforme en el caso del KR-SOM, que es continuo. En el casodel SOM es una “uniforme discreta”.

Page 74: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

74 CAPITULO 4. DATA MINING VISUAL

Mapa de Distancias

0 5 10 150

2

4

6

8

10

12

14

16

18

Mapa de Activación

0 5 10 150

2

4

6

8

10

12

14

16

18

Figura 4.6: Mapa de distancias y mapa de activacion.

En la figura 4.6 (izquierda) se muestra el mapa de distancias para elejemplo de juguete. En ella se pueden observar las zonas correspondientes ados grupos de datos. Sabiendo que el grupo generado con la ecuacion z =x2 + y contiene mas datos y que el SOM tiende a distribuir uniformementelos datos de entrenamiento en el espacio de visualizacion es facil deducir quela zona mas grande corresponde a dicho grupo.

4.5.4. Mapas de activacion

Cuando se quiere saber a que zona del espacio de visualizacion corres-ponde un cierto conjunto de datos, puede pensarse que lo mas directo essimplemente dibujar la proyeccion de todos los datos. Sin embargo esta re-presentacion no es muy buena si lo que se quiere conocer es la distribucionde los datos proyectados (donde se proyectan mas o menos datos), sobretodo si se trata de un mapa discreto (SOM) o cuando los datos mismosestan cuantizados: en ambos casos se pueden estar proyectando muchos da-tos exactamente en el mismo punto, efecto que no serıa detectado de formavisual. Ello hace necesario representar, de alguna forma, la “densidad” de losdatos proyectados. Los mapas de activacion, propuestos en [31] y [27], sonsemejantes a una funcion de densidad de un conjunto de datos proyectados.

Para el SOM, los mapas de activacion se definen de la siguiente forma.Sea {xk}k=1,...,K un conjunto de datos. El nivel de activacion de la unidad i

Page 75: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

4.5. REPRESENTACION VISUAL DE CONOCIMIENTO 75

del SOM para ese conjunto de datos se define como:

Ai =

∑k hc(k)i∑Mj=1 hij

i = 1, . . . ,M (4.1)

c(k) = arg mıni{d(xk,mi)} (4.2)

donde M es el numero de neuronas del SOM y c(k) es el ındice de la unidadganadora del SOM para xk. La version continua para el KR-SOM se obtienecon:

A(y) =

∑i φ(‖y − gi‖)Ai∑j φ(‖y − gj‖)

(4.3)

En el caso del GTM, se dispone directamente de algo equivalente por mediode la ecuacion (3.53), que da el equivalente al mapa de activacion para unaunica muestra. Solo habrıa que sumar para todos las muestras xk.

En la figura 4.6 (derecha) se muestra el mapa de activacion para los datosdel grupo con y y z constante del ejemplo.

4.5.5. Mapas borrosos

Es posible etiquetar el espacio de visualizacion solo con la ayuda de losplanos de componentes cuando se sabe que valores tienen las caracterısticaspara ciertas condiciones del proceso, por ejemplo:

Cuando x1 tiene un valor alto, x2 toma valores medios y x4

toma valores negativos entonces el proceso esta en el estado E1

Basta buscar en los planos de componentes las zonas que cumplen esas con-dicion y poner la etiqueta en dichos lugares. Si el numero de variables es bajo(dos o tres) puede ser un trabajo sencillo. Sin embargo, con un numero devariables alto puede complicarse hasta lımites insospechados.

Puede observarse que la regla de ejemplo mencionada para identificarcierta condicion del proceso tiene un formato que es expresable como unaregla borrosa. Se vera tambien que usando un Sistema de Inferencia Borroso(Fuzzy Inference System, FIS) es posible realizar esa tarea de localizacion dezonas automaticamente.

Los mapas borrosos o mapas de inferencia borrosos [27] [21] [22] permitenla incorporacion de conocimiento del proceso expresado en forma de reglasdifusas. Ası, si f es un sistema de inferencia borroso con una salida τ y tantasentradas como variables del proceso:

τ(gi) = f(mi) = f(Sgi→mi(gi)). (4.4)

Page 76: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

76 CAPITULO 4. DATA MINING VISUAL

Mapa borroso

0 5 10 150

2

4

6

8

10

12

14

16

18

Figura 4.7: Mapa borroso.

Esto permite asignar a cada punto del espacio de visualizacion un valor, quese codificara con color, y que es la salida del FIS f dandole como entradael valor de las caracterısticas del proceso en el punto correspondiente delespacio de caracterısticas. Ası, para el ejemplo utilizado en este capıtulo, esposible visualizar las reglas:

SI (x ES muy alta) Y (y ES muy alta) Y (z ES muy alta) ENTONCES (condicion1 ES si)

SI (x NO ES muy alta) O (y NO ES muy alta) O (z NO ES muy alta) ENTONCES (condicion1 ES no)

el mapa borroso resultante es el de la figura 4.7, donde se observa que lapequena region resaltada coincide con un extremo de la agrupacion de datosmenor.

Esta idea ya fue intuıda por Pedrycz, que en [71] usa expresiones delogica borrosa para obtener interpretaciones cualitativas en los resultados deun SOM usado como clasificador.

Los mapas borrosos son, por tanto, una representacion en el espacio devisualizacion de las conclusiones de conjuntos de reglas borrosas que rela-cionan caracterısticas del proceso. Esas reglas suelen ser expresion de unconocimiento adquirido por la experiencia.

4.5.6. Mapas de modelos

Los mapas borrosos pueden considerarse como una manera de representaren el espacio de visualizacion un modelo del proceso expresado en forma dereglas borrosas. De la misma forma es posible tambien representar en elespacio de visualizacion modelos analıticos. Los mapas de modelos son utiles

Page 77: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

4.5. REPRESENTACION VISUAL DE CONOCIMIENTO 77

−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

Mapa de modelo: x2+y−z=0

0 5 10 150

2

4

6

8

10

12

14

16

18

Figura 4.8: Mapa de modelo.

para determinar en que medida un modelo analıtico (ecuaciones explıcitas)se cumple en cada punto del espacio de caracterısticas correspondiente a unpunto del espacio de visualizacion [27] [22]. Si se tiene una ecuacion que esfuncion de las caracterısticas consideradas en el espacio de entrada:

f(x) = 0 (4.5)

se podrıa evaluar para las imagenes en el espacio de entrada correspondientesa los puntos del espacio de visualizacion, por ejemplo, en una rejilla regular:

f(mi) = f(Sgi→mi(gi)) = εi (4.6)

donde εi solo sera nulo donde se cumpla el modelo dado por la ecuacion4.5 y sera precisamente esta magnitud la que se represente en el espacio devisualizacion.

En la figura 4.8 se muestra el mapa del modelo para la ecuacion z =x2 + y en el ejemplo. Se observa como el modelo se cumple para la zonacorrespondiente al grupo de datos mayor, como era de esperar puesto queesos datos fueron generados de acuerdo con dicha ecuacion, al contrario queel grupo menor de datos.

Tanto en el caso de los mapas de modelos como en el de los mapas borro-sos, lo que realmente se esta representando en el espacio de visualizacion sonlos subespacios que definen los modelos de ambos tipos: ecuaciones analıticasy reglas respectivamente. Con esta tecnica, por lo tanto, estas entidades se

Page 78: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

78 CAPITULO 4. DATA MINING VISUAL

convierten en visualizables, lo cual permite conjugar la intuicion fısica, pre-sente en el espacio de caracterısticas, con la intuicion visual y geometrica,presente en el espacio de visualizacion.

4.5.7. Mapas de correlaciones

El analisis de correlaciones es una tecnica muy potente para descubrir re-laciones lineales entre pares de variables. Tradicionalmente, esta tecnica se haaplicado sobre el conjunto de datos completo, proporcionando solo informa-cion global. Sin embargo esto no es muy util en datos de procesos industrialesque, por su caracter no lineal, tıpicamente contienen varios puntos de fun-cionamiento, donde las correlaciones entre variables del proceso pueden serdiferentes.

En [25] [22] se propone la representacion en el espacio de visualizacionde las correlaciones locales entre variables de un proceso a partir de datosdel mismo en el espacio de caracterısticas, representacion que se denominamapa de correlaciones. El enfoque local es posible ponderando los datos enel espacio de caracterısticas con una funcion de nucleo:

wk(y) = e−12‖xk−Sgi→mi (y)‖2/σ2

(4.7)

Cada punto del espacio de visualizacion y (normalmente los gi de la rejillaregular) es proyectado sobre el espacio de entrada, y esta imagen Sgi→mi

(y)es usada como centro de la funcion de nucleo para calcular la media local yla matriz de covarianzas local:

µ(y) =

∑k xk · wk(y)∑

k wk(y)(4.8)

C(y) = (cij) =

∑k[xk − µ(y)][xk − µ(y)]Twk(y)∑

k wk(y)(4.9)

A partir de la matriz de covarianzas local es posible definir de forma directala matriz de correlaciones local en torno a y como:

R(y) = (rij) donde rij =cij√ciicjj

. (4.10)

El mapa de correlaciones para las variables xi y xj es representado por elvalor rij (o rji debido a la simetrıa de las matrices de covarianzas y correla-ciones) en cada punto y de la rejilla del espacio de visualizacion. Observandola figura 4.9, que son los mapas de correlaciones para el ejemplo, se hace masevidente como los mapas de correlaciones constituyen, de hecho, una gene-ralizacion de una matriz de correlaciones, indicando la distribucion local dedichas correlaciones.

Page 79: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

4.5. REPRESENTACION VISUAL DE CONOCIMIENTO 79

−1

−0.5

0

0.5

1x x

0 5 10 150

5

10

15

−1

−0.5

0

0.5

1x y

0 5 10 150

5

10

15

−1

−0.5

0

0.5

1x z

0 5 10 150

5

10

15

−1

−0.5

0

0.5

1y x

0 5 10 150

5

10

15

−1

−0.5

0

0.5

1y y

0 5 10 150

5

10

15

−1

−0.5

0

0.5

1y z

0 5 10 150

5

10

15

−1

−0.5

0

0.5

1z x

0 5 10 150

5

10

15

−1

−0.5

0

0.5

1z y

0 5 10 150

5

10

15

−1

−0.5

0

0.5

1z z

0 5 10 150

5

10

15

Figura 4.9: Mapas de correlaciones.

Page 80: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

80 CAPITULO 4. DATA MINING VISUAL

−1

−0.5

0

0.5

1

1.5

2

−2 −1 0 1 2−1.5

−1

−0.5

0

0.5

1

1.5

2

2.5

3Todos los datos. Variable "z" codificada en color

x

y

−1

−0.5

0

0.5

1

1.5

2

−2 −1 0 1 2−2

−1

0

1

2

3Sólo datos con z>0.4 y z<0.6

x

y

Figura 4.10: Interpretacion de las correlaciones entre x e y vista en los mapasde correlaciones.

En la figura 4.10 se muestra una interpretacion de la variacion de la corre-lacion xy de la figura 4.9 en la zona en que cambia el signo de la correlacion.Ası, considerando la z constante, para x pequenas (en los planos de compo-nentes se puede ver que es en la parte inferior del mapa) la correlacion espositiva, pasando gradualmente a correlacion nula y despues negativa segunaumenta la x (hacia arriba en los mapas).

La eleccion de la variable σ de la ecuacion (4.7) influye en el grado de“localidad” de los mapas de correlaciones. Para valores muy grandes de σlos mapas de correlaciones presentan los valores de correlaciones globales,siendo por tanto cada uno de ellos de un color uniforme. Para valores deσ muy pequenos, los mapas de correlaciones se ven muy influidos por elruido y los pocos datos que tiene en cuenta para el calculo de la matricesde covarianzas, lo cual genera mapas ruidosos y resultantes de matrices decovarianzas degeneradas.

Los mapas de correlaciones pueden considerarse como la representacionen el espacio de visualizacion de simples modelos locales lineales de caractercualitativo extraıdos de datos, y que pueden ser usados tanto para asistir enla identificacion de la condicion del proceso en distintas regiones del espaciode visualizacion, como para extraer nuevo conocimiento sobre el comporta-miento del proceso en distintos puntos de funcionamiento.

Page 81: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

Capıtulo 5

Residuos en Modelos de Datos

5.1. Introduccion

La aplicacion de tecnicas de redundancia analıtica es posible tambiencon modelos basados en datos. La idea principal es desacoplar la parte quepodemos denominar “explicable por el modelo” de la parte “no explicablepor el modelo” en cada muestra del vector de caracterısticas del proceso.La parte no explicable portarıa informacion altamente especıfica en relacioncon situaciones novedosas, las cuales en su mayor parte podrıan correspondercon situaciones de fallo. Esto es especialmente aplicable a fallos modelizablescomo fallos aditivos, puesto que en ciertos casos se puede encontrar relaciondirecta entre el vector de fallo aditivo y el vector de residuos.

5.2. Generacion de residuos

En general, un modelo del sistema define un subespacio topologico Sdentro del espacio de sus variables (caracterısticas), o lo que es lo mismo,impone unas relaciones entre sus variables, una restriccion en los grados delibertad de sus variables. Se puede generar un residuo vectorial ε a partir delmodelo de la siguiente forma:

ε = x− x (5.1)

donde x es el vector de valores instantaneos de las variables del proceso y xes el valor mas semejante a x predicho por el modelo:

ε = x− S(x) (5.2)

En general S sera una funcion que devuelva x cuando este este contenido enel subespacio del proceso (x ∈ S) y distinto de x en caso contrario (x /∈ S).

81

Page 82: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

82 CAPITULO 5. RESIDUOS EN MODELOS DE DATOS

En el primer caso el residuo vectorial serıa nulo y el sistema se encontrarıa ensituacion de no fallo (estrictamente hablando, en situacion de “acorde con elmodelo”). En el segundo caso habrıa una indicacion de fallo y sera cuestionde la naturaleza de la funcion S si el residuo es significativo o no para su usoen el aislamiento del fallo, es decir, si provee informacion valida para llevar acabo dicho aislamiento [30]. La funcion S podrıa ser, en principio, cualquiertecnica de proyeccion, y en concreto, cualquiera de las mencionadas en elapartado 3.4.

5.3. Deteccion de Novedades

La deteccion de novedades (novelty detection) consiste en detectar cuandoun dato nuevo1 no corresponde con ninguno de los estados del proceso pre-sente en los datos que fueron usados para la creacion del modelo [105] [1] [83][39] . Esto se relaciona con el apartado anterior puesto que un indicador denovedades es:

e = ‖x− x‖ (5.3)

valor escalar que se denomina error de modelado (error de cuantificacion,quantization error, en el SOM). Esto, en principio, solo es valido en los meto-dos de modelado a partir de datos que tengan en cuenta el dominio de losdatos que fueron usados para crear el modelo2: si el nuevo dato no esta con-tenido dentro de ese dominio, entonces es una “novedad”. El problema dedetectar cuando un dato x ∈ Rn pertenece al dominio de una variable alea-toria ξ ∈ Rn no es directo cuando la informacion de partida es un conjuntode muestras de dicha variable aleatoria. Este problema esta relacionado conla Teorıa de Decision y lo que se conoce en Estadıstica como deteccion devalores atıpicos (outlier testing).

El problema de deteccion de valores atıpicos consiste en descubrir cuandoun dato x puede corresponder con una realizacion de la variable aleatoria ξ ono. El dominio de la variable aleatoria va implıcito en la funcion de densidadde probabilidad (fdp) de los datos, puesto que corresponde con los valores dex donde esta funcion es no nula. El caso donde x cae fuera del dominio de ξes inmediato puesto que es evidente que no puede ser una realizacion de ξ.Sin embargo cuando x esta dentro del dominio de ξ, no se garantiza que sea

1Sea un dato “nuevo” un dato que acaba de ser adquirido o que simplemente no fueusado en la creacion del modelo. Aunque la palabra es similar, el significado es diferenteal del termino “novedad”.

2Dicho de manera simplificada, que no extrapolen. La interpolacion tambien puedecrear algun problema si no se tiene en cuenta, pero puede detectarse como se explica en5.5.2.

Page 83: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

5.3. DETECCION DE NOVEDADES 83

una realizacion de esta, sobre todo en los casos en los que la fdp es proximaa cero. Ademas esto ultimo siempre ocurrira en casos en los que la fdp seano nula en todo Rn, como en la distribucion normal. La mayor parte de lasveces el objetivo es, por tanto, cuantificar al menos que probabilidades hayde cometer un error en la decision, ya sean falsos positivos o falsos negativos.La Teorıa de Decision proporciona varias posibilidades para la deteccion denovedades; aquı se mencionaran algunos metodos especialmente interesantespor su caracter intuitivo o por su caracter practico.

La primera idea es realizar una estimacion de la fdp de la variable aleatoriaa partir de los datos muestra, poner un umbral3 para realizar la discrimina-cion, evaluar el dato en la fdp y, si el resultado queda por encima del umbral,el dato se supone realizacion de la variable aleatoria.

Existen tambien soluciones partiendo solo del modelo creado a partir delos datos, sin embargo el problema es algo distinto. Generalmente el modelo,al contrario que la fdp, no tiene en cuenta el “ruido”, refiriendose este “ruido”al responsable de la varianza de los datos respecto a la media aproximadapor el modelo; un caso especial es GTM, que sı que tiene en cuenta el ruido,en cierta manera, por medio del parametro β. En estos casos, la solucion,que consiste en escoger un umbral para el error de modelado e de la ecuacion(5.3), puede tener en cuenta de alguna manera los datos de partida paraobtener informacion sobre el ruido, para posteriormente deducir de ello elumbral mas adecuado.

Resumiendo, existen al menos tres alternativas como criterio para la de-teccion de novedades:

Umbral para la fdp relacionado con la probabilidad de error en la de-teccion.

Umbral global para el error de modelado. En GTM podrıa ser pro-porcional a 1/β, y en otro caso (SOM, etc.) estimarse a partir de losdatos de entrenamiento. Serıa como darle un “grosor” al subespaciotopologico del modelo igual en todo el.

Umbral para el error de modelado distinto en cada punto pertenecienteal subespacio del modelo. Serıa como darle al subespacio un “grosor”distinto en cada punto.

3Que puede ser un valor tal que al integrar la fdp donde esta supere dicho valor, de unresultado de 0.99, por ejemplo.

Page 84: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

84 CAPITULO 5. RESIDUOS EN MODELOS DE DATOS

5.4. Residuo vectorial

Si se considera el vector (5.1) completo (y no solo su modulo), ademasde la deteccion puede haber un aislamiento del fallo puesto que, bajo ciertascondiciones, en un fallo aditivo el vector de residuos es semejante al vectorde fallo. Si se produce un fallo en el que el proceso se mueve en una direccionaleatoria dentro de su espacio, cuando este espacio es de alta dimensionali-dad es muy probable que el movimiento sea en una direccion ortogonal alsubespacio que representa el modelo del proceso4. Es decir, que podemosobtener un vector semejante al de fallo tomando el vector diferencia entreel punto actual y el mas cercano dentro del subespacio del proceso, que esprecisamente lo que se plantea en las ecuaciones (5.1) y (5.2)

5.4.1. Validez del residuo vectorial

Las tecnicas que sirven para realizar modelos basados en datos se puedenclasificar en dos grupos:

1. Modelos basados en el soporte5 de los datos (GRNN, SOM, k-means,. . . ). Son modelos que aproximan la geometrıa de la funcion de densidadde probabilidad.

2. Modelos mınimo-cuadraticos (RBF, perceptron multicapa autoasocia-tivo). Tratan de minimizar una funcion de error cuadratico.

Los modelos basados en soporte estan estadısticamente fundamentados.Tratan de buscar una funcion objetivo en la que figura la funcion de densidadde probabilidad (que lleva implıcito el soporte de los datos). Los modelosmınimo-cuadraticos, sin embargo, buscan simplemente minimizar el error deaproximacion y obtienen como resultado algo parecido a la funcion identidad:f(x) = x, y entonces:

El error de modelado en valor absoluto no se corresponde con la pro-porcion de error cometido.

La direccion de los residuos en algunos casos es totalmente no signi-ficativa (en cuanto a informacion util para aislamiento de fallos, porejemplo).

4Esto es identico a la idea basica de Random Projections explicada en 3.4.1.5Soporte o dominio de una variable aleatoria: rango de valores que puede tomar. Se

entiende aquı este termino en un sentido mas amplio, denotando la geometrıa de la regionen el espacio ocupada o poblada por los datos.

Page 85: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

5.4. RESIDUO VECTORIAL 85

−4

−3

−2

−1

0

1

2

3

4

−10 −5 0 5 10−10

−8

−6

−4

−2

0

2

4

6

8

10

(a) Modulo del vector de residuos con unmodelo mınimo-cuadratico.

−4

−3

−2

−1

0

1

2

3

4

−10 −5 0 5 10−10

−8

−6

−4

−2

0

2

4

6

8

10

(b) Modulo del vector de residuos con unmodelo basado en soporte.

−10 −5 0 5 10−10

−8

−6

−4

−2

0

2

4

6

8

10

(c) Direccion del vector de residuoscon un modelo mınimo-cuadratico.

−10 −5 0 5 10−10

−8

−6

−4

−2

0

2

4

6

8

10

(d) Direccion del vector de residuoscon un modelo basado en soporte.

Figura 5.1: Comparacion de los residuos, tanto en modulo como en direccion,para modelos basados en soporte y mınimo-cuadraticos.

En el caso ideal, una “direccion significativa” para los residuos implica quelos valores de cada componente son proporcionados con la desviacion real dedicha componente, y que los signos de las desviaciones son los correctos. En lafigura 5.1 se muestra una comparacion de residuos generados con un modelomınimo-cuadratico (RBF) y con un modelo basado en soporte (GRNN), en laque se comprueba que en el caso del modelo mınimo-cuadratico los residuosson practicamente nulos aun en puntos lejanos a los datos usados para generarel modelo.

Se puede ver intuitivamente lo que ocurre en un caso particular conun perceptron multicapa autoasociativo. La hipersuperficie que representaesta definida en todo el espacio, mientras que el proceso solo se movera en

Page 86: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

86 CAPITULO 5. RESIDUOS EN MODELOS DE DATOS

Tiempo (muestras)100 200 300 400 500 600 700 800 900

x

y

z

Figura 5.2: Representacion del vector de residuos. Ejemplo de fallo aditivohaciendo su aparicion en torno a la muestra 900.

una zona determinada de ese espacio (su dominio). Es claro que cuando sepresente una situacion muy lejana a la de los datos de entrenamiento de lared, el punto que la representa probablemente se proyecte en una zona muyalejada de los datos de entrenamiento (de su dominio), con lo cual el residuosera totalmente inutil.

5.4.2. Representacion del residuo vectorial

Dado el enfoque eminentemente visual de esta tesis la representacion masadecuada para el vector de residuos es un detalle bastante importante. Parauna representacion de dicho vector a lo largo del tiempo, una simple graficatiempo-valor por componente es confusa cuando el numero de componenteses grande.

Otro tipo de representacion, que ha dado excelentes resultados en lapractica, es el mostrado en la figura 5.2. Los valores de las componentesdel vector de residuos se muestran codificadas con color (hacia rojos, posi-tivos; hacia azules negativos; verde significa valor nulo) en una grafica en laque cada lınea en el eje vertical corresponde a una componente del vector y eleje horizontal corresponde con tiempos. Este tipo de representacion permitediferenciar facilmente cada una de las componentes y detectar la desviacionde cualquiera de ellas del cero con un solo vistazo.

5.5. Consideraciones en el uso de residuos

Se pueden hacer dos consideraciones especiales en cuanto al uso de resi-duos y respecto al modelo de datos a usar: a) los criterios para escoger losdatos para generacion del modelo y b) los problemas del caracter interpolanteo no del modelo.

Page 87: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

5.5. CONSIDERACIONES EN EL USO DE RESIDUOS 87

5.5.1. Eleccion de datos para el modelo

Existen dos formas de combinar el uso de residuos y proyeccion de tra-yectoria para el diagnostico de fallos:

1. Introducir en el modelo todas las situaciones disponibles en forma dedatos (normales y de fallo). En este caso los residuos detectaran estadosno presentes en el modelo, que pueden ser de fallo o simplemente estadosconsiderados normales pero de los que no se tenıan datos.

2. Introducir en el modelo solo situaciones normales. A menudo es masfacil tener datos de situaciones normales puesto que el proceso se encon-trara en ese estado la mayor parte del tiempo. Nuevamente, los residuosdetectaran estados no presentes en el modelo, que pueden ser de falloo, en teorıa con menor probabilidad, un estado normal no contempladoen el modelo.

La unica diferencia entre uno y otro caso serıa la mayor predisposicion deloperador del proceso, en el segundo caso, a considerar fallo en un primermomento cualquier aviso que dieran los residuos.

5.5.2. Modelo con interpolacion

Cuando se utiliza una tecnica de proyeccion para generar residuos, puedeser importante distinguir cuando el proceso esta en una zona del mapa quecorresponde con datos disponibles y cuando son resultado de interpolacionrealizada por el modelo entre agrupaciones de dichos datos usados en lageneracion de dicho modelo.

Para distinguir en una determinada proyeccion si se esta en zona mo-delada hay que mirar tanto el error de modelado/residuos como el mapade distancias, teniendo en cuenta que en zonas de interpolacion, una tecni-ca de proyeccion continua no genera residuos, y en una discreta (como elSOM) estos pueden ser mınimos (generalmente hay neuronas interpolantes).Ademas, en ambos casos, los residuos pueden no ser significativos para eldiagnostico de fallos.

Page 88: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

88 CAPITULO 5. RESIDUOS EN MODELOS DE DATOS

Page 89: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

Capıtulo 6

Metodologıa de Supervision

6.1. Introduccion

Todas las ideas y tecnicas concernientes a Data Mining Visual que han si-do comentadas en previos apartados, se pueden organizar en el marco de unametodologıa aplicable a supervision de procesos complejos que se pueden re-lacionar con otras metodologıas estandar de Data Mining como CRISP-DM[16]. Todo ello puede ilustrarse con el ejemplo de la implementacion real deun sistema de monitorizacion mediante tecnicas de Data Mining Visual, unaaplicacion denominada MAPREX, que ha sido desarrollada en el seno de unproyecto de investigacion del Area de Ingenierıa de Sistemas y Automati-ca para la supervision de sistemas de un tren de laminacion en caliente deAceralia Corporacion Siderurgica.

6.2. El sistema MAPREX

6.2.1. MAPREX: un sistema de monitorizacion

MAPREX es un sistema de monitorizacion de la condicion basado enSOM. Tiene capacidades de representacion de datos tıpicas en la monitoriza-cion de procesos: senales a lo largo del tiempo, espectros, etc.; tambien tienela posibilidad de almacenamiento de datos. Ademas, MAPREX tiene imple-mentadas tecnicas de redundancia analıtica empleando un modelo basado endatos constituido por un SOM.

89

Page 90: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

90 CAPITULO 6. METODOLOGIA DE SUPERVISION

Comprensiondel negocio

Comprensionde los datos

Preparacionde los datos

Generaciondel modelo

Evaluacion

Implantacion

Figura 6.1: Modelo de referencia CRISP-DM.

6.2.2. MAPREX: una herramienta de Data MiningVisual

El sistema MAPREX es una aplicacion instalada en un ordenador por-table que permite realizar Data Mining Visual en planta, al mismo pie delproceso. Esto posibilita correlacionar la informacion que provee MAPREX,representada de diversas formas, con la informacion procedente de percepcio-nes sensoriales (visual, auditiva, olfativa, etc.) acerca del proceso que solo esposible obtener in situ. Debido a esto, la emision de hipotesis sobre la validezy la significancia de los datos tomados del proceso, ası como la configuracionde una extraccion de caracterısticas sobre estos datos del proceso realizada entiempo real y la consiguiente comprobacion de la utilidad de la informacionresultante se convierte en una tarea altamente interactiva.

MAPREX y CRISP-DM

La metodologıa de supervision mediante Data Mining Visual encaja per-fectamente en un estandar de desarrollo de proyectos de Data Mining comoes CRISP-DM (CRoss Industry Standard Process for Data Mining) [16].

El modelo de referencia del CRISP-DM tiene varias fases. La secuenciade fases no es lineal sino que puede implicar vueltas a pasos anteriores, comose muestra en la figura 6.1:

Page 91: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

6.2. EL SISTEMA MAPREX 91

1. Entendimiento del negocio: entender los objetivos y requerimientos des-de la perspectiva del negocio, y entonces convertir este conocimientoen la definicion de un problema de Data Mining y un plan preliminardisenado para conseguir los objetivos.

2. Comprension de los datos: recoger datos, familiarizarse con ellos, identi-ficar problemas de calidad de los mismos, y descubrir las primeras cosasinteresantes para conjeturar hipotesis respecto a informacion oculta enellos.

3. Preparacion de los datos: comprende todas las actividades encaminadasa formar el conjunto de datos final que sera introducido en las herra-mientas de generacion de modelos. Las tareas de preparacion de datosprobablemente se lleven a cabo varias veces, sin ningun orden preesta-blecido. Esto incluye la seleccion de atributos, registros y tablas, ası co-mo la transformacion y limpieza de los datos para las herramientas degeneracion de modelos.

4. Generacion del modelo: se seleccionan las tecnicas de modelado, se apli-can y se calibran sus parametros a valores optimos. Suele haber variastecnicas para el mismo problema que pueden tener unos requerimien-tos distintos en cuanto al formato de los datos, lo cual puede implicarvolver al paso anterior de preparacion de datos.

5. Evaluacion: comprobar si el modelo generado cumple los objetivos im-puestos en la fase inicial. Si no los cumple porque no se considero algunaspecto clave, habra que volver al paso de comprension del negocio.

6. Implantacion: uso del modelo generado. Puede ser tan simple como lageneracion de un informe o tan complejo como la implementacion deun proceso de Data Mining continuo.

MAPREX se enmarca facilmente dentro de la metodologıa CRISP-DM.Es a la vez una herramienta de desarrollo de sistemas de supervision pormedio de tecnicas de Data Mining Visual y el sistema de supervision en sı.Ası, MAPREX es aplicable en las siguientes fases del modelo de referenciaCRISP-DM:

Comprension de los datos: MAPREX dispone de diversas formas derepresentacion de datos, como son formas de onda, espectros, y carac-terısticas; todas ellas son utiles en los primeros pasos para captar lasparticularidades de los datos procedentes de un proceso. Ası, las ca-racterısticas son configurables como valores instantaneos1 para senales

1Realmente dichas senales se preprocesan a traves de un filtro de media.

Page 92: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

92 CAPITULO 6. METODOLOGIA DE SUPERVISION

Comprensiondel negocio

Comprensionde los datos

Preparacionde los datos

Generaciondel modelo

Evaluacion Implantacion

Determinarlos objetivosdel negocioAntecedentesObjetivosCriterios deexito

EvaluarsituacionInventario derecursosRequerimientos,suposiciones yrestriccionesRiesgos ycontingenciasTerminologıaCostes ybeneficios

Determinarlos objetivosdel DataMiningObjetivos delData MiningCriterios deexito del DataMining

Producir plandel proyectoPlan delproyectoEvaluacioninicial deherramientas ytecnicas

Tomar datosinicialesInforme de latoma de datosiniciales

Describir losdatosInforme dedescripcion delos datos

Explorar losdatosInforme deexploracion delos datos

Verificarcalidad de losdatosInforme decalidad de losdatos

Conjunto dedatosDescripcion delconjunto dedatos

SeleccionardatosCriterios deinclu-sion/exclusion

Limpiar datosInforme delimpieza dedatos

Construirconjunto dedatosAtributosderivadosRegistrosgenerados

IntegrardatosDatoscombinados

FormateardatosDatosreformateados

Seleccionar latecnica demodeladoTecnica demodeladoSuposiciones demodelado

Generardiseno depruebaDiseno deprueba

GenerarmodeloConfiguracionde parametrosModelosDescripcion demodelos

EvaluarmodeloEvaluacion demodeloRevision deconfiguracionde parametros

EvaluarresultadosEvaluacion delos resultadosde data miningrespecto a loscriterios deexito denegocioModelosaprobados

RevisarprocesoRevision delproceso

DeterminarsiguientespasosLista deposiblesaccionesDecision

PlanearimplantacionPlan deimplantacion

Planear mo-nitorizacion ymantenimien-toPlan demonitorizacionymantenimiento

Generarinforme finalInforme finalPresentacionfinal

RevisarproyectoDocumentacionde laexperiencia

Figura 6.2: Tareas genericas y salidas del modelo de referencia CRISP-DM.

Page 93: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

6.2. EL SISTEMA MAPREX 93

consideradas como estaticas, o como valores espectrales (energıas enbandas de frecuencia) para senales consideradas como dinamicas, pues-to que la mayor parte de este tipo de senales tienen como origen elemen-tos giratorios en maquinas (que generan magnitudes mecanicas cuasi-periodicas: vibraciones, fuerzas, etc.), corrientes alternas, etc.

Preparacion de los datos: MAPREX puede realizar extraccion de ca-racterısticas off line en datos almacenados previamente, con vistas a lageneracion de un modelo posterior.

Generacion de modelos: a partir de los datos obtenidos, MAPREX pue-de generar un modelo basado en SOM, util para Data Mining Visualtanto on line como off line, con capacidades de proyeccion de datos ygeneracion de residuos.

Evaluacion: con el modo simulacion, en MAPREX se puede comprobarque el modelo es correcto con datos off line. Si todo funciona correcta-mente se puede proceder a la evaluacion on line y de forma continua,progresiva y simultaneamente a la implantacion.

Implantacion: por el caracter portable del sistema MAPREX es posi-ble llevar todos los pasos anteriormente mencionados al mismo pie delproceso, con lo cual la implantacion puede ser inmediata.

6.2.3. Estructura de la aplicacion MAPREX

La aplicacion MAPREX tiene la estructura que se muestra esquematizadaen la figura 6.3:

1. Un modulo de adquisicion de datos, que realiza las tareas relacionadascon la adquisicion, almacenamiento y representacion de senales a lolargo del tiempo junto con sus espectros.

2. Un modulo de extraccion de caracterısticas, que realiza extracciones decaracterısticas de forma on line y representa la evolucion temporal delas caracterısticas previamente configuradas. Tambien realiza extraccio-nes de caracterısticas off line que producen datos listos para entrenarun SOM.

3. Un modulo SOM, que entrena SOMs y los ejecuta en tiempo real, usan-do como entrada los datos que se van generando en una extraccion decaracterısticas sobre las variables del proceso que se van muestrean-do. Como resultado de la ejecucion, el SOM representa la trayectoria

Page 94: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

94 CAPITULO 6. METODOLOGIA DE SUPERVISION

de estado sobre diferentes vistas del espacio de visualizacion y generaresiduos, mostrandolos tambien graficamente.

6.3. Una sesion con MAPREX

A continuacion se describira una sesion tıpica con la aplicacion. La aplica-cion MAPREX, al final de una de dichas sesiones, tiene el aspecto de la figura6.4. Las ventanas que muestra se iran abriendo segun se van necesitando enlos sucesivos pasos que se relatan en el resto de este apartado.

6.3.1. Seleccion de senales

El primer paso consiste en seleccionar las senales y configurarlas en elsubsistema de adquisicion. Los parametros configurables para cada senal son:

Nombre: una cadena alfanumerica que identifique la senal.

Sensibilidad: valor que da la relacion de numero de unidades de la senalpor voltio en la entrada.

Unidad: cadena alfanumerica que identifica las unidades en la que semide la magnitud de la senal.

Hay que seleccionar tambien la frecuencia de muestreo en funcion del maximoancho de banda de entre las senales, ası como el numero de datos que seusara en los espectros de las senales, lo cual determinara su resolucion. Conesta configuracion mınima, MAPREX esta listo para adquirir datos.

6.3.2. Visualizacion de las senales en tiempo real

Una vez iniciada la adquisicion de datos, se pueden visualizar las senalesen tiempo real, tanto en el dominio del tiempo como en el de la frecuencia.Esto constituye el primer nivel de monitorizacion de variables del proceso.Ya en este punto se puede obtener informacion interesante del proceso, quesera aprovechada en el siguiente paso de seleccion de caracterısticas.

6.3.3. Seleccion de caracterısticas

Existen dos formas complementarias para realizar una seleccion de lascaracterısticas del proceso de forma interactiva con MAPREX: la seleccionon line y la seleccion off line.

Page 95: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

6.3. UNA SESION CON MAPREX 95

PROCESO

Ext

racc

ión

deC

arac

terí

stic

asSO

M

Res

iduo

s

Proy

ecci

ónde

Tra

yect

oria

sobr

e M

apas

Car

acte

ríst

icas

Seña

les

enla

Fre

cuen

cia

Seña

les

enel

Tie

mpo

Adq

uisi

ción

de

Dat

os

regi

stro

de

seña

les

regi

stro

de

SOM

sen

trena

dos

regi

stro

de

extra

ccio

nes

deca

ract

erís

ticas

Figura 6.3: Diagrama de bloques de la aplicacion MAPREX.

Page 96: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

96 CAPITULO 6. METODOLOGIA DE SUPERVISION

Seleccion on line

La seleccion on line de caracterısticas se apoya principalmente en lasventanas de representacion temporal y frecuencial de las senales. Como estastienen informacion a muy corto plazo (practicamente correspondiente al ins-tante), requieren una atencion continua.

Sin embargo, tambien es posible representar informacion a mas largo pla-zo, como resultado de una extraccion de caracterısticas en tiempo real, enla denominada ventana de caracterısticas. Las caracterısticas a representarse elegiran por las conclusiones obtenidas de la observacion de las senalesen tiempo y frecuencia o por conocimiento previo. Las caracterısticas confi-gurables son valores medios de senales y energıas de la senal contenidas enbandas de frecuencia dadas por su frecuencia central y ancho.

Seleccion off line

Todo lo mencionado hasta ahora para observacion on line de senales sepuede realizar de forma off line para analisis sobre archivos de datos pre-viamente capturados: representacion temporal, frecuencial y extraccion decaracterısticas. Ademas, se dispone de una posibilidad adicional que es la derepresentacion de espectrogramas.

6.3.4. Preparacion de datos para modelado

La preparacion de datos para modelado consiste en la extraccion de carac-terısticas, con la configuracion elegida como resultado de los pasos previos,sobre archivos seleccionados de datos capturados. Estos archivos se habranseleccionado de forma que resuman todas las condiciones posibles del proceso.

6.3.5. Generacion del modelo

Una vez obtenidos los datos para modelado, el paso siguiente es generar elmodelo. El modelo basado en datos implementado en MAPREX es una redneuronal SOM que, una vez escogida su configuracion (numero de neuronas,vecindad, etc.), puede ser entrenada con los mencionados datos resultado dela extraccion de caracterısticas.

6.3.6. Explotacion del modelo

El siguiente paso es el aprovechamiento del modelo generado. Para ello,una vez cargado el archivo del modelo, se puede abrir toda una serie deventanas que aprovechan las dos aplicaciones que tiene el modelo basado

Page 97: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

6.3. UNA SESION CON MAPREX 97

en datos constituido por el SOM: proyeccion de trayectoria y generacion deresiduos.

Proyeccion de trayectoria

Las ventanas que aprovechan la capacidad de reduccion de la dimensiondel SOM para visualizacion son ventanas que representan precisamente elespacio de visualizacion del proceso, en las que se realiza la proyeccion delvector de caracterısticas instantaneo —que podemos denominar puntero deestado o condicion—, y en las que, dependiendo del tipo de ventana, se repre-senta de fondo distinta informacion del proceso codificada con colores —y quees como visualizar el proceso en sı—. En MAPREX se dispone actualmentede los siguientes tipos:

Planos de componentes (ver apartado 4.5.2).

Mapa de distancias (ver apartado 4.5.3).

Mapas de activacion (ver apartado 4.5.4).

Mapas de correlaciones (ver apartado 4.5.7).

En cualquiera de estas ventanas y en cualquier posicion se puede colocar unaetiqueta, que aparecera automaticamente en el resto de ventanas del SOM.

Generacion de residuos

En una ventana adicional MAPREX puede representar en tiempo real elvector de residuos instantaneo generado por el SOM como una “cinta” quese desliza de derecha a izquierda. En vertical se tienen las caracterısticas yen horizontal el tiempo, correspondiendo la parte derecha al instante actual.Cuando los residuos son nulos, los residuos son verdes. Cuando aparece unresiduo rojo (positivo) quiere decir que la caracterıstica correspondiente tieneun valor mayor de lo esperado (de lo estimado por el modelo del SOM).Cuando aparece un residuo azul (negativo) quiere decir que la caracterısticacorrespondiente tiene un valor menor de lo esperado (de lo estimado por elmodelo del SOM). Esto permite conocer al instante:

Que variables estan involucradas en el fallo.

El sentido de las desviaciones.

En que momento se produjo el fallo.

Page 98: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

98 CAPITULO 6. METODOLOGIA DE SUPERVISION

Figura 6.4: Pantalla de MAPREX durante una sesion tıpica.

Page 99: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

Capıtulo 7

Resultados

7.1. Introduccion

En este capıtulo se veran casos reales de aplicacion de las tecnicas ex-puestas en capıtulos anteriores. En primer lugar se mostrara la aplicaciona monitorizacion en tiempo real sobre un pequeno motor de induccion enlaboratorio. En segundo lugar se tratara el caso de Data Mining Visual enun proceso industrial real, un tren de laminacion en caliente. Estos ejemplosestan realizados con MATLAB por razones de nitidez en las figuras. Tambiense muestra una captura de pantalla de la aplicacion MAPREX mostrando lasposibilidades que ya tiene implementadas referidas al primer caso en estudio.

7.2. Monitorizacion de sistemas en tiempo real

7.2.1. Descripcion del sistema

El sistema a monitorizar consta de un motor de induccion trifasico de4kW y dos pares de polos con las caracterısticas mostradas en el cuadro 7.1.En los ejemplos funcionara siempre en vacıo y para variar sus condicionesde funcionamiento se le introduciran asimetrıas en su alimentacion, tantode forma total y brusca (eliminando una fase) como de forma gradual (pormedio de una resistencia variable en una fase). Tambien se le introduciranasimetrıas mecanicas en el eje con una pequena masa desequilibrante. Para latoma de datos del proceso se utilizaron acelerometros piezoelectricos (ICP)para medir vibraciones, sensores de efecto Hall para medir corrientes y unaresistencia variable con la temperatura PT-100 para medir la temperatura.El esquema de este sistema se muestra en la figura 7.1.

99

Page 100: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

100 CAPITULO 7. RESULTADOS

Potencia nominal 5,5 CVTension nominal 380 V (Y)Corriente nominal 9 AVelocidad 1430 rpmFrecuencia alimentacion 50 Hzcos(φ) 0,83

Cuadro 7.1: Caracterısticas tecnicas del motor trifasico.

4 kW 380V 3~1500 rpm

R

Desequilibriogradual en laalimentación

AsimetríaMecánica

m

RST

Corriente SCorriente R

Vibración YVibración Z

Vibración X

Fallos de fasetotales

Figura 7.1: Esquema del equipo de pruebas para el motor trifasico.

Page 101: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

7.2. MONITORIZACION DE SISTEMAS EN TIEMPO REAL 101

7.2.2. Obtencion del modelo

Se tomaron datos de temperatura (T ), vibraciones en tres ejes perpendi-culares (X, Y y Z) y corrientes en dos (R y S) de las tres fases (denominadasR, S y T ), muestreados a 20 kHz por ser aproximadamente el doble del anchode banda de las senales de vibraciones, las que mas ancho de banda tienen deentre todas ellas. Estos datos incluyeron las siguientes condiciones del motor:parado, funcionamiento normal, fallo en fase R, fallo en fase S, fallo en faseT , y la combinacion de todas esas condiciones con una asimetrıa mecanica(desequilibrio) en el eje1. Esto hace un total de nueve condiciones diferentes.Los fallos en la fase R fueron tanto bruscos como graduales, provocados estosultimos con la resistencia intercalada en dicha fase. Anadido a esto hay quetener en cuenta que los datos fueron tomados en un intervalo largo de tiem-po que incluye una variacion de la temperatura del motor desde temperaturaambiente (unos 20oC) hasta unos 50oC para los datos que posteriormente seusaron en el entrenamiento, llegando hasta unos 60oC para los datos de test.

Posteriormente, como caracterısticas se escogieron la temperatura y losarmonicos multiplos de la velocidad de giro del motor 1×, 2× y 3× (25, 50y 75 Hercios) para las vibraciones en los tres ejes X, Y y Z, que proporcio-nan informacion sobre fallos mecanicos del motor como desalineamientos odesequilibrios del rotor. Por otro lado se tomo, tambien en los tres ejes de vi-bracion, el armonico de 100 Hz, que es util para detectar desequilibrios en laalimentacion del motor (alimentado a 50 Hz) y, como caso extremo, fallos defase. Por ultimo, de las dos corrientes se considerara su armonico fundamen-tal de 50 Hz. Esto hace un total de 15 caracterısticas, que se denominarancomo se muestra en la tabla 7.2.

Para la extraccion de caracterısticas se considero la temperatura comovariable estatica y solo se uso su valor medio. En el caso del resto de carac-terısticas se uso una STFT con un tamano de ventana 8192, un solapamientodel 90 % y ponderacion por ventana de Hanning, y se calcularon los valoreseficaces en bandas de 15 Hz alrededor de las frecuencias centrales correspon-dientes a cada caracterıstica. Esto, aplicado a unos 450 segundos de muestras,genero 9150 datos. Con estos datos se entreno un SOM de 100× 100.

7.2.3. Aplicacion del modelo

El primer paso despues del entrenamiento, normalmente, es etiquetar elSOM aprovechando las muestras controladas disponibles. En este caso sedisponıa de muestras controladas para todas las situaciones consideradas. En

1Evidentemente, la condicion de parado con desequilibrio es identica a la de sin dese-quilibrio.

Page 102: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

102 CAPITULO 7. RESULTADOS

Caracterıstica Nombre largo Nomb. abreviadoTemperatura Temperatura TArmonico 25 Hz vibracion eje X X 25Hz X25Armonico 50 Hz vibracion eje X X 50Hz X50Armonico 75 Hz vibracion eje X X 75Hz X75Armonico 100 Hz vibracion eje X X 100Hz X100Armonico 25 Hz vibracion eje Y Y 25Hz Y25Armonico 50 Hz vibracion eje Y Y 50Hz Y50Armonico 75 Hz vibracion eje Y Y 75Hz Y75Armonico 100 Hz vibracion eje Y Y 100Hz Y100Armonico 25 Hz vibracion eje Z Cojinetes 25Hz Z25Armonico 50 Hz vibracion eje Z Cojinetes 25Hz Z50Armonico 75 Hz vibracion eje Z Cojinetes 25Hz Z75Armonico 100 Hz vibracion eje Z Cojinetes 25Hz Z100Armonico 50 Hz corriente fase R Corriente R 50Hz RArmonico 50 Hz corriente fase R Corriente S 50Hz S

Cuadro 7.2: Variables (caracterısticas) escogidas para el motor trifasico.

la figura 7.2 pueden observarse los mapas de activacion para algunas de ellas.Se puede destacar la ventaja de los mapas de activacion frente a la simpleproyeccion de trayectoria con el ejemplo de la figura 7.3. En este ejemploaparentemente hay tantos datos en la lınea dispersa superior derecha comoen el grupo compacto inferior izquierdo. El mapa de activacion, sin embargo,revela que en el grupo compacto estan la mayorıa de los puntos, proyectadosunos encima de otros.

Una vez etiquetado el SOM, el mapa de distancias tiene el aspecto dela figura 7.4. En este caso concreto todavıa habrıa sido relativamente facilidentificar las condiciones del motor en el espacio de visualizacion a la vistade los planos de componentes, mostrados en la figura 7.5. Para ello bastarıabuscar:

donde los armonicos de 100 Hz de las vibraciones se hacen altos, paraencontrar los fallos de fase

donde se anulan las corrientes de cada fase, para identificar sus respec-tivos fallos

donde los armonicos de 25 Hz2 se hacen altos, para encontrar que zonascorresponden a asimetrıa mecanica en el eje.

2Frecuencia que corresponde aproximadamente a la velocidad de giro mecanica.

Page 103: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

7.2. MONITORIZACION DE SISTEMAS EN TIEMPO REAL 103

normal fallo R

fallo S fallo T

Figura 7.2: Mapas de activacion para varios grupos de muestras controladasdel motor trifasico.

Page 104: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

104 CAPITULO 7. RESULTADOS

Mapa de activacion "parado y normal"

Figura 7.3: Comparacion entre mapa de activacion y trayectoria proyectadapara el motor trifasico.

Mapa de distancias

parado normal

deseqfallo S

fallo S

deseqfallo T

deseq

deseqfallo R

fallo R

fallo T

Figura 7.4: Mapa de distancias etiquetado para todas las condiciones cono-cidas del motor trifasico.

Page 105: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

7.2. MONITORIZACION DE SISTEMAS EN TIEMPO REAL 105

T X25 X50 X75 X100

Y25 Y50 Y75 Y100 Z25

Z50 Z75 Z100 R S

Figura 7.5: Planos de componentes para el caso del motor trifasico.

En los mapas de correlaciones aparecen algunos detalles interesantes queilustran la utilidad de los mismos (no se representan aquı por ser su numeromuy grande). En primer lugar, es facil identificar de un golpe de vista dondela correlacion global de un cierto signo es predominante buscando coloresrojos o azules. En este caso aparecen ejemplos muy claros, con mapas decorrelaciones totalmente rojos, como los de todas las combinaciones entresı de X25, Y25 y Z25. Esto se detectarıa incluso observando sus planos decomponentes, que son practicamente identicos.

En la eleccion de caracterısticas se escogieron varias de ellas aun sospe-chando a priori estas correlaciones totales por dos razones:

1. Esta redundancia de informacion facilita la deteccion de fallos en sen-sores.

2. Para conseguir un numero de caracterısticas suficiente para el buenfuncionamiento de los residuos. Aun existiendo el problema de la di-mensionalidad, es necesario un cierto numero mınimo de caracterısticaspara que se cumpla la hipotesis del apartado 5.4.

En la figura 7.6(a) se muestra un representacion de puntos dispersos delas caracterısticas Y100 y Z100, donde aparecen dos comportamientos cla-ramente diferenciados: uno con correlaciones dudosas y otro con correlacionclaramente positiva. En la figura 7.6(b) adyacente, el mapa de correlacio-nes Y100 Z100 indica claramente a que condiciones del motor corresponden

Page 106: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

106 CAPITULO 7. RESULTADOS

(a) Representacion de puntos de los datospara el armonico de 100 Hz de la vibracionY frente al de la Z.

Y100 Z100

(b) Mapa de correlaciones localesentre el armonico de 100 Hz de lavibracion Y y el mismo de la Z.

Figura 7.6: Comparacion de los mapas de correlaciones con un representacionde puntos dispersos para el motor trifasico.

esas dos diferentes situaciones: la primera, a las condiciones con asimetrıamecanica en el eje y la segunda, al resto de condiciones.

Con datos de prueba tomados para todas las situaciones consideradas, pe-ro a temperaturas mayores que los datos de entrenamiento, se comprobo queel modelo era capaz de reconocer las situaciones que se le presentaban yademas avisaba, con el residuo de la temperatura, de que esta era mayor delo normal. Esta situacion se muestra en la figura 7.7, directamente en unacaptura de pantalla de la aplicacion MAPREX.

7.3. Data Mining de procesos industriales

7.3.1. Descripcion del proceso

Para mostrar algunas de las posibilidades de las tecnicas de Data MiningVisual aplicada a procesos se utilizara el ejemplo de un motor de continuaen un tren de laminacion en caliente de Arcelor, que tiene las caracterısticasmostradas en el cuadro 7.3. Se dispone de cuatro variables: corriente de campoif , corriente de inducido ia, velocidad ω y tension de inducido Va.

Page 107: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

7.3. DATA MINING DE PROCESOS INDUSTRIALES 107

Figura 7.7: Captura de pantalla de MAPREX mostrando residuos para lasmismas condiciones del entrenamiento pero a mayor temperatura para elmotor trifasico en laboratorio.

Page 108: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

108 CAPITULO 7. RESULTADOS

Potencia: 6000 kWTension de inducido nominal: 700 VCorriente de inducido nominal: 9000 ACorriente de campo nominal: 150 AVelocidad nominal: 180 rpmVelocidad maxima: 360 rpmLocalizacion: Tren acabador en calienteCaja: F2

Cuadro 7.3: Caracterısticas del motor de continua.

BOBINA TIEMPO ESPESOR ANCHO ACERO LIM. ELAST.A 15:44:48 1.73 1010 B085G99 32B 15:46:41 1.73 1010 B085G99 32C 15:48:53 4.02 1010 B012F53 22D 15:50:47 4.02 1010 B012F53 22E 15:53:04 4.02 1010 B012F55 22F 15:54:44 1.55 1010 B011B99 24

Cuadro 7.4: Etiquetas y propiedades de las seis bobinas laminadas.

7.3.2. Obtencion del modelo

Se dispone de datos que corresponden a la laminacion de seis bobinas (vercuadro 7.4), divididos en varios segmentos que se etiquetan con una letra queindica el segmento (a, b, . . . , f), dos caracteres que indican o bien inicio delaminacion (il), o bien los diferentes segmentos durante la laminacion (l1, l2,. . . ), o bien final de laminacion (fl). Los caracteres sb significan “sin banda”.Con los datos procedentes de esas seis bobinas, se entreno un SOM de 10×10,que por retroproyeccion se convirtio a 50× 50.

7.3.3. Aplicacion del modelo

Observando los planos de componentes de la figura 7.8, una persona queconozca este proceso de laminacion reconocera en el espacio de visualizacionzonas como donde esta laminando y donde esta el tren en vacıo, donde fun-ciona a velocidad superior a la nominal y donde a velocidad inferior, etc.

Es posible tambien representar planos de variables que no fueron introdu-cidas en el SOM, pero que se pueden obtener de las que sı lo fueron, como porejemplo, en este caso (figura 7.9), el par generado por el motor Te = K · ia · if ,donde K es una constante, que no hace falta para representar el plano por

Page 109: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

7.3. DATA MINING DE PROCESOS INDUSTRIALES 109

Corriente de inducido Tensión de inducido

Corriente de campo Velocidad

Figura 7.8: Planos de componentes para el motor de continua del tren delaminacion.

−1

−0.5

0

0.5

1

1.5

x 104Par

Figura 7.9: Plano de par, variable que no interviene en el entrenamiento delSOM.

Page 110: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

110 CAPITULO 7. RESULTADOS

sb6

(a) Mapa de activacion correspondiente asb6.

dfl

sb6al1

al2

al3

al4

al5

al6

afl

bl1

bl2bl3

bl4bl5bl6

bl7

bl7_

bfl

bfl_

cil

cl1cl2

cl3 cl4cl5

cl6

cl7

cl8

cfl

dil

dl1

dl2 dl3 dl4

dl5dl6

dl7

dl8

dfl

dfl2

eil

el1

el2el3

el3’el4

el5

el6efl

efl_

efl__

efl___

fil

fl1

fl2

fl3

fl5

fl6

fl7fl8

ffl

ffl_

sb1

sb2sb3

sb4sb5

ail

(b) Mapa de distancias etiquetado y contrayectoria de fin de laminacion d.

Figura 7.10: Etiquetado del espacio de visualizacion en el caso del tren delaminacion.

ser la codificacion en color relativa. Este plano es util, en el caso que nosocupa, para diferenciar mas claramente donde el tren esta laminando (parmayor que cero) y donde no (par alrededor de cero y negativo).

Se dispone de datos etiquetados (muestras controladas) puesto que losdatos estan divididos en segmentos, identificados como se explico antes, porlo que es posible etiquetar sus correspondientes zonas en el espacio de visua-lizacion usando mapas de activacion. En la figura 7.10(a) se muestra el mapade activacion para los datos etiquetados como sb6, y en la figura 7.10(b) elresultado de etiquetar las zonas de todos los segmentos sobre el mapa de dis-tancias, junto con la trayectoria correspondiente al tramo dfl. Lo que primerose observa es que las laminaciones de las bobinas a y b son muy parecidasentre sı, ası como las bobinas c, d y e. La bobina f se encuentra en una situa-cion intermedia, pero mas parecida a las a y b. Esto concuerda con lo que sepuede observar en el cuadro 7.4 en cuanto a espesor objetivo y tipo de acero.

La informacion que proporciona el conocimiento de ecuaciones puede serincorporada al mapa por medio de los mapas de modelos. Las ecuacionespara un motor de continua son conocidas y una de ellas es la siguiente:

Va = Ra · ia + Ladiadt

+K · if · ω (7.1)

Si por ejemplo se pretende identificar la zona correspondiente al control develocidad por tension de inducido, es un caso particular de la ecuacion (7.1),donde la corriente de inducido y la de campo son constantes, y la derivada

Page 111: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

7.3. DATA MINING DE PROCESOS INDUSTRIALES 111

0 50 100 150 200 250−100

0

100

200

300

400

500

600

700

800

ω (r.p.m.)

Va (V

)

(a) Modelo del motor para zona de parmaximo.

−500

−400

−300

−200

−100

0

100

200

300

400

500

residuo zona par máximo

(b) Mapa del modelo de la zona de parmaximo.

Figura 7.11: Mapa de modelo para motor de continua.

se anula al considerar regimen permanente. No se dispone de los parametrosde la ecuacion, pero se pueden estimar de los datos. Ası, se puede hallar larecta de regresion que se representa en la figura 7.11(a), y que resulta ser:

f(Va, ω) = Va − 4,08ω + 4,23 = 0 (7.2)

A partir de esta ecuacion es inmediato hallar el mapa del modelo que sepresenta en la figura 7.11(b)3. La zona verde, con residuo nulo, correspondecon la del funcionamiento del motor segun el modelo dado por la ecuacion(7.2).

En cuanto a los mapas borrosos, el primer ejemplo podrıa ser la esti-macion de una variable cualitativa. Como en este caso no surge claramenteninguna variable de caracter tıpicamente cualitativo, a efectos de compara-cion se usara la variable velocidad ω. Se pueden extraer inmediatamente unasreglas de los siguientes hechos relacionados con el funcionamiento del motorde continua y del control con debilitamiento de campo:

1. Cuanto mas alta es la tension de inducido, mas alta es la velocidad.

2. Cuanto mas baja es la corriente de campo, mas alta es la velocidad.

3. Por debajo de la velocidad nominal, la corriente de campo se mantienea su valor nominal.

4. Por encima de la velocidad nominal, la tension de inducido se mantienea su valor nominal.

3Esto mismo se puede deducir de los planos de componentes de la velocidad, la corrientede campo o la tension de inducido.

Page 112: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

112 CAPITULO 7. RESULTADOS

baja

media

alta

Mapa borroso: Velocidad

falso

ciertoMapa borroso: Laminando

Figura 7.12: Mapas borrosos para el caso del tren de laminacion.

y las reglas que surgen de este conocimiento son:

SI (Va ES alta) Y (If ES baja) ENTONCES (Velocidad ES muy-alta)

SI (Va ES alta) Y (If ES media) ENTONCES (Velocidad ES alta)

SI (Va ES alta) Y (If ES alta) ENTONCES (Velocidad ES media)

SI (Va ES media) Y (If ES alta) ENTONCES (Velocidad ES baja)

SI (Va ES baja) Y (If ES alta) ENTONCES (Velocidad ES muy-baja)

De esas reglas se obtiene el mapa borroso de la figura 7.12 (izquierda), quese puede ver que coincide en gran medida con el plano de componente de lavelocidad.

Otro ejemplo es el mapa borroso mostrado en la 7.12 (derecha), que sirvepara delimitar claramente las zonas donde el tren se encuentra laminando, yque se obtiene de las reglas:

SI (Va NO ES baja) Y (Ia ES alta) ENTONCES (Laminando ES si)

SI (Va NO ES baja) Y (Ia ES media) ENTONCES (Laminando ES si)

SI (Va ES baja) O (Ia ES negativa) ENTONCES (Laminando ES no)

SI (Va ES baja) O (Ia ES cero) ENTONCES (Laminando ES no)

Las funciones de pertenencia usados en ambos mapas borrosos se encuentranrepresentados en la figura 7.13.

En lo relativo al analisis de las relaciones de dependencia entre variables,si se observan detenidamente los planos de componentes de la figura 7.8 sepuede apreciar que el plano de la velocidad es el “negativo” del plano de lacorriente de campo excepto para las regiones donde la tension de inducidobaja de su valor nominal. Puede llegarse a esta misma conclusion de un solovistazo al mapa de correlaciones correspondiente en la figura 7.14. Tambien

Page 113: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

7.3. DATA MINING DE PROCESOS INDUSTRIALES 113

0 200 400 600

0

0.2

0.4

0.6

0.8

1

Va

Deg

ree

of m

embe

rshi

p

baja media alta

−5000 0 5000

0

0.2

0.4

0.6

0.8

1

IaD

egre

e of

mem

bers

hip

negativa cero media alta

40 60 80 100 120 140

0

0.2

0.4

0.6

0.8

1

Ifi

Deg

ree

of m

embe

rshi

p

baja media alta

−2 −1 0 1 2

0

0.2

0.4

0.6

0.8

1

Laminando

Deg

ree

of m

embe

rshi

p

si no

−2 −1 0 1 2

0

0.2

0.4

0.6

0.8

1

Control

Deg

ree

of m

embe

rshi

p

no−funcionando funcionando

−1 0 1 2 3 4 5

0

0.2

0.4

0.6

0.8

1

VelocidadD

egre

e of

mem

bers

hip

muy−baja baja media alta muy−alta

Figura 7.13: Funciones de pertenencia para el caso del tren de laminacion.

puede observarse la correlacion directa (positiva) entre la tension de inducidoVa y la velocidad ω en la region complementaria de la anterior, y lo quepuede considerarse una no correlacion global entre la tension de inducido Va

y la corriente de campo if . Todas estas relaciones son fruto del control condebilitamiento de campo del motor. Otras correlaciones como la globalmentepositiva entre ia y Va se ven claramente reflejadas en la ecuacion del motor(7.1)

Tambien es posible establecer hipotesis acerca del proceso por medio delos residuos cuando se aplica a datos de condiciones no presentes en los datosde entrenamiento. Las figuras 7.15 y 7.16 muestran parte de la laminacion deuna bobina con acero B085G99 y espesor objetivo 4,06 que no esta presenteen los datos de entrenamiento. De la proyeccion de la trayectoria de estado sepuede deducir que esta laminacion se parece mas a las c, d y e. Sin embargoel vector de residuos revela algunas diferencias de esta nueva laminacion conrespecto a las mencionadas en las primeras muestras. La nueva situacionse proyecta en la frontera entre sb6, cl1 y dl1. Ya que esa es una zona dealtas distancias neuronales, la condicion senalada por el SOM parece ser unasituacion intermedia resultante de la interpolacion de dichas condiciones, yrespecto a las cuales la corriente de inducido es ahora mas alta y la corrientede campo es ligeramente mas baja.

Page 114: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

114 CAPITULO 7. RESULTADOS

−1

0

1

ia i

a

−1

0

1

ia V

a

−1

0

1

ia i

f

−1

0

1

ia ω

−1

0

1

Va i

a

−1

0

1

Va V

a

−1

0

1

Va i

f

−1

0

1

Va ω

−1

0

1

if i

a

−1

0

1

if V

a

−1

0

1

if i

f

−1

0

1

if ω

−1

0

1

ω ia

−1

0

1

ω Va

−1

0

1

ω if

−1

0

1ω ω

Figura 7.14: Mapas de correlaciones para el motor de continua del tren delaminacion.

Tiempo (muestras)50 100 150 200 250 300 350 400 450 500

Ia

Va

If

w

Figura 7.15: Residuos de la laminacion de prueba.

Page 115: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

7.3. DATA MINING DE PROCESOS INDUSTRIALES 115

datos de prueba de laminación

0 5 10 15 20 25 30 35 40 45

0

5

10

15

20

25

30

35

40

45

Figura 7.16: Trayectoria sobre el mapa de distancias de la laminacion deprueba.

Page 116: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

116 CAPITULO 7. RESULTADOS

Page 117: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

Capıtulo 8

Conclusiones

8.1. Conclusiones

En esta tesis se propone un enfoque visual para supervision de proce-sos, aplicando tecnicas de visualizacion mas alla de la simple monitorizacionmediante representacion de la evolucion de sus variables o los espectros desus senales. Ası, se describe la aplicacion de tecnicas de reduccion de ladimension para proyectar datos del proceso, con multitud de variables, enun espacio visualizable y como posteriormente se “cartografıa” este espacio,relacionando cada zona con cada condicion del proceso, pudiendo usar paraeste fin conocimiento expresable en forma de reglas difusas (mapas borrosos),modelos analıticos conocidos (mapas de modelos), casos conocidos —datosetiquetados— (mapas de activacion) y correlaciones entre variables (mapasde correlaciones). Este enfoque tambien hace posible la extraccion de nuevoconocimiento acerca del proceso (Data Mining) a traves de este espacio devisualizacion, dejando todavıa la puerta abierta a numerosas ideas dentro deesta misma lınea.

Como ventaja de este enfoque frente a otros metodos automaticos dediagnostico se puede mencionar la total claridad en la exposicion de los me-canismos de inferencia durante el diagnostico de fallos, puesto que ello esrealizado en ultima instancia por un ser humano, al que, por medio de sofis-ticados metodos de visualizacion, se le ha facilitado enormemente la tarea decomprender los datos procedentes del proceso supervisado.

El enorme potencial del enfoque de la visualizacion para la supervisionde procesos se debe a varias razones:

Explota las capacidades pre-atencion (pre-attentive) del ser humano,consiguiendo una transmision instantanea de la informacion provenien-te del proceso, de forma que se toma conocimiento de eventos ocurridos

117

Page 118: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

118 CAPITULO 8. CONCLUSIONES

en el sin la necesidad de la participacion del razonamiento.

Se adapta a la forma visual de razonar de las personas, lo que permiteextraer nuevo conocimiento acerca del proceso facilmente.

Permite la homogeneizacion de muy diversas formas de conocimientodel ser humano a traves de una representacion visual unificada quepermite conectar conceptos.

8.2. Aportaciones

Son varias las aportaciones de esta tesis:

Un enfoque visual global para la supervision de procesos, que pro-pone extender la aplicacion de las tecnicas de visualizacion a todos losambitos posibles de la supervision de procesos, usandolas para homoge-neizar conocimiento de diversos orıgenes y formas. Ası, se han anadidonuevas tecnicas a las propuestas parciales ya existentes en la aplicacionde tecnicas de visualizacion a la supervision. Esto incluye la represen-tacion visual en un espacio comun de modelos del proceso procedentesde dos formas de conocimiento: reglas, generalmente deducidas de laexperiencia, y ecuaciones explıcitas, provenientes del conocimiento deleyes de la fısica. Esta idea se presento en [22], para el 37th AnnualIEEE Industry Applications Society Meeting, IAS’02.

La primera de estas formas propuestas para representacion de conoci-miento se refiere a los mapas borrosos o mapas de inferencia borrosos,descritos en el apartado 4.5.5, que permiten representar en el plano devisualizacion aquellos estados del proceso que pueden expresarse enterminos de reglas sencillas que relacionan las caracterısticas del pro-ceso. Los mapas borrosos fueron presentados en [21], para la SecondConference of the European Society for Fuzzy Logic and Technology,EUSFLAT 2001.

El segundo de los metodos propuestos para representacion de cono-cimiento corresponde con los mapas de modelos (analıticos), abor-dados en el apartado 4.5.6, que permiten representar en el plano devisualizacion los estados que se ajustan a ecuaciones explıcitas que re-lacionan las caracterısticas del proceso. Los mapas de modelos fueronpresentados en [27], en International Federation of Automatic Control15th IFAC World Congress.

Page 119: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

8.2. APORTACIONES 119

En esta tesis se definen las correlaciones locales, una forma de calcu-lar correlaciones en distintas zonas del espacio de los datos que aportauna descripcion local de las propiedades estadısticas de segundo orden.Esto hace idonea su aplicacion para la descripcion de conjuntos de da-tos con dependencias no lineales, tales como los generados por procesosno lineales en distintos puntos de funcionamiento.

Las correlaciones locales constituyen propiedades locales en el espaciode entrada que admiten representacion en el espacio de visualizacion.Como consecuencia de ello, se propone otra tecnica que permite ex-traer nuevo conocimiento e identificar nuevos estados a traves de lavisualizacion en el “mapa del proceso” de las correlaciones existentesentre las variables del proceso para todos sus puntos de funcionamiento.Esa idea, constituida por los mapas de correlaciones, descritos en elapartado 4.5.7, fue presentada en [25], en la International Conferenceon Artificial Neural Networks (ICANN’02), y posteriormente aparecepublicada en Lecture Notes in Computer Science.

Por otro lado, aunque se ha hecho hincapie en el uso de tecnicas deproyeccion concretas (SOM, KR-SOM, GTM), en el apartado 4.3 yen el capıtulo 5 se han dado unas pautas que facilitan la eleccionde otras tecnicas de proyeccion tanto para la visualizacion (apdo.4.3) como para la generacion de residuos (cap. 5), haciendo un estudioy enumerando una serie de propiedades deseables en una tecnica deproyeccion con vistas a supervision y Data Mining Visual.

Otra de las propuestas de esta tesis es una formalizacion, en el capıtu-lo 6, del uso de tecnicas de visualizacion aplicadas a supervision enterminos de una metodologıa estandar de Data Mining (CRISP-DM).

Finalmente todas estas aportaciones se han completado con una imple-mentacion software real de este paradigma de supervision por medio detecnicas de Data Mining Visual, la aplicacion MAPREX, descrita enel capıtulo 6, cuyas posibilidades se han visto potenciadas por el uso deun sistema hardware (computador) portable, que permite la implanta-cion inmediata de un sistema de supervision polivalente, permanenteo no, en cualquier lugar de la planta. El sistema MAPREX fue pre-sentado en [20], en International Federation of Automatic Control 15thIFAC World Congress.

Page 120: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

120 CAPITULO 8. CONCLUSIONES

8.3. Lıneas futuras

Existen todavıa muchas lıneas abiertas en el enfoque visual para super-vision de procesos:

Todavıa hay propiedades encerradas en la forma del subespacio to-pologico —que representa al proceso en el espacio de caracterısticas—que podrıan ser representadas en el espacio de visualizacion. Un ejem-plo serıan los valores propios de las matrices de correlaciones locales,que pueden desvelar la dimensionalidad intrınseca del proceso tambiende forma local.

La generacion de residuos a partir de modelos en datos todavıa presentamuchas incognitas. Entre las posibles vıas de investigacion serıa comopuede eliminarse la hipotesis de la alta dimensionalidad del espacio decaracterısticas o un metodo de calculo exacto del vector de fallo aditivo.

Otra lınea en las que las tecnicas de visualizacion se revelan promete-doras es el diseno de sensores virtuales. El Grupo de Visualizacion deProcesos Complejos del Area de Ingenierıa de Sistemas y Automati-ca de la Universidad de Oviedo ha abordado en mas de un proyectoel diseno de sensores virtuales [73], para lo cual tambien se estan co-menzando a aplicar estas tecnicas de Data Mining Visual, y que estandemostrando un gran potencial aplicadas a todos los pasos del diseno:para la verificacion de los datos, la comprension de los mismos, para laseleccion de caracterısticas, para la evaluacion del sensor virtual, etc.

Algunas de las aportaciones de esta tesis no han tenido todavıa imple-mentacion en un sistema como MAPREX: mapas de modelos, mapasborrosos. Queda, por tanto, como lınea futura la verificacion de su uti-lidad on line sobre un proceso real.

La unica forma en la que se ha considerado la informacion dinamicaen las senales, tanto respecto a desarrollo teorico como a implementa-cion en MAPREX, ha sido en las caracterısticas espectrales. Se podrıapensar en considerar la dinamica de las senales en forma de deriva-das, principalmente pensando en la realizacion de mapas de modelosde ecuaciones diferenciales (o en diferencias).

Es posible complementar las tecnicas de visualizacion con las tecnicastotalmente automaticas de supervision. No esta todavıa implementadaen MAPREX una etapa posterior con tecnicas puramente automaticasde machine learning que evita la atencion continua de un operario sobre

Page 121: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

8.3. LINEAS FUTURAS 121

el sistema de monitorizacion. El enfoque visual aportarıa la flexibilidadque proporcionan los resultados facil y completamente interpretablespor un ser humano, y que le permitirıa contradecir en ultima instan-cia los diagnosticos del sistema automatico si no esta de acuerdo conellos, ademas de tratar los casos que no han sido considerados en dichosistema automatico.

Page 122: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

122 CAPITULO 8. CONCLUSIONES

Page 123: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

Apendice A

Nomenclatura

x Punto en el espacio de caracterısticas. Vector de caracterısti-cas.

y Punto en el espacio de visualizacion.Smi→gi

Proyeccion del espacio de caracterısticas al espacio de visua-lizacion.

Sgi→miProyeccion del espacio de visualizacion al espacio de crac-terısticas.

gi Puntos de rejilla regular en el espacio de visualizacion.mi Puntos correspondientes a los gi en el espacio de caracterısti-

cas.mij Componente j del vector mi.{xk}k=1,...,K Conjunto de muestras en el espacio de caracterısticas.Ai Valores del mapa de activacion correspondientes a los puntos

gi del espacio de visualizacion.c(k) Neurona ganadora del SOM para el dato xk.φ Funcion base radial.hij Funcion escalar de nucleo de campo receptivo en la posicion

de la neurona j respecto a la neurona i.τ(gi) Valor de mapa borroso en el punto gi del espacio de visua-

lizacion.f(x) Modelo (parcial) del proceso (analıtico o FIS) funcion del

vector de caracterısticas.εi Residuo del modelo f en el punto gi del espacio de carac-

terısticas. Tambien residuo del modelo fi.wk(y) Ponderacion del punto xk para el calculo de media y matriz

de covarianzas locales en el punto y del espacio de visuali-zacion.

123

Page 124: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

124 APENDICE A. NOMENCLATURA

σ Ancho de funciones de nucleo (funciones base radiales) comoΦ y wk.

µ(y) Media local en el punto y del espacio de visualizacion.C(y) Matriz de covarianzas locales en el punto y del espacio de

visualizacion.cij Elementos de la matriz C(y).R(y) Matriz de correlaciones locales en el punto y del espacio de

visualizacion.rij Elementos de la matriz R(y).ε Residuo vectorial.x Vector de caracterısticas estimado por un modelo.S(x) Modelo basado en datos (concretamente por medio de tecni-

ca de proyeccion).e Error de modelado, equivalente a ‖ε‖.ξ Variable aleatoria que genera los valores del vector de carac-

terısticas cuando se usa un modelo probabilıstico del proce-so.

if Corriente de campo.ia Corriente de inducido.Va Tension de inducido.Te Par generado por el motor electrico.ω Velocidad angular de giro.Ra Resistencia del bobinado de inducido.La Inductancia del bobinado de inducido.

Page 125: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

Bibliografıa

[1] Esa Alhoniemi, Johan Himberg y Juha Vesanto. Probabilistic measu-res for responses of self-organizing map units. En H. Bothe, E. Oja,E. Massad y C. Haefke, editores, International ICSC Congress on Com-putational Intelligence Methods and Applications (CIMA ’99), paginas286–290. ICSC Academic Press, 1999.

[2] Neil Arthur y Jim Penman. Induction machine condition monitoringwith higher order spectra. IEEE Transactions on Industrial Electro-nics , 47(5):1031–1041, octubre 2000.

[3] Peter Balle y Rolf Isermann. Fault detection and isolation for nonlinearprocesses based on local linear fuzzy models and parameter estimation.En Proceedings of the American Control Conference, paginas 1605–1609. Philadelphia, Pennsylvania, 1998.

[4] Michele Basseville y Igor V. Nikiforov. Detection of Abrupt Changes:Theory and Application. Prentice-Hall, 1993.

[5] Hans-Ulrich Bauer y Klaus R. Pawelzik. Quantifying the neighborhoodpreservation of self-organizing feature maps. IEEE Transactions onNeural Networks , 3(4):570–579, julio 1992.

[6] R. Beguenane. Induction motors thermal monitoring by means of rotorresistance identification. IEEE Transactions on Energy Conversion,14(3):566–570, septiembre 1999.

[7] R. Bellman. Adaptive Control Processes: A Guided Tour . PrincetonUniversity Press, New Jersey, 1961.

[8] Mohamed El Hachemi Benbouzid. A review of induction motors sig-nature analysis as a medium for faults detection. IEEE Transactionson Industrial Electronics , 47(5):984–993, octubre 2000.

125

Page 126: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

126 BIBLIOGRAFIA

[9] Giovanni Betta y Antonio Pietrosanto. Instrument fault detection andisolation: State of the art and new research trends. IEEE Transactionson Instrumentation and Measurement , 49(1):100–107, febrero 2000.

[10] Ella Bingham y Heikki Mannila. Random projection in dimensionalityreduction: applications to image and text data. En 7th ACM SIGKDDInternational Conference on Knowledge Discovery and Data Mining,KDD-2001 , paginas 245–250. San Francisco, CA, USA, 2001.

[11] C. Bishop, M. Svensen y C. Williams. Magnification factors for theGTM algorithm. En IEE Fifth International Conference on ArtificialNeural Networks , paginas 64–69. Cambridge, U.K., julio 1997.

[12] Christopher M. Bishop. Neural Networks for Pattern Recognition. Ox-ford University Press, 1995.

[13] Christopher M. Bishop, Markus Svensen y Christopher K. I. Williams.GTM: The generative topographic mapping. Neural Computation,10(1):215–234, 1998.

[14] Piero P. Bonissone, Yu-To Chen, Kai Goebel y Pratap S. Khedkar. Hy-brid soft-computing systems: Industrial and commercial applications.Proceedings of the IEEE , 87(9):1641–1667, septiembre 1999.

[15] Stuart K. Card, Jock D. MacKinlay y Ben Shneiderman. Readings inInformation Visualization: Using Vision To Think . Morgan KaufmannPublishers, San Francisco, 1998.

[16] Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Tho-mas Reinartz, Colin Shearer y Rudiger Wirth. CRISP-DM 1.0, step-by-step data mining guide. http://www.crisp-dm.org, 2000.

[17] Tommy W.S. Chow y Hong-Zhou Tan. HOS-based nonparametric andparametric methodologies for machine fault detection. IEEE Transac-tions on Industrial Electronics , 47(5):1051–1059, octubre 2000.

[18] Albert Cohen y Jelena Kovacevic. Wavelets: The mathematical back-ground. Proceedings of th IEEE , 84(4):514–522, abril 1996.

[19] Pierre Comon. Independent Component Analysis, a new concept ?Signal Processing , 36(3):287–314, abril 1994. Special issue on Higher-Order Statistics.

Page 127: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

BIBLIOGRAFIA 127

[20] Abel A. Cuadrado, Ignacio Dıaz, Alberto B. Diez, Manuel Domınguez,Juan A. Gonzalez y Faustino Obeso. MAPREX: A SOM-based con-dition monitoring system. En International Federation of AutomaticControl 15th IFAC World Congress . Barcelona, Spain, 2002.

[21] Abel A. Cuadrado, Ignacio Dıaz, Alberto B. Diez, Faustino Obeso yJuan A. Gonzalez. Fuzzy inference maps for condition monitoring withself-organizing maps. En Second Conference of the European Society forFuzzy Logic and Technology, EUSFLAT 2001 , paginas 55–58. Leicester,UK, 2001.

[22] Abel A. Cuadrado, Ignacio Dıaz, Alberto B. Diez, Faustino Obeso yJuan A. Gonzalez. Visual data mining and monitoring in steel proces-ses. En 37th Annual IEEE Industry Applicatons Society (IAS) Meeting ,paginas 493–500. Pittsburgh, PA, USA, 2002.

[23] Pierre Demartines y Jeanny Herault. Curvilinear component analysis:a self-organizing neural network for nonlinear mapping of data sets.IEEE Transactions on Neural Networks , 8(1):148–154, enero 1997.

[24] Duane DeSieno. Adding a conscience to competitive learning. EnProc. ICNN’88, Int. Conf. on Neural Networks , paginas 117–124. IEEEService Center, Piscataway, NJ, 1988.

[25] Ignacio Dıaz, Abel A. Cuadrado y Alberto B. Diez. Correlation visua-lization of high dimensional data using topographic maps. En Interna-tional Conference on Artificial Neural Networks, ICANN’02 (Madrid,Spain), Lecture Notes in Computer Science vol. 2415 , paginas 1005–1010. Springer, 2002.

[26] Ignacio Dıaz, Alberto B. Diez y Abel A. Cuadrado. Complex processvisualization through continuous self organizing maps using radial basisfunctions. En International Conference on Artificial Neural Networks,ICANN’01, (Viena, Austria), Lecture Notes in Computer Science vol.2130 , paginas 443–450. Springer, 2001.

[27] Ignacio Dıaz, Alberto B. Diez, Abel A. Cuadrado y Manuel Domınguez.Prior knowledge integration in self organizing maps for complex processsupervision. En International Federation of Automatic Control 15thIFAC World Congress . Barcelona, Spain, 2002.

[28] Ignacio Dıaz, Alberto B. Diez, Abel A. Cuadrado, Armandino Fombo-na, Faustino Obeso y Juan A. Gonzalez. Kernel regression interpolation

Page 128: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

128 BIBLIOGRAFIA

in SOM-based process condition monitoring. En DIAGNOS’2000 . LaHabana, 2000.

[29] Ignacio Dıaz, Alberto B. Diez Gonzalez, Abel A. Cuadrado Vega yJose M. Enguita Gonzalez. RBF approach for trajectory interpola-tion in self-organizing map based condition monitoring. En J.M. Fuer-tes, editor, Proceedings of the 7th IEEE International Conference onEmerging Technologies and Factory Automation (ETFA’99), paginas1003–1010. UPC, Barcelona, Catalonia, Spain, 1999.

[30] Ignacio Dıaz y Jaakko Hollmen. Residual generation and visualizationfor understanding novel process conditions. En International JointConference on Neural Networks (IJCNN, WCCI’2002). Honolulu, Ha-waii, USA, 2002.

[31] Ignacio Dıaz Blanco. Deteccion e Identificacion de Fallos en ProcesosIndustriales Mediante Tecnicas de Procesamiento Digital de Senal yRedes Neuronales. Aplicacion al Mantenimiento Predictivo de Accio-namientos Electricos . Tesis Doctoral, Universidad de Oviedo, 2000.

[32] Richard O. Duda, Peter E. Hart y David G. Stork. Pattern Classifica-tion. Wiley-Interscience, 2000.

[33] Alberto J. Ferrer Riquelme. Aplicacion del control estadıstico multiva-riante. Automatica e Instrumentacion, (326):62–72, febrero 2002.

[34] Fiorenzo Filippetti, Giovanni Franceschini, Carla Tassoni y Peter Vas.Recent developments of induction motor drives fault diagnosis using AItechniques. IEEE Transactions on Industrial Electronics , 47(5):994–1004, octubre 2000.

[35] Kenneth D. Forbus. Qualitative process theory. Artificial Intelligence,24:85–168, 1984.

[36] Toshio Fukuda y Takanori Shibata. Theory and applications of neuralnetworks for industrial control systems. IEEE Transactions on indus-trial electronics , 39(6):472–489, diciembre 1992.

[37] J.J. Gertler. Survey of model-based failure detection and isolation incomplex plants. IEEE Control Systems Magazine, 8(6):3–11, diciembre1988.

[38] J.J. Gertler. An evidential reasoning extension to quantitative model-based failure diagnosis. IEEE Transactions on Systems, Man and Cy-bernetics , 22(2):275–289, marzo 1992.

Page 129: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

BIBLIOGRAFIA 129

[39] Tom Harris. A Kohonen S.O.M. based, machine health monitoring sys-tem which enables diagnosis of faults not seen in the training set. EnInternational Joint Conference on Neural Networks, IJCNN’93 (Na-goya, Japan), paginas 947–950. IEEE Service Center, Piscataway, NJ,1993.

[40] T. Hastie y W. Stuetzle. Principal curves. Journal of the AmericanStatistical Association, 84:502–516, 1989.

[41] Simon Haykin. Neural Networks, a Comprehensive Foundation.Prentice-Hall, Inc., 1999.

[42] Akram Hossain, Zafar Ahmed Choudhury y Suzali Suyut. Statisticalprocess control of an industrial process in real time. IEEE Transactionson Industry Applications , 32(2):243–249, marzo 1996.

[43] A. Hyvarinen y E. Oja. Independent component analisis: algorithmsand applications. Neural Networks , 13(4–5):411–430, 2000.

[44] Rolf Isermann. On fuzzy logic applications for automatic control, su-pervision, and fault diagnosis. IEEE Transactions on Systems, Manand Cybernetics, Part A, 28(2):221–235, marzo 1998.

[45] Rolf Isermann y Peter Balle. Terminology in the field of supervi-sion, fault detection and diagnosis. Technische Universitat Darms-tadt, World Wide Web. http://w3.rt.e-technik.tu-darmstadt.

de/institut/terminology.en.html.

[46] Rolf Isermann y Mihaela Ulieru. Integrated fault detection and dia-gnosis. En IEEE International Conference on Systems, Man and Cy-bernetics. “Systems Engineering in the Service of Humans”, tomo 1,paginas 743–748. 1993.

[47] Yumi Iwasaki. Real-world applications of qualitative reasoning. IEEEExpert Intelligent Systems and their Applications , paginas 16–21, mayo1997.

[48] J.-S.R. Jang, C.-T. Sun y E. Mizutani. Neuro-Fuzzy and Soft Compu-ting. A Computational Approach to Learning and Machine Intelligen-ce.. Prentice Hall, 1997.

[49] Samuel Kaski. Dimensionality reduction by random mapping: Fastsimilarity computation for clustering. En International Joint Confe-rence on Neural Networks, IJCNN’98 , paginas 413–418. IEEE ServiceCenter, Piscataway, NJ, Anchorage, Alaska, 1998.

Page 130: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

130 BIBLIOGRAFIA

[50] Daniel A. Keim. Designing pixel-oriented visualization techniques:Theory and applications. IEEE Transactions on Visualization andComputer Graphics , 6(1):59–78, enero–marzo 2000.

[51] Daniel A. Keim. Visual exploration of large data sets. Communicationsof the ACM , 44(8):39–44, agosto 2001.

[52] Stuart K. Kim et al. A gene expression map for caenorhabditis elegans.Science, 293:2087–2092, septiembre 2001.

[53] Teuvo Kohonen. The self-organizing map. Proceedings of the IEEE ,78(9):1464–1480, septiembre 1990.

[54] Teuvo Kohonen. Self-Organizing Maps . Springer-Verlag, 1995.

[55] Teuvo Kohonen, Samuel Kaski, Krista Lagus, Jarkko Salojarvi, JukkaHonkela, Vesa Paatero y Antti Saarela. Self organization of a mas-sive document collection. IEEE Transactions on Neural Networks ,11(3):574–585, mayo 2000.

[56] Teuvo Kohonen, Erkki Oja, Olli Simula, Ari Visa y Jari Kangas. En-gineering applications of the self-organizing map. Proceedings of theIEEE , 84(10):1358–1384, octubre 1996.

[57] Benjamin Kuipers. Qualitative simulation. Artificial Intelligence, 1986.Reprinted in Qualitative Reasoning about Physical Systems, ed. DanielWeld and J. De Kleer, Morgan Kaufmann, 1990, p.236-260 , 26:289–338, 1986.

[58] Chin-Teng Lin y C.S. George Lee. Neural Fuzzy Systems: A Neuro-Fuzzy Synergism to Intelligent Systems . Prentice-Hall, 1996.

[59] Yi Lu, Tie Qi Chen y Brennan Hamilton. A fuzzy system for automo-tive fault diagnosis: Fast rule generation and self-tuning. IEEE Tran-sactions on Vehicular Technology , 49(2):651–660, marzo 2000.

[60] Man-Wai Mak y Sun-Yuan Kung. Estimation of elliptical basis func-tion parameters by the EM algorithm with application to speaker veri-fication. IEEE Transactions on Neural Networks , 11(4):961–969, julio2000.

[61] Richard J. Mammone, Xiaoyu Zhang y Ravi P. Ramachandran. Robustspeaker recognition. A feature-based approach. IEEE Signal ProcessingMagazine, paginas 58–71, septiembre 1996.

Page 131: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

BIBLIOGRAFIA 131

[62] Jianchang Mao y Anil K. Jain. Artificial neural networks for featureextraction and multivariate data projection. IEEE Transactions onNeural Networks , 6(2):296–316, marzo 1995.

[63] E.B. Martin, A.J. Morris y J. Zhang. Process perfomance monitoringusing multivariate statistical process control. IEE Proc.-Control TheoryAppl., 143(2):132–144, marzo 1996.

[64] Andrew Craig McCormick. Cyclostationary and Higher-Order Statis-tical Signal Processing Algorithms for Machine Condition Monitoring .Tesis Doctoral, Department of Electronic and Electrical Engineering.University of Strathclyde, mayo 1998.

[65] Jerry M. Mendel. Tutorial on higher order statistics (spectra) in signalprocessing and system theory: Theoretical results and some applica-tions. Proceedings of the IEEE , paginas 278–304, 1991.

[66] Sushmita Mitra y Yoichi Hayashi. Neuro fuzzy rule generation: Surveyin soft computing framework. IEEE Transactions on Neural Networks ,11(3):748–768, mayo 2000.

[67] A. Murray y J. Penman. Extracting useful higher order features forcondition monitoring using artificial neural networks. IEEE Transac-tions on Signal Processing , 45(11):2821–2828, noviembre 1997.

[68] Y. Nakamori y M. Ryoke. Identification of fuzzy prediction modelsthrough hyperellipsoidal clustering. IEEE Transactions on Systems,Man, and Cybernetics , 24(8):1153–1173, agosto 1994.

[69] Katsuhiko Ogata. Ingenierıa de Control Moderna. Prentice Hall, 1998.

[70] R.J. Patton, C.J. Lopez-Toribio y F.J. Uppal. Artificial intelligenceapproaches to fault diagnosis. En IEE Colloquium on Condition Moni-toring Machinery, External Structures and Health (Ref. No. 1999/034).abril 1999.

[71] W. Pedrycz y H. C. Card. Linguistic interpretation of self-organizingmaps. En IEEE Int. Conf. on Fuzzy Systems , paginas 371–378. IEEEService Center, Piscataway, NJ, 1992.

[72] J. Penman y A. Stavrou. Broken rotor bars: their effect on the tran-sient performance of induction machines. IEE Procceedings on ElectricPower Applications , 143(6), noviembre 1996.

Page 132: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

132 BIBLIOGRAFIA

[73] Alberto Pintado Sanchez, Ignacio Dıaz Blanco, Abel A. Cuadrado Ve-ga, Alberto B. Diez Gonzalez, Faustino Obeso Carrera y Vanesa Lo-bato Rubio. Virtual sensor design for coating thickness estimation ina hot dip galvanising line based on interpolated SOM local models.En 28th Annual Conference of the IEEE Industrial Electronics Society(IECON’02). Sevilla, Espana, 2002.

[74] Tomaso Poggio y Federico Girosi. Networks for approximation andlearning. Proceedings of the IEEE , 78(9):1481–1497, septiembre 1990.

[75] John G. Proakis y Dimitris G. Manolakis. Digital Signal Processing.Principles, Algorithms and Applications . Prentice Hall, 1998.

[76] Mysore Ramaswamy, Sumit Sarkar y Ye-Sho Chen. Using directedhypergraphs to verify rule-based expert systems. IEEE Transactionson Knowledge and Data Engineering , 9(2):221–237, marzo–abril 1997.

[77] H. Ritter. Parametrized self-organizing maps. En S. Gielen andB. Kappen, editors, ICANN93-Proceedings , paginas 568–575. SpringerVerlag, Berlin, Amsterdam, 1993.

[78] R. A. Roberts y C. T. Mullis. Digital signal processing . Addinson-Wesley, 1987.

[79] Sam T. Roweis y Lawrence K. Saul. Nonlinear dimensionality reductionby locally linear embedding. Science, 290:2323–2326, diciembre 2000.

[80] Bernhard Scholkopf. Support Vector Learning . Tesis Doctoral, Tech-nischen Universitat Berlin, septiembre 1997.

[81] Bernhard Scholkopf, Christopher J.C. Burges y Alexander J. Smola,editores. Advances in Kernel Methods: Support Vector Learning . MITPress, 1999.

[82] Bernhard Scholkopf, Alexander Smola y Klaus-Robert Muller. Nonli-near component analysis as a kernel eigenvalue problem. Neural Com-putation, 10(5):1299–1319, 1998.

[83] O. Simula y E. Alhoniemi. SOM based analysis of pulping process da-ta. En Engineering Applications of Bio-Inspired Artificial Neural Net-works. International Work-Conference on Artificial and Natural NeuralNetworks, IWANN’99. Proceedings, Vol.2 (Lecture Notes in ComputerScience Vol.1607), paginas 567–77. Springer-Verlag, Berlin, Germany,1999.

Page 133: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

BIBLIOGRAFIA 133

[84] Timo Sorsa, Hiekki N. Koivo y Hannu Kovisto. Neural networks inprocess fault diagnosis. IEEE Transacions on Systems Man and Cy-bernetics , 21(4):815–849, julio–agosto 1991.

[85] Donald F. Specht. A general regression neural network. IEEE Tran-sactions on Neural Networks , 2(6):568–576, noviembre 1991.

[86] Michio Sugeno y Takahiro Yasukawa. A fuzzy-logic-based approach toqualitative modeling. IEEE Transactions on Fuzzy Systems , 1(1):7–31,febrero 1993.

[87] Johan Fredrik Markus Svensen. The Generative Topographic Mapping .Tesis Doctoral, Aston University, abril 1998.

[88] Peter J. Tavner y James Penman. Condition Monitoring of ElectricalMachines . Research Studies Press Ltd., John Wiley and Sons Inc.,1987.

[89] Joshua B. Tenenbaum, Vin de Silva y John C. Langford. A globalgeometric framework for nonlinear dimensionality reduction. Science,290:2319–2323, diciembre 2000.

[90] Sergios Theodoridis y Konstantinos Koutroumbas. Pattern Recogni-tion. Academic Press, 1999.

[91] M. Tipping y C. Bishop. Mixtures of probabilistic principal componentanalyzers. Neural Computation, 11(2):443–482, 1999.

[92] Zekeriya Uykan, Cuneyt Guzelis, M. Ertugrul Celebi y Heikki N. Koivo.Analysis of input-output clustering for determining centers of RBFN.IEEE Transactions on Neural Networks , 11(4):851–858, julio 2000.

[93] Juha Vesanto. SOM-based data visualization methods. Intelligent DataAnalysis , 3(2):111–126, 1999.

[94] Juha Vesanto. Data Exploration Process Based on the Self-OrganizingMap. Tesis Doctoral, Helsinki University of Technology, 2002.

[95] Marcos R. Vescovi, Marcelo M. Lamego y Adam Farquhar. Modelingand simulation of a complex industrial process. IEEE Expert IntelligentSystems and their Applications , paginas 42–46, mayo 1997.

[96] Thomas Villmann, Ralph Der, Michael Herrmann y Thomas M. Mar-tinetz. Topology preservation in self-organizing feature maps: Exactdefinition and measurement. IEEE Transactions on Neural Networks ,8(2):256–266, marzo 1997.

Page 134: Supervisión de Procesos Complejos mediante Técnicas de Data …isa.uniovi.es/~cuadrado/varios/tesis.pdf · Fern´andez de Lera por hacer que pasar la jornada entera en el campus

134 BIBLIOGRAFIA

[97] Jorg Walter. PSOM network: Learning with few examples. En Proc.Int. Conf. On Robotics and Automation (ICRA) IEEE . 1998.

[98] Jorg Walter y Helge Ritter. Rapid learning with parameterized self-organizing maps. Neurocomputing , 12:131–153, 1996.

[99] Zhenyuan Wang, Yilu Liu y Paul J. Griffin. Neural net and expertsystem diagnose transformer faults. IEEE Computer Applications inPower , paginas 50–55, enero 2000.

[100] Paul J. Werbos. Neurocontrol and elastic fuzzy logic: Capabilities, con-cepts, and applications. IEEE Transactions on Industrial Electronics ,40(2):170–180, abril 1993.

[101] James R. Whiteley y James F. Davis. Qualitative interpretation ofsensor patterns. IEEE Expert , paginas 54–63, abril 1993.

[102] Bernard Widrow. 30 years of adaptive neural networks: Perceptron,madaline, and backpropagation. Proceedings of the IEEE , 78(9):1415–1440, septiembre 1990.

[103] David J. H. Wilson y George W. Irwin. RBF principal manifoldsfor process monitoring. IEEE Transactions on Neural Networks ,10(6):1424–1434, noviembre 1999.

[104] Seongkyu Yoon y John F. MacGregor. Fault diagnosis with multivaria-te statistical models part I: using steady state fault signatures. Journalof Process Control , 11:387–400, 2001.

[105] Alexander Ypma y Robert P.W. Duin. Novelty detection using self-organizing maps. En International Conference on Neural InformationProcessing (ICONIP’97), paginas 1322–1325. Dunedin, New Zealand,1997.