ESTUDIO DEL CONSUMO ESPECÍFICO DE COMBUSTIBLE EN …

68
Departamento de Estadística e Investigación Operativa Aplicadas y Calidad ESTUDIO DEL CONSUMO ESPECÍFICO DE COMBUSTIBLE EN EL HORNO DE UNA UNIDAD DE DESTILACIÓN DE CRUDO Máster en Ingeniería del Análisis de Datos, Mejora de Procesos y Toma de Decisiones Héctor Rodríguez López 9-9-2018

Transcript of ESTUDIO DEL CONSUMO ESPECÍFICO DE COMBUSTIBLE EN …

Departamento de Estadística e Investigación Operativa Aplicadas y Calidad

ESTUDIO DEL CONSUMO ESPECÍFICO DE COMBUSTIBLE EN EL HORNO DE UNA UNIDAD DE DESTILACIÓN DE CRUDO Máster en Ingeniería del Análisis de Datos, Mejora de Procesos y Toma de Decisiones

Héctor Rodríguez López 9-9-2018

1

Contenido Resumen ............................................................................................................ 2

1 Introducción ..................................................................................................... 3

2 Material y métodos .......................................................................................... 4

3 Resultados .................................................................................................... 11

3.1 Pretratamiento de los datos .................................................................... 11

3.2 Análisis de Componentes Principales (PCA) .......................................... 15

3.3 PLS (Partial Least Squares) .................................................................... 22

3.5 PLS-DA (Discriminant Analysis) .............................................................. 40

3.6 Árboles de decisión ................................................................................. 52

3.7 Modelización de alta eficiencia................................................................ 53

Modelo con residuos inferiores a -1s ......................................................... 53

Modelo con residuos inferiores a -1.5s ...................................................... 57

3.8 Desarrollo de un modelo predictivo ......................................................... 61

Análisis de la serie temporal ...................................................................... 61

4 Conclusiones ................................................................................................. 63

5 Referencias ................................................................................................... 65

Apéndice .......................................................................................................... 66

Regresión Stepwise ...................................................................................... 66

2

Resumen

El trabajo propuesto se basa en el estudio del consumo específico de

combustible en el horno de una unidad de destilación de crudo de una empresa

petroquímica. Por motivos de confidencialidad no se revelarán datos relativos a

la empresa, al proceso estudiado y a las variables analizadas, por lo que las

variables serán definidas con una nueva nomenclatura. Son muchas las

variables que intervienen en el refino del petróleo. Algunas de ellas no se podrán

manipular mientras que en otras sí que será posible modificar su

comportamiento. Teniendo en cuenta esta complejidad, este trabajo persigue

tres objetivos.

Por una parte, se quiere desarrollar un modelo empírico que permita conocer la

eficiencia máxima (consumo específico mínimo) dadas unas condiciones de

trabajo del proceso. Esto permitiría saber en todo momento si, dadas unas

condiciones de proceso, este se está operando de forma eficiente o no.

Por otra, se desea obtener información que puedan usar los operarios del

proceso para saber cómo tienen que manipular ciertas variables del proceso para

tratar de operar el mismo de la forma más eficiente posible.

Por último, se pretende establecer un modelo predictivo que informe de cuál va

a ser el valor del consumo específico en la siguiente medida. De este modo, se

puede prever qué comportamiento va a seguir el proceso y poder tomar medidas

con antelación.

Para abordar estos objetivos se hará uso de técnicas estadísticas de análisis

multivariante estudiadas en el máster. En procesos industriales en los que

existen una gran cantidad de variables, estos métodos no son solamente una

manera de interpretar mejor los datos, sino que, además permiten extraer

conclusiones muy útiles, lo que no sería posible usando enfoques estadísticos

más tradicionales.

Palabras clave: Análisis Multivariante, PCA, PLS, Monitorización.

3

1 Introducción

Hoy en día, la industria petrolera tiene un peso vital en la economía mundial. El

principal producto de esta son los combustibles, pero el petróleo también hace

las veces de materia prima para la producción de plásticos y productos químicos

como disolventes o fármacos. Así pues, es entendible que en una sociedad tan

industrializada y con tanta demanda de energía como la actual, a pesar del auge

de las energías renovables, el campo de la industria petroquímica sea todavía

un sector estratégico (Kulcsar, Koncz, Balaton, Nagy, & Abonyi, 2014).

Por consiguiente, no es extraño pensar que en una industria tan grande y que

mueve tanto capital, la optimización de cada una de sus etapas se considere

como algo crítico. Mejorar alguna de sus etapas, aunque sea en una pequeña

proporción puede conllevar ganancias económicas muy sustanciales.

Entre los procesos globales de este ámbito, se incluyen la exploración,

extracción, refino, transporte y mercadotecnia de los productos del petróleo.

Es la etapa de refino, o de destilación, la que se trata en este trabajo. En ella se

consigue un fraccionamiento y unas transformaciones químicas del petróleo a fin

de obtener derivados que se puedan consumir.

Por tanto, se trata de un problema en el cuál las variables a estudiar son de

carácter químico-físico. Con la cantidad de datos (es decir, potencial

información), que es posible producir y manejar actualmente, la manera de

plantear el estudio resulta determinante. No será posible un enfoque estadístico

con técnicas tradicionales dado el carácter multivariante del problema. Así pues,

es necesario el uso de herramientas más avanzadas.

En cuanto a la organización del trabajo, en el apartado Material y Métodos se

describen el tipo de datos que se han empleado, así como su estructura.

También se presentan los métodos estadísticos y de inteligencia artificial que se

han utilizado y el software empleado.

A continuación, en Resultados se muestran las tablas y gráficos producidos

explicando cómo se han obtenido y qué se deduce de ellos.

Por último, en el apartado de Conclusiones, se discuten los resultados más

relevantes y qué novedades aporta el estudio realizado.

4

2 Material y métodos

La base de datos analizada consta de 15420 registros horarios desde enero de

2014 hasta octubre de 2015. En dicho periodo se registró una parada por

limpieza que abarca los meses de septiembre y octubre de 2014.

En dicha parada se limpiaron los tubos del horno y se realizaron operaciones

que afectaron a la eficiencia energética de la unidad. Debido a esto es de esperar

que, para unas mismas condiciones de proceso, los consumos en el periodo

posterior a la parada de septiembre de 2014 sean inferiores a los del periodo

previo. Se cree por otra parte, que los datos tomados durante la parada no son

representativos.

Las variables del proceso que se van a estudiar son características químicas,

físicas y termodinámicas. La variable respuesta es el consumo específico de

combustible en el horno, que mide el consumo de energía por tonelada de crudo

procesado. Las 89 variables del proceso registradas se han subdividido en 3

grupos:

• variables “drivers”: variables no manipulables por los operarios pero que

pueden afectar a la variable respuesta. (Identificadas con la letra D)

• variables operativas: variables manipulables por parte de los operarios.

(Identificadas con la letra X)

• variables “dependientes”: están correlacionadas con otras que se

consideran más representativas para el proceso. Éstas serán tratadas del

mismo modo que la variable de la que dependan.

En relación con el software utilizado, se han empleado tres programas. En primer

lugar, a fin de tratar los datos, organizarlos y poder así llevar a cabo el

pretratamiento, se ha optado por el Microsoft Excel 2016. La herramienta

principal para los análisis estadísticos ha sido el software MVA-GIEM,

complementado con el programa Statgraphics.

En este trabajo se han empleado diversas técnicas de análisis de datos

procedentes tanto del ámbito estadístico como del de la inteligencia artificial.

La clasificación de estas técnicas se suele hacer en función de si se conoce

previamente el objetivo buscado. Si los individuos están previamente clasificados

o etiquetados, se tendrá un Aprendizaje Supervisado. En cambio, si se

5

desconocen las variables respuesta o etiquetas asociadas a ellos, se habla de

Aprendizaje No Supervisado.

Así, dentro de los métodos No Supervisados, el Análisis de Componentes

Principales (PCA) (Wold, Esbensen, & Geladi, 1987) es una técnica estadística

muy potente que se emplea para reducir la dimensionalidad de un conjunto de

datos. Consiste en buscar la proyección según la cual los datos queden mejor

representados en términos de mínimos cuadrados. De este modo, las variables

originales correlacionadas se resumen en unas nuevas variables

incorrelacionadas llamadas componentes principales que explican las

principales fuentes de variabilidad.

Una opción que puede resultar interesante a partir de los resultados del PCA es

aplicar la técnica de Análisis Clúster o de Conglomerados para clasificar un

conjunto heterogéneo de elementos en una serie de grupos que reflejen las

relaciones existentes entre los mismos. De esta manera, esta técnica genera

grupos formados por elementos similares entre sí. El enfoque clásico de este tipo

de análisis asume que cada individuo pertenece a un solo clúster. Por el

contrario, el Fuzzy Clustering se caracteriza por el hecho de que los individuos

pueden pertenecer a más de un grupo. Esa asociación a cada grupo está medida

por un nivel de pertenencia (partición difusa).

Por otra parte, en el apartado de Aprendizaje Supervisado, una de las

herramientas estadísticas más sencillas es la Regresión Lineal Múltiple. Sin

embargo, en contextos como los de este trabajo, con muchas variables

potencialmente explicativas altamente correlacionadas, esta técnica sufre de

inestabilidad en la estimación de los parámetros del modelo (por problemas de

mal condicionamiento de la matriz de covarianzas de los regresores), así como

de problemas en la interpretación del modelo predictivo ajustado. Es decir, se

pueden obtener modelos predictivos con diferentes regresores, pero con una

bondad de ajuste similar. Esto provoca que no sea posible saber si los regresores

no están incluidos porque no deben estarlo (no son significativos a la hora de

explicar variabilidad de la respuesta) o porque están fuertemente relacionados

con otros regresores que sí se han incluido ya en el modelo.

6

Una técnica de aprendizaje supervisado que funciona muy bien en situaciones

de fuerte colinealidad es la Regresión en Mínimos Cuadrados Parciales (PLS,

Partial Least Squares) (Wold, Sjöström, & Eriksson, 2001). Esta es una técnica

estadística multivariante muy potente que permite relacionar dos estructuras de

datos: la de los datos del proceso X y la de las variables respuesta a estudiar Y.

Si bien el PCA trata de maximizar la varianza de X, el PLS intenta explicar la

covarianza entre X e Y, es decir, las fuentes de variabilidad de X que estén

relacionadas con las de Y. Una modificación del PLS es el PLS-DA, usado en

contextos en los que la variable a estudiar es cualitativa y se pretende obtener

un modelo de clasificación.

Otra técnica de Aprendizaje Supervisado es la del Vecino más próximo. Esta

técnica no obtiene un modelo como tal, sino que trata de predecir el valor de una

observación basándose en el valor de las observaciones más cercanas.

Cuando no se obtiene una buena predicción o separación entre clases usando

la técnica anterior, las Máquinas de Soporte Vectorial (SVM por sus siglas en

inglés) son una buena alternativa. Este conjunto de algoritmos construye un

hiperplano o conjunto de hiperplanos en un espacio de dimensionalidad muy alta

que puede ser utilizado en problemas de clasificación o regresión altamente no

lineales.

Por último, una técnica más simple pero no por ello menos útil es el Árbol de

decisión. En lugar de crear un modelo matemático como tal, crea una serie de

reglas que hagan posible la clasificación de los nuevos elementos. Si bien no es

un método tan exacto, su simplicidad hace que en ocasiones sea más intuitivo y

aplicable en determinados problemas.

La mayoría de estas técnicas serán aplicadas en este trabajo con el fin de

comprobar cuál de ellas se adapta mejor a la problemática del caso.

No obstante, hay que tener presente el objetivo del problema, y plantear

entonces las técnicas más apropiadas para este fin. En este sentido, lo que se

va a buscar no es simplemente una clasificación de los individuos, sino un

enfoque discriminatorio. Esto es, saber discernir qué variables son aquellas que

nos van a proporcionar información útil a la hora de clasificar, es decir, entender

7

qué variables manipulables del proceso tienen comportamientos distintos entre

los periodos de alta y baja eficiencia del proceso.

Esto es posible en el caso del PLS. Por el contrario, otras técnicas se pueden

considerar como “cajas negras”, ya que su función se limita a clasificar

individuos, sin que el usuario realmente pueda interpretar qué sucede dentro del

proceso. No es posible saber qué variables son responsables de las diferencias

entre grupos.

Por tanto, las últimas técnicas mencionadas anteriormente como el Vecino más

próximo o las Máquinas de soporte vectorial no van a ser abordadas puesto que

su planteamiento no se adapta a las necesidades del problema.

Tres han sido, principalmente, las técnicas multivariantes empleadas en el

análisis: Análisis de Componentes Principales (PCA) (Bro & Smilde, 2014),

Regresión en Mínimos Cuadrados Parciales (PLS) (Wold, Sjöström, & Eriksson,

2001) y Análisis Discriminante mediante PLS (PLS-DA) (Prats-Montalbán,

Ferrer, Malo, & Gorbeña, 2005). Mediante el PCA se ha realizado un estudio

descriptivo multivariante de las variables con fines exploratorios. La técnica PLS

ha sido usada para la construcción de modelos predictivos con predictores

altamente correlacionados. Por último, el PLS discriminante (PLS-DA) se ha

utilizado para discriminar entre periodos de consumo eficiente y no eficiente.

Además, se ha aplicado otra técnica con el objetivo de comprobar su utilidad en

este trabajo y estudiar las diferencias con las primeras. Los Árboles de Decisión

han permitido comparar con las técnicas iniciales si la discriminación entre

variables daba los mismos resultados.

A continuación, se explica más a fondo las dos técnicas principales empleadas,

el PCA y el PLS.

El Análisis de Componentes Principales (PCA) es una herramienta estadística

multivariante que busca direcciones de máxima variabilidad. El objetivo principal

es comprimir la información de la matriz de datos X a analizar.

La estructura de los datos sería la mostrada en la Ilustración 1:

8

Ilustración 1.- Estructura de los datos del PCA.

Donde:

• X: Matriz de datos de partida: I individuos (filas) x J variables (columnas).

• T: Scores, valores que toman los I individuos en las nuevas R variables

latentes.

• P: Loadings, relaciones entre las variables J originales y las R variables

latentes.

• E: Residuos, variabilidad no explicada por el modelo.

El primer paso es el preprocesado necesario para hacer los datos comparables

entre sí y el modelo más fácilmente interpretable. El tipo de preprocesado más

común es el autoescalado, es decir centrado y escalado (en el caso en que las

variables estén medidas en unidades distintas).

Para entender el funcionamiento del PCA, se puede recurrir a la Descomposición

en Valores Singulares, SVD. Aplicándola, se descompone la matriz original X en

un producto de matrices:

𝑆𝑉𝐷 (𝐗) = 𝐔 ∗ 𝚺 ∗ 𝐕𝐓

Donde:

• U: matriz de autovectores de XX’ asociados a los valores singulares de

√𝜆𝑖.

• Σ: matriz diagonal con los valores singulares.

• V: matriz de autovectores de X’X asociados a los valores singulares √𝜆𝑖.

Si se autoescala X, la matriz X’X es proporcional a la matriz de correlaciones de

X.

9

Calcular Σ y V equivale por tanto al cálculo de los vectores y valores propios de

la matriz X’X.

𝐗′𝐗 ∗ �⃗⃗� = 𝜆 ∗ �⃗⃗�

(𝐗′𝐗 − 𝜆 ∗ 𝐈) ∗ �⃗⃗� = 0

�⃗⃗� = 0 𝑒𝑠 𝑠𝑜𝑙𝑢𝑐𝑖ó𝑛 𝑡𝑟𝑖𝑣𝑖𝑎𝑙

|𝐗′𝐗 − 𝜆 ∗ 𝐈| = 0

Así, λ indica cómo de fuertes son las direcciones de máxima variabilidad de X’X

y v sus direcciones. El autovector 1 (v1) es el vector director del eje para la

primera componente principal (loading). Se expresa respecto al sistema de ejes

original.

De esta manera se consiguen componentes principales con las siguientes

características:

• Ortogonales

• Decrecientes en cuanto a la variabilidad explicada

• Combinaciones lineales de las variables originales

Hay varios criterios para obtener las componentes principales, pero todos

representan matemáticamente lo mismo:

- Subespacio que mejor se ajusta a la nube de modo que los residuos sean

mínimos.

- Subespacio que minimiza la deformación de la nube proyectada.

- Predicción óptima de las J variables originales a partir de R

combinaciones lineales de las mismas.

Si bien ya se ha explicado que el SVD es un procedimiento para calcular las

componentes principales, lo cierto es que en muchos casos no es necesario

obtenerlas todas, sino solo las más importantes. En ese caso puede recurrirse a

algoritmos secuenciales como el NIPALS, planteado en la Ilustración 2:

10

Ilustración 2.- Algoritmo NIPALS para el PCA.

En el caso de la Regresión por Mínimos Cuadrados Parciales (PLS) se busca

maximizar las fuentes de variabilidad de los dos espacios X (matriz de variables

explicativas o regresores) e Y (matriz de variables respuesta) que estén

correlacionadas, por lo que la función objetivo a maximizar es la covarianza:

𝑐𝑜𝑣(𝑥, 𝑦) = 𝑠𝑥 ∗ 𝑠𝑦 ∗ 𝑟𝑥𝑦

Se busca una regresión lineal mediante la proyección de las variables

observables y las variables predictivas a un nuevo espacio, en vez de buscar

hiperplanos de máxima varianza entre las variables independientes y la variable

respuesta.

De este modo, esta técnica se aplica a fin de hallar las relaciones entre las dos

matrices (X e Y). Así, se modela con variables latentes la estructura de

covarianza en los dos espacios originales.

Se lleva a cabo de nuevo el algoritmo NIPALS como explica la Ilustración 3:

11

Ilustración 3.- Algoritmo NIPALS para el PLS.

La Regresión por Mínimos Cuadrados Parciales-Análisis Discriminante (PLS-

DA) se da cuando la matriz Y a estudiar con tiene variables de carácter binario.

3 Resultados

3.1 Pretratamiento de los datos

Uno de los primeros pasos que hay que dar a la hora de analizar una base de

datos es comprobar la calidad de esta. En cierto sentido, una buena base de

datos contendrá poca proporción de datos faltantes.

Para solventar este problema existen varias vías. La más simple de ellas es

eliminar completamente cada una de las observaciones en las cuales exista

algún dato faltante. No obstante, teniendo en cuenta que se tienen 89 variables,

no sería extraño que en muchas de las observaciones falte alguna variable por

medir, así que realizar este procedimiento conllevaría una gran pérdida de

información potencial. Una opción más apropiada es usar métodos de

imputación de datos faltantes explotando las correlaciones entre las variables

(Folch-Fortuny, Arteaga, & Ferrer, 2015 y 2017)

Así, se calculan para los tres periodos (Fase previa, Parada y Fase posterior) los

porcentajes de datos faltantes para cada variable.

Se observa que para los periodos de antes y después de la parada, los datos

faltantes no suponen ningún problema pues la proporción de estos no llega

12

apenas al 2% en ninguna variable. Sin embargo, en el periodo de parada por

limpieza estas cantidades sí que son importantes, pudiendo llegar hasta el 88%.

A modo de ejemplo, en la Tabla 1 se muestra el porcentaje de datos faltantes de

5 variables en los tres periodos.

Tabla 1.- Porcentaje de datos faltantes por periodo.

X6 X12 X13 X18 X61

PREVIO 0.02% 0.13% 0.22% 0.81% 0.15% PARADA 31.30% 67.31% 84.72% 63.68% 88.03% POST 0.01% 0.01% 0.01% 0.01% 0.01%

La Ilustración 4 muestra la estructura de datos faltantes en el periodo de parada.

Tras consultar con los expertos de la empresa se decidió no usar los datos del

periodo de parada, sino solo los de la fase previa y posterior a la limpieza del

horno de destilación.

Ilustración 4.- Estructura de los datos faltantes en la fase de parada.

La siguiente cuestión estudiada fue si la limpieza tuvo un efecto sobre el

consumo específico. La Ilustración 5 muestra la serie de tiempo del consumo

13

específico antes (en azul) y después (en rojo) de la parada. En la Tabla 2 se

muestran la media y la desviación típica muestrales en ambos periodos.

Ilustración 5.- Serie de tiempo del consumo específico: antes (azul) y después (rojo) de la parada por

limpieza.

Tabla 2.- Media y desviación típica del consumo específico para las fases previa y posterior.

Media Desv. Típica

Fase previa 0.0132 0.0012 Fase posterior 0.0122 9,7256E-04

Para confirmar si ha habido un cambio en la varianza del consumo específico

medio antes y después de la parada, se ha realizado un contraste de hipótesis

planteando como hipótesis nula que dicha varianza no ha cambiado. Los

resultados obtenidos con el Statgraphics se muestran a continuación en la

Ilustración 6:

0 5000 10000 150000.009

0.01

0.011

0.012

0.013

0.014

0.015

0.016

0.017Serie de tiempo CONS_ESP

Observaciones

CO

NS

_E

SP

14

Ilustración 6.- Prueba de hipótesis sobre el cociente entre las varianzas.

Con un p-valor menor del 0,05, se rechaza la hipótesis de que la varianza se

mantiene constante. El intervalo de confianza para el cociente de varianzas

indica que es razonable concluir que la varianza antes de la limpieza es entre

1,45 y 1,59 veces la varianza después de la misma, por lo que el proceso, tras

la parada, ha reducido la variabilidad de su consumo específico, lo que conlleva

una mejora en la calidad.

Para estudiar un posible cambio en la media del consumo específico antes y

después de la parada, se ha realizado también un contraste de hipótesis para la

diferencia de medias. Los resultados obtenidos con el Statgraphics son los

mostrados en la Ilustración 7:

Ilustración 7.- Prueba de hipótesis sobre el cociente entre las medias.

Del cual se concluye (con un riesgo de primera especie del 5%) que tampoco la

media se mantiene constante. De hecho, el intervalo de confianza para la

diferencia de medias indica que es razonable asumir que el consumo específico

15

medio tras la parada es entre [0.000963185; 0.00103682] unidades menores que

antes de la parada.

Una vez se ha demostrado que el segundo periodo del proceso es más eficiente,

se aplicarán las técnicas multivariantes en este periodo, que representa las

condiciones actuales tras la parada por limpieza.

En dicho sentido, se va a proceder, por tanto, a una imputación de datos

faltantes, necesaria para poder llevar a cabo los análisis multivariantes.

3.2 Análisis de Componentes Principales (PCA)

El primer análisis realizado, a modo de análisis exploratorio de los datos, ha sido

un PCA. Inicialmente, éste se va a ejecutar únicamente sobre las variables

llamadas Drivers ya que no es posible manipularlas y puede resultar interesante

observar su comportamiento. Al no ser una cantidad demasiado grande de

variables, 16, es de esperar que con pocos componentes se explique una

proporción grande de la variabilidad del proceso original, como se puede

observar en la Tabla 3:

Tabla 3.- Estadísticos R2 y Q2 para el PCA.

Efectivamente, con cuatro componentes principales ya se explica

aproximadamente el 85% de la variabilidad de los datos tanto en bondad de

ajuste (R2) como en bondad de predicción (Q2).

16

Lo primero que hay que hacer una vez creado el modelo, es validarlo. Para ello,

se estudia primero el gráfico de control de la suma de cuadrados residual (SPE)

y a continuación el de la T2 de Hotelling. Ambos gráficos se construyen fijando

un límite de control superior (LCS) asociado a un cierto percentil de la distribución

del estadístico correspondiente. En este trabajo se usará el percentil 95%, por lo

que cada gráfico tendrá una tasa de falsas alarmas del 5%. Para conseguirlo,

una vez construido cada gráfico, se calculará el número medio de observaciones

que se espera caigan por encima del LCS estando el proceso bajo control

estadístico (N×0,05), siendo N el número de datos representados en el gráfico.

Se identificarán las observaciones que superen el LCS (95%), Nfuera. De estas se

considerarán anómalas aquellas cuyo valor del estadístico sea 3 veces el LCS.

Del resto, también tendrán esta consideración las Nfuera - N×0,05 observaciones

con valores más grandes del estadístico. En el gráfico SPE a estas

observaciones anómalas se les llamará outliers moderados, mientras que en el

gráfico T2-Hotelling recibirán el nombre de outliers severos.

Ilustración 8.- Suma de cuadrados residual (SPE) para el PCA.

En el gráfico SPE (ver Ilustración 8) se pueden observar los outliers moderados

(en rojo), es decir, observaciones atípicas que tienen una distancia euclídea

0 1000 2000 3000 4000 5000 6000 7000 8000 90000

5

10

15

20

25

Observaciones

SP

E

PCA Drivers - Gráfico SPE

UCL = 7.20

17

grande a su proyección en el subespacio de componentes principales.

Normalmente están asociados a observaciones que rompen la estructura de

correlación de las variables del modelo.

El SPE no es más que el producto escalar del vector de residuos e para cada

observación:

𝑆𝑃𝐸 = 𝒆𝑻𝒆

Así, se puede entender el SPE como una suma de contribuciones de las

variables del modelo. De este modo, se pueden estudiar las contribuciones de

cada variable original en cada observación atípica. En este caso esto se realiza

con las observaciones más alejadas, las señaladas en la Ilustración 5 en color

rojo. A modo de ejemplo, las Ilustraciones 9 y 10 muestran el gráfico de

contribución a la SPE de dos observaciones atípicas (13199 y 14181). En ambos

casos se puede apreciar la variable que más influye al hecho de que estas

observaciones sean atípicas: la D15 en la observación 13199 y la D16 en la

observación 14181.

Ilustración 9.- Gráfico de contribuciones para la observación 13199.

-2

0

2

4

6

8

10

12

14

16

PCA - Gráfico de contribuciones - SPE

Observación 13199

D6 D2 D1 D3 D9D12 D11 D8

D10 D7D16 D4

D14 D13 D5D15

Variables

Contr

ibucio

nes

18

Ilustración 10.- Gráfico de contribuciones para la observación 14181.

De forma más precisa, en la observación 14181 se observa que la variable D16

provoca que ésta tenga un comportamiento extremo. Esto se corrobora con una

serie de tiempo en la cual efectivamente se aprecia un valor anómalo para esta

observación (marcada en rojo en la Ilustración 11):

Ilustración 11.- Serie de tiempo para la variable D16.

Ahora se puede calcular el estadístico T2 de Hotelling y observar aquí los outliers

severos. Estos son observaciones extremas que, si bien no rompen la estructura

de correlación (en el caso en que no tengan un SPE elevado), pueden significar

un cambio en las condiciones de operación.

0

2

4

6

8

10

12

14

PCA - Gráfico de contribuciones - SPE

Observación 14181

D6 D2 D1 D3 D9D12 D11 D8

D10 D7D16 D4

D14 D13 D5D15

Variables

Contr

ibucio

nes

19

En cuanto al estadístico, se calcula mediante la fórmula:

𝑇2 = 𝝉𝑇 𝚯−1𝝉−1

Donde 𝝉 es el vector de scores para cada individuo y 𝚯 es la matriz diagonal que

contiene los valores propios.

Ilustración 12.- Gráfico T2 de Hotelling para el PCA.

En la Ilustración 12 se observa que en algunas de las observaciones el valor del

T2 es demasiado elevado (marcadas con color rojo). Estudiando cuáles son las

componentes que hacen que tome este valor tan alto y en ellas cuáles son las

variables originales responsables, se puede detectar qué es lo que provoca esta

anomalía. A modo de ejemplo, la Ilustración 13 muestra los gráficos de

contribución a la T2 de Hotelling para una observación anómala (14964). Se

observa que los problemas aparecen en la primera componente, habiendo

bastantes variables Drivers implicadas en la anomalía.

0 1000 2000 3000 4000 5000 6000 7000 8000 90000

5

10

15

20

25

30

35

40

Observaciones

T2

PCA - T2 de Hotelling

UCL = 9.50

20

Ilustración 13.- Gráfico de contribuciones para la observación 14964.

Tras consultar con los expertos del proceso, se decide eliminar las

observaciones atípicas detectadas, ajustando un nuevo modelo PCA con las

observaciones restantes. En este modelo ya no se detectaron observaciones

anómalas, por lo que se pasó a su interpretación.

En el gráfico de loadings (como el de la Ilustración 14) pueden observarse las

relaciones entre las variables originales. Aquellas que estén correlacionadas

positivamente tendrán valores similares en las dos primeras componentes, y

aparecerán situadas cerca, pero lejos del origen del gráfico. Si la correlación es

negativa, las variables aparecerán en situaciones antipódicas, también lejos del

origen. Por último, si las variables no tienen relación aparecerán formando un

ángulo recto entre las líneas imaginarias que, partiendo de cada variable, pasan

por el origen.

1 2 3 40

1

2

3

4

5

6

Variable

D6

Componentes

Score

s n

orm

aliz

ados

PCA - Gráfico de contribuciones - Scores

Observación 14964

-1

-0.8

-0.6

-0.4

-0.2

0

0.2

D6 D2 D1 D3 D9D12 D11 D8

D10 D7D16 D4

D14 D13 D5D15

Variables

Contr

ibucio

nes

21

Ilustración 14.- Gráfico de loadings para el PCA.

De este modo, puede verse que hay dos grupos de variables altamente

relacionados (señaladas por los círculos verde y azul) mientras que las variables

D15 y D16 están también correlacionadas, pero negativamente (señaladas en

rojo).

En cuanto al gráfico de scores (ver Ilustración 15), es posible extraer información

sobre los individuos. Es decir, cómo se distribuyen las observaciones en el plano

definido por las dos primeras componentes principales.

22

Ilustración 15.- Gráfico de scores para el PCA.

Como se observa en el gráfico, hay varias zonas (fundamentalmente las

destacadas en las dos elipses negras) en las que el proceso ha tenido un

comportamiento diferente.

3.3 PLS (Partial Least Squares)

Para conseguir el objetivo del trabajo: desarrollar un sistema que permita, en

base a los datos registrados, monitorizar y evaluar la eficiencia energética con

que está operando la planta, se seguirá el siguiente procedimiento:

En un primer paso se ajustará un modelo PLS (llamado PLS-I) usando como

variable respuesta el consumo específico, y como variables predictoras las

variables no manipulables (Drivers) indicadas por los expertos de la empresa, y

se calcularán los residuos. Residuos positivos indican consumos específicos

observados mayores que los predichos, por tanto, periodos de baja eficiencia;

mientras que residuos negativos indican consumos específicos observados

menores que los predichos, por tanto, periodos de operación eficiente.

Posteriormente, se ajustará un segundo modelo PLS (llamado PLS-II) usando

como variable respuesta los residuos del modelo anterior, y considerando como

variables predictoras, las variables manipulables (el resto de las variables

disponibles que no sean “no manipulables”). El objetivo de este segundo modelo

23

es conocer qué variables manipulables están más relacionadas con los residuos

del modelo anterior y, por tanto, con los periodos de baja/alta eficiencia

energética. Esto permitirá conocer qué combinación de valores de las variables

manipulables proporcionan un manejo eficiente de la planta en términos de

consumo específico.

De este modo, se tendrán dos modelos PLS:

𝑃𝐿𝑆 − 𝐼 ≡ 𝐶𝑂𝑁𝑆𝐸𝑆𝑃 = 𝑓(𝐷𝑟𝑖𝑣𝑒𝑟𝑠) + 𝑒

𝑃𝐿𝑆 − 𝐼𝐼 ≡ 𝑒 = 𝑓(𝑁𝑜 𝐷𝑟𝑖𝑣𝑒𝑟𝑠) + 𝑒′

Como paso previo para realizar el PLS-I, se va a crear un conjunto de

entrenamiento (training set) con el 75% de los datos disponibles, para después

comprobar con el 25% restante (conjunto de validación) que el modelo

representa bien el proceso. Como ilustra la Tabla 4, extrayendo tres

componentes latentes la bondad de predicción por validación cruzada (Q2) es

superior al 60%. La Ilustración 16 muestra que añadir una cuarta componente

prácticamente no mejora sustancialmente el Q2 del ajuste, por lo que se decide

extraer únicamente 3 componentes PLS.

Tabla 4.- Estadísticos R2(X), R2(Y) y Q2 para el PLS-I.

24

Ilustración 16.- Acumulado de los estadísticos R2 y Q2 para el PLS-I.

Siguiendo el mismo procedimiento que en el PCA, para validar el modelo se

eliminan los valores anómalos (marcados en rojo) tanto del gráfico SPE

(Ilustración 17) como de la T2 de Hotelling (Ilustración 18):

Ilustración 17.- Gráfico SPE para el PLS-I.

0 1000 2000 3000 4000 5000 6000 70000

5

10

15

20

25

30

Observaciones

SP

E

PLS - Gráfico SPE

UCL = 10.90

25

Ilustración 18.- Gráfico T2 de Hotelling para el PLS-I.

Una vez eliminadas las observaciones anómalas (con el visto bueno de los

expertos del proceso) se ajusta un nuevo modelo PLS.

0 1000 2000 3000 4000 5000 6000 70000

5

10

15

20

25

Observaciones

T2

PLS - T2 de Hotelling

UCL = 7.82

26

Ilustración 19.- Gráfico de scores para el PLS-I coloreado según el consumo específico.

En la Ilustración 19 se puede observar cómo se distribuyen las observaciones a

lo largo del espacio creado por la primera y la segunda componente PLS. El

gráfico de scores t1/t2 es como una ventana en la que se muestran los individuos

proyectados en el plano definido por dos componentes. Las coordenadas de

cada individuo serán el vector de scores de cada componente. La elipse que se

muestra incluye a todas las observaciones que no sobrepasen los límites de la

T2 de Hotelling con un 95% de confianza. El gráfico de los scores t1/t2 se ha

coloreado según el consumo específico. Se observa un claro gradiente en la

dirección Noreste, lo que indica que en los datos analizados ha existido una clara

variación del consumo específico en esa dirección.

La Ilustración 20 muestra que la relación interna entre los scores de ambos

espacios, t y u, es lineal, como asume el modelo PLS.

-10 -5 0 5 10 15-5

-4

-3

-2

-1

0

1

2

3

4

5

t1

t2

PLS - Gráfico de scores

Color según variable: Y

0.01

0.011

0.012

0.013

0.014

0.015

0.016

0.017

27

Ilustración 20.- Gráfico t-u para PLS-I.

La correlación entre los drivers y el consumo específico en las dos primeras

componentes se muestra en el gráfico de weightings la Ilustración 21.

-10 -5 0 5 10 15-15

-10

-5

0

5

10

15

20

25

30

t1

u1

PLS después de SPE y T2 - Gráfico t-u

28

Ilustración 21.- Gráfico de weightings para el PLS-I.

En este gráfico de weightings se superponen las relaciones entre los drivers y la

variable respuesta (consumo específico). Esto da información de la estructura de

correlación entre X e y, es decir, cómo las variables se combinan para formar la

relación cuantitativa entre X e y.

De este modo, se puede entender qué variables son importantes en la relación

y cuáles proporcionan la misma información. En este gráfico se observa que la

variable respuesta consumo específico está en el cuadrante noreste, de ahí el

29

gradiente observado en el gráfico de scores coloreado por el valor del consumo

específico de la Ilustración 19. La mayoría de los Drivers están en el cuadrante

suroeste (en situación antipódica) lo que indica que estarán relacionados

negativamente con el consumo específico, por lo que, en periodos de alto

consumo específico, sus valores tenderán a estar por debajo de su media (y

viceversa). Esto se confirma con la Ilustración 22, que muestra los coeficientes

de regresión PLS escalados, que estiman el efecto que tiene cada Driver en el

consumo específico.

Ilustración 22.- Coeficientes escalados para el PLS-I.

La Ilustración 23 muestra el diagrama de dispersión entre uno de los drivers con

coeficiente negativo y el consumo específico, corroborando la correlación

negativa entre ambos.

-0.3

-0.25

-0.2

-0.15

-0.1

-0.05

0

0.05

0.1

0.15

0.2

Coefs

esc.

Y (

3 c

om

p.)

D16 D15 D12 D11 D9D10 D7 D8 D6 D5 D3 D4

D14 D1 D2D13

PLS - Coeficientes escalados

30

Ilustración 23.- Gráfico de dispersión Y vs. D1.

Para evaluar la calidad del modelo PLS ajustado con el conjunto de

entrenamiento, se proyectan sobre el mismo las observaciones del conjunto de

validación (25% de los datos). Se obtienen los siguientes gráficos (Ilustraciones

24 y 25):

0 0.1 0.2 0.3 0.4 0.5 0.6 0.70.009

0.01

0.011

0.012

0.013

0.014

0.015

0.016

0.017

0.018

D1

Y

31

Ilustración 24.- Gráfico SPE para el set de validación del PLS-I.

Ilustración 25.- Gráfico de T2 para el set de validación del PLS-I.

La Ilustración 26 muestra los valores observados y predichos:

0 500 1000 1500 2000 25000

5

10

15

20

25

30

35

40

45

50

Observaciones

SP

E

PLS después de SPE y T2 (Predicciones "Oct.2014-Actual (A=3)") - Gráfico SPE

UCL = 10.84

0 500 1000 1500 2000 25000

5

10

15

20

25

30

35

40

45

50

Observaciones

T2

PLS después de SPE y T2 (Predicciones "Oct.2014-Actual (A=3)") - T2 de Hotelling

UCL = 7.82

32

Ilustración 26.- Valores observados frente a predichos en el conjunto de validación para el modelo PLS-I.

En las Ilustraciones 24 y 25 se muestran algunos periodos de observaciones

anómalas y extremas en el conjunto de validación (marcadas en rojo).

Excluyendo estos periodos en la Ilustración 26 se observa que, en general hay

periodos con discrepancias entre el consumo específico predicho por el modelo

PLS-I (que usa solo los Drivers del proceso) y el real. Estas discrepancias

pueden deberse a la distinta manera que los operarios del proceso han

manipulado el resto de las variables (No Drivers).

En el Apéndice se muestran los resultados de los ajustes obtenidos mediante la

regresión lineal múltiple y la regresión stepwise, y se comparan con los obtenidos

mediante el PLS. Como se discute, la existencia de correlación en los regresores

genera discrepancias en los signos y la significación estadística de algunos de

los coeficientes, lo que dificulta la interpretación de los modelos de regresión.

A continuación, y del mismo modo que para el PLS-I, se lleva a cabo el PLS-II.

El modelo PLS-I explicaba un 60% de la variabilidad del consumo específico. La

idea de construir un nuevo modelo PLS usando como variable respuesta los

residuos del modelo PLS-I es tratar de comprobar qué variables manipulables

(No-Drivers) son capaces de explicar el 40% de la variabilidad del consumo

específico no explicado por los Drivers. De esta forma se podrían dar pistas a los

200 400 600 800 1000 1200 1400 1600 1800 20000.01

0.011

0.012

0.013

0.014

0.015

0.016

0.017

0.018

0.019

0.02

Observaciones

Observ

ados -

Pre

dic

hos

PLS después de SPE y T2 (Predicciones "POST25 (A=4)") - Observados frente a Predichos (Y) - Serie temporal

CONS_ESP (A = 3)

Pred

Obs

33

operadores del proceso sobre cómo operar las variables manipulables para

aumentar la eficiencia energética del proceso de destilación.

La Tabla 5 y la Ilustración 27 muestran la bondad de ajuste y de predicción por

validación cruzada para distinto número de componentes del modelo.

Ilustración 27.- Acumulado de los estadísticos R2 y Q2 para el PLS-II.

34

Tabla 5.- Estadísticos R2(X), R2(Y) y Q2 para el PLS-II.

Si se escogen ocho componentes, una vez validado el modelo se consigue

explicar más de un 70% de la variabilidad de la nueva variable respuesta:

residuos del consumo específico.

A pesar de que el modelo tiene ocho componentes, con las dos primeras, que

explican un 40% de la variabilidad, ya se puede apreciar una clara relación entre

los residuos del consumo específico y algunas variables manipulables por los

operarios (No-Drivers), como se aprecia en el gráfico de weightings de la

Ilustración 28 y en el de scores de la Ilustración 29:

35

Ilustración 28.- Gráfico de weightings para el PLS-II.

El gráfico de scores de la Ilustración 29 muestra claramente el gradiente hacia

residuos positivos en la dirección Noreste indicada en la Ilustración 28,

diferenciando periodos de alta y baja eficiencia energética.

-0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3-0.6

-0.5

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

X1

X2

X3

X5

X6

X7

X8

X9

X10

X11

X12

X13

X14

X15

X16

X17 X18

X19

X20

X21X22

X23

X24

X25

X26

X27X28

X29X30

X31

X32

X33X34X35X36

X37X38

X39

X40

X41

X42X43X44

X45X46

X47

X48

X49

X50

X51

X52

X53

X54

X55

X56X57

X58

X59

X60

X61

X62

X63

X64

X65

X66

X67

X68

X69

X70

X71 Y

w*c1

w*c

2

PLS-II - Gráfico de weightings

36

Ilustración 29.- Gráfico de scores para el PLS-II.

En este modelo, el fin es saber qué variables manipulables son más importantes

en el proceso a la hora de distinguir los periodos de alta y baja eficiencia

energética. Así, en la Tabla 6 se muestran los coeficientes de las variables con

VIP mayor que 1.

Tabla 6.- Coeficientes VIP para el PLS-II.

Variable VIP Coeficiente

X1 1,51 6,59E-03 X3 1,5 9,20E-01 X5 1,95 6,83E+00 X6 1,99 -4,68E-01 X7 1,76 -3,09E+00

La interpretación de los coeficientes del modelo es:

-8 -6 -4 -2 0 2 4 6-10

-8

-6

-4

-2

0

2

4

6

8

t1

t2

PLS-II - Gráfico de scores

Color según variable: Y_RES

-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

2.5

x 10-3

37

- Variables con coeficientes positivos: a menor valor de las variables, los

residuos tienden a disminuir (ser más negativos), aumentando la

eficiencia.

- Variables con coeficientes negativos: a mayor valor de las variables, los

residuos tienden a disminuir (ser más negativos), aumentando la

eficiencia.

A continuación, se muestran las variables con coeficientes positivos (Ilustración

30), con coeficientes negativos (Ilustración 32), así como un diagrama de

dispersión entre la variable respuesta (residuos del consumo específico) y una

variable con coeficiente positivo (Ilustración 31) y negativo (Ilustración 33).

Ilustración 30.- Coeficientes escalados positivos para el PLS-II.

0

0.1

0.2

0.3

0.4

0.5

0.6

Coefs

esc.

Y_R

ES

(8 c

om

p.)

X5 X1 X3X61 X22 X55 X57 X63 X25 X49 X62 X69 X36 X52 X38 X14 X15 X13 X32 X19 X70 X28 X54 X58 X9

X26 X45 X8X44 X11 X37 X68 X18 X67 X20 X50

PLS-II - Coeficientes escalados

38

Ilustración 31.- Gráfico de dispersión entre Y_RES y X5.

Ilustración 32.- Coeficientes escalados negativos para el PLS-II.

2.5 3 3.5 4 4.5 5 5.5 6-3

-2

-1

0

1

2

3x 10

-3

X5

Y_R

ES

-0.6

-0.5

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

Coefs

esc.

Y_R

ES

(8 c

om

p.)

X71 X2X27 X60 X17 X40 X33 X41 X65 X56 X29 X43 X42 X39 X7

X24 X10 X30 X46 X51 X34 X48 X35 X31 X21 X12 X53 X66 X16 X23 X59 X47 X64

PLS-II - Coeficientes escalados

39

Ilustración 33.- Gráfico de dispersión para Y_RES y X47.

Es necesario destacar el gran valor añadido que aporta esta información. A partir

de estos resultados, los operarios pueden saber, dados unos valores de los

Drivers, qué configuración de las variables que ellos pueden manipular (No-

Drivers) pueden mejorar la eficiencia energética del proceso.

Una vez realizado el PLS, es posible mejorarlo. Observando los intervalos de

confianza Jacknife al 95% mostrados en el gráfico de coeficientes, se pueden

descubrir las variables que son estadísticamente significativas. Estás serán,

aquellas cuyo intervalo de confianza no contenga al cero, y se podrá afirmar con

un riesgo de primera especie del 5% que serán influyentes sobre la variable

respuesta.

70 75 80 85 90 95 100 105-3

-2

-1

0

1

2

3x 10

-3

X47

Y_R

ES

40

De este modo, haciendo zoom en el gráfico se eliminan las variables destacadas

en rojo de la Ilustración 34 y se repite el análisis:

Ilustración 34.- Visión aumentada del gráfico de coeficientes.

Al contrastar los resultados obtenidos en ambos casos, se observa que, si bien

la variabilidad de las X se explica mejor, únicamente se produce en este sentido

la mejora. Esto se debe a que no vale la pena eliminar dos variables de un total

de 88.

3.5 PLS-DA (Discriminant Analysis)

El gráfico de residuos del modelo PLS-I (consumo específico en función de

Drivers) es el mostrado en la Ilustración 35:

-0.06

-0.04

-0.02

0

0.02

0.04

0.06

Coefs

esc.

Y_R

ES

(8 c

om

p.)

X18 X50 X20 X71 X2X27

PLS-II - Coeficientes escalados

41

Ilustración 35.- Serie de tiempo de los residuos del PLS-I.

Como ya se ha comentado previamente, residuos positivos indican consumos

específicos observados mayores que los predichos, por tanto, periodos de baja

eficiencia; mientras que residuos negativos indican consumos específicos

observados menores que los predichos, por tanto, periodos de operación

eficiente.

Para discriminar qué variables operativas tienen un comportamiento distinto en

las situaciones de alta/baja eficiencia (residuos muy negativos/muy positivos,

respectivamente), se realizará un PLS-DA de las observaciones con ambos tipos

residuos frente a las variables operativas.

Para ello, una vez calculados los residuos de cada observación, estas se

clasifican en dos grupos: observaciones con consumos muy superiores a los

esperados (residuos muy positivos, baja eficiencia), observaciones con

consumos muy inferiores a los esperados (residuos muy negativos, alta

eficiencia). Así se categorizarán las observaciones en “Baja eficiencia” y “Alta

eficiencia”.

-0,003

-0,002

-0,001

0

0,001

0,002

0,003

0,004

Res

iuo

s d

el P

LS-I

42

Lo que hay que plantearse es qué significa muy superiores o inferiores. Para ello

se proponen dos casos. En el primero, estos límites serán el primer y el tercer

cuartil. En el segundo caso se va a trabajar con los percentiles 10% y 90%. Como

en el caso anterior, también se dividirá el conjunto de observaciones en un

conjunto de entrenamiento (75% de los datos) y otro de validación (25%

restante).

• Primer y tercer cuartiles

Teniendo en cuenta que la media tiene un valor de 1.9897e-05, los cuartiles

toman estos valores (ver Tabla 7):

Tabla 7.- Valores de los cuartiles.

Q1 -3,4696e-04

Q3 3,4694e-04

Por tanto, el gráfico resultante es el siguiente (Ilustración 36):

Ilustración 36.- Gráfico de los cuartiles para el PLS-DA.

43

Escogiendo cinco componentes se consigue un grado de acierto del 91.18% (ver

Tabla 8), con 91 valores que no se clasifican en ninguna categoría porque son

atípicos:

Tabla 8.- Tabla de clasificación para el PLS-DA con los cuartiles.

En el gráfico de weightings (Ilustración 37), se pueden observar las mismas

características que en el PLS-II. Es decir, valores altos de variables como X3

provocarán residuos altos. Como lo que se trata es de obtener residuos bajos

(consumo por debajo de la predicción), será preferible que variables como estas

tomen valores inferiores a su media. Sin embargo, para las variables con pesos

negativos, interesará operarlas a valores superiores a su media para generar

residuos negativos (consumos menores que los predichos).

44

Ilustración 37.- Gráfico de weightings para el PLS-DA con los cuartiles.

Además, en el gráfico de scores de la Ilustración 38, se puede apreciar una

razonable distinción entre los residuos “Baja eficiencia” y “Alta eficiencia”:

-0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

X1

X2

X3

X5

X6

X7

X8

X9

X10X11

X12

X13

X14

X15

X16

X17

X18

X19

X20

X21

X22

X23

X24

X25

X26

X27

X28

X29X30X31

X32

X33X34

X35X36 X37X38

X39

X40

X41

X42X43

X44

X45 X46X47

X48

X49

X50

X51

X52

X53

X54

X55

X56

X57

X58

X59

X60

X61

X62

X63

X64

X65

X66

X67X68

X69X70

X71

AltaEficiencia

BajaEficiencia

w*c1

w*c

2

PLS-DA - Gráfico de weightings

45

Ilustración 38.- Gráfico de scores para el PLS-DA con los cuartiles.

En la Ilustración 39 así como en la 42 se muestran los coeficientes ordenados

del modelo.

-6 -4 -2 0 2 4 6 8-10

-8

-6

-4

-2

0

2

4

6

8

69866987698869896990699169926993699469956996699769986999

70007001

70027003700470057006700770087009

70107011701270137014701570167017

70187019

702070217022

7023

702570267027

7028702970307031703270337034703570367037

7039

7040

7043704570467051705270537054705670577058

70597060706170627063

7180

7181

7182

7184718571867187

71987199

7205720772097210721172127224

7227722872297230

72317232723372347235723672377238723972417242

7243724472457246724772487249725072517252725372547255

725672577258

7260

726672697270

7272

728172827283728472877288728972937295729772987299730073017302730373047305730673077308

7311731273137314

7316731773187319732073217322732373247325732673277328

7329

733073317332733373347335733673377338734073417342734373447345734673477348734973507352735373547355

7356735773607365736673677368736973707371737273737374

7375

73767377737873797380738173827383

7384738573867387738873897390

7391739273937394

7395

7396739773987399

740074017402740374047405

7406741374157416741774187419742074217422742474257426742774287429743074317432743374347435743674377438743974417442

74447445

7448

7523

765376557656

772177397742

7758

79127913

79147915791679177918791979207921792279237924792579287929

79387939

7970797179727973

79757976797779787979798079817982798379847985798679877989799079917992

79947995799680008001800280058006800780088010801280138014801580168017801880198020802380248025802680278028802980308031803280338034

8036803780388039

80408041804280438044804580488049

8054

8055

8057

80678068806980708071

8074

8076807780788079

80808081808280838084

8085808880898090

809180928093809580968097809880998100

8101810281038104810581068107

810881098110811181128113811481158116

811781188119812081218122

812381248125

81268127812881298130813181328133813481358136813781388139814081418142814381448145814681478148814981508151

81528153

8154

815581568157

8158

81598160816181628163

8164

81658166816781688169817081718172817381748175

817681778178817981808181818281878188818981908191

819581968197819881998200820182028203820482058206820782088209821082118212821382148215

8216

8531

8533

8538

8553855785598560

856185628563856485658566

8568856985708571

8572857386228623

87718790

8802

8933

89388940

8961896289638964896589688969897089758976897789798980898289838986898789888989

8990899189928993

89948996899789988999900090019002900390049005900690079008900990109011901290139014

90159016901790189019902090219022

9023

90279028902990309031

903290339034903590369037903890399040904190429043

904490459046

904790489049905090529053

9055

9106

9107

9117

91199120

9128912991309131

91329133913491359136

913791389139914091419142

9143914491459146

914791489149915091519152915391549155915691579158915991609161916291639164916591669167916891699170

917191729173917491759176917791789179918091819182

918391849185

9186

91899190919191929193919491959196

919791989199920092019202920392049205920692079208920992109211921292139214921592169217921892199220

922192229223

9224

922892309231

923292339239

92429243924492459246924792489249925092519252925392549255

925692579258

92599261

928192829283928492859286

928792889289929092919292929392949295

9346

9348

9351935293539354

93559356

93579358

93599360

93619362936393649365936693679368936993709371

95129515

9527

9582

97669767976897699770

9775

9803

99881000010007100081000910010

100121001310014

10015

10021

1002310024100251002710028100291003010031

10036100371004010041

10047100481005210053100581006110063

1029510296102971029810299103001030110302103031032610327

1032810329

10342

10436104471046010461

1048410493104941049510496104971049810499105001050110502

1050310504105051050610507

1050810509

105101051110512

1051310514

10515105161051710518

10519105201052110522

1052310524

1052510526105271052810529105301053110532105331053410535105381053910540105411054210543105441054510546

10560

107011070610714

1072310724107251072610728107291073010731107321073310734107351073610737

10738

10739107411074210743107451074610747107481075210753107561075710758107591076010761

1076210763107641076510772

107791078410787

10820108221084010842

108441084810849

108571085810860

1089710898108991090010901

109201092110922109241092610927

10928109291093010931

1093210933

1093410937

1094810949109501095110952

1095910960109671096810969109701097110972

109731097410975

10976

11049

111041111611118111191113311134111351113611137111381113911140111411114211143

1114411148 1123411236112371123811239112561125711258

11259

11280112811128511309

1131711318

113261132711328

11370

113791138211408114091141111427

11447

114481144911450114511145211453

1145411455

11456

1145711458114591146011461

11462

11463

11464

114651146611467114681146911470114711147211473114741147511476

1147711478

11479

11480

11584115851158811591

7259

7262

7358

7450

74527453

7474

747574767477747874797480748174827483748474857486

7487

7488748974907491

7492

7493

752275267527752875297530753175327533753475357536

753775387540754175427543

7544

7549

755475597562

757275737575757675777579

75807581758275837584758575867587

7588

7589759075917592

7593

7594759575967597759875997603

760476097611

761276137614761576167618

761976207621

76437644764577277728

7757

79077909

7910

822382248225822682278228822982308231823382348235823682388239824382448245824682478248824982508251

825282558257

83058306

83158323

833483398341834283438344834783548357

8358

8359

8360

836183668367

83758376

8377

837883798380

83828383

8384

8385838683878388838983908391

839283938394

8395

8396839783988399840084018402840384048405

8406

84078408

840984108411841284138414841584168417

841884198420

842184228423842484258426842784288429843084318432843384348435843684378438

84398440

844184428443844484458446844784488449

845084518452845384548455

8456

8458845984608461

846684688469847184728473

84768477

8478

84798480848184828483848484858486848784888489849084918492

849384948495

84968498

849985008501

85098510

8511

8512

8513

851485158516851785188519

8520

8521

85238524

85328534

853585378539

85438544

8545

858385848607

8625862686278628862986308631863286338634863586368637863886398640864186428643864486458646864786488649865086518652865386548655865686578658865986608661866286638664

8665

866686678668866986708671867286738674867586768677867886798680868186828683868486858686868786888689869086918692

86938694869586968697

869886998700

8701870287038704

87058706870787088709871087118712

871387148715871687178718

8719

872087288729873087318752875387548755

877487758776

8777882788318832883388348835887488758888

8889

8890

889188928893

8894889588968897889888998900

8901890289038917

891889198920

89218923

89588959

9268926992709271

93009301

93039304

93079319932993309331

93509377

937893799380

938193829383

93849385

93879388938993909391

93969397

93999400

94039404

940594079408

9421942394249425942694289429

9446

94509451945294539454

94579460946294639464

94659466

94679468

946994709471947294739474947594769477

9478947994839484

9514

9529953095319532953395349535953695379538953995409541

9542954395449545954695479548954995509551955295539554955595569557955895599560

9561956295639564

9565

9566956795689569

9570957195729575

95869587

95889589

95909591959295939594959595969597

9598959996009601960296039604960596069607960896099610

96119612961396149615

9616961796189619962096229623

9624

96269627

96289629

963096319632963396349635963696379638

9639

9641964296439644964596469647

9648

9649

9650

9652965396549655965696579658965996609661966296639664

9665966796689670967196729673

96749675967696779679

96919698970397059706

97089709971097119714971597179718

97249725

97269727

97359736

97399756

97579758

975997609761

976297639783

97849785978697879788978997909792

97939812981798189819

9830

98319832983398349835983698379838983998409841

984298439844984598469847

9848984998509851985298539854985598569857

98589859986098619862986398649865986698679868986998709871987298749875

98769877

988298839884988598869887

988998909891989298939894

9895989698979898

989999009901990299039904

99059906990799089909991099119913991499179918991999209921992299239924

99259926992799289929

993099319932993399349937

9951

9952

9955995699589959

99609961996299639964996599669967

9973

9978

99799996999910004

100221006610069

10092100931009410096

10114101161011710118

10119101201012110122101231012410125101261012710128101291013010131101321013310137101381014010141

101421014310144

1014510146101471014810149101511015210153101541015510156

1015710158101591016010161

10162

10163101641016510166101671016810169

101701017110172

1017310174101751017610177101781017910180101811018210183101841018510186101871018810189101901019110192

101931019510198

101991020110202102031020410206

10209102111021210213102141021510216102171021810219102261022710228

1022910230

10232 102631026410265102661027310274

1027610279

10281

10283

1028410285

10286

10310

103341033510338

1034410345103461034710348

10357103581035910367

103691037110375103781037910380103811038210383

1038410385

10394103991040010401104031040410405104061040710408

104091041010411104131041410415

10589

10680

10791

10816

108371083810839

10877

1088410885

108861088910938

10943110051100611007

110081100911010110111101211013110161101711018110191102011021110221102311024110251102611027

110291103211033110341103511036110371103811039110401104211043

110441104511046

11047

11048

11050

11051

110521105311054

1105511056110571105811059

11060

1106111062110631106411065110661106711068110691107011071

11072

11073

11074

1107511076

1107711078110791108011081110821108311084

1109911107111111112211123

1112411125

1112611127111281112911130

111581115911160111611116211165111661116711168111691117011171111721117311174111751117711178

111791119911200112011120211203112041120611208112091121411215112171121811219112201122111223

112241122511226

1122711228

114831149011491

11492114931149411495114961149711498114991150011501115021150311504

11505115061150711508

115091151011511115121151311515115171151811519

1152011521115221152311524115251152611527

11529115301153111532115331153411535115361153711538115391154011541115421154311544115451154611547115481155011551115521155511556

1156211563

11573

11574

11575

11576

11615116221162311624

11625

t1

t2

PLS-DA - Gráfico de scores

AltaEficiencia

BajaEficiencia

46

Ilustración 39.- Coeficientes del modelo PLS-DA para predecir la categoría Alta Eficiencia con 5 componentes (Cuartiles).

• Percentiles 10% y 90%

Para este caso, los percentiles toman los valores (Tabla 9):

Tabla 9.- Valores de los percentiles.

P10 -6.5613e-04

P90 7.3008e-04

Resultando este gráfico de distribución de la Ilustración 40:

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

Coefs

esc.

AltaE

ficie

ncia

(5 c

om

p.)

X6 X7X12X60 X23X21 X67X71 X10X46 X59X66 X64X20 X48X24 X63 X51X44 X40X31 X29X56 X33X30 X32X50 X47X34 X9

X35 X68 X14X43 X26X25 X42X37 X58X53 X17X15 X11 X2X62X28 X27X36 X38 X52X54 X49X19 X55X69 X39X70 X41X65 X57X61 X22 X1 X5 X3

PLS-DA - Coeficientes escalados

47

Ilustración 40.- Gráfico de los percentiles para el PLS-DA.

Escogiendo como en el caso anterior, cinco componentes, se obtiene una mejor

tasa de acierto, un 95% (ver Tabla 10).

Tabla 10.- Tabla de clasificación para el PLS-DA con los percentiles.

Esto es algo comprensible puesto que ahora las categorías están más separadas

y por tanto más fácilmente diferenciables. En cuanto a los resultados, tanto el

gráfico de scores como el de weightings (no se muestra, pues es similar al de la

Ilustración 37) dan a entender las mismas conclusiones. Las variables que

resultan decisivas son las mismas y habrá que modificarlas en el mismo sentido.

48

Además, en el gráfico de scores (Ilustración 41) se observa una diferenciación

incluso mejor que en el caso de los cuartiles.

Ilustración 41.- Gráfico de scores para el PLS-DA con los percentiles.

-5 -4 -3 -2 -1 0 1 2 3 4 5-8

-6

-4

-2

0

2

4

6

698769936994

700870097010701170127013701470157016

7017

7018701970217022

7023

7026

70287029703070317032 703370347035

7036

7037

7039

7062

7229723172337235

7245724672477248724972507251725272537254

7255725672577258

7260

7306

7318

7319732073217322732373247325732673277328

734173467355

73677368

737073717374

737773787380738173827383

7391

73957397

7398743174327434

74417445

7758

7912

7920792179227923

79757976797779787979798079817982798379847985798679907992

80008001

80258026802780288029803080318039

8054

8057

80768079

808180828083

80888089809080918097809880998100

8101810281038104810581068107810881098110811181128113

811481158116811781188119

8120812181228123812481258126

81278128

81298130813181328133813481358136813781388139814081418142

8143814481458146

8147814881498150

815181528153

8154

8155

815681578158

81598165

81668167816881698170817181728173817481758176819582018215

8531

8533

8538

85628565

856885698570

8571

8572

89628982

9006900990109011901290149015901690179018

901990209021

903090319032

903390349035903690379038

9043

90469047

9107

912891299131

913291339134913591369137

91389139

91409141

91429143914491459146914791489149915091519152915391549155915691579158915991609161916291649165

91669167916891699170917191729173917491759176917791789179

918091829183

9185

9186

9189

9190919191929193

9194919591969197

919992009202920392049206920792089209

921092119213921492159216921792189219

9220922192229223

9224

9232

9246924992509251

9254

92589283928492859286928792889289929092919293

9348

93519352935493559357

9358

936193629363

93649365936693689370

10014

10021

10027

102951029610297

10298102991030010301

10302

10507

1050810510

1051210517

10518105201052110523

10723

10730

10742

1076010761

10897 10926

1092710928109291093010932

1093310951

11049

11133111341113511142

1125711259

114481144911450114511145211453

1145411455

11456

1145711458

11459

1146011461

1146211463 11464

11465

11466

1146711468

1146911470114711147211473114741147511476

11477

11478

11479

726274507452

7474

7475747674777478

74797480748174827483

748474857486748774887489

74907491

7527

752875297530753175327533753475357554

7575

7577

7583

7587

7588

7589

7619

7644

7909

8251

8305

836083778378

8383

83858386838783888390

8392

8393

83948395

8396839783988399

840084018402840384048405

840684078408840984108411

84128413841484158416841784188419842084218422

8423842484258426

8427842884298430

8431843284338434

84358436843784388439

844084418442

8443

8444844584468447

8448844984508451

8452845384548455

8478

84848487848884898490

85008510

8511

8512

8513851485168517 8523

8532

862586268627862886298630

8631863286338634863586368637863886398640864186428643864486458646864786488649865086518652865386548655865686578658865986608661866286638664

8665

866686678668

8669867086718672867386748675867686778678867986808681868286838684868586868687868886898690

86958696

8700

8702870387048705870787088709871087118712

8713

87148715871687178718

8888

889189198920

93039378 9379

938493859391

9400

9405

945094519452

9464

9465

9468

95309533953495379538

953995409541

9542

95439544954595469547954895499550955195539554

955695579559

9560

95619562956395649565

9566

9567958795889589

95949595

95979598

9600

96019602960396049605960696079608

9609961196129613

9614961596169623

9627

9628962996309631963296339634

963596369637

9638

9639

964196429643964496459646

96479648

9649

9650

9652

9657

96679672

9724

9725

9727

97579758

97599760976197629763

98379838984098419844984598469847

984898499850985198529853985498569858

9898989999009901990299039904

99059906990899099910991999209921

9922

99239929993099319932

9955

9967

10022

1012310124101431014410145

1015510156101581015910160101611016210163101641016510166

1016710168101691017010172

101751017610177101781017910180101811018210183

1018410185101861018710188101891019010191

1021110227

102831034410345103461034710348

103811038210383

1040510407

10885

11048

11050

11051110521105311054

1105511056

11057

11058

11059

11060

11061

1106211063

110641106511066110671106811071

11075

1107611077

11078

110791108011083

1112411125111261112711129

11492114931149411499115001150111502115031150611507

1150911510

1157411575

t1

t2

PLS-DA - Gráfico de scores

AltaEficiencia

BajaEficiencia

49

Ilustración 42.- Coeficientes del modelo PLS-DA para predecir la categoría Alta Eficiencia con 5

componentes (Percentiles).

A fin de comparar los modelos PLS-DA con el PLS-II, se han mejorado ambos

excluyendo las variables no significativas (aquellas cuyos intervalos Jacknife al

95% asociados a sus coeficientes contienen el cero). Estas han sido las

siguientes:

• Modelo con los cuartiles: X8, X13, X14, X16, X18, X45, X68.

• Modelo con los percentiles: X2, X13, X32, X35, X37, X43, X50, X56.

De este modo, además de conseguir una tasa de aciertos superior, también se

consigue un gráfico de weightings algo más sencillo de interpretar.

Así, en la Tablas 11 y 12 se recogen en orden de importancia descendente, las

variables que según los tres modelos (PLS-II, PLS-DA cuartiles y PLS-DA

percentiles) favorecen que haya condiciones tanto de “Alta eficiencia” como de

“Baja eficiencia”. Es decir, las variables que sean significativas en los tres

modelos, tanto con coeficientes positivos como negativos.

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

Coefs

esc.

AltaE

ficie

ncia

(5 c

om

p.)

X6X60 X12 X7

X21 X23 X67 X71 X66 X20 X24 X64 X47 X63 X9X51 X8

X44 X10 X30 X29 X31 X33 X59 X40 X34 X46 X48 X45 X42 X53 X16 X68 X18 X58 X26 X28 X41 X70 X62 X17 X69 X15 X52 X36 X65 X38 X27 X11 X39 X14 X55 X25 X19 X54 X49 X57 X61 X22 X1 X5 X3

PLS-DA - Coeficientes escalados

50

Tabla 11.- Variables que favorecen condiciones de Alta eficiencia para los distintos modelos.

PLS-II PLSDA Cuartiles PLSDA Percentiles

X6 X6 X6

X64 X7 X60

X47 X12 X12

X23 X60 X7

X59 X23 X21

X16 X21 X23

X66 X67 X67

X53 X71 X71

X12 X10 X66

X31 X46 X20

X21 X59 X24

X35 X66 X64

X48 X64 X47

X34 X20 X63

X24 X48 X9

X10 X24 X51

X30 X63 X8

X39 X51 X44

X46 X44 X10

X51 X40 X30

X42 X31 X29

X7 X29 X31

X65 X56 X33

X43 X33 X59

X29 X30 X40

X56 X32 X34

X33 X50 X46

X17 X47 X48

X41 X34

X40 X9

X27 X35

X60 X68

X2

Las celdas resaltadas en azul claro son aquellas variables en común para los

distintos modelos. Así, se puede concluir que los tres enfoques llegan a

resultados similares.

51

Tabla 12.- Variables que favorecen condiciones de Baja eficiencia para los distintos modelos.

PLS-II PLSDA Cuartiles PLSDA Percentiles

X3 X3 X5

X5 X5 X1

X1 X1 X3

X22 X22 X61

X61 X61 X22

X57 X57 X55

X65 X49 X57

X41 X54 X63

X70 X19 X25

X39 X25 X49

X64 X55 X69

X55 X14 X62

X19 X39 X36

X49 X11 X52

X54 X27 X15

X52 X38 X14

X38 X65 X38

X36 X36 X13

X27 X52 X32

X28 X15 X19

X62 X69 X70

X2 X17 X54

X11 X62 X28

X15 X70 X9

X17 X41 X58

X53 X28 X26

X58 X26 X45

X37 X58 X44

X42 X18 X8

X25 X68 X11

X26 X16 X67

X68 X68

X16 X50

X68

X53

X42

Del mismo modo, para las variables cuyos valores altos provocan una baja

eficiencia, también se obtienen resultados muy parecidos entre los modelos. Las

variables con más capacidad discriminante son las que tienen coeficientes

52

mayores (en valor absoluto) en el modelo que predice la categoría “Alta

eficiencia”. Las de coeficientes positivos deberían operarse a valores mayores

que su media, mientras que las de coeficientes negativos deberían operarse a

valores inferiores. Por tanto, un valor elevado de la variable X6 provocará una

alta eficiencia mientras que valores elevados de las variables X1, X3 o X5

provocarán una baja eficiencia.

3.6 Árboles de decisión

A fin de comparar con alguna otra técnica de clasificación/discriminación del

ámbito de la inteligencia artificial que pueda proporcionar cierta información

discriminante, se ha propuesto usar los árboles de decisión con el objetivo de

comprobar cuáles son las variables que tienen poder discriminante sobre la

eficiencia energética

De este modo, en el software MVA-GIEM se ha empleado el algoritmo de

partición PullLeft con un ratio de entrenamiento del 0.7.

Prestando atención a los primeros nodos del árbol, se puede corroborar en la

Ilustración 43 que efectivamente, el árbol de decisión ofrece resultados

coherentes con los obtenidos mediante PLS:

Ilustración 43.- Árbol de decisión.

Así, cuando variables como X1, X3, X54, y X56 toman valores altos, producen

consumos de baja eficiencia. Esto es coherente con los resultados del modelo

PLS-II donde estas tres de estas variables (la X56 no coincide) tienen

53

coeficientes positivos (Ilustración 39). Del mismo modo, en los dos gráficos de

coeficientes del modelo PLS-DA (tanto para cuartiles como para percentiles)

ocurre lo mismo, estas variables tienen coeficientes negativos para predecir la

categoría Alta Eficiencia.

Sin embargo, debido a la propia estructura del árbol (semejante a una selección

de variables) los resultados son mucho menos informativos que los obtenidos

con el PLS.

3.7 Modelización de alta eficiencia

Para este estudio se intenta obtener un modelo que prediga cuál es el consumo

específico mínimo (eficiencia máxima) dadas unas condiciones del proceso

prefijadas (es decir, unos drivers). Como ya se ha comentado, los periodos de

alta eficiencia corresponden a los que tienen residuos más negativos en el

modelo PLS construido con los Drivers del proceso (PLS-I).

Para obtener las observaciones correspondientes a estos periodos, se volverá a

realizar un filtrado de la base de datos seleccionando las observaciones con

residuos más negativos En este caso se analizarán dos escenarios:

• Residuos inferiores a -1 veces la desviación típica: 632 observaciones.

• Residuos inferiores a -1.5 veces la desviación típica: 228 observaciones.

En ambos casos se ajustará un modelo PLS explicando el consumo específico

en función de los drivers.

Modelo con residuos inferiores a -1s

Tras ajustar el modelo con tres componentes, se consigue explicar más de un

82% de la variabilidad (Ilustración 44). En el gráfico SPE se ha eliminado la

observación 10842 mientras que en el gráfico T2 no se han detectado

observaciones anómalas (Ilustraciones 45 y 48).

54

Ilustración 44.- R2 y Q2 para el modelo con residuos inferiores a -1s.

Ilustración 45.- Gráfico SPE para el modelo con residuos inferiores a -1s.

0 100 200 300 400 500 600 7000

5

10

15

20

25

30

35

40

Observaciones

SP

E

PLS - Gráfico SPE

UCL = 12.33

55

Ilustración 46.- Gráfico T2 de Hotelling para el modelo con residuos inferiores a -1s.

Con este modelo, el ajuste es bastante bueno, como indica la Ilustración 47:

0 100 200 300 400 500 600 7000

2

4

6

8

10

12

14

Observaciones

T2

PLS - T2 de Hotelling

UCL = 7.89

56

Ilustración 47.- Gráfico observados frente a predichos para el modelo con residuos inferiores a -1s.

A continuación, se utilizará el modelo obtenido para predecir todos los datos,

tanto del conjunto de entrenamiento como del de validación. Como era de

esperar, en las Ilustraciones 48 y 49 se observa que, los valores observados

tienden a estar por encima de los predichos ya que éstos últimos son los mejores

posibles dadas unas condiciones del proceso. Estos gráficos, usados en tiempo

real, permitirían a los técnicos del proceso saber cuál sería la eficiencia máxima

(consumo específico mínimo) para unas condiciones de operación definidas por

los Drivers determinada.

57

Ilustración 48.- Predicción para el conjunto de datos de entrenamiento.

Ilustración 49.- Predicción para el conjunto de datos de validación.

Modelo con residuos inferiores a -1.5s

Para este caso se repite el estudio, pero ahora con los residuos inferiores a -1.5

veces la desviación típica. Se consigue explicar un 83% de la variabilidad con

cuatro componentes (Ilustración 50).

500 1000 1500 2000 2500 3000 3500 4000 45000.01

0.011

0.012

0.013

0.014

0.015

0.016

0.017

0.018

0.019

Observaciones

Observ

ados -

Pre

dic

hos

PLS (Predicciones "Oct.2014-Actual (A=3)") - Observados frente a Predichos (Y) - Serie temporal

CONS_ESP (A = 3)

Pred

Obs

200 400 600 800 1000 1200 14000.0095

0.01

0.0105

0.011

0.0115

0.012

0.0125

0.013

0.0135

0.014

0.0145

Observaciones

Observ

ados -

Pre

dic

hos

PLS (Predicciones "Oct.2014-Actual (A=3)") - Observados frente a Predichos (Y) - Serie temporal

CONS_ESP (A = 3)

Pred

Obs

58

Ilustración 50.- R2 y Q2 para el modelo con residuos inferiores a -1.5s.

Si bien en el gráfico SPE de la Ilustración 51 no aparece ninguna observación

atípica, en el gráfico T2 de la Ilustración 52 sí que se ha detectado la observación

7758 como anómala:

Ilustración 51.- Gráfico SPE para el modelo con residuos inferiores a -1.5s.

0 50 100 150 200 2500

5

10

15

20

25

Observaciones

SP

E

PLS - Gráfico SPE

UCL = 11.10

59

Ilustración 52.- Gráfico T2 para el modelo con residuos inferiores a -1.5s.

Del mismo modo que antes, en las Ilustraciones 53 y 54 se comprueba que las

predicciones, tanto para el conjunto de validación como para el de

entrenamiento, son menores que los consumos observados:

0 50 100 150 200 2500

2

4

6

8

10

12

14

16

18

20

Observaciones

T2

PLS - T2 de Hotelling

UCL = 8.04

60

Ilustración 53.- Predicciones para el conjunto de datos de entrenamiento.

Ilustración 54.- Predicciones para el conjunto de datos de validación.

Por último, se comparan entre sí las predicciones de los modelos (Ilustraciones

55 y 56):

500 1000 1500 2000 2500 3000 3500 4000 45000.009

0.01

0.011

0.012

0.013

0.014

0.015

0.016

0.017

0.018

Observaciones

Observ

ados -

Pre

dic

hos

PLS (Predicciones "Oct.2014-Actual (A=4)") - Observados frente a Predichos (Y) - Serie temporal

CONS_ESP (A = 4)

Pred

Obs

200 400 600 800 1000 1200 14000.0095

0.01

0.0105

0.011

0.0115

0.012

0.0125

0.013

0.0135

0.014

0.0145

Observaciones

Observ

ados -

Pre

dic

hos

PLS (Predicciones "Oct.2014-Actual (A=4)") - Observados frente a Predichos (Y) - Serie temporal

CONS_ESP (A = 4)

Pred

Obs

61

Ilustración 55.- Comparación de los modelos de entrenamiento.

Ilustración 56.- Comparación de los modelos de validación.

3.8 Desarrollo de un modelo predictivo

Análisis de la serie temporal

Para complementar el estudio con otro enfoque, se ha planteado un predictor del

consumo específico para la siguiente medida.

0,009

0,01

0,011

0,012

0,013

0,014

0,015

0,016

0,017

0,018

12

68

53

58

02

10

69

13

36

16

03

18

70

21

37

24

04

26

71

29

38

32

05

34

72

37

39

40

06

42

73

45

40

48

07

50

74

53

41

56

08

58

75

61

42

Axi

s Ti

tle

Comparación de los modelos PLS (Entrenamiento)

Observados

Predicción -1s

Predicción -1'5s

0,009

0,01

0,011

0,012

0,013

0,014

0,015

0,016

0,017

19

01

79

26

83

57

44

65

35

62

47

13

80

28

91

98

01

06

91

15

81

24

71

33

61

42

51

51

41

60

31

69

21

78

11

87

01

95

92

04

8

Axi

s Ti

tle

Comparación de los modelos PLS (Validación)

Observados

Predicción -1s

Predicción -1'5s

62

Hasta ahora se han conseguido dos de los objetivos: estimar el consumo

específico óptimo al que se puede llegar, y saber qué variables manipular para

mejorar el proceso. No obstante, es cierto que construir una herramienta para

predecir la trayectoria del consumo sería muy interesante.

Teniendo en cuenta que cada media hora se lleva a cabo una medición de cada

una de las variables, puede ser una buena idea tener un sistema que permita

pronosticar el valor del consumo con antelación. Así, de forma orientativa se

puede saber qué comportamiento va a llevar el proceso y quizá, implementar

ajustes a tiempo. Hay que tener en cuenta que, en una industria como la

petroquímica, tener una herramienta que prediga el consumo incluso en una sola

etapa como esta, puede ahorrar grandes cantidades de dinero.

En ese sentido, se ha llevado a cabo un PLS en el cual se ha tomado como

variable respuesta el consumo específico en t y como predictores tanto el

consumo específico en t-1 como los drivers en t-1.

De este modo, escogiendo cuatro componentes y una vez validado el modelo,

se obtiene un R2(Y) de más de un 90% (ver Tabla 13).

Tabla 13.- R2 y Q2 acumulada para el modelo predictor.

Por tanto, se consigue una muy buena predicción que se puede corroborar si se

comparan los valores observados con los predichos del 25% de datos que se

habían reservado para este fin (Ilustraciones 57 y 58):

63

Ilustración 57.- Observados vs. Predichos para el modelo predictor.

Ilustración 58.- Serie de tiempo de los datos observados vs. predichos.

4 Conclusiones

Al inicio del trabajo, se habían planteado tres objetivos. Por una parte, se

pretendía entender el comportamiento de las variables de modo que los

operarios pudieran manipularlas convenientemente y así reducir el consumo

específico. Por otra parte, se deseaba formular un modelo que predijera la

0.01 0.011 0.012 0.013 0.014 0.015 0.016 0.017

0.01

0.011

0.012

0.013

0.014

0.015

0.016

0.017

Predichos

Observ

ados

PLS - Observados frente a Predichos (Y)

YSiguiente (A = 4)

0.5

1

1.5

2

2.5

3

3.5

4

4.5

x 109

200 400 600 800 1000 1200 1400 1600 1800 20000.01

0.011

0.012

0.013

0.014

0.015

0.016

0.017

0.018

Observaciones

Observ

ados -

Pre

dic

hos

PLS (Predicciones "Hoja1 (A=4)") - Observados frente a Predichos (Y) - Serie temporal

YSiguiente (A = 4)

Pred

Obs

64

eficiencia máxima dadas unas condiciones de trabajo. Además, se buscaba

crear un modelo predictivo para la siguiente medida del consumo específico.

Para el primer caso, con los modelos PLS y PLS-DA, se ha conseguido entender

qué variables son las que favorecen reducir el consumo específico. Esta

información, será muy útil para los operarios ya que de este modo sabrán qué

magnitud manipular y en qué sentido.

También se ha cumplido el segundo objetivo: se ha propuesto un modelo que

haga las veces de “hoja de ruta” a seguir por los operarios siendo ese

comportamiento del proceso el camino ideal.

Por otro lado, ha quedado patente la gran importancia que tiene hacer un buen

pretratamiento de los datos. A la hora de abarcar un problema de estas

características, el primer paso es un tratamiento previo que permita llevar a cabo

un buen análisis posteriormente. En realidad, en muchas ocasiones este paso

es el que más tiempo requiere y probablemente el más crucial para los resultados

futuros.

Además, es igual de indispensable validar cada uno de los modelos que se

hagan. De lo contrario, el modelo no tiene ninguna validez puesto que se puede

llegar a conclusiones erróneas.

En cuanto a las técnicas de análisis multivariante empleadas, se ha demostrado

el gran potencial que tienen, sobre todo si se comparan con otras técnicas más

tradicionales como la regresión lineal.

Acerca del modelo predictivo, los resultados han sido muy interesantes y aunque

es un enfoque simple, este modelo podría dar lugar a modificaciones como

prevenir la medida del siguiente día o tener en cuenta no solo la medida previa

sino varias. Se debe tomar esta información de forma orientativa para

adelantarse a la trayectoria que está siguiendo el proceso.

Por último, cabe destacar la importancia de los residuos del PLS. No solamente

es que no se puedan considerar desechables, sino que realmente pueden llegar

a ser determinantes con su significado como se ha demostrado en este trabajo.

65

5 Referencias

Bro, R., & Smilde, A. K. (2014). Principal component analysis. Analytical

methods, 6(9):2812.

Folch-Fortuny, A., Arteaga, F., & Ferrer, A. (2015). PCA model building with

missing data: New proposals ans a comparative study. Chemometrics and

Intelligent Laboratory Systems, 146. 10.1016/j.chemolab.2015.05.006. .

Folch-Fortuny, A., Arteaga, F., & Ferrer, A. (2015 y 2017). PLS model building

with missing data: new algorithms and a comarative study. Journal of

Chemometrics, 10.1002/cem.2897.

Kulcsar, T., Koncz, P., Balaton, M., Nagy, L., & Abonyi, J. (2014). Statistical

Process Control based Energy Monitoring of Chemical Process. Computer

Aided Chemical Engineering, 33:397-402.

Prats-Montalbán, J. M., Ferrer, A., Malo, J. L., & Gorbeña, J. (2005). A

comparison of different discriminant analysis techniques in a steel industry

welding process. Chemometrics and Intelligent Laboratory Systems ,

80(1):109-119.

Wold, S., Esbensen, K., & Geladi, P. (1987). Principal Component Analysis.

Chemometrics and Intelligent Laboratory Systems, 2(1-3):37-52.

Wold, S., Sjöström, M., & Eriksson, L. (2001). PLS-regression: a basic tool of

chemometrics. Chemometrics and Intelligent Laboratory Systems, 58(2-

58):109-130.

66

Apéndice

Regresión Stepwise

La variante más utilizada para la Regresión Stepwise es la forward; que parte de

un modelo sin ninguna variable, al que se le va incorporando, en cada paso y

según un criterio establecido, la variable que mejor explica la parte de la variable

dependiente que todavía no está explicada por las variables ya introducidas en

el modelo

Por tanto, se ha empleado un modelo lineal puro de tipo forward explicando el

consumo específico a partir de los drivers.

En las siguientes tablas (Tablas 14 y 15) se comparan los coeficientes de la

Regresión lineal múltiple y de la Regresión Stepwise.

Tabla 14.- Coeficientes de la Regresión Stepwise y de la Regresión Lineal Múltiple.

Driver Reg. Step. Reg. Lin. Mul.

D6 -5,16E-01 -5,16E-01 D2 -0.0023625 -0.0023625

D1 -0.016477 -0.016477

D3 4,90E-01 4,90E-01

D9 -7,53E-02 1,95E-01

D12 5,42E-01 2,72E-01

D11 4,30E-01 1,60E-01

D8 2,70E-01 -2,70E-01

D10 5,43E-02 0

D7 3,85E-01 5,43E-02

D16 -1,40E-01 3,85E-01

D4 -3,22E-01 -1,40E-01

D14 -0.04086 -3,22E-01

D13 -0.0021257 -0.04086

D5 0.00013418 0.0021257

D15 -5,16E-01 0.00013418

Indep. -0.0023625 -5,16E-01

67

Exceptuando cuatro Drivers (marcados en rojo en la Tabla 6), el resto coinciden

en signo en ambos modelos.

Cabe destacar que al estudiar los coeficientes del PLS, se aprecia que algunos

de ellos no coinciden con los valores de las regresiones. Esto puede entenderse

si se observa la Ilustración 14 en la cual gracias al gráfico de loadings se puede

ver (dentro del círculo azul) que muchas de ellas están fuertemente relacionadas

(variables D3, D9, D8, D10 Y D7)

Tabla 15.- Coeficientes del PLS-I

Driver PLS

D6 -9,69E-03 D2 -0.0080

D1 -0.0024

D3 -2,44E-02

D9 -6,66E-04

D12 1,05E-02

D11 8,06E-03

D8 -2,33E-02

D10 -5,27E-03

D7 -2,24E-03

D16 4,08E-01

D4 -2,59E-02

D14 -4,77E-01

D13 -0.0457

D5 -0.0066

D15 2,88E+00

Indep. 0.0621