Modelamiento Matemático del Crecimiento del Cocodrilo...

4
XXVI Simposio Internacional de Estadística 2016 Sincelejo, Sucre, Colombia, 8 al 12 de Agosto de 2016 Modelamiento Matemático del Crecimiento del Cocodrilo Fuscus en Zoocriadero Cesar Segundo Osorio Henriquez 1, a , Juan Carlos Riaño Rojas 2, b 1 Departamento de Matemáticas, Facultad de Educación y Ciencias, Universidad de Sucre, Sincelejo, Colombia 2 Departamento de Matemáticas y Estadística, Facultad de Ciencias Exactas y Naturales, Universidad Nacional de Colombia, Manizales, Colombia Resumen En este trabajo de investigación se presentan modelos de regresión multivariados referidos al crecimiento de cocodrilos en zoocriaderos, cuyo objetivo es determinar un modelo matemático que permita predecir el crecimiento del cocodrilo Fuscus en zoocriaderos bajo determinadas condiciones de alimentación y densidad. En la construcción de los modelos lineales se implementa la técnica mínimos cuadrados parciales PLS (Partial least squares), y para el caso no lineal se usan técnicas de linealización. Cada modelo es escogido por su porcentaje de predicción, el cual se determina mediante la técnica de validación cruzada por bloques (K-fold cross -validation). Los resultados obtenidos muestran que los modelos lineales PLS son adecuados para predecir la talla en cada una de las etapas de crecimiento del cocodrilo Fuscus pero las mejores predicciones se obtienen con modelos exponenciales, sobre todo en las primeras etapas. Palabras clave : Zoocriadero, Cocodrilos Fuscus, Mínimos Cuadrados Parciales, Método Kernel, Validación Cruzada. Abstract This research work presents Multivariate regression models related to the growth of crocodiles in breeding center, which aim is to determine a mathematical model that allows to predict the growth of Fuscus crocodile in breeding under certain conditions of food and density. In the construction of linear models is implemented the technical Partial Least Squares (PLS), and for the non-linear case are used linearization techniques. Each model is chosen by its percentage of prediction, which is determined by the block cross validation technique (K-fold cross - validation). The results show that linear PLS models are suitable for predicting the size in each of the stages of growth of Fuscus crocodile but the best predictions are obtained with exponential models, especially in the early stages. Key words : Breeding center, Fuscus Crocodile, Partial Least Square, Kernel method, Cross valida- tion. 1. Introducción En el presente trabajo se presenta la construcción, estructuración, implementación, ajuste y valida- ción de modelos multivariados de crecimiento de los cocodrilos especie fuscus (babillas) en zoocriaderos aplicando las técnicas de regresión multivariada PLS (mínimos cuadrados parciales). Los modelos a elegir a Profesor ocacional. E-mail: [email protected] b Profesor Titular. E-mail: [email protected] 1

Transcript of Modelamiento Matemático del Crecimiento del Cocodrilo...

Page 1: Modelamiento Matemático del Crecimiento del Cocodrilo ...simposioestadistica.unal.edu.co/fileadmin/content/eventos/... · porpartedelosadministradoresdelzoocriaderoCAICSA,Coveñas-Sucre,endossentidos:contarcon

XXVI Simposio Internacional de Estadística 2016Sincelejo, Sucre, Colombia, 8 al 12 de Agosto de 2016

Modelamiento Matemático del Crecimiento del Cocodrilo Fuscusen Zoocriadero

Cesar Segundo Osorio Henriquez1,a, Juan Carlos Riaño Rojas2,b

1Departamento de Matemáticas, Facultad de Educación y Ciencias, Universidad de Sucre, Sincelejo,Colombia

2Departamento de Matemáticas y Estadística, Facultad de Ciencias Exactas y Naturales, UniversidadNacional de Colombia, Manizales, Colombia

Resumen

En este trabajo de investigación se presentan modelos de regresión multivariados referidos alcrecimiento de cocodrilos en zoocriaderos, cuyo objetivo es determinar un modelo matemático quepermita predecir el crecimiento del cocodrilo Fuscus en zoocriaderos bajo determinadas condicionesde alimentación y densidad. En la construcción de los modelos lineales se implementa la técnicamínimos cuadrados parciales PLS (Partial least squares), y para el caso no lineal se usan técnicas delinealización. Cada modelo es escogido por su porcentaje de predicción, el cual se determina mediantela técnica de validación cruzada por bloques (K-fold cross -validation). Los resultados obtenidosmuestran que los modelos lineales PLS son adecuados para predecir la talla en cada una de lasetapas de crecimiento del cocodrilo Fuscus pero las mejores predicciones se obtienen con modelosexponenciales, sobre todo en las primeras etapas.

Palabras clave: Zoocriadero, Cocodrilos Fuscus, Mínimos Cuadrados Parciales, Método Kernel,Validación Cruzada.

Abstract

This research work presents Multivariate regression models related to the growth of crocodiles inbreeding center, which aim is to determine a mathematical model that allows to predict the growth ofFuscus crocodile in breeding under certain conditions of food and density. In the construction of linearmodels is implemented the technical Partial Least Squares (PLS), and for the non-linear case are usedlinearization techniques. Each model is chosen by its percentage of prediction, which is determinedby the block cross validation technique (K-fold cross - validation). The results show that linear PLSmodels are suitable for predicting the size in each of the stages of growth of Fuscus crocodile but thebest predictions are obtained with exponential models, especially in the early stages.

Key words: Breeding center, Fuscus Crocodile, Partial Least Square, Kernel method, Cross valida-tion.

1. Introducción

En el presente trabajo se presenta la construcción, estructuración, implementación, ajuste y valida-ción de modelos multivariados de crecimiento de los cocodrilos especie fuscus (babillas) en zoocriaderosaplicando las técnicas de regresión multivariada PLS (mínimos cuadrados parciales). Los modelos a elegir

aProfesor ocacional. E-mail: [email protected] Titular. E-mail: [email protected]

1

Page 2: Modelamiento Matemático del Crecimiento del Cocodrilo ...simposioestadistica.unal.edu.co/fileadmin/content/eventos/... · porpartedelosadministradoresdelzoocriaderoCAICSA,Coveñas-Sucre,endossentidos:contarcon

2 Cesar Segundo Osorio Henriquez & Juan Carlos Riaño Rojas

seran aquellos que presenten los mejores porcentajes de predicción y expliquen de mejor manera la rela-ción entre las variables de entrada: tiempo, densidad, alimentación, ancho de entrada, peso de entrada ytalla de entrada con la variable talla de salida. Esta propuesta de investigación surge de la necesidad demejorar las condiciones necesarias para el óptimo crecimiento y desarrollo de la especie cocodrilo fuscuspor parte de los administradores del zoocriadero CAICSA, Coveñas- Sucre, en dos sentidos: contar conun modelo matemático de crecimiento que permita predecir la talla de los cocodrilos fuscus, con el menorerror posible, teniendo en cuenta las variables que más influyen sobre el crecimiento de esta especie ypor otro lado determinar ¿cuál de estas variables explicativas son más influyente en el aumento de la talla?

Acontinuación se describen las teorías más relevantes sobre las técnicas de regresión PLS, metodologíausada en los procesos de elección de variables, recopilación y adecuación de la base de datos, fase deexperimentación y resultados, finalmente en el capitulo 4 se presentan las conclusiones.

2. Preliminares

2.1. La técnica PLS

Algunas razones por las cuales se decide trabajar con los modelos de regresión PLS (PLS-R) son, entreotras: Permite trabajar con base de datos de las que se desconoce el tipo de distribución probabilísticaque tienen asociada sus variables; Manipular bloques de datos en las que el número de variables esmayor que el número de observaciones; Eliminar el problema de multicolinealidad entre las variablesexplicativas y entre las variables de respuesta, a partir de la construcción de variables latentes ortogonales;y establecer relaciones explicativas entre las variables de entrada y las de respuesta, gracias al criteriode optimización que utiliza(máxima covarianza entre las variables latentes de entrada y las latentes desalida), (Izenman 2008),(Carrión & Salgueiro 2005), (Höskuldsson 2001), (Rosipal & Krämer 2006):

La técnica PLS fue desarrollada por el suizo Helman Ole Andreas Wold en el año 1966, como unaalternativa para eliminar el problema de multicolinealidad. La idea básica es descomponer una matriz Xde tamaño n×N y rango a, en la forma

X = TPT + E

donde T está formada por columnas de vectores latentes o componentes ortogonales (scores) y es detamaño n× a, P la matriz de vectores de peso (loadings) de tamaño N × a y E es la matriz de residules.

Consideremos la matriz de entrada X de tamaño n×N y de salida Y de tamaño n×L, consideremosademás el problema de multicolinealidad.

El método PLS sugiere construir componentes ortogonales en X y Y de la forma t = Xw y u = Y c,respectivamente, donde w y c son vectores de peso de norma 1. Descomponiendo a X e Y , en la forma:

X = TPT + E (1)

Y = UQT + F

Donde T y U son matrices de componentes ortogonales. P y Q representan las matrices de pesos.

La técnica considera un modelo de regresión adecuado aquel que además de hacer reducción de di-mensionalidad garantice la relación entre estas nuevas variables, es decir, se propone resolver el problema:

max‖w‖=‖c‖=1[cov(Xw, Y c)]2 (2)

XXVI Simposio de Estadística (2016)

Page 3: Modelamiento Matemático del Crecimiento del Cocodrilo ...simposioestadistica.unal.edu.co/fileadmin/content/eventos/... · porpartedelosadministradoresdelzoocriaderoCAICSA,Coveñas-Sucre,endossentidos:contarcon

Modelamiento Matemático del Crecimiento del Cocodrilo Fuscus en Zoocriadero 3

2.2. Metodología

Partiendo de la base de datos(2012-2014) del zoocriadero CAICSA, Coveñas-Sucre, sobre el proceso decrianza de los cocodrilos, especie fuscus, se consideran como variables de entrada para todas las etapas:x1 =Tiempo de permanencia en el albergue (días), x2=Ancho promedio de entrada (cm), x3=Pesopromedio de entrada (gramos), x4=Densidad (animal/m2), x5=Alimentación (gramos/animal),x6=Tallapromedio de entrada (cm) Y por la naturaleza del negocio se considera como variable de respuesta: y =Talla promedio de salida.

Para cada etapa se presentan modelos multivariados de regresión lineal usando la técnica de mínimoscuadrados parciales ( PLS1R). Además se aplican técnicas de linealización de la salida, finalmente paracada etapa se realizan procesos de validación cruzada de k iteraciones (K-fold Cross-Validation) dividiendola muestra en k partes. En cada paso se excluye una de las k partes y se ajusta el modelo con lasrestantes observaciones, luego se predice las dejadas por fuera eligiendo el error promedio obtenido enlas predicciones de ese bloque. Este procedimiento se repite para cada una de las k partes (Bennett &Embrechts 2003), (Florez 2014).

3. Resultados

Los resultados presentados corresponden a la etapa de Neonatos, en las demás etapas se hace untrabajo análogo. Aplicando el método de Regresión PLS1, se obtiene el modelo: Y = B0 + BTX, dondeB es una matriz adecuada de pesos de tamaño 6x1, X es un vector de variables de entrada de tamaño6x1. En la figura 1 se pueden apreciar los valores de Y y Y (est) junto con los residuales o errores en laestimación de la talla de los neonatos.

0 50 10020

25

30

35

40

45

Periodos de Tiempo

Gráfica de Y vs Yest

0 5 10 15 20−6

−4

−2

0

2

4

6

Observaciones

Res

idua

l

YYest

Figura 1: Gráfica de Y vs Y (Yest) y Residules - con PLS1

Los resultados de la validación cruzada se muestran en la tabla 1, donde se puede observar que elerror promedio en la predicción de la talla es 7, 7%

Se exploran técnicas sencillas de Linealización en la variable Talla de salida, para ver si mejora elporcentaje de predicción. La aplicación utilizada es de la forma T (yi) = Ln|yi|. Los resultados de lavalidación cruzada sobre Y (linealizado), se muestran en la tabla 2.

4. Conclusiones

• En cada una de las etapas se obtuvieron modelos adecuados en lo predictivo, usando la técnicaPLS1 para la variable talla de salida.

XXVI Simposio de Estadística (2016)

Page 4: Modelamiento Matemático del Crecimiento del Cocodrilo ...simposioestadistica.unal.edu.co/fileadmin/content/eventos/... · porpartedelosadministradoresdelzoocriaderoCAICSA,Coveñas-Sucre,endossentidos:contarcon

4 Cesar Segundo Osorio Henriquez & Juan Carlos Riaño Rojas

Tabla 1: Errores de Predicción con PLS1 para TallaBloques ErroresBloque 1 8,24E-02Bloque 2 5,81E-02Bloque 3 9,72E-02Bloque 4 9,43E-02Bloque 5 8,64E-02Bloque 6 7,40E-02Bloque 7 1,01E-01Bloque 8 6,96E-02Bloque 9 5,12E-02Bloque 10 5,39E-02

Error promedio 7,7%

Tabla 2: Errores de Predicción en Y (linealizado) con PLS1Bloques ErroresBloque 1 1,17E-02Bloque 2 1,93E-02Bloque 3 2,15E-02Bloque 4 1,83E-02Bloque 5 2,61E-02Bloque 6 2,08E-02Bloque 7 4,21E-03Bloque 8 4,03E-03Bloque 9 3,69E-02Bloque 10 3,58E-03

Error promedio 1,6%

• En el aspecto explicativo las variables más influyentes en el crecimiento de talla y peso son laalimentación, la densidad y el tiempo.

• Al linealizar la salida talla se obtienen modelos que mejoran en lo predictivo.

• Al hacer el comparativo de los errores de predicción con los modelos generados (lineales y expo-nenciales) y con la formula de estimación de la empresa se encontró que los errores de prediccióndisminuyen significativamente, sobre todo en las primeras etapas.

Referencias

Bennett, K. & Embrechts, M. (2003), ‘An optimization perspective on kernel partial least squares regres-sion’, Nato Science Series sub series III computer and systems sciences 190, 227–250.

Carrión, G. C. & Salgueiro, J. L. R. (2005), ‘Aplicando en la práctica la técnica pls en la administraciónde empresas.’, Investigación en la Universidad de Sevilla .

Florez, J. (2014), Modelos de Regresión Multivariados Aplicado en Varianbles Educativas, Vol. 1.

Höskuldsson, A. (2001), ‘Variable and subset selection in pls regression’, Chemometrics and intelligentlaboratory systems 55(1), 23–38.

Izenman, A. (2008), Modern multivariate statistical techniques, Vol. 1, Springer.

Rosipal, R. & Krämer, N. (2006), Overview and recent advances in partial least squares, in ‘Subspace,latent structure and feature selection’, Springer, pp. 34–51.

XXVI Simposio de Estadística (2016)