Creep - Carlos Alberto Donis Diaz

Estimacin de la tensin de ruptura por termofluencia en aceros ferrticos utilizando modelos de Inteligencia Artificial.

Carlos Alberto Dons Daz, Eduardo Valencia Morales, Carlos Morell Prez

Resumen La estimacin de la tensin de ruptura por termofluencia en los aceros ferrticos constituye un tema de gran importancia por el uso de estos en las turbinas y calderas de vapor empleadas en la industria y adems por ser elemento bsico en el diseo de nuevas aleaciones. No existen modelos fsicos que implementen adecuadamente esta problemtica y en su lugar han sido utilizados mtodos empricos como regresiones lineales, polinmicas y no lineales. El presente trabajo se centra en el anlisis comparativo del uso de varias tcnicas de Inteligencia Artificial para la estimacin de funciones continuas, en el pronstico de la tensin de ruptura por termofluencia en aceros ferrticos. Se emplearon modelos convencionales como las regresiones lineales y las redes neuronales artificiales as como otros ms novedosos como las maquinas de vectores de soporte (SVMR) y los Procesos Gaussianos. A partir del anlisis terico de los modelos, as como de los experimentos realizados se obtuvo que el modelo de mejor comportamiento fue el de SVMR con un kernel polinomial de grado 3. 1. Introduccin Los aceros ferrticos con alto grado de resistencia a la ruptura por termofluencia han sido empleados ampliamente en la industria energtica y petroqumica durante ms de medio siglo. Lo anterior se debe a la excelente fiabilidad que estos aceros muestran para condiciones muy agresivas durante largos perodos de servicio (como por ejemplo 30 aos). En la historia del diseo de los aceros se puede observar un desarrollo progresivo, lo cual justifica el hecho de que los principios bsicos del diseo de aceros resistentes a la termofluencia, estn bien establecidos y fundamentados en base a la experiencia Los aceros deben tener una microestructura estable que contenga finos carburos aleados resistentes a los movimientos de las dislocaciones; sin embargo, es inevitable que durante largos periodos de servicio o condiciones muy crticas, se produzcan cambios. Es necesario, por tanto, garantizar un potencial de endurecimiento por solucin slida suficiente que permita mantener de forma adecuada la microestructura y asegurar as una elevada resistencia a las deformaciones por termofluencia a largo plazo. Tambin se necesitan otros requerimientos como es la soldabilidad y resistencia a la corrosin y la oxidacin. Teniendo en cuenta estas ideas se puede deducir la gran cantidad de variables que intervienen en el diseo de los aceros para lograr determinadas cualidades y propiedades mecnicas y lo difcil que resulta poder expresar alguna relacin cuantitativa o interaccin que tienen lugar entre dichas variables durante el tiempo de servicio de estos aceros.

En el desarrollo de los aceros, se han utilizado varios mtodos empricos para estimar la tensin de ruptura por creep, una revisin de los mismos se puede encontrar en [1]. Recientemente se han destacado varios trabajos [2-4] desarrollados con un modelo de red neuronal conocido como Multilayer Perceptron (MLP) el cual ha sido entrenado en un ambiente Bayesiano [5] y ha demostrado ser superior en la extrapolacin y representacin de datos de creep [6]. En el presente trabajo se establece un anlisis comparativo entre los resultados de aplicar problemtica del creep, varios mtodos de estimacin de funciones, algunos convencionales como son las regresiones lineales y las redes neuronales artificiales y otros ms novedosos y nunca utilizados con este fin que clasifican dentro del campo de la inteligencia artificial. El objetivo es establecer un marco bien fundamentado en base a la experimentacin para el uso de modelos de inteligencia artificial en la prediccin de la tensin de ruptura por termofluencia. 2. Experimentos. 2.1 Datos y diseo de los experimentos En la presente investigacin se utiliz el mismo conjunto de datos empleado en [3]. Estos datos contienen una compilacin de 2066 casos obtenidos a partir de literatura publicada y referenciada en dicho trabajo. Cada caso representa la combinacin de un valor de tensin de ruptura por termofluencia respecto a 37 variables no dependientes que incluyen: tiempo de ruptura, temperatura de trabajo, composicin qumica y tratamiento trmico. Esta base de casos se puede obtener en el sitio web MAP [7] (siglas en ingls de Materials Algorithms Project). Para los experimentos se obtuvieron 30 nuevas bases de casos (de igual tamao que la original) a partir de muestreos aleatorios sin remplazo de la base de casos original. En cada nueva base de caso se consider el primer 80% (1653) de los casos como subconjunto de entrenamiento y el restante 20 % (413) de los casos como subconjunto de prueba. Cada modelo se corri para cada una de las nuevas bases de casos

Los modelos y configuraciones utilizados en el estudio, as como referencias bibliogrficas de los modelos ms novedosos se muestran en la Tabla 1. Como se observa se experiment con varias configuraciones dentro de cada modelo. Esto motiv la divisin de los experimentos en dos momentos. Un primer momento que tuvo como objetivo determinar la mejor configuracin dentro de cada modelo y el segundo donde se obtuvo el modelo de mejor comportamiento de forma general. 2.2 Estimacin del error y anlisis estadstico Para cuantificar el comportamiento de los mtodos en el subconjunto de pruebas se utiliz la raz del error cuadrtico medio (rmse root mean squared error). Este indicador se calcul como

( )m

ytrmse

m=

= 1

2

(1)

donde y es la salida del modelo para el caso , t es el valor real o medido para dicho caso y m es el nmero de casos del conjunto de entrenamiento. Para el anlisis estadstico se utiliz el test de Friedman con el objetivo de obtener un ranking de los modelos. Luego se realiz una comparacin par a par de los modelos mediante el test de Wilcoxon. Para obtener un clculo ms exacto de la significacin de la diferencia entre los modelos se emple la tcnica de Monte Carlo. Se consideraron significativos, valores promedios de significacin menores que 0.05.

Mtodos Configuraciones 1. Procesos Gaussianos. * [19] Se utilizaron los siguientes Kernels:

a. Kernel basado en RBF b. Kernel Polinomial c. Kernel Polinomial Normalizado

2. Regresin Isotnica. * 3. Regresin lineal por mnimos cuadrados promedio. * 4. Regresin lineal. * Se utilizaron varios mtodos de seleccin de atributos:

a. sin seleccin de atributos b. M5 c. Seleccin Golosa utilizando la mtrica de informacin de Akaike

5. Pace Regresin. * Se utilizaron los siguientes estimadores: a. Empirical Bayes b. Optimal subset selector for normal mixture. c. PACE2 for Chi-square mixture. d. PACE6 for Chi-square mixture. e. AIC estimator

6. PLS (Partial Least Square) Classifier. * 7. RBF (Radial Basis Function)

Network. * Se experiment con las siguientes cantidades de cluster: 2, 4, 8, 15, 20, 30, 37, 50, 80, 110, 400

8. Maquina de vectores de soporte para regresin. (SVMR). * [20]

Se utilizaron los siguientes kernels (C = 1.0) a. Kernel Polinomial Normalizado (grado 2) b. Kernel Polinomial (grado 2)

* Para obtener los resultados se utiliz la implementacin de WEKA 3.5.5 de estos mtodos.

c. Kernel basado en RBF 9. MLP con Backpropagation*

[16] Se experiment con varias cantidades de nodos en la capa oculta. Desde 10 hasta 40, con 50 y con 60.

10. MLP con PSO [10-14] Se corri para 11 nodos en la capa oculta.

Tabla 1. Modelos y configuraciones empleadas en los experimentos. 3. Anlisis de los Resultados En la Tabla 2 se muestra una seleccin de los resultados dentro de cada mtodo en el primer momento del experimento. Se refleja el promedio de la raz del error cuadrtico medio (rmse) obtenido por cada modelo para las 30 corridas. En aquellos mtodos donde se experiment con diferentes configuraciones, los resultados aparecen ordenados segn el ranking obtenido del test de Friedman. Tambin se muestra el nivel de significacin estadstica entre los resultados dentro de cada mtodo.

Diferencia Significativa segn test de Wilcoxon * existe no

existe Nro Mtodo Configuracin rmse promedio

Ranks segn

Friedman I II III

I 1 a 25.62 1.00 II 1 c 30.00 2.00 * III 1 b 32.08 3.00 * *

2 72.67 3 39.41 I 4 c 31.90 1.93 II 4 a 31.90 1.95 III 4 b 31.92 2.13 I 5 e 31.88 1.70 II 5 d 31.90 2.08 III 5 b 31.92 2.23 *

6 31.90 I 7 con 110 clusters 75.64 1.25

II 7 con 80 clusters 77.45 1.98 * III 7 con 50 clusters 81.04 2.90 * * I 8 a 18.49 1.00 II 8 b 33.26 2.00 * III 8 c 34.31 3.00 * * I 9 con 11 nodos ocultos 18.89 2.08 II 9 con 19 nodos ocultos 18.98 2.93 * III 9 con 10 nodos ocultos 19.05 3.18 * IV 9 con 18 nodos ocultos 19.03 3.38 *

Tabla 2. Resultados de las configuraciones dentro de cada mtodo La Tabla 3 muestra los resultados de los mtodos de mejor comportamiento en el primer momento de los experimentos, luego de haber sido ajustados los parmetros de sus configuraciones.

En un primer anlisis de los resultados se observa que las redes neuronales muestran resultados satisfactorios respecto a los mtodos de regresin lineal. Este resultado es de esperarse si se tiene en cuenta que el MLP permite captar casi arbitrariamente cualquier relacin no lineal entre las variables de entrada debido a la flexibilidad que brindan las funciones de los nodos de la capa oculta. En [8] se describen aplicaciones prcticas que corroboran el hecho de que el MLP supera a la regresin u otras tcnicas lineales convencionales para espacios de dimensin alta (mayor que tres), lo cual tambin ha sido comprobado en [9].

En el entrenamiento del MLP, la utilizacin del mtodo clsico Backpropagation obtuvo mejores resultados al compararlo con PSO configurado para realizar un mximo de 20000 iteraciones. Este resultado no coincide con el obtenido en varios trabajos revisados en la literatura [10-14] donde la utilizacin de PSO en el entrenamiento de redes

neuronales con una dimensionalidad (cantidad de pesos y umbrales que deben ser ajustados) no grande, ha demostrado ser un mtodo eficaz que resuelve algunos problemas presentados por Backpropagation como es la lenta convergencia. En este caso, el resultado, es motivado por la gran dimensionalidad que debe enfrentar PSO (430 parmetros libres en el caso del MLP con 11 nodos en la capa oculta) si se tiene en cuenta que la funcin de fitness (aptitud) combina el ajuste de todas las dimensiones (en este caso, los pesos y umbrales del MLP) por lo que las partculas no tienen forma de conocer que dimensiones estn influyendo o no en su rendimiento haciendo que la convergencia sea extremadamente lenta. En el entrenamiento mediante Backpropagation, la minimizacin del error se lleva a cabo mediante descenso por el gradiente, a travs de un algoritmo bien establecido ajustando los pesos directamente en la misma medida en que influyen en el error.

Diferencia Significativa segn test de Wilcoxon * existe no existe Nro. Mtodo Configuracin

RMSE promedio

Ranks segn

Friedman I II III

I SVMR con kernel polinomial normalizado grado 3, C = 100 12.47 1.00

II SVMR con kernel polinomial normalizado grado 2, C = 100 14.95 2.00 *

III MLP con BackPropagation, 11 nodos ocultos, 10000 iter 18.59 3.00 * *

IV MLP con PSO, 11 nodos ocultos, 20000 iteraciones 21.39 4.00 * * * Tabla 3. Resultados de los mtodos de mejor comportamiento. Al comparar los resultados del modelo de red neuronal de mejores resultados (MLP con 11 neuronas en la capa oculta y entrenado con Backpropagation) con el mtodo SVMR se puede observar que este ltimo presenta un mejor comportamiento. Los motivos de este resultado pueden estar relacionados con el dilema varianza sesgo, presente tanto en estimadores paramtricos como no paramtricos. Hablando en trminos estadsticos, el MLP es un estimador no paramtrico [15], que realiza estimaciones denominadas de modelo libre pues no se impone a1 problema un determinado modelo de partida. Para que una red neuronal realice un ajuste ptimo, el nmero de ejemplos de entrenamiento debera tender a infinito [16], pues para un conjunto pequeo, los estimadores no paramtricos suelen ser muy sensibles a los casos particulares de pares entrada-salida seleccionados para realizar el aprendizaje. La causa es que la red neuronal posee inherentemente una gran varianza, es decir, puede implementar muchsimos diferentes mappings, pero solamente implementar el correcto si se utiliza un conjunto de entrenamiento de tamao idealmente infinito. En la literatura [17] se ha corroborado una forma de inducir la cantidad ptima de ejemplos de entrenamiento en dependencia del orden del error de generalizacin () con que se desee estimar y la cantidad de parmetros libres a ajustar en la red (w). Se plantea que debe estar en el orden de w/, en el presente trabajo, para =0.1 (un 10%) y la topologa de mejor comportamiento (37 nodos de entrada, 11 nodos en la capa oculta y un nodo de salida) que contiene 430 parmetros

libres entre pesos y umbrales seran necesario 4300 (430 * 10) ejemplos de entrenamiento para realizar un ajuste ptimo. La nica forma de controlar la elevada varianza que la red neuronal posee inicialmente es introducir en su arquitectura algn tipo de sesgo o informacin apriorstica sobre el problema a resolver. Este problema puede ser abordado con tcnicas de regularizacin que mediante la introduccin del sesgo, provocan que el mapping que implementa la red neuronal sea suave, es decir, que a entradas similares haga corresponder resultados prximos. Este sesgo puede ser introducido en la funcin coste en forma de trminos adicionales (w) que miden la desviacin de los resultados actuales respecto de la restriccin planteada

[ ] [ ] +=

)()(2

1 2 wxFtwEk

kk (2)

siendo el denominado parmetro de regularizacin, que controla el compromiso entre el grado de suavidad de la solucin frente al nivel de ajuste de los datos de entrenamiento que alcanza [18]. Estas caractersticas de regularizacin, estn implcitas en la concepcin del modelo de SVMR [20] que se basa en el principio de minimizacin del riesgo estructural al introducir en la funcin de coste un trmino de control de capacidad (||w||2) adicional al trmino de riesgo emprico

( )=

++ mi

iCw1

*2||||21 (3)

lo cual hace esperar un mejor resultado. En este caso C se concibe como un balance entre la llanura de la funcin y el margen de error permitido. A partir de estas ideas y al analizar las dos cuestiones siguientes: 1. el mejor resultado se obtuvo con mtodo de SVMR cuando se increment el valor de

C desde 1 (implic media de rmse = 18.49) hasta 100 (media de rmse = 14.95) con lo cual se est incrementando la importancia a la restriccin que imponen las variables de holgura, limitando as la influencia que pueden tener ejemplos con determinado ruido en el proceso de aprendizaje; ntese que estos resultados se obtuvieron para el kernel polinomial normalizado con grado 2.

2. el resultado en SVMR para C = 1 es similar al del modelo de MLP con mejor comportamiento (capa oculta con 11 nodos) donde la media de rmse es de 18.59,

se puede pensar en la posibilidad de que en los resultados del MLP est influenciando de manera negativa la existencia de ejemplos de entrenamiento que contienen cierto nivel de ruido, debido a que este mtodo no tiene ninguna tcnica de regularizacin implementada que permita erradicar el problema anterior a lo cual se une el hecho de que la cantidad de ejemplos de entrenamiento con que se cuenta no es ptimo lo cual puede conducir a un cierto grado de sobre ajuste. Por el contrario, SVMR al introducir en su funcin de coste un trmino de control de capacidad adems de mantener una cota de error para la contribucin de los ejemplos de entrenamiento, reduce el riesgo de la influencia del posible ruido de los mismos y por tanto tiende a obtener mejores resultados. Un resultado an mejor se obtuvo al utilizar el kernel polinomial normalizado con grado 3 cuyo rmse fue de 12.47 obtenindose una diferencia significativa segn el test de Wilcoxon incluso al compararlo con el resultado del kernel polinomial normalizado de grado 2.

4. Comparacin con resultados descritos en la literatura. En la literatura se han descrito trabajos de estimacin de la tensin de ruptura por creep en aceros ferrticos utilizando redes neuronales [3, 4]. En el trabajo de F. Brun y colectivo de autores [3] se emple una red neuronal entrenada en un ambiente bayesiano a partir del mismo conjunto de datos utilizado en el presente trabajo. Esto nos permite realizar cierta comparacin entre los resultados obtenidos aunque en dicho trabajo no aparece explcitamente el indicador raz del error cuadrtico medio como medida del error de prueba. En este caso se utiliz el valor calculado como:

( )

=

=

m

yte1

2

21

,

donde m es la cantidad de casos de prueba, y y t constituyen el valor estimado por la red neuronal y el valor experimental respectivamente para el ejemplo .

Segn las grficas expuestas en dicho trabajo, el mejor valor obtenido del indicador e fue prximo a 0.154 lo cual significa un valor de rmse = 16.57 si tenemos en cuenta que m=1033 (cantidad de ejemplos de prueba), utilizamos la forma de normalizacin descrita en dicho trabajo y el clculo de rmse se realiza segn (1). Aunque un anlisis comparativo de este resultado con el mejor obtenido por SVMR (rmse = 12.47) no est bien fundamentado desde el punto de vista estadstico ni experimental pues no se cuenta con los elementos suficientes y exactos, s constituye un resultado que justifica la posibilidad de ver a SVMR como un mtodo de mejores prestaciones en comparacin con las redes neuronales en la estimacin de la tensin de ruptura por creep. 5. Conclusiones Teniendo en cuenta los anlisis efectuados sobre los datos descritos, se puede concluir que en la estimacin de la tensin de ruptura por creep: 1. La red neuronal, estimador de modelo libre que efecta una regresin no lineal,

constituye un mtodo de mayor eficacia al compararlo con los mtodos que utilizan regresiones lineales,

2. El mtodo de entrenamiento de las redes neuronales conocido como backpropagation, permite una convergencia del error hacia el resultado ptimo, ms rpida que el empleo de PSO con este mismo fin, debido a la gran dimensionalidad que inducen los datos de creep (37 variables a tener en cuenta),

3. SVMR obtuvo los mejores resultados entre todos los mtodos utilizados estableciendo diferencias significativas desde el punto de vista estadstico. El mejor resultado se obtuvo utilizando un kernel polinomial normalizado de grado 3.

6. Bibliografa

1. Bhadeshia, H.K.D.H., Sourmail, T.: Design of creep-ressistant steels: Success & Failure of models. Committee on HeatResisting Materials and Alloys, Vol. 44. Japan Society for the Promotion of Science, (2003) 299314.

2. Sourmail T., H. K. D. H., Bhadeshia, MacKay, D. J. C.: Materials Science and Technology, 2002, 18, 655663.

3. Brun, F., Yoshida, T., Robson, J. D., Narayan, V., Bhadeshia, H. K. D. H., MacKay, D. J. C.: Materials Science and Technology, 1999, 15, (5), 547-554.

4. Cole, D., Martin Moran, C., Sheard, A.G., Bhadeshia, H. K. D. H., MacKay, D.J.C: Science and Technology of Welding and Joining, 2000, 5, (2), 81-89.

5. MacKay, D.J.C.: Bayesian Methods for Neural Networks: Theory and Applications, Neural Networks Summer School, Cambridge University, U.K., 1995.

6. Bhadeshia, H. K. D. H.: ISIJ International, 1999, 39, 966979. 7. http://www.msm.ac.uk./map/map.html 8. Hecht-Nielsen, R.: Neurocomputing, Addison Wesley, 1990. 9. Principe, J. C., Euliano, N. R., Lefebvre, W. C.: Neural and Adaptive Systems.

Fundamentals Through Simulations. John Wiley, 2000. 10. El-Gallad, A. I., El-Hawary, M., Sallam, A. A. & Kalas, A. 2001: Swarm-

intelligently trained neural network for power transformer protection, Canadian Conference on Electrical and Computer Engineering, 2001, Vol. 1, 265-269.

11. Mendes, R., Cortez, P., Rocha, M. & Neves, J.: Particle swarm for feedforward neural network training, Proceedings of the 2002 International Joint Conference on Neural Networks, 2002, Vol. 2, 1895-1899.

12. Van den Bergh, F., Engelbrecht, A.P.: Cooperative Learning in Neural Networks using Particle Swarm Optimizers, South AfricanComputer Journal, 2000, 26, 84-90.

13. Eberhart, R.C., Shi, Y.: Evolving Artificial Neural Networks, Proceedings of the International Conference on Neural Networks and Brain, Beijing, China, 1998, 5-13.

14. Gudise, V.G., Venayagamoorthy, G.K.: Comparison of Particle Swarm Optimization and Backpropagation as Training Algorithms for Neural Networks, Proceedings of the Swarm Intelligent Symposium, Indianapolis, USA, 2003, 110-117.

15. Vapnik, V. M.: Vapnik- Chervonenkis Learning Theory and It's Applications, IEEE Transactions on Neural Networks, 1999, 10, 5, 985-7.

16. Del Bro, B.M., Molina, A.S.: Redes Neuronales y Sistemas Difusos, ed. Alfaomega Ra-Ma, 2001, Zaragoza, Universidad de Zaragoza, 2001, 76-78.

17. Haykin, S.: Neural Neworks. A Comprehensive Foundation, 2da edicin, Prentice-Hall, 1994, 1999.

18. Poggio, T., Girosi, F.: Networks for approximation and learning, Proc. of the IEEE, 1990, 1481-1497.

19. Williams, C.K.I.: Prediction with Gaussian processes: from linear regression to linear prediction and beyond. Learning and Inference in Graphical Models, ed. M.I. Jordan, Kluwer Academic Press, 1998.

20. Smola, A.J., B.Schlkopf: A tutorial on Support Vector Regression, Neuro COLT2 Technical Report Series, 1998.

Creep - Carlos Alberto Donis Diaz

Documents

Transcript of Creep - Carlos Alberto Donis Diaz