palabra - pragmamexico.com.mx · la construccion de conocimientos a partir del estudio de hechos y...

palabra

Revista de Muestreo y Estadıstica

Indice

Directorio 3

Presentacion 5

Redes NeuronalesProbabilidades de Votacion por un Candidato mediante SPSS y R 7

TreemapsOptimizacion del espacio para representar magnitudesde datos categoricos por pivoteo 27

Pronosticos de Series de TiempoARIMA versus Redes Neuronales 59

Estimacion de Parametros de Distribuciones de Probabilidadmediante el Algoritmo del Gradiente Reducido Generalizado 77

Numero VI 1 Julio 2019

palabra

DIRECTORIO

REVISTA DE ESTADISTICA Y MUESTREO

Francisco Sanchez Villarreal.Director.

Jose Oscar Rosales Vergara. Susana Barrera Ocampo.Mesa de Redaccion y apoyo en investigacion.

Guillermo Aaron Espinosa Reyes.Diseno y Elaboracion Editorial.

REVISTA DE ESTADISTICA Y MUESTREO. Ano V, Numero 6. Julio de 2019. Es una revista electronicaeditada por un grupo de alumnos, ex-alumnos y profesores de Estadıstica de la Facultad de Ciencias dela UNAM que aborda temas de aplicacion de Estadıstica y Muestreo probabilıstico en temas diversoscomo Actuarıa, Biologıa, Control de Calidad, Demografıa, Economıa, Ecologıa, Educacion, Investigacionde Mercados, Psicologıa, Sociologıa, Salud, etc. Sus fines son la exposicion y difusion de metodos y pro-cedimientos que apoyen la ensenanza y aplicacion de la Estadıstica y el Muestreo.

Responsable de la publicacion:Francisco Sanchez [email protected]

palabra

PRESENTACION

La REVISTA DE ESTADISTICA Y MUESTREO es una publicacion electronica de acceso gratuito, productodel entusiasmo y trabajo coordinado de un grupo de profesores, alumnos y ex-alumnos del area de Es-tadıstica de la Facultad de Ciencias de la UNAM, con el proposito de difundir conocimientos de las areasreferidas con una vision preponderante en la aplicacion. La Estadıstica como ciencia en la sociedad actual,autodefinida como sociedad de la informacion, ha incrementado notablemente su presencia pues proveede metodos y tecnicas cientıficamente soportados que facilitan la adquisicion, organizacion y analisis dedatos que con el apoyo de modelos formales ayudan a entender en forma sistematica y objetiva una ampliagama de fenomenos naturales y los generados por la intervencion de los seres humanos. Los datos quese recolectan de los fenomenos en general son parciales y limitados por diversas causas, sin embargo, enel supuesto de que su recoleccion se base en procedimientos formales de aleatorizacion, constituiran unamuestra aleatoria, a partir de la cual la Estadıstica permitira inferir, generalizar los resultados a toda lapoblacion de referencia y la verificacion de hipotesis de causalidad o interdependencia entre las variablesanalizadas.

La Estadıstica debe su importancia a la utilidad que significa para las disciplinas cientıficas que basanla construccion de conocimientos a partir del estudio de hechos y fenomenos sujetos a observacion o expe-rimentacion. Estas disciplinas recurren con mayor frecuencia a los metodos y modelos estadısticos paravalidar sus descubrimientos y verificar hipotesis. La tecnologıa ha impulsado exponencialmente nuevosmetodos y fuentes de datos estadısticos y simultaneamente los ha puesto al alcance de cualquier investi-gador o estudiante. La Estadıstica, excluyendola de los campos de aplicacion, tiene su interes esencial enla identificacion, medicion y eventualmente el control de los factores que contribuyen a la varianza de losaspectos relevantes de un fenomeno que se identifican genericamente como variables.

La ensenanza de la Estadıstica resulta incompleta si no incorpora ejemplos de aplicaciones que no selimiten a planteamientos simplistas y fuera de contexto que solamente ilustran la mecanica de calculo,los propios alumnos de los diferentes cursos de estadıstica reclaman continuamente la aplicacion realistade los temas abordados por los profesores, pretendemos a traves de este medio llenar parcialmente esanecesidad.

Invitamos a los lectores a enriquecer y sostener la publicacion de este medio con documentos metodologicos,reportes de investigaciones, resumenes de tesis, etc. Con agrado los incluiremos en los siguientes numerosde la revista, basta comunicarse a nuestro correo electronico para obtener detalles en el procedimiento decolaboracion.

Algunos artıculos en esta edicion de REVISTA DE ESTADISTICA Y MUESTREO son complementarios aartıculos de ediciones anteriores; se recomienda ampliamente su lectura. En nuestra contraportada seadjunta el codigo QR para la descarga gratuita de los ejemplares anteriores.

Francisco Sanchez VillarrealJulio 2019

palabra

Francisco Sanchez Villarreal

Redes NeuronalesProbabilidades de Votacion por un Candidatomediante SPSS y R

palabra

Revista de Muestreo y Estadıstica Redes Neuronales

REDES NEURONALES Y LAS PROBABILIDADES DEVOTACION POR UN CANDIDATO

MEDIANTE SPSS Y RFrancisco Sanchez Villarreal *

Desde hace mucho tiempo la funcion de la mente ha intrigado y ha sido motivo de estudio por multiplescientıficos. El entendimiento de sus funciones se tradujo en diversos dispositivos que pretenden imitarla.El griego Heron de Alejandrıa en el siglo I D.C. elabora unode los primeros tratados de que se tiene noticia sobre losrobots (αυτoµατoπoιητικη , Automatas), Heron desarrollo di-versas maquinas como el incipiente motor de vapor llamadoeolipila. En el siglo XVII Wolfgang Von Kempelen presentosu famoso “Turco Jugador de Ajedrez”, maquina integradapor un tablero, un pequeno gabinete y un maniquı que ju-gaba ajedrez a un elevado nivel y que incluso llego a derrotara Napoleon Bonaparte. Se tiene duda sobre la autenticidaddel mecanismo y por tanto, de que en realidad se trataba deun truco con un jugador humano de pequena estatura ence-rrado en el gabinete. En la actualidad la computadora deIBM conocida como Deep Blue (1996-1997) logro derrotar elentonces campeon mundial de ajedrez Gary Kasparov.

A mediados del siglo XX, durante la Segunda GuerraMundial, el matematico Alan M. Turing, considerado el pionerode la Inteligencia Artificial desarrollo la computadora “Bombe”,con la finalidad especıfica de descifrar el codigo aleman em-pleado en la maquina encriptadora “Enigma”. Tambien esconocido por el Test de Turing que permite determinar si unamaquina puede pensar.

La Inteligencia Artificial (IA) es un concepto que en la actua-lidad trasciende ampliamente los centros de investigacion y seintegra cada vez mas a la vida cotidiana, una de las ramas dela IA es la de Redes Neuronales Artificiales (RNA), cuyas apli-caciones en reconocimiento de patrones, imagenes, clasificaciony ajuste de todo tipo de modelos matematicos son muy amplias.

Las Redes Neuronales Artificiales son una abstraccion de la forma como opera el sistema nervioso. Elelemento fundamental del sistema nervioso es la celula llamada neurona, cuyo numero en un cerebronormal alcanza los 100 mil millones. Una neurona, en forma simplificada se integra por un cuerpo ynucleo celulares, una serie de ramificaciones receptoras de senales electroquımicas de otras neuronasllamadas dendritas y una prolongacion llamada axon cuyas ramificaciones finales realizan la funcion deconexion con otras neuronas o sinapsis y transmiten a su vez senales de salida de la neurona.

*Asesor Internacional en Estadıstica y Muestreo.Profesor Asociado B de Medio Tiempo del Departamento de Matematicas en la Facultad de Ciencias, UNAM.E-mail: [email protected]



En 1943 Warren McCulloch y Walter Pitts (1943), publicaron “A Logical Calculus of Ideas Immanent inNervous Activity” en la revista Bulletin of Mathematical Biophysics, artıculo que plantea un modelo logicomatematico del comportamiento de una neurona.

1. Estructura

La estructura de una RNA consiste en un conjunto de nodos o neuronas interconectadas en varias capas,cada nodo recibe informacion o senales de otros nodos y a su vez envıa informacion de salida. Los datos desalida son usualmente ponderados (pesos sinapticos) y la suma ponderada de los datos de salida, de hechouna combinacion lineal, tambien conocida como regla de agregacion, determina el potencial postsinapticode la neurona. Esta suma ponderada es el argumento de una funcion de activacion o transferencia, queda lugar a la senal de salida. El siguiente diagrama ilustra simplificadamente el funcionamiento de unaneurona artificial o perceptron, concepto propuesto por Frank Rosenblatt a finales de la decada de los50 del siglo XX y que se aplico con la computadora Mark I en algunos de los primeros algoritmos deaprendizaje automatico.



A la regla de agregacion se le suele restar un parametro de umbral θ que determina la aplicacion de lafuncion de activacion o transferencia.

xi Conjunto de senales de entrada

Pesos sinapticos definen la intensidad de conexion sinaptica entre lasWi neuronas. Esos pesos pueden tomar valores negativos (inhibidores) o

positivos (exitadores). Su rango suele estar en el intervalo (−1, 1)

Θ Umbral de activacion de la neurona

Punto de agregacion lineal o regla de propagacion cuyo resultadon∑

i=1

Wixi − θ es el potencial postsinaptico de la neurona resultante de la interaccion

resultante de la interaccion con otras neuronas

√√√√ n∑i=1

(xi −Wi)2 − θ Punto de agregacion de tipo radial o hiperesferico. Su valor representa una

distancia a un patron determinado

f

(n∑

i=1

Wixi − θ

)Funcion de activacion de la neurona

Yn Valor de salida de la neurona

Una red neuronal artificial constituye un sistema o red de nodos interconectados que realizan una seriede algoritmos de computo orientados a un objetivo o solucion de un problema. El sistema “aprende” yse modifica sin responder a un modelo especıfico. Las modificaciones a sus ponderadores responden a laminimizacion de una funcion de costo, lo que implica una propagacion hacia atras en forma iterativa. Losponderadores en su fase inicial se asignan en forma aleatoria con valores en un intervalo dado.



Una Red Neuronal Artificial (RNA) o Perceptron Multicapa se integra por varias capas, una capa deentrada, una o varias capas ocultas y una capa de salida que da origen al resultado final del proceso. Unared neuronal se particulariza a partir de la especificacion de los siguientes procesos:

1. Patron de Interconexion

2. Proceso de aprendizaje mediante el cual se modifican los pesos sinapticos

3. La Funcion de Activacion

2. Funcion de Activacion de la neurona

La funcion de activacion calcula la magnitud de actividad de una neurona, en otros terminos, calcula elincremento del potencial de activacion de la neurona. La funcion se aplica al valor del punto de agregacion.Su rango puede estar entre 0 y 1 o entre −1 y 1, tambien puede ser dicotomica y adoptar solamente losvalores 0 o 1. Si el valor del punto de agregacion no es mayor al umbral θ, no se produce salida de lafuncion de activacion y la neurona correspondiente esta inactiva. La combinacion lineal del punto deagregacion representa un hiperplano en Rn, pero tambien se pueden utilizar funciones radiales de tipohiperesferico

Existe diversas formas para la funcion de activacion, a continuacion se describen las mas usuales.

Funcion Lineal. Se definecomo una recta con pendiente aen el intervalo (− 1

a ,1a ), −1 para

valores menores al lımite infe-rior del intervalo, y 1 para va-lores mayores al extremo supe-rior del intervalo.

f(w) =

−1 w ≤ − 1

a

aw − 1a < w < 1

a

1 w ≥ 1a

Donde a > 0 y w =

n∑i=1

Wixi − θ



Funcion Logıstica. Se define comouna funcion de densidad logıstica,aplicada a la combinacion linealdefinida por W . La funcion de den-sidad logıstica adopta valores entre 0y 1, y se comporta en forma sigmoideasintotica.

f(w) =1

1 + e−w

Funcion Tangente Hiperbolica.Adopta tambien una forma sigmoide,tiene como dominio los reales y surango queda acotado entre −1 y 1.

f(w) =ew − e−w

ew + e−w

Funcion Binaria. Adopta sola-mente los valores 0 y 1 en caso deser menor o mayor o igual a un um-bral. Tambien se puede definir unafuncion escalonada en forma similar.

f(w) =

1 w ≥ a

0 w < a

f(w) =ew − e−w

ew + e−w



3. Funcion de Salida

La Funcion de Salida. La ultima etapa corresponde a la funcion de salida de la neurona, cuyo valor setransfiere a otras neuronas vinculadas. La funcion de salida puede corresponder a una logıstica, identica,binaria u otro tipo de funcion.

4. Aprendizaje

Aprendizaje. Es el proceso mediante el cual una red neuronal modifica sus ponderadores Wi comorespuesta adaptativa al objetivo. Los ponderadores pueden cambiar, incrementar su numero a un valormayor a cero o igualarse a cero y por tanto, cancelar las conexiones entre neuronas. Los pesos inicialessuelen asignarse en forma aleatoria con valores en un rango dado.

En el aprendizaje los datos se suelen separar en una fase de entrenamiento y una fase de prueba.

El peso en la iteracion t + 1 cambia en funcion del peso en t, mas un incremento. El proceso concluyecuando no se observa un incremento distinto de cero o menor de un valor ε definido. Tambien se puedeadoptar un lımite de tiempo del proceso iterativo.

Wi(t+ 1) = Wi(t) + ∆W (t)

Tipos de Aprendizaje. Se consideran fundamentalmente tres tipos de aprendizaje:

1. Aprendizaje Supervisado. Se caracteriza por un entrenamiento controlado por un criterio es-pecıfico que compara la respuesta de la red con un valor determinado. Esto es, se compara la salidacon una respuesta esperada. Usualmente se busca minimizar un criterio de error, por ejemplo elError Cuadratico Medio (ECM).

2. Aprendizaje No Supervisado. El entrenamiento no es controlado por un criterio externo paraajustar los ponderadores. La salida se evalua por el grado de similaridad con patrones previos ydefine taxonomıas o aglomeraciones en clases para determinar la clase a la que pertenece la salida.Los pesos se ajustan en funcion a correlaciones con los datos de entrada.

3. Aprendizaje por Refuerzo. Se ubica entre los dos anteriores. Se le presenta a la red un conjuntode patrones de entrada y se determina si la salida es o no correcta, pero no se proporciona un valorde la salida esperada, pues esta suele ser desconocida.

Una vez finalizada el proceso de aprendizaje, el conjunto de ponderadores y demas funciones de la red,esta puede ser aplicada a casos no incluidos inicialmente y como consecuencia efectuar predicciones ogeneralizaciones de resultados ante nuevos casos.



En el proceso de aprendizaje se debe tener cuidado de no sobreestimar el modelo, pues se pueden tenerexcelentes valores ajustados a los datos de la muestra, pero un pobre poder de prediccion o generalizacion.El problema es similar al de incrementar excesivamente el numero de parametros de un modelo polino-mial.

5. Variables de Entrada

Variables de Entrada. Las variables de entrada pueden ser de tipo categorico o numerico. En elcaso de variables numericas, se acostumbra someterlas a una transformacion que elimine el efecto de lasunidades. Estas transformaciones pueden ser:

Estandarizacion. Tomar la diferencia entre el valor de la variable y su media, posteriormente dividiresta diferencia entre su desviacion estandar. Con ello se logran valores con media 0 y varianza 1.

Zij =Xij − Xi

Si

Normalizacion. Se toma la diferencia entre el valor de la variable y el mınimo del conjunto de valores.El cociente se divide entre la diferencia entre el maximo y el mınimo. El resultado son valores entre 0 y 1.

Pij =Xij −min(Xij)

max(Xij)−min(Xij)

Las variables categoricas en el caso binario se codifican en 0 o 1, en caso de valores multiples se de-finen tantas variables binarias, como valores categoricos tiene la variable original. Por ejemplo si setiene una variable llamada Nivel Socioeconomico Alto, Medio y Bajo; se definen 3 variables mutuamenteexcluyentes:

Nivel SocioeconomicoAlto Medio Bajo

1 0 00 1 00 0 1



6. Aplicacion de Red Neuronal paraClasificacion Binaria con SPSS

Las aplicaciones de las redes neuronales presentan multiples facetas, entre ellas la clasificacion es una delas mas usuales. Como ejemplo se han tomado datos de la Encuesta Preelectoral de PRAGMA, realizadaLa encuesta se realizo en viviendas (un elector por vivienda) entre el 1ºy 14 de abril de 2018 a ciudadanoscon credencial vigente para votar. Se levantaron 804 entrevistas efectivas. Desde luego la preguntaprincipal de la encuesta se refiere a las preferencias electorales respecto a candidatos a la Presidencia dela Republica.

La encuesta incluyo preguntas sobre caracterısticas demograficas de los electores y es en ellas que fijamosnuestra atencion.

Los porcentajes de votos para los candidatos reconocidos al momento de la encuesta y diferenciados porGenero se presentan en el cuadro siguiente. Los hombres presentaron mayores preferencias para LopezObrador y los resultados se invierten en el caso de Anaya Cortes y Meade Kuribrena.

Candidato GeneroMujeres Hombres Total

Andres Manuel Lopez Obrador 49% 57% 53%Ricardo Anaya Cortes 18% 16% 17%Jose Antonio Meade Kuribrena 9% 7% 8%Margarita Zavala Gomez 3% 3% 3%Jaime Rodrıguez El Bronco 1% 0% 1%Armando Rıos Piter 0% 0% 0%No ha decidido todavıa 20% 17% 18%Total 100% 100% 100%

Por Grupos de Edad los electores de 55 y mas anos se inclinaron notablemente a favor de Lopez Obrador.El grupo de 18 a 29 anos, aunque tambien muestra ser mas favorable a Lopez Obrador, el porcentaje deelectores favorables a Anaya Cortes es mayor al esperado.

Candidato Grupo de Edad18 a 29 30 a 54 55 y mas Total

Ricardo Anaya Cortes 30% 21% 7% 21%Jose Antonio Meade Kuribrena 8% 10% 11% 9%Andres Manuel Lopez Obrador 59% 64% 80% 66%Margarita Zavala Gomez 4% 4% 2% 3%Jaime Rodrıguez El Bronco 0% 2% 0% 1%Total 100% 100% 100% 100%

El Nivel Educativo de los electores fue considerado en Basico para Primaria y Secundaria, Media Su-perior para Bachillerato o equivalente y Superior para Licenciatura y Posgrado. Los electores con nivelBasico se inclinan varios puntos mas de lo esperado por Lopez Obrador en tanto que Anaya Cortes alcanzoporcentajes mayores a los esperados entre los electores de nivel Medio Superior y Superior.



Candidato Nivel EducativoBasico Media Superior Total

SuperiorRicardo Anaya Cortes 15% 24% 25% 21%Jose Antonio Meade Kuribrena 10% 9% 9% 9%Andres Manuel Lopez Obrador 72% 64% 59% 65%Margarita Zavala Gomez 2% 3% 6% 4%Jaime Rodrıguez El Bronco 1% 0% 1% 1%Total 100% 100% 100% 100%

El Nivel Socioeconomico (NSE) del elector se asocio a partir de un indicador calculado en base aestadısticas asociadas a las areas geoestadısticas basicas (AGEBs) de los domicilios de los electores yposteriormente vinculadas a las secciones electorales. Se establecieron 6 niveles socioeoconomicos delmas alto AB, al mas bajo E. Los niveles medios C+, C y D+ se inclinaron en proporciones mayores a losesperados por Lopez Obrador. Es interesante observar que Anaya Cortes tuvo mayores preferencias a lasesperadas en los niveles mas bajos, D y E.

Candidato Nivel SocioeconomicoAB C+ C D+ D E Total

Ricardo Anaya Cortes 12% 24% 12% 19% 33% 43% 21%Jose Antonio Meade Kuribrena 11% 12% 6% 10% 11% 0% 9%Andres Manuel Lopez Obrador 67% 61% 77% 66% 53% 57% 65%Margarita Zavala Gomez 9% 2% 4% 4% 3% 0% 3%Jaime Rodrıguez El Bronco 0% 0% 1% 1% 0% 0% 1%Total 100% 100% 100% 100% 100% 100% 100%

El analisis descriptivo de los tabulados permite definir el perfil de los electores para cada candidato asımercadologicamente hablando identificar el segmento mas favorable.

La pregunta que se plantea es, si sera posible utilizar los valores asociados de las variables demograficasanalizadas para obtener probabilidades de eleccion para un candidato en particular. Para ello se procederaen primer termino a plantear el problema mediante una red neuronal.

Por tener el mayor porcentaje de electores favorables se selecciono a Lopez Obrador como el candidato ob-jetivo. En primer termino se procedio a crear una variable dicotomica identificada como AMLO que adoptael valor 1 y un elector en particular piensa votar por Lopez Obrador y el valor 0 en caso de seleccionarotra alternativa.

Las variables independientes para el modelo se identifican a continuacion.SEXO Sexo del ElectorNSE AMAI Nivel Socioeconomico del Elector de acuerdo a estructura de la AMAIEDAD REC Grupo de Edad del ElectorEDU REC Nivel Educativo del Elector



El codigo fuente en SPSS para la red neuronal se presenta a continuacion.

1 DATASET ACTIVATE ConjuntoDatos42 *EN PRIMER TERMINO SE SELECCIONA PERCEPTRON MULTICAPA MultilayerPerceptron Network .3 MLP AMLO (MLEVEL=N) BY SEXO NSE AMAI EDAD REC EDU REC4 *SE DEFINE LA PARTICION DE LA BASE DE DATOS 80\% DE ENTRENAMIENTO Y 20\% DE PRUEBA5 /PARTITION TRAINING=8 TESTING=2 HOLDOUT=06 *SE DETERMINA UNA CAPA NEURONAL OCULTA. LA FUNCION DE ACTIVACION INTERNA SIGMOIDE *Y LA FUNCION DE

ACTIVACION DE SALIDA COMO LA IDENTICA7 /ARCHITECTURE AUTOMATIC=NO HIDDENLAYERS=1 (NUMUNITS=AUTO)8 HIDDENFUNCTION=SIGMOID OUTPUTFUNCTION=IDENTITY9 *SE ESTABLECEN LOS PARAMETROS DE OPTIMIZACION

10 /CRITERIA TRAINING=BATCH OPTIMIZATION=SCALEDCONJUGATE LAMBDAINITIAL=0.000000511 SIGMAINITIAL=0.00005 INTERVALCENTER=0 INTERVALOFFSET=0.5 MEMSIZE=200012 *OPCIONES DE REPORTE Y GRAFICA DE LA RED Y LA CURVA ROC13 /PRINT CPS NETWORKINFO SUMMARY CLASSIFICATION SOLUTION IMPORTANCE14 /PLOT NETWORK ROC PREDICTED15 *SE SOLICITA GRABAR LAS PSEUDOPROBABILIDADES Y EL VALOR ASIGNADO 0 o 1 PARA EL GRUPO * PRONOSTICADO16 /SAVE PREDVAL PSEUDOPROB17 *PARAMETROS DE PARADA Y EXCLUSION DE DATOS PERDIDOS18 /STOPPINGRULES ERRORSTEPS= 1 (DATA=AUTO) TRAININGTIMER=ON (MAXTIME=15) MAXEPOCHS=AUTO19 ERRORCHANGE=1.0E−4 ERRORRATIO=0.00120 /MISSING USERMISSING=EXCLUDE

REPORTES DE RESULTADOS DE RED NEURONAL EN SPSS

La ejecucion del codigo anterior aplicado a la base de datos de la encuesta arroja los siguientes resultados:

Resumen de procesamiento de casosN Porcentaje

Muestra Entrenamiento 629 79.8%Pruebas 159 20.2%

Valido 788 100.0%Excluido 16Total 804

La estructura de la red empleada en sus diferentes capas se describe en el siguiente cuadro.

Informacion de Red

Factores

1 SEXO2 NSE AMAI3 EDAD REC4 EDU REC

Capa de entrada

Numero de unidades 14Numero de capas ocultas 1Numero de unidades en la capa oculta 8Capas ocultasFuncion de activacion Sigmoide

Variables 1 AMLOdependientesNumero de unidades 2Funcion de activacion IdentidadFuncion Suma de

Capa de salida

de error cuadrados



El grafico siguiente muestra las capas de entrada oculta y de salida de la red generada por el modelo.



Las medidas de eficiencia del modelo en sus secciones de entrenamiento y prueba se presentan en elsiguiente cuadro. Los porcentajes de asignaciones incorrectas para la muestra de entrenamiento y deprueba son similares.

Resumen del ModeloError de suma de cuadrados 150.945159077911Porcentaje de pronsticos incorrectos 0.427662957074722Regla de parada utilizada 1 paso(s) consecutivo(s) sin disminucin del erroraEntrenamientoTiempo de entretamiento 0:00:00.06Error de suma de cuadrados 38.8251293930648

Pruebas Porcentaje de pronsticos incorrectos 0.433962264150943Variable dependiente: AMLO

Los ponderadores estimados para las variables independientes dicotomizadas en la capa de entrada, capaoculta y capa de salida se resumen en el siguiente cuadro.

PronosticadoPredictor Capa Oculta 1 Capa de salida

H(1:1) H(1:2) H(1:3) H(1:4) H(1:5) H(1:6) H(1:7) H(1:8) [AMLO=.00] [AMLO=1.00](Sesgo) -0.098 -0.029 0.367 0.130 -0.309 0.232 -0.155 0.325

[SEXO=F] -0.025 -0.146 0.484 -0.011 0.481 -0.050 0.253 0.164[SEXO=M] -0.331 0.353 0.204 0.434 -0.045 0.122 0.155 0.406

[NSE AMAI=AB] 0.085 0.443 -0.380 -0.495 -0.122 -0.405 -0.322 -0.223[NSE AMAI=C ] 0.251 -0.119 0.109 -0.198 -0.406 0.273 -0.637 0.171

[NSE AMAI=CM] 0.103 -0.471 -0.405 0.245 0.434 -0.085 0.004 0.241[NSE AMAI=D ] -0.198 -0.071 0.248 -0.059 -0.248 -0.079 0.436 0.223

[NSE AMAI=DM] -0.008 -0.127 -0.417 0.137 -0.413 0.489 0.593 0.513[NSE AMAI=E ] 0.196 -0.100 -0.469 -0.388 0.090 -0.348 -0.002 -0.252

[EDAD REC=1.00] -0.356 0.406 0.276 0.021 -0.408 0.009 -0.038 0.371[EDAD REC=2.00] 0.079 -0.217 0.393 -0.101 0.197 0.042 -0.322 0.066[EDAD REC=3.00] 0.228 0.251 0.320 -0.093 -0.126 0.211 -0.393 0.015[EDU REC=1.00] 0.422 -0.197 -0.105 -0.230 -0.393 0.228 -0.144 0.013[EDU REC=2.00] 0.079 0.399 -0.396 -0.337 0.152 -0.131 0.064 0.394

Capa de entrada

[EDU REC=3.00] 0.127 0.207 0.470 0.272 0.092 -0.174 0.011 0.351(Sesgo) -0.112 0.473H(1:1) -0.390 0.294H(1:2) 0.044 -0.064H(1:3) 0.353 0.077H(1:4) 0.115 -0.124H(1:5) 0.104 -0.064H(1:6) -0.182 0.262H(1:7) 0.564 -0.390

Capa oculta 1

H(1:8) 0.334 0.002

RESULTADOS DE CLASIFICACION. El siguiente cuadro muestra las coincidencias y diferencias en la clasi-ficacion de electores a favor de AMLO observados y los pronosticados a partir de la red. Las coincidenciassuman 57.4%. Las discrepancias tanto en favor como en contra de AMLO presentan porcentajes similares.

AMLO PRONOSTICO Total0 1

0 26.4% 20.5% 46.9%AMLO 1 22.1% 31.0% 53.1%Total 48.5% 51.5% 100.0%



PROBABILIDADES DE ELECCION. La asignacion del resultado 1 o 0 de los pronosticos se realizan enfuncion de las probabilidades calculadas a partir de la red neuronal y definido un punto de corte optimoa partir del cual se define 1 o 0, la determinacion del punto de corte optimo se realiza con el apoyo delanalisis de la curva ROC (Receiver Operating Characteristic). La siguiente tabla muestra los valores delas variables independientes para 5 electores y las probabilidades asociadas.

Elector EDAD EDU SEXO NSE PROB AMLO1 55 Y MAS BASICA M C+ 0.7002 18 A 28 MEDIA SUP M D+ 0.3793 18 A 28 SUPERIOR F C+ 0.4954 55 Y MAS MEDIA SUP F C+ 0.6155 29 A 54 SUPERIOR M C+ 0.583

Se torna consistente con los analisis preliminares que el segmento de electores caracterısticos de AMLOson hombres de 55 y mas anos con educacion basica y nivel socioeconomico medio. Las mujeres jovenesde 18 a 28 anos con educacion media superior y menor nivel socioeconomico constituyen el segmento conmenores probabilidades de elegir a AMLO.

7. Aplicacion de Red Neuronal con R

Los mismos datos de la encuesta fueron utilizados para modelar la clasificacion mediante R.

En primer termino se genero un archivo separado por comas (CSV) con las variables dependiente e in-dependientes. Los valores alfanumericos de las variables originales se convirtieron a escalas numericaspara facilitar los procesos de “normalizacion” que requiere el paquete neuralnet de R.

• El Sexo se codifico 0 para hombre y 1 para mujer, y se guardan en una variable que llamamos SEXO.

• La Edad se codifico de 1 a 3 con los grupos descritos en el cuadro inferior de la pagina 16, los codigosse guaradan en una variable que llamaremos EDAD.

• El Nivel Educativo se asocio a una escala de 1 a 3 segun la clasificacion del cuadro superior en lapagina 17, los codigos asociados se guardan en una variable que llamaremos EDU.

• El Nivel Socioeconomico se clasifico de 1 a 6 con E y AB en los extremos, tal como en el segundocuadro en la pagina 17, los datos clasificados se registran en una variable que llamamos NSE.

• Finalmente llamaremos AMLO a una nueva variable, que tomara los valores {0,1}. El valor 0 si notiene afinidad de voto por el candidato, y el valor 1 si tiene tiene afinidad por el candidato.

Tambien se imputaron valores faltantes a 16 registros para completar una base de 804 registros.



CODIGO EN RLectura e impresion de los primeros 8 casos:

1 DATOS<− read . csv ( ”C:ESTADISTICA/REDESNEURONALES/DATOS AMLO RED. csv ” , header=TRUE, dec = ” . ” , f i l l =TRUE)2 head (DATOS)

No. NSE EDAD EDU SEXO1 0.6 1.0 0.0 12 0.6 1.0 0.0 13 0.6 1.0 0.0 14 0.6 1.0 0.0 15 0.6 1.0 0.0 16 0.6 1.0 0.0 17 0.6 1.0 0.0 18 0.6 1.0 0.0 1

4 attach (DATOS)5

6 # SE DEFINE FUNCION DE NORMALIZACION DE LAS VARIABLES PROPORCION7 #DEL RANGO, LAS VARIABLES 0 ,1 NOCAMBIAN8 normalize<− function ( x ) {9 return ( ( x − min( x ) ) / (max( x ) − min( x ) ) )

10 }11

12 #SE APLICA LA NORMALIZACION13 maxmindf<− as . data . frame ( lapply (DATOS, normalize ) )14 maxmindf15

16 #SE DEFINEN LOS CONJUNTOS DE ENTRENAMIENTO 80 pcto Y PRUEBA 20 pcto17 TRAINSET<− maxmindf [1 :604 , ]18 TRAINSET19 TESTSET<− maxmindf[165:804 , ]20 TESTSET21

22 #SE CARGA BIBLIOTECA neuralnet23 l ibrary ( neuralnet )24

25 #SE APLICA LA RED NEURONAL A LOS DATOS VARIABLE AMLO EN FUNCION DE OTRAS.26 #LA RED AJUSTADA SE GUARDA EN LA VARIABLE RED AMLO27 RED AMLO <− neuralnet (AMLO ˜ NSE + EDAD + EDU + SEXO, data=TRAINSET, hidden=c (2 ,1 ) , l inear . output=

FALSE, threshold =0.01)

Los parametros calculados se imprimen en la consola. con RED AMLO$result.matrix

28 RED AMLO$result . matrix



1error 68.892230251042

reached.threshold 0.009991505496steps 925.000000000000

Intercept.to.1layhid1 4.453993440844NSE.to.1layhid1 -1.459442827096

EDAD.to.1layhid1 2.427654648099EDU.to.1layhid1 -7.414945789177

SEXO.to.1layhid1 -3.845294762577Intercept.to.1layhid2 7.899280315290

NSE.to.1layhid2 -16.521603003064EDAD.to.1layhid2 -2.643785986412

EDU.to.1layhid2 -10.344174497474SEXO.to.1layhid2 -0.696791521825

Intercept.to.2layhid1 -2.5038031347091layhid.1.to.2layhid1 20.437402016574

29 # GRAFICA LA RED CON PONDERADORES POR CAPAS DE ENTRADA, OCULTAS Y DE SALIDA,30 #ERROR CUADRATICO MEDIO Y NUMERO DE ITERACIONES PARA RESOLVER.31 plot (RED AMLO, co l . entry =” red ” , co l . hidden=” blue ” , co l . out =”green ” , radius =0.25)



Se aplica el modelo al conjunto de datos:

32 MODELO <− subset ( maxmindf , s e l e c t =c ( ”NSE” , ”EDAD” , ”EDU” , ”SEXO” ) )33 head (MODELO)34 MODELO35

36 #SE OBTIENEN LAS PSEUDOPROBABILIDADES37 RED RESULTADO<−compute (RED AMLO,MODELO)38 RED RESULTADO39

40 REPORTE<− data . frame (ACTUAL = maxmindf$AMLO, PREDICCION = RED RESULTADO$net. resul t )41 REPORTE42

43 #SE REDONDEAN PROBABILIDADES PARA TENER RESULTADO 0 o 1 Y SE IMPRIMEN44 #PRIMEROS REGISTROS CON VALOR ORIGINAL DE VARIABLE Y LA PREDICCION45 REDONDO<−sapply (REPORTE, round , d i g i t =0)46 head (REDONDO)

ACTUAL PREDICCION[1, ] 0 1[2, ] 0 1[3, ] 0 1[4, ] 1 1[5, ] 1 1[6, ] 1 1

47 #SE CAMBIA CONDICION DE atomicvectors en REDONDO48 DATOSTABLA=as . data . frame (REDONDO)49 DATOSTABLA50

51 #TABLA CRUZADA DATOS ORIGINALES VS PREDICCIONES52 TABLA<−table (DATOSTABLA$ACTUAL,DATOSTABLA$PREDICCION)53 TABLA54 addmargins (TABLA)55 01 Sum

0 265 123 3881 174 242 416

Sum 439 365 804

La suma de las celdas de la diagonal (265+242)= 507 dividida entre el total de casos (804) da un 63.1% deconsistencia para la red. Esta red resulta ligeramente mas eficiente que la obtenida mediante SPSS. Hayque considerar que en R se utilizaron escalas ordinales y no solamente nominales, como el caso de SPSS.



Referencias

[Prieto R.] Prieto,R., Herrera, A., Perez, J.L. & Padron, A. El Modelo Neuronal de McCulloch y Pitts,Laboratorio de Computacion Adaptativa. Centro de Instrumentos. UNAM

[Matich, 2001] Matich, D.J., Ruiz, C.A., Basualdo, M.S. (2001) Redes Neuronales. Conceptos Basicos yAplicaciones, Universidad Tecnologica Nacional.Rosario, Argentina.

[Ciaburro, 2017] Ciaburro, G., Venkateswaran, B. (2017) Neural Networks with R. Packt Publishing.http://www.michaeljgrogan.com/neural-network-modelling-neuralnet-rBirmingham, United Kingdom.

[Sanchez Camperros, 2006] Sanchez Camperos, E., Alanıs Garcıa,Y. (2006) Redes Neuronales. ConceptosFundamentales, Editorial PearsonMadrid


palabra

Guillermo Aaron Espinosa Reyes

TreemapsOptimizacion del espacio para representarmagnitudes de datos categoricos por pivoteo

palabra

Revista de Muestro y Estadıstica Treemaps por Pivoteo

TREEMAPSOPTIMIZACION DEL ESPACIO PARA REPRESENTAR

MAGNITUDES DE DATOS CATEGORICOSPOR PIVOTEO

Guillermo Aaron Espinosa Reyes∗

“Ubi materia, ibi geometria”: Johannes Kepler

Introduccion

EN LA LABOR ESTADISTICA, una practica fun-damental es la visualizacion de datos paraasimilar mejor la informacion cuantitativa y

cualitativa. Con la visualizacion de datos se buscaoptimizar el analisis de la informacion y se apoya ala interpretacion de nuestros resultados. Con ello esposible sacar mejores conclusiones de los fenomenosde estudio.

Existen distintas alternativas en cuanto a la vi-sualizacion de datos, algunas de las mas comunesson las graficas de columnas o graficos de barras,graficos de linea, graficos circulares o graficos depastel, graficos de dispersion, graficos de burbujas,sabanas o graficos de superficie entre otras opciones

mas. Cada una de estas alternativas puede serutilizada segun la naturaleza de los datos que sepresenten, por ejemplo, en donde los datos son por-centajes complementarios al 100%, se puede usarel grafico circular, los graficos de linea son comunespara series temporales, los de barra para frecuen-cias, en ciertos cuerpos de datos puede usarse al-ternativamente entre barras y lineas e incluso setraslapan ambos. Las opciones se utilizan a criteriodel analista de datos.

En este artıculo abordamos un tipo de datos que seha desarrollado desde los anos noventa, nos referi-mos a los Treemaps, o Mapas Jerarquicos.

2. Descripcion de un Treemap

Los Treemaps son una alternativa de desarrolloreciente, cuya utilidad es graficar grandes canti-dades de datos organizados de forma jerarquica.

Existen distintas descripciones de un Treemap,pero una de las mas explıcitas lo define ası:

“Los Treemaps son una tecnica popular para vi-sualizar datos jerarquicos. La entrada es un arbol

ponderado T donde el peso de cada nodo es lasuma de los pesos de sus hijos. Un treemap paraT es una particion jerarquica de un rectanguloen regiones simplemente conectadas, generalmenterectangulos. Cada region representa un nodo de Ty el area de cada region es proporcional al peso delnodo correspondiente” [dBer11] (p.683)

Esta definicion del Treemap se auxilia del conceptode arbol ponderado, cuyo uso viene de la Teorıa de

∗Egresado de Facultad de Ciencias UNAM.Desarrollo de Software.E-mail: [email protected]



Grafos, rama de la Matematica Discreta.

Una manera mas inmediata aunque menos ex-acta de definirlos, es basada con varias fuentes enlınea, las cuales describen a un Treemap como unarepresentacion visual de datos donde se rellena unrectangulo para visualizar datos jerarquicos. Eltamano de los nodos individuales (los cuales sonrectangulos) se determina proporcionalmente en

relacion con todos los demas nodos de la jerarquıamediante un atributo del nodo.

Como todo metodo de visualizacion de datos, paragraficar un Treemap necesitamos elementos de par-tida, un cuerpo de datos, un area para plasmarlosy un metodo para relacionar los anteriores dos ele-mentos. De estos elementos de partida hablaremosen las secciones siguientes.

3. Elementos de Inicio

Debemos identificar al inicio con los siguientes elementos para crear un grafico Treemap.

El cuerpo de datos tiene las siguientes caracterısticas:

• Siempre partimos de nuestro cuerpo inicial de datos, corpus incial o corpus de datos, el cual denota-mos como K y que consta de n datos di con i ∈ {1, . . . , n}

• Cada dato di de K es un arreglo que se compone de los siguientes elementos, una variable numericade interes k(i) tal que k(i) ∈ R+ , donde tal variable esta asociada con una o mas variables categoricasde interes vα(i) con α ∈ I, I un conjunto de ındices.

• Una de las variables categoricas vα∗ debe tener n categorıas distintas, es decir, no se repiten. Elresto de las variables categoricas vα si las hubiera, pueden repetir sus categorıas.

• Independientemente del orden en los elementos del corpus K que el investigador haya manejadopara sus objetivos, para construir el Treemap debemos tener un orden propio sobre la variablenumerica para graficar, el usual es el ordenamiento clasico de mayor a menor.

El area para graficar se describe como sigue:

• El area para graficar por lo general es un rectangulo, la llamaremos area inicial, y representa unarea de 100% del total de K. La podemos denotar como Ro.

• El Treemap es una P[Ro] (particion de Ro) que resulta en n areas contenidas en el area inicial lascuales deben tener forma rectangular. A tales areas les llamaremos subrectangulos, y se representancomo Ri con i ∈ {1, . . . , n}.

• Tenemos que ∀Ri,∃ di ∈ K con i ∈ {1, . . . , n} tal que Ri es representante de la categorıa asociada adi. La categorıa es la variable vα∗ que mencionamos, no se repite.

• Simultaneamente ∀ di ∈ K,∃Ri tal que la categorıa asociada vα∗ al dato di es representada por Ri.



• De este modo hay una correspondencia biunıvoca entre P[Ro] y las categorıas de vα∗ asociadas a losdatos en K.

• Al ser cada Ri resultado de una particion de Ro, tiene un area fija la cual sera determinada por lavariable numerica k(i) asociada a di del cual Ri es representante. Es decir la utilidad de la variablenumerica es determinar las areas de los subrectangulos representantes. Las areas seran denotadascomo a(Ri).

• Los puntos anteriores podrıan ser comunes a varios modelos de graficos.

• Entre los Ri no existen espacios vacıos. Este ultimo punto no es comun en otros tipos de grafico, eslo que caracteriza al Treemap.

Observaciones:

• Mencionamos que el corpus K debe tener una variable numerica ki , sin embargo en la practicaencontramos cuerpos con mas de una variable numerica de datos, pero nos referimos a que solo unade ellas es de nuestro interes.

• En el corpus K podemos ver que con la indexacion de i ∈ {1, . . . , n} se forman vectores numericoscon la variable numerica k(i) y las variables de datos categoricos tambien forman vectores de datoscategoricos. Cada vector tiene longitud n, esto es consecuencia de que di sea un arreglo de datos.

• Por lo anterior, podemos interpretar en terminos algebraicos K como una matriz, cuyos renglonesson los datos y las columnas son los vectores de datos.

• En terminos informaticos K es una base de datos indexada con la variable i cuyas columnas definenlas variables con las caracterısticas ya mencionadas.

• Estas precisiones seran de importancia en el manejo de los datos los cuales pueden estar actu-alizandose dinamicamente.

Nos falta describir el metodo pero explicaremos con ejemplos algunos conceptos previos y haremos algunaaplicacion.

4. Ejemplos de corpus y aplicacion de un Treemap

Como ejemplos de corpus de datos tenemos los siguientes:

• El total de arboles plantados (variable numerica) en cada colonia (variable categorica) con finesplaneacion urbana.

• El numero muestras observadas de alguna especie (variable numerica) en distintos transectos (va-riable categorica) de un reserva ecologica con fines ecologicos.



• El total de pesos gastados por dıa (variable numerica) en 547 productos distintos (variable categorica),a su vez clasificados por tipos de producto como alimentos, vestido, o ferreterıa (variable categorica).

Observamos en estos ejemplos que existe una variable numerica de interes y al menos una variablecategorica que no se repite y nos sirve como identificador del dato, tal como se menciono en los puntosanteriores de la seccion 2 . Veamos una aplicacion con Treemaps.

De la Direccion General de Epidemiologıa [SS19] , tenemos en el cuadro 1 los registros por EntidadFederativa de casos confirmados de enfermedad por Infeccion de Virus del Zika desde 2015 hasta abril2019. A esa fecha se confirmaron en total 12,809 casos, y cada entidad tiene un porcentaje asociado del100% nacional.

Entidad Casos Zika Porcentaje Entidad Casos Zika Porcentaje01 Aguascalientes 1 0.01% 18 Nayarit 707 5.5%02 Baja California 3 0.02% 19 Nuevo Leon 950 7.4%03 Baja California Sur 114 0.9% 20 Oaxaca 519 4.1%04 Campeche 94 0.7% 21 Puebla 225 1.8%05 Coahuila 336 2.6% 22 Queretaro 17 0.1%06 Colima 297 2.3% 23 Quintana Roo 388 3.0%07 Chiapas 821 6.4% 24 San Luis Potosı 532 4.2%10 Durango 5 0.04% 25 Sinaloa 313 2.4%11 Guanajuato 5 0.04% 26 Sonora 437 3.4%12 Guerrero 887 6.9% 27 Tabasco 375 2.9%13 Hidalgo 285 2.2% 28 Tamaulipas 802 6.3%14 Jalisco 634 4.9% 30 Veracruz 2,103 16.4%15 Mexico 48 0.4% 31 Yucatan 1,325 10.3%16 Michoacan 70 0.5% 32 Zacatecas 1 0.01%17 Morelos 515 4.0% Nacional 12,809 100%

Cuadro 1: Casos confirmados de enfermedad de Zika por Entidad hasta abr. 2019

El cuadro 1 es un corpus Z de 29 datos di, 1 ≤ i ≤ 29 . Cada di es un arreglo de variables de naturalezadistinta, dos categoricas y dos numericas, por ejemplo d12 = (14, Jalisco, 634, 4.9%) es uno de los 29 datos.Si deseamos graficar los porcentajes por entidad debemos identificar las variables de interes, por lo que lavariable numerica de interes k12 = 4.9% y la variable categorica de interes es v12 = Jalisco. Observamosque k12 ∈ R+ tal cual se pide como requisito.

No es el caso de este corpus Z , pero pudiese darse casos en lo que el corpus K de datos tenga masde una variable categorica asociada vα(i) y serıa valida la posibilidad de que repitan las categorıas enesas nuevas variables (por ejemplo si tuvieramos regionalizacion con las categorıas “Sur, Centro, Norte”,pudiese haber mas de un dato con la variable “Sur”). Lo importante es que en todo corpus K haya siempreal menos una variable categorica vα∗ donde las categorıas no se repitan, en el caso de Z son las entidadeslas que no se repiten.

Usualmente se representan los datos desagregados que, sumados son un 100%, como un grafico de barrao de pastel, en la figura 1 se muestra el modelo Treemap.



Figura 1: Casos confirmados de zika en Mexico por Entidad

En la figura 1 tenemos un area inical Ro con una particion P[Ro] cuya area es 100% del total de lavariable numerica de Z, los porcentajes de infeccion por zika. El Treemap tiene 29 subrectangulos Ri ⊂Ro que son representantes de las categorıas asociadas a Z, es decir, las entidades.

Como se menciono en la seccion 3 , la utilidad de la variable numerica es determinar las areas desus categorıas asociadas. En la figura 1 cada Ri tiene un area determinada por la variable k(i) asoci-ada al dato di para representar a la categorıa vα∗. Si tenemos que a(Ro) = 500 y consideramos d16 =(18, Nayarit, 707, 5.5%), el area necesaria para representar a Nayarit es a(R16) = k16 a(Ro) = 5.5% x 500.

Entre los Ri no existen espacios vacıos, este aspecto es caracterıstico de los Treemaps.

Hasta este punto en el artıculo ejemplificamos la naturaleza del corpus y del area para graficar. Aunqueotros modelos de graficas comparten caracterısticas ya descritas, para lograr la ausencia de espaciosvacıos y la proporcion equilibrada del grafico, falta describir al metodo y en ello nos encaminamos en-seguida.



5. Radio de un rectangulo

Uno de los conceptos pilares en la construccion de un Treemap, es el radio de un rectangulo [BSW02].

Sea R un rectangulo, definimos el radio de R ( denotado r(R) ) como elmaximo siguiente:

r(R) = max

{ancho(R)altura(R)

,altura(R)ancho(R)

}

Observaciones:

• r(R) ≥ 1

• r(R) = 1 cuando R es un cuadrado.

• r(R) ≈ 1 cuando R se parezca a un cuadrado.

• Si R es muy ancho (o muy alto) tiene radio con valor lejano a la unidad.

• Si fijamos a∗ ∈ R+ existen ℵ1 rectangulos R donde a(R) = a∗

• Si fijamos r∗ ≥ 1 existe solo un rectangulo R∗ con a(R∗) = ao r(R) = r∗. A lo mas se puede afirmarque existen dos, si diferenciamos los rectangulos al girar su posicion vertical y horizontal.

Figura 2: Rectangulos con igual magnitud de area, con radios distintos



6. Radio de un rectangulo en Treemaps

Explicamos en la seccion 3 que en el dato di, la ca-tegorıa asociada vα∗(i) tiene como representante unsubrectangulo Ri ⊂ Ro y su area se determina conayuda de la variable numerica asociada k(i), ası semide el peso de la categorıa. Este objetivo es comuna varios modelos de graficas.

Debemos evitar espacios vacıos entre los sub-rectangulos Ri. Este objetivo es una particularidaden los Treemaps.

Varios rectangulos tienen la misma area, ası quepara evitar espacios vacıos debemos restringir losrectangulos posibles, para esto nos auxiliamos delconcepto de radio de un rectangulo. Ası que dadoel corpus de n datos K debemos construir los repre-sentantesRi no solo considerando su area, tambiendebemos hallar n radios distintos asociados a cadaRi, de modo que no queden espacios vacıos en Ro.

7. Diseno en Treemaps

En este punto se resolvio el aspecto de la repre-sentatividad de los datos, y tambien se logro laausencia de espacios vacıos. Pero existe un ob-jetivo adicional muy importante que caracteriza alos Treemaps, se trata del diseno en el Treemap atraves del ordenamiento de los subrectangulos Ri.

La motivacion del diseno no es exclusivamenteestetica, sino que con el orden de cada Ri se buscauna mayor comprension del cuerpo de datos con el

mınimo esfuerzo visual y en reducido tiempo (verfigura 1 ).

Se desea un grafico bien equilibrado visualmente,sin descuidar el tamano adecuado en las areas re-presentantes de los datos, haciendo aun mas efi-ciente el uso del espacio disponible.

Mencionaremos algunas ventajas y desventajas delos Treemaps.



8. Ventajas y Desventajas de Treemaps

Podemos observar de la figura 3 las siguientes ventajas:

• Los Tremaps proporcionan visualmente una mejor vista general de los cuerpos de datos en com-paracion de otros modelos de grafico.

• Una de las principales ventajas de los Treemaps es que la vista puede moverse con facilidad dearriba a abajo, o de derecha a izquierda, en un plano bidimiendsional.

• Como no hay espacios vacıos entre representantes, se usa el 100% del espacio disponible, y comousualmente el area inicial es un rectangulo, se optimiza mejor el espacio bidimensional. Podemosver en la figura 3 que el grafico Treemap es el modelo que usa todo el espacio asignado.

• En el grafico de barras, conforme decrece la variable numerica k(i) se forman espacios vacıos que noson aprovechados, en consecuencia hay menor area utilizada dificultando la visualizacion en todaslas categorıas, especialmente las menores. En el grafico de pastel si bien no existen espacios vacıosentre categorıas, hay espacio no utilizado por la naturaleza geometrica del cırculo, nuevamente setraduce en dificultad para visualizar los datos.

• En Treemaps, se logra que los datos menores logren ser mejor visualizados contra lo que sucede entipo de graficos como pastel o el de barras. Se ve en la figura 3 que en los modelos de barras y pastel,las categorıas medianas se pueden apreciar menos que lo que las muestra el Treemap.

• En estos casos se puede recurrir a herramientas como ‘acercamientos’ o ‘programacion’ pero se nece-sitan recursos como espacio extra o mayor esfuerzo visual, tiempo-usuario. Tambien se puedenreducir los espacios de categorıas mayores para los acercamientos de las menores, este problemaaumenta si necesitamos espacio para incluir notas en los acercamientos.

• Debido a la construccion por area, se logra que la vista vaya inmediatamente a los elementos demayor importancia.

• Debido al diseno por orden, se logra que el ojo del observador se dirija en un curso logico en el plano.

• Debido al agrupamiento de los rectangulos por categorıa, se puede visualizar mejor los agrupamien-tos, esto lo mostramos mas adelante.

• Los Treempas son de los modelos graficos donde las ventajas deseadas pueden convivir mejor, esdecir, se pueden estar presentes sin que una ventaja afecte notablemente a alguna otra.

Tambien presentan algunas desventajas

• Como todo modelo de datos, el Treemap tiene limitaciones, tales limitaciones se presentan cuandose incrementa el numero de datos y, por lo tanto, el numero de rectangulos.

• Cuando hay gran cantidad de datos, existen herramientas para visualizar a los elementos menores ycuantiosos, pero el grafico debemos pensarlo ya no en un plano, sino en elementos como animacioneso acercamientos interactivos, lo cual ocasiona perida del contexto en el orden.



• La desventaja que tiene es la visualizacion comparativa contra otras opciones, el grafico de barrases mejor comparando graficamente las categorıas.

Presentamos varios modelos de grafico para el mismo corpus de datos, que presentamos en el cuadro 1 .Podemos notas ventajas y desventajas de cada tipo de grafico.

(a) Grafico de Pastel (b) Acercamiento en Grafico de Pastel

(c) Grafico de Barras (d) Treemap

Figura 3: Comparativo de modelos de graficacion del mismo korpus de datos

Hemos descrito las caracterısticas del corpus, y del area inicial, resta describir el metodo de graficacion.Estamos por describir los algoritmos de construccion de Treemaps.



9. Algortimo Base por Pivoteo para construir Treemaps

Nos faltaba describir el metodo para construir Treemaps, por ello era importante el concepto de radiode un rectangulo y el diseno de un Treemap. En esta seccion describimos el Algoritmo Base por Pivoteopara construir un Tremap, el cual es en realidad una generalizacion de tres algoritmos.

Los algoritmos de cualquier naturaleza y en toda aplicacion tienen elementos base: objetivo del al-goritmo, los datos de entrada, numero finito de pasos, pasos bien definidos, pasos relacionados, pasosordenados, ausencias aleatorias, y un resultado final. Cada paso se clasifica como secuencial, de decisiono de repeticion. Para los mismos datos de entrada siempre terminamos con la misma salida.

El algoritmo por Pivoteo para Treemaps ordena metodicamente los subrectangulos Ri mas no sigue unordenamiento lineal, tiene semejanzas con el algoritmo de ordenamiento QuickSort, ya que selecciona delcorpus K de datos un elemento pivote y se divide al resto de datos di en subcorpus mas pequenos sobre loscuales se repetira el algoritmo de ordenacion. Llamaremos al pivote dp y a su representante Rp.

Los tres algoritmos se distinguen entre sı segun se haga la eleccion de dp. Existen tres estrategias deeleccion ∗ y de ahı resultan los tres algoritmos.

El algoritmo base por pivoteo, se puede consultar de [BSW02] y en este artıculo lo precisaremos con loselementos algorıtmicos de [For03] (pp. 141-150) para adaptar su descripcion a una estructura algorıtmica.

El algoritmo Base por Pivoteo para construir Treemaps:

Tenemos como dato de entrada el corpus de datos K con el orden bajo la variable numerica; tenemosel area inicial Ro sobre la cual deseamos plasmar los datos di.

El objetivo resultado del algoritmo es la particion de Ro con los representes Ri de los datos, con lascaracterısticas del Treemap.

Los pasos a seguir son:

Paso 1 El algoritmo da inicio calculando la cardinalidad #[K]

∗Las estrategias son Split-Size, Middle, Size, las cuales describimos mas tarde.



Paso 2 Si #[K] ≤ 4 se decide de entre los tres modelos de Treemaps de la figura 4 para representar estosdatos y paramos el algoritmo ignorando los pasos siguientes.

(a) Pivot (b) Quad (c) Snake

Figura 4: Opciones para parar algoritmo con 4 datos como maximo

Paso 3 Si #[K] > 4 se elige de los datos di un elemento para el pivote, lo identificamos como dp.

Paso 4 Se construye Rp, el representante de dp, con un radio r(Rp) = 1 , o r(Rp) ≈ 1 en la medida de loposible.

Paso 5 Sea Lmax = max{ancho(Ro),alto(Ro)}

Paso 6 Se coloca Rp sobre Lmax subdividiendo Ro como se muestra en la figura 5. De este modo sedefinen cuatro subareas Rp,A1,A2,A3 de las cuales solo sabemos que Rp consta de un unicosubrectangulo. Las subareas A1,A2,A3 albergaran al resto de di y cada una de estas tres puedecontener mas de un representante Ri.

Figura 5: Subdivision de una region con base en la eleccion de dp

Paso 7 Se dividira al resto de los di del corpus K en tres subcorpus K1,K2,K3 los cuales pudiesen servacıos. La division es como sigue.

Paso 8 El subcorpus K1 son los datos cuyos representantes Ri rellenan la subarea A1, K2 son los datoscuyos representantes Ri rellenan la subarea A2 y K3 son los datos cuyos representantes Ri relle-nan la subarea A3.

Paso 9 Los datos del subcorpus K1 tienen como caracterıstica comun que su variable numerica es menora la variable numerica del pivote dp .

Paso 10 Con el resto delK se forma el subcorpusK2 para rellenarA2. Se verifica con las areas acumuladasque no dejen espacios vacıos ni desborden a(A2)

Paso 11 El subcorpus K3 se define como K3 = (K1 ∪ K2)c en el universo de K de modo que se forma con el

resto de los di. Este subcorpus tiene como caracterıstica que sus variables numericas son mayoresque las variables numericas asociadas a los datos de los demas subcorpus y el pivote



Paso 12 Con la asignacion de cada subcorpus a su respectiva subarea, tenemos los elementos previos alPaso 1. Un corpus de datos para rellenar un rectangulo.

Paso 13 En cada subarea se repite recursivamente el presente algortimo desde el Paso 1, eligiendo encada subcorpus un pivote nuevo.

Paso 14 Se detiene el algoritmo hasta que todas las subareas contenidas en Ro cumplan con lo que sedescribe en el Paso 2

Paso 15 Se llega al fin del algoritmo. El resultado es la particion de Ro con las caracterısticas de unTreemap, representando a K con un mapeo rectangular

Tenemos las siguientes observaciones:

• Los subcorpus K1,K2,K3 pudiesen ser listas vacıas.

• Con frecuencia se requiere redefinir las dimensiones de las subareasRp,A1,A2,A3 (figura 5 ) ya quela inclusion o exclusion de cada di afecta en las dimensiones de las mismas, ello nos impone a hacermultiples ajustes simultaneos mientras se ejecuta el algoritmo.

• Aunque procuramos que r(Ri) ≈ 1 no siempre es posible, por lo que algunos elementos tendranradios lejanos a 1.

• Para los criterios de parada hay que elegir entre las opciones pivot, quad o snake (figura 4 ) evitandoradios grandes. Se hace presente esta eleccion en los ultimos pasos del algoritmo.

• El paso 2 es una estructura de decision∗ , porque debemos probar una condicion para saber si setermina el algoritmo o se continua el pivoteo.

• El paso 13 es una estructura de repeticion∗ , porque describe el modo de ejecutar nuevamente elalgoritmo en varios subcorpus internamente.

• Los demas pasos son estructuras secuenciales∗ . Son pasos simples del sistema algorıtmico

• Cuando tenemos un subcorpus con 4 elementos o menos debemos revisar entre las opciones Split-Size, Middle, Size, para tomar la mejor decision procurando que los radios de los subrectangulossean ≈ 1. En este caso tambien tenemos una estructura de decision ∗ .

• En la practica se presentan muchas restricciones impuestas que en la teorıa no estaban presentes,como errores acumulados en el redondeo de cocientes, acumulacion de errores de calculo en elcomputo, acumulacion de redondeos en areas, etc ... Y estos problemas son notorios en los ultimospasos, lo cual dificulta tener siempre radios ≈ 1.

∗En todo algoritmo, cada paso o estructura se clasifica del siguiente modo

1. La primera estructura se llama secuencia. Un algoritmo es una secuencia de instrucciones, la cual puede ser ya una in-struccion simple o cualquiera de las dos estructuras siguientes.

2. En ocasiones debemos probar una condicion, si el resultado de la prueba es verdadero, seguimos una secuencia de instruc-ciones, si es falso, seguimos una secuencia de instrucciones diferente. A esto se le llama estructura de seleccion o decision.

3. En algunos problemas, debe repetirse la misma secuencia de instrucciones, esto se logra con la estructura de repeticion



10. Estrategias de Pivoteo

Hay tres estrategias de eleccion del pivote que necesita el algortimo base y cada una tiene un proposito,de estas resultan los tres algoritmos. Describimos cada una en este apartado.

Pivot-by-Split-Size Se elige dp de modo que las subareas a(A1) ≈ a(A2) ≈ a(A3). El objetivo de estaestrategia es que el Treemap tenga un aspecto balanceado basandonos en las subareas (figura 6 a ).

Pivot by Middle Si tenemos #[K] = n , se elige dp de modo que sea el n2 -esimo elemento de K (n−12 si n es

impar). El objetivo de esta estrategia de eleccion del pivote es faciltar la actualizacion del Treemapcuando se actualize el corpus K, ya que cada subarea tiene preasignados el mismo numero de datos,y los mismos datos di, en consecuencia se eligen siempre los mismos pivotes. Las elecciones de lospivotes dependen de #[K] y no de las magnitudes en los datos. El aspecto balanceado es menosprobable de lograr respecto a las otras dos estrategias. (figura 6 b ).

Pivot-by-Size Se elige como pivote al dato di con el mayor valor numerico asociado, en consecuencia nosdefinira a un rectangulo pivote Rp con la mayor area posible a[Rp]. Esta estrategia de eleccion vaencaminada a la facilidad de rellenar con prontitud las areas, ya que al ser el pivote con area mayor,es mas difıcil de acomodar. (figura 6c ).

Observamos que el orden desde el valor mayor hasta el menor, de la variable numerica, es indispensablepara iniciar la eleccion del pivote, en cualquiera de las tres estrategias..

¿Sabıas que?

El mınimo numero de colores para rellenar un mapa y no compartir color en regiones con fronteracomun, es de cuatro.

Nos basamos en el Teorema de los cuatro colores [Pae05] que afirma lo anterior. Es un teoremaque se usa para estudiar mapas.

Al decir ‘mapas’ no hacemos referencia al concepto cartografico, sino al punto de vista topologico,o el concepto que usa la Teorıa de Grafos, ya que son conceptos que ajustan mejor a los Treemaps.

No hay regla para colorear Treemaps, incluso hay Treemaps que se rellenan con un solo color.La eleccion de colores para el Treemap queda a eleccion del disenador o el investigador. Para losejemplos de pivoteo en este trabajo se prefiirio usar cuatro colores en cada Treemap, con el fin deno incluir lıneas divisorias entre representantes, y no tener dos representates con frontera comundel mismo color.



11. Aplicacion de Treemap con Pivoteo

Ya contamos con que el investigador tenga ordenados los datos con base en su variable numerica y tengaidentificada el area numerica que representara a cada uno de ellos.

Tenemos el siguiente corpus de datos, con la poblacion mexicana en 2015 por entidad, extraıda del Censode Poblacion y Vivienda [inegi15] (cuadro 2 ). Hicimos una regionalizacion hipotetica con seis categorıas,Nororiente Norponiente, Poniente, Oriente, Centro y Sur.

Entidad Region Poblacion 2015 Porcentaje 17 Morelos Centro 1,903,811 1.6%01 Aguascalientes Poniente 1,312,544 1.1% 18 Nayarit Poniente 1,181,050 1.0%02 Baja California Norponiente 3,315,766 2.8% 19 Nuevo Leon Nororiente 5,119,504 4.3%03 Baja California Sur Norponiente 712,029 0.6% 20 Oaxaca Sur 3,967,889 3.3%04 Campeche Oriente 899,931 0.8% 21 Puebla Centro 6,168,883 5.2%05 Coahuila Nororiente 2,954,915 2.5% 22 Queretaro Centro 2,038,372 1.7%06 Colima Poniente 711,235 0.6% 23 Quintana Roo Oriente 1,501,562 1.3%07 Chiapas Sur 5,217,908 4.4% 24 San Luis Potosı Nororiente 2,717,820 2.3%08 Chihuahua Norponiente 3,556,574 3.0% 25 Sinaloa Norponiente 2,966,321 2.5%09 Ciudad de Mexico Centro 8,918,653 7.5% 26 Sonora Norponiente 2,850,330 2.4%10 Durango Norponiente 1,754,754 1.5% 27 Tabasco Oriente 2,395,272 2.0%11 Guanajuato Poniente 5,853,677 4.9% 28 Tamaulipas Nororiente 3,441,698 2.9%12 Guerrero Sur 3,533,251 3.0% 29 Tlaxcala Centro 1,272,847 1.1%13 Hidalgo Centro 2,858,359 2.4% 30 Veracruz Oriente 8,112,505 6.8%14 Jalisco Poniente 7,844,830 6.6% 31 Yucatan Oriente 2,097,175 1.8%15 Mexico Centro 16,187,608 13.5% 32 Zacatecas Nororiente 1,579,209 1.3%16 Michoacan Poniente 4,584,471 3.8% Nacional 119,530,753 100%

Cuadro 2: Poblacion por Entidad, Encuesta Intercensal 2015

En este cuadro tenemos dos mınimas categorıas, una no se repite (las entidades) y ademas la variablenumerica que nos define el area de los representantes (como se requiere en la seccion 3 ). Enseguidatenemos los tres Treemap por pivoteo para representar la poblacion por entidad.

En el caso de la estrategia de pivoteo Split-Size (figura 6 a ) elegimos sobre la suma de areas acumu-ladas, al pivote que divide al corpus en areas balanceadas.

• Sabemos las dimensiones de Ro

• Ordenando K desde la entidad con la poblacion maxima que es Estado de Mexico, hasta la poblacionmınima que la tiene Colima, el dato que balancea las areas cerca de la mitad, le corresponde aChiapas . Se fijan las dimensiones de RChis procurando que r(RChis) ≈ 1.

• Identificando Lmax de acuerdo al paso 5 del algoritmo, se conoce la ubicacion de las subareasRChis,A1,A2 y A3.

• Con la eleccion del pivote, se conocen los elementos que pertenecen a K1, por lo que A1 contiene aRMex,Rcdmx,RV er,RJal,RPue,RGto.


(a) Split-size

(b) Middle

(c) Size

Figura 6: Treemaps Poblacion 2015, con distintas estrategias de eleccion de pivote


• Con la suma acumulada de los representantes, divida entre altura(Ro) se puede saber ancho(A1) ypor tanto la ubicacion exacta de RChis.

• Como altura(A2) = altura(Ro) − altura(RChis); ancho(A2) = ancho(RChis) . Entonces conocemoslas dimensiones de A2 y con las sumas acumuladas de las areas restantes, podemos conocer loselementos de K2.

• En A2 tenemos contenidos a los representantes RNL,RMich,ROax,RChih. La forma de saberlo esmediante sus areas acumuladas, verificando que no desborden ni dejan espacios vacıos con las di-mensiones ya conocidas.

• Resta que K3 = (K1 ∪ K2)c en el universo de K, con este subcorpus se rellena la subarea A3.

• Tenemos tres subareas Ai para ser rellenadas con tres definidos subcorpus Ki, i ∈ {1, 2, 3} por tantose debe repetir el algoritmo internamente en cada subarea.

• Al repetirse el algoritmo dentro de las subareas, se buscan los pivotes que balanceen los subcorpusinternamente (por haber elegido la estrategia Split-Size), por lo que en A1 el pivote se asigna aCiudad de Mexico, en A3 el pivote es Sonora.

• En A2 no se asigno pivote, la razon de ello es que #[A2] ≤ 4 y de acuerdo al paso 2 del algoritmo,nos encontramos en condicion de terminar el algoritmo en esta subarea, en este caso se ordeno elsubcorpus A2 con la opcion Snake (figura 4 c).

• En las subareas A1 y A3 se localiza su lado Lmax y se coloca su respectivo pivote, se localizan lasnuevas subareas.

• Terminamos hasta que en vez de pivotes, solamente hallemos subareas con menos de 5 represen-tantes y ası, usamos alguno de los criterios de parada en la figura 4.

En el caso de la estrategia de pivoteo Middle (figura 6 b ) elegimos el dato localizado al centro de cadacorpus.

• Sabemos las dimensiones de Ro

• Ordenando K desde la entidad con la poblacion maxima que es Estado de Mexico, hasta la poblacionmınima que la tiene Colima, el dato que esta al centro de la lista es Coahuila, ası que se elige comopivote. Se fijan las dimensiones de RCoah procurando que r(RCoah) ≈ 1.

• Identificando Lmax de acuerdo al paso 5 del algoritmo, se conoce la ubicacion de las subareasRCoah,A1,A2 y A3.

• Con la eleccion del pivote, se conocen los elementos que pertenecen a K1, por lo que A1 contiene aRMex,Rcdmx,RV er,RJal,RPue,RGto,RChis,RNL,RMich,ROax,RChih,RGro,RTamps,RBC ,RSin.

• Con la suma acumulada de los representantes, divida entre altura(Ro) se puede saber ancho(A1) ypor tanto la ubicacion exacta de RCoah

• Como altura(A2) = altura(Ro) − altura(RCoah); ancho(A2) = ancho(RCoah) . Entonces conocemoslas dimensiones de A2 y con las sumas acumuladas de las areas restantes, podemos conocer loselementos de K2.

• En A2 tenemos contenidos a los representantes RHgo,RSon,RSLP ,RTab,RY uc. La forma de saberloes mediante sus areas acumuladas, verificando que no desborden ni dejan espacios vacıos con lasdimensiones ya conocidas

• Resta que K3 = (K1 ∪ K2)c en el universo de K, con este subcorpus se rellena la subarea A3.



• Tenemos tres subareas Ai para ser rellenadas con tres definidos subcorpus Ki, i ∈ {1, 2, 3} por tantose debe repetir el algoritmo internamente en cada subarea.

• Al repetirse el algoritmo dentro de las subareas, se buscan los pivotes que quedan al centro de lossubcorpus internamente (por haber elegido la estrategia Middle), por lo que enA1 el pivote se asignaa Nuevo Leon, en A2 el pivote se asigna a San Luis Potosı y en A3 el pivote es Aguascalientes.

• En cada subarea se localiza su lado Lmax y se coloca su respectivo pivote, se localizan las nuevassubareas.


En el caso de la estrategia de pivoteo Size (figura 6 c ) elegimos al valor maximo de cada corpus.

• Sabemos las dimensiones de Ro• Tenemos que el pivote principal se asigna al Estado de Mexico por tener la mayor poblacion, se fijan

las dimensiones de RMex, procurando que r(RMex) ≈ 1.

• Observamos que en esta estrategia el subcorpus K1 es vacıo. La razon de ello es que el Paso 9del algortimo describe a K1 como los elementos cuya variable numerica es ordinalmente menor queaquella relacionada al pivote, debido a que elegimos en este caso al elemento con mayor poblacion,no habra ordinalmente entidades previas al Estado de Mexico y ası, no existen elementos en K1.

• El punto anterior se aplica para todos los subcorpus, solo se manejan en esta estrategia K2 y K3, noconstruyendose las subareas A1, solamente A2 y A3 .

• Identificando Lmax en Ro de acuerdo al paso 5 del algoritmo, se conoce la ubicacion de las subareasRMex,A2 y A3.

• Como ancho(RMex) = ancho(A2); altura(A2) = altura(Ro) − altura(RMex), entonces se tienen lasdimensiones aproximadas de A2.

• Con estas dimensiones se pueden establecer los subcorpus K2 y K3.

• En A2 se contiene a los representantes Rcdmx,RV er,RJal. La forma de saber los elementos quepretenecen a este subcorpus K2, es verificando que las areas acumuladas no desborden ancho(A2).

• Solamente resta que K3 = Kc2 en el universo de K, con este subcorpus se rellena la subarea A3.

• Tenemos dos subareas Ai para ser rellenadas con dos definidos subcorpus Ki, i ∈ {2, 3} por tanto sedebe repetir el algoritmo internamente en cada subarea.

• Al repetirse el algoritmo dentro de las subareas, se buscan los pivotes cuya area es mayor o el estadocuya poblacion es mayor internamente (por haber elegido la estrategia Size).

• En A2 solo hay tres datos, entonces allı se detiene internamente el algoritmo; en A3 el pivote seasigna a Puebla y ahı se sigue internamente el algoritmo .

• En cada subarea se localiza su lado Lmax y se coloca su respectivo pivote, se localizan las nuevassubareas.


Es notorio que en el pivoteo, la logica del arreglo de los datos es no-lineal. En este punto logramos ilustraral lector este tipo de arreglo no-lineal para construir Treemaps para cada estrategia.



12. Diagramas del algoritmo

Tenemos la estrategia split-Size en la figura 7, los pivotes son Chiapas, Ciudad de Mexico, Sonora,Tamaulipas, Durango y Tlaxcala. Se identifica en las lıneas direccionales bajo los pivotes las subareasdonde se ubican las demas entidades. El Treemap correspondiente es la figura 6 (a).

Figura 7: Estrategia de Pivoteo Split-Size



Tenemos la estrategia Middle en la figura 8, los pivotes son Coahuila, Nuevo Leon, Jalisco, San LuisPotosı, Aguscalientes y Durango. Se identifica en las lıneas direccionales bajo los pivotes las subareasdonde se ubican las demas entidades. El Treemap correspondiente es la figura 6 (b).

Figura 8: Estrategia de Pivoteo Middle



Tenemos la estrategia Size en la figura 9, los pivotes son Mexico, Puebla, Michoacan, Tamaulipas,Coahuila, San Luis Potosı, Queretaro, Zacatecas y Aguscalientes. Se identifica en las lıneas direccionalesbajo los pivotes las subareas donde se ubican las demas entidades, no se dirigen entidades hacia A1 adiferencia de las otras dos estrategias. El Treemap correspondiente es la figura 6 (c).

Figura 9: Estrategia de Pivoteo Size



13. Treemaps con Categorıa

En ocasiones tenemos que algunos de nuestros datos tienen una clasificacion cualitativa y deseamospreservarla en nuestros grafcos. Los Treemaps tambien ofrecen esa posibilidad, respetar la categorıa conque se clasifica cualitativamente el corpus. Si se desea graficar mas de una variable categorica, primerose agrupan los datos en el corpus con las categorıas que abracan mas de una subcategorıa, hasta llegar ala variable indicadora que no se repite.

Por ejemplo si del cuadro 2 deseamos hacer una catego-rizacion por region, primero debemos reordenar el corpuscon base en la categorıa de region, e internamente orde-namos por poblacion. Con este nuevo orden, se realizaprimero la suma acumulada de la poblacion por region;ası tenemos que en la region Norponiente se acumula el12.68% de la poblacion, en el Nororiente el 13.23%, en elPoniente el 17.98%, el Centro contiene 32.92% abarcandola mayor parte, el Oriente tiene un 12.55% y finalmente laregion Sur tiene el 10.64% de la poblacion. Figura 10: Mapa por Region

Se hace primero un Treemap donde cada representante Ri no representa a la poblacion, sino la sumaacumulada de la poblacion por region (los porcentajes del parrafo anterior). Despues se hace en cada Riun Treemap interno para repesentar a la variable numerica, ahora sı la poblacion por entidad.

Figura 11: Poblacion 2015 por Region



14. Conclusiones

Las figuras 7 , 8 y 9 nos sugieren hacer una revision de las estructuras de datos en informatica paraestudiar las caracterısticas en los Treemaps, particularmente de las estructuras en arbol.

En la figura 3 se contrastaron diversas ventajas y desventajas de los Treemaps. Podemos agregar algu-nas mas en el caso de que nuestros datos representen regiones geograficas si comparamos las figuras 10y 11. Los Treemaps tienen como ventaja que tambien optimizan el area disponible en comparacion de unmapa cartografico, el mapa nos restringe a visualizar areas enormes a pesar de que signifiquen poco en suvariable numerica, y el mapa nos impide ver areas muy pequenas aun si son importantes numericamente,el Treemap resuelve estas desventajas. La desventaja de un Treemap es que cambia la ubicacion de lasareas geograficas que respeta un mapa cartografico.

Sin duda los Treemaps son un tipo de grafico aun poco explorado. Ofrece diversas ventajas que puedenser explotadas por los disenadores graficos, desarrolladores de plataformas, desarrolladores de aplica-ciones. Con toda certeza se puede afirmar que en el desarrollo web y en la animacion, puede usarse nosolamente de modo grafico sino de modo interactivo para explorar datos.

15. Treemaps

Finalmente incluimos Treemaps de diversos corpus, cada uno inicia su dato con mayor peso en la esquinasuperior izquierda para concluir en la esquina inferior derecha con el dato menos presente.

Figura 12: Porcentaje de Poblacion entre 25 y 34 anos con Educacion Superior (Naciones)



Figura 13: Tasa de mortalidad infantil (Naciones)

Figura 14: Porcentaje de Hogares con computadora en casa (Naciones)



Figura 15: Indices de Nivel de Precios (Naciones)

Figura 16: Extracciones de agua dulce. Millones de m3 (Naciones)



Figura 17: Desercion Escolar en Nivel Superior(Entidades Mexico)

Figura 18: Esperanza de Escolaridad (Entidades Mexico)



Figura 19: Productos Maderables (Entidades Mexico)

Figura 20: Busqueda en google de la palabra ‘Sismo’ en sept - oct 2017 (Entidades Mexico)



Figura 21: Busqueda en google de la palabra ‘Narcotrafico’ en ultimos 12 meses (Entidades Mexico)

Figura 22: Busqueda en google de la palabra ‘Secuestro’ en ultimos 12 meses (Entidades Mexico)



Figura 23: Busqueda en google de la palabra ‘Migracion’ en ultimos 12 meses (Entidades Mexico)

Figura 24: Busqueda en google de la palabra ‘Pobreza’ en ultimos 12 meses (Entidades Mexico)



Figura 25: Busqueda en google de la palabra ‘Delitos’ en ultimos 12 meses (Entidades Mexico)

Figura 26: Busqueda en google de la palabra ‘Desempleo’ en ultimos 12 meses (Entidades Mexico)



Referencias

[BSW02] Benjamin Bederson, Ben Shneiderman,Martin Wattenberg. Ordered and quantum treemaps:Making effective use of 2d space to display hierarchies. ACM Transactions on Graphics, 21:1–25, 2002.

[dBer11] Mark de Berg, Bettina Speckmann, Vincent van der Weele. Convex Treemaps with BoundedAspect Ratio. Computational Geometry: Theory and Applications, 47, 2011.

[inegi15] Instituto Nacional de Estadıstica y Geografıa. Encuesta Intercensal 2015. url-https://www.inegi.org.mx/programas/intercensal/2015/, 2015.

[For03] B.A. Forouzan. Introduccion a la Ciencia de la Computacion: de la manipulacion de datos a laTeorıa de la Computacion. Ciencias e ingenierıas. Thomson, 2003.

[Pae05] Adrian Paenza. Matematica ¿estas ahı? Matematica - Ensenaza I, pp. 173–177, 2005.

[SS19] Secretarıa de Salud (Epidemiologıa). Zika. Informacion Relevante.url:https://www.gob.mx/salud/acciones-y-programas/zika-informacion-relevante, 2019.

[OECD] Organisation for Economic Co-operation and Development. OECD Dataurl:https://data.oecd.org/

[GT] Google Google Trends url:https://trends.google.com.mx/trends/?geo=MX



Pronosticos de Series de TiempoARIMA versus Redes Neuronales

palabra

Revista de Muestro y Estadıstica ARIMA versus Redes Neuronales

PRONOSTICOS DE SERIES DE TIEMPO.ARIMA VERSUS REDES NEURONALES

Francisco Sanchez Villarreal ∗

Introduccion

LOS PRONOSTICOS DE SERIES DE TIEMPO es uno de los temas mas frecuentemente abordados por laEstadıstica. Las primeras tecnicas de tipo descriptivo desarrolladas en la mitad del siglo XX, comolas basadas en tendencias relativamente sencillas y de suavizamiento como medias moviles, mode-

los de descomposicion aditiva y multiplicativa; suavizamiento exponencial en sus diversas modalidades,que incluyen suavizamiento exponencial simple, doble suavizamiento de Brown o suavizamiento multiplede Holt y Winter. En 1970 George E.P. Box y Gwilym M. Jenkins publicaron la primera edicion de su libro“Time Series Analysis Forecasting and Control” que plantea modelos estocasticos conocidos como Autore-gressive Integrated Moving Average (ARIMA) y su evolucion a una amplia diversidad de propuestas comoSARIMA, hasta modelos para volatilidad como ARCH y GARCH.

Seguramente una de las series mas estudiada en los cursos de series de tiempo es la Serie G del apendicedel texto de Box y Jenkins y que consta de 144 datos mensuales sobre trafico de pasajeros en miles de unalınea aerea de enero de 1949 a diciembre de 1960.

1949 1950 1951 1952 1953 1954 1955 1956 1957 1958 1959 1960Ene 112 115 145 171 196 204 242 284 315 340 360 417Feb 118 126 150 180 196 188 233 277 301 318 342 391Mar 132 141 178 193 236 235 267 317 356 362 406 419Abr 129 135 163 181 235 227 269 313 348 348 396 461May 121 125 172 183 229 234 270 318 355 363 420 472Jun 135 149 178 218 243 264 315 374 422 435 472 535Jul 148 170 199 230 264 302 364 413 465 491 548 622Ago 148 170 199 242 272 293 347 405 467 505 559 606Sep 136 158 184 209 237 259 312 355 404 404 463 508Oct 119 133 162 191 211 229 274 306 347 359 407 461Nov 104 114 146 172 180 203 237 271 305 310 362 390Dic 118 140 166 194 201 229 278 306 336 337 405 432

∗Asesor Internacional en Muestreo y EstadısticaProfesor Asociado B de Medio Tiempo del Departamento de Matematicas de la Facultad de Ciencias de la UNAM



En principio se procede a graficar la serie (ver figura 1 ) y se observa un evidente efecto de incrementode la varianza directamente relacionada con el tiempo. Los puntos maximos corresponden a los meses dejulio y agosto de cada ano y los mınimos en los meses de noviembre.

Figura 1: Serie G Pasajeros Box Jenkins

2. Modelo ARIMA

El ajuste de un modelo de tipo ARIMA requiere que la serie sea estacionaria en su media y varianza,esto es que permanezca en torno a una constante y que su varianza sea homogenea. Para lograr esto enprimer termino se aplica la transformacion logarıtmica para homogeneizar la varianza.

A continuacion (cuadro 2 ) se procede a calcular la Funcion de Autocorrelaciones simples (FAC) y lafuncion de autocorrelaciones parciales para la serie transformada. Los valores y grafico (figura 2 ) dela funcion de autocorrelaciones simples muestran el comportamiento caracterıstico de una serie no esta-cionaria. Esto es, elevados valores y muy lento descenso. La oscilacion de la FAC se debe al efectoestacional.



Estadıstico de Box-LjungRetardo Autocorrelacion Desv. Error a

Valor gl Sig b

1 0.95370 0.08247 133.72 1 0.000002 0.89892 0.08218 253.36 2 0.000003 0.85080 0.08189 361.29 3 0.000004 0.80843 0.08160 459.44 4 0.000005 0.77890 0.08131 551.20 5 0.000006 0.75644 0.08102 638.37 6 0.000007 0.73760 0.08072 721.86 7 0.000008 0.72713 0.08043 803.60 8 0.000009 0.73365 0.08013 887.42 9 0.00000

10 0.74426 0.07984 974.33 10 0.0000011 0.75803 0.07954 1065.16 11 0.0000012 0.76194 0.07924 1157.62 12 0.0000013 0.71650 0.07894 1240.02 13 0.0000014 0.66304 0.07863 1311.11 14 0.0000015 0.61836 0.07833 1373.43 15 0.0000016 0.57621 0.07803 1427.97 16 0.0000017 0.54380 0.07772 1476.92 17 0.0000018 0.51946 0.07742 1521.94 18 0.0000019 0.50070 0.07711 1564.11 19 0.0000020 0.49040 0.07680 1604.89 20 0.0000021 0.49818 0.07649 1647.31 21 0.0000022 0.50617 0.07618 1691.46 22 0.0000023 0.51674 0.07586 1737.85 23 0.0000024 0.52049 0.07555 1785.32 24 0.0000025 0.48352 0.07523 1826.62 25 0.0000026 0.43740 0.07492 1860.71 26 0.0000027 0.40041 0.07460 1889.52 27 0.0000028 0.36413 0.07428 1913.55 28 0.0000029 0.33698 0.07396 1934.31 29 0.0000030 0.31472 0.07364 1952.58 30 0.00000

(a) Estadıstico de Box-Ljung

Cuadro 2: Autocorrelaciones Simples

Figura 2: FAC Autocorrelaciones Simples



Se toma la primera diferencia entre observaciones consecutivas, con ello se logra que la serie sea esta-cionaria. El efecto estacional persiste (figura 3 ).

Figura 3: Primera Diferencia Logaritmo de Serie G Box Jenkins

Las autocorrelaciones parciales presentan valores significativamente diferentes de cero en los retrasos 1y 13. Este ultimo se asocia al efecto estacional mensual, esto es de perıodo 12.

Autocorrelacion Error Autocorrelacion ErrorRetardo Parcial Estandar Retardo Parcial Estandar

1 0.95370 0.08333 16 -0.04420 0.083332 -0.11757 0.08333 17 0.02761 0.083333 0.05423 0.08333 18 0.03715 0.083334 0.02376 0.08333 19 0.04164 0.083335 0.11582 0.08333 20 0.01440 0.083336 0.04437 0.08333 21 0.07331 0.083337 0.03803 0.08333 22 -0.03340 0.083338 0.09962 0.08333 23 0.06100 0.083339 0.20410 0.08333 24 0.03108 0.08333

10 0.06391 0.08333 25 -0.19437 0.0833311 0.10604 0.08333 26 -0.03508 0.0833312 -0.04247 0.08333 27 0.03645 0.0833313 -0.48543 0.08333 28 -0.03518 0.0833314 -0.03435 0.08333 29 0.04425 0.0833315 0.04222 0.08333 30 -0.04454 0.08333

Cuadro 3: Autocorrelaciones Parciales



Figura 4: FACP Autocorrelaciones Parciales

Al aplicar simultaneamente diferencias con retrasos 1 y 12 a la serie de logaritmos naturales de la seriede Pasajeros, se elimina la tendencia al alza y el efecto estacional.

Figura 5: Diferencia 12 sobre D1. Logaritmo Serie G



Se calculan nuevamente las autocorrelaciones simples y parciales (cuadro 4 ) sobre la serie transformada.Las autocorrelaciones de los retrasos 1 y 12 resultan significativas. Las autocorrelaciones inmediatas sereducen.

Estadıstico de Box-LjungRetardo Autocorrelacion Desv. Error a

Valor gl Sig b

1 -0.34112 0.08638 15.60 1 0.000082 0.10505 0.08605 17.09 2 0.000193 -0.20214 0.08571 22.65 3 0.000054 0.02136 0.08538 22.71 4 0.000145 0.05565 0.08504 23.14 5 0.000326 0.03080 0.08470 23.27 6 0.000717 -0.05558 0.08436 23.70 7 0.001288 -0.00076 0.08402 23.71 8 0.002579 0.17637 0.08368 28.15 9 0.0009010 -0.07636 0.08334 28.99 10 0.0012511 0.06438 0.08299 29.59 11 0.0018412 -0.38661 0.08264 51.47 12 0.0000013 0.15160 0.08230 54.87 13 0.0000014 -0.05761 0.08195 55.36 14 0.0000015 0.14957 0.08160 58.72 15 0.0000016 -0.13894 0.08124 61.65 16 0.0000017 0.07048 0.08089 62.40 17 0.0000018 0.01563 0.08053 62.44 18 0.0000019 -0.01061 0.08018 62.46 19 0.0000020 -0.11673 0.07982 64.60 20 0.0000021 0.03855 0.07946 64.83 21 0.0000022 -0.09136 0.07910 66.17 22 0.0000023 0.22327 0.07873 74.21 23 0.0000024 -0.01842 0.07837 74.27 24 0.0000025 -0.10029 0.07800 75.92 25 0.0000026 0.04857 0.07763 76.31 26 0.0000027 -0.03024 0.07726 76.46 27 0.0000028 0.04713 0.07689 76.84 28 0.0000029 -0.01803 0.07651 76.89 29 0.0000030 -0.05107 0.07614 77.34 30 0.00000

(a) Estadıstico de Box-Ljung

Cuadro 4: Autocorrelaciones Simples D1 y D12

Figura 6: Autocorrelaciones Simples. D1 y D12 Log pasajeros



Las autocorrelaciones parciales tambien se presentan significativas en los retrasos 1 y 12 y las autoco-rrelaciones contiguas presentan un lento decaimiento.

Autocorrelacion Error Autocorrelacion ErrorRetardo Parcial Estandar Retardo Parcial Estandar

1 -0.34112 0.08737 16 -0.13955 0.087372 -0.01281 0.08737 17 0.02589 0.087373 -0.19266 0.08737 18 0.11482 0.087374 -0.12503 0.08737 19 -0.01316 0.087375 0.03309 0.08737 20 -0.16743 0.087376 0.03468 0.08737 21 0.13240 0.087377 -0.06019 0.08737 22 -0.07204 0.087378 -0.02022 0.08737 23 0.14285 0.087379 0.22558 0.08737 24 -0.06733 0.08737

10 0.04307 0.08737 25 -0.10267 0.0873711 0.04659 0.08737 26 -0.01007 0.0873712 -0.33869 0.08737 27 0.04378 0.0873713 -0.10918 0.08737 28 -0.08995 0.0873714 -0.07684 0.08737 29 0.04690 0.0873715 -0.02175 0.08737 30 -0.00490 0.08737

Cuadro 5: Autocorrelaciones Parciales D1 y D12

Figura 7: Autocorrelaciones Parciales D1 y D12. Log pasajeros



Estos comportamientos sugieren la presencia de procesos de medias moviles y como consecuencia lainclusion de parametros de este tipo para los retrasos 1 y 12. Se sugiere entonces un modelo ARIMA(0,1,1)(0,1,1)12. Sobre la serie transformada previamente con logaritmo.

Zt = at − Θat−1 − Θat−12

El codigo en SPSS para ajustar este modelo se presenta a continuacion

1 PREDICT THRU YEAR 1961 MONTH 12.2 ∗ Modelizador de ser ies temporales .3 TSMODEL4

5 /MODELSUMMARY PRINT=[MODELFIT RESIDACF RESIDPACF]6 /MODELSTATISTICS DISPLAY=YES MODELFIT=[ SRSQUARE RSQUARE RMSE MAPE MAE MAXAPE MAXAE NORMBIC]7 /MODELDETAILS PRINT=[ PARAMETERS RESIDACF RESIDPACF FORECASTS] PLOT=[ RESIDACF RESIDPACF]8 /SERIESPLOT OBSERVED FORECAST FIT FORECASTCI FITCI9 /OUTPUTFILTER DISPLAY=ALLMODELS

10 /SAVE PREDICTED( Pronosticado ) LCL(LCL) UCL(UCL)11 /AUXILIARY CILEVEL=95 MAXACFLAGS=2412 /MISSING USERMISSING=EXCLUDE13 /MODEL DEPENDENT=VAR0001814 PREFIX= ’Modelo ’15 /ARIMA AR=[0] DIFF=1 MA=[1] ARSEASONAL=[0] DIFFSEASONAL=1 MASEASONAL=[1]16 TRANSFORM=LN CONSTANT=YES17 /AUTOOUTLIER DETECT=OFF.

El reporte del modelo relativo a las estadısticas de ajuste se presenta a continuacion. Se destacan la raızcuadrada del error cuadratico con 19.839 y el Coeficiente Bayesiano de Informacion (BIC) con 4.878.

Estadıstico de ajuste ValorR cuadrado estacionaria 0.324R cuadrado 0.991RMSE 10.839MAPE 2.925MaxAPE 12.636MAE 8.162MaxAE 41.341BIC normalizado 4.878

Cuadro 6: Reporte SPSS del ajuste del modelo



Las estimaciones de los parametros del modelo, sus errores estandares, la estadıstica de prueba t y suprobabilidad asocia se presentan en el cuadro 7 . Los dos parametros de medias moviles considerados,resultan significativos.

Parametros Estimacion Error Estadıstica Significanciadel Modelo Estandar tConstante -0.000162 0.000984 -0.165 0.870Diferencia 1MA. Retardo 1 0.402107 0.081646 4.925 0.000Diferencia estacional 1MA,Retardo 1 estacional 0.558380 0.085845 6.505 0.000

Cuadro 7: Parametros del Modelo ARIMA

La grafica de valores observados y pronosticos muestra intuitivamente que el modelo es adecuado. Laparte historica observada practicamente se confunde con el pronostico elaborado a partir del modeloARIMA y fuera de la parte historica se pronostican 12 meses del ano 1961 (figura 8 ).

Figura 8: Serie Original Pasajeros y Pronosticos. Modelo ARIMA (0,1,1)(0,1,1)12



3. Pronostico Mediante Red Neuronal

Las redes neuronales tienen multiples aplicaciones en problemas de clasificacion numerica, modelos derelacion entre variables y en este caso se aplicara para construir un modelo de pronostico para la serie detiempo G de Pasajeros.

Como sabemos la Serie G es una serie que para ser modelada mediante un modelo ARIMA presenta unatendencia ascendente y una varianza que se incrementa con el tiempo. En nuestro caso unicamente secorregira la varianza mediante la transformacion logaritmo. Para el comportamiento estacional se harauso de variables indicadoras del mes y una variable de numeracion consecutiva que apoyara el modelajede la tendencia. La variable dependiente sera la serie transformada de logaritmos naturales.

1 ∗MultilayerPerceptron Network .2 ∗ Se define perceptron multicapa , las variables independientes y dependientes para la red .3 MLP LOG\ PAS (MLEVEL=S) WITH TIEMPO ENE FEB MAR ABR MAY JUN JUL AGO SEP OCT NOV DIC4 ∗Se procede a estandarizar las variables y se define 80\% de datos de entrenamiento y 20\% de prueba

.5 /RESCALE COVARIATE=STANDARDIZED DEPENDENT=STANDARDIZED6 /PARTITION TRAINING=8 TESTING=2 HOLDOUT=07 ∗Se determina una capa oculta y la funcion de act ivac ion oculta como Tangente Hiperbolica8 /ARCHITECTURE AUTOMATIC=NO HIDDENLAYERS=1 (NUMUNITS=AUTO) HIDDENFUNCTION=TANH9 ∗Se selecc iona la funcion de act ivac ion de sal ida como identidad .

10 OUTPUTFUNCTION=IDENTITY11 ∗Se definen los parametros de ajuste12 /CRITERIA TRAINING=BATCH OPTIMIZATION=SCALEDCONJUGATE LAMBDAINITIAL=0.000000513 SIGMAINITIAL=0.00005 INTERVALCENTER=0 INTERVALOFFSET=0.5 MEMSIZE=300014 ∗Se s o l i c i t a la impresion de resultados y graf i ca de la red .15 /PRINT CPS NETWORKINFO SUMMARY SOLUTION IMPORTANCE16 /PLOT NETWORK PREDICTED17 ∗Se procede a gravar en e l archivo de datos los valores pronosticados por la red como nueva variable

. Tiempo m\ ’ aximo de proceso 15 minutos .18 /SAVE PREDVAL19 /STOPPINGRULES ERRORSTEPS= 1 (DATA=AUTO) TRAININGTIMER=ON (MAXTIME=15) MAXEPOCHS=AUTO20 ERRORCHANGE=1.0E−4 ERRORRATIO=0.00121 /MISSING USERMISSING=EXCLUDE .

Los cuadros de reporte ( cuadro 8 ) emitidos por SPSS inician por una tabla con el total de casos y elnumero que de estos se tomaron para entrenamiento (113), aproximadamente el 80% solicitado y paraprueba (31).

E N PorcentajeEntrenamiento 113 78.5%Muestra Pruebas 31 21.5%Valido 144 100.0%

Excluido 12Total 156

Cuadro 8: Resumen de Procesamiento de Casos



El cuadro 9 es un cuadro de reporte que muestra la arquitectura de la Red Neuronal en cada una de suscapas. La capa de entrada con las covariables correspondientes a los meses, el metodo de cambio de escala(estandarizacion). La funcion de activacion oculta (Tangente hiperbolica), de salida (Identica) y la funcionde error es la suma de cuadrados de residuales.

Covariables

1 TIEMPO2 ENE3 FEB4 MAR5 ABR6 MAY

Capa 7 JUNde 8 JUL

Entrada 9 AGO10 SEP11 OCT12 NOV13 DIC

Numero de unidadesa 13Metodo de cambio de escala para las covariables EstandarizadosNumero de capas ocultas 1

Capas Numero de unidades 7ocultas en la capa oculta 1a

Funcion de activacion Tangente hiperbolicaVariables dependientes 1 LOG PAS

Capa Numero de unidades 1de Metodo de cambio de escala Estandarizados

salida para las dependientes de escalaFuncion de activacion IdentidadFuncion de error Suma de cuadrados

(a) Se excluye la unidad de sesgo

Cuadro 9: Informacion de Red



La grafica de la red ilustra la relacion entre las 3 capas, de entrada, oculta y de salida (figura 9 ) , asıcomo las ponderaciones sinapticas positivas y negativas.

Figura 9: Funcion de Activacion Capa Oculta de de Salida



A continuacion en el cuadro 10 se presentan las ponderaciones sinapticas y su proceso de cambio de lascapas de entrada para las variables independientes originales y de las neuronas de la capa oculta. Elsesgo corresponde al umbral de activacion.

PronosticadoPredictor Capa oculta 1 Capa de

salidaH(1:1) H(1:2) H(1:3) H(1:4) H(1:5) H(1:6) H(1:7) LOG PAS

(Sesgo) -0.491876 0.232232 -0.188565 -0.076300 -0.272219 0.000856 0.207404TIEMPO -0.765537 -0.358310 0.783399 0.756301 -0.654116 -0.038023 0.310126

ENE 0.099048 0.476273 0.283860 -0.210838 -0.058911 -0.420093 -0.048931FEB -0.147814 0.161897 0.406559 -0.658966 0.184638 0.405189 -0.290325MAR 0.282376 -0.001403 0.352155 -0.396764 -0.027252 0.196501 -0.014958ABR 0.159273 0.367841 -0.198432 0.194348 -0.120900 -0.519447 0.010088

Capa de MAY 0.307084 0.206549 -0.392158 0.431348 0.095802 0.008376 -0.478908entrada JUN 0.098497 -0.150556 0.243419 0.313591 0.431211 0.310867 -0.142402

JUL -0.061526 -0.254122 -0.058646 0.074643 -0.070127 -0.356139 0.362063AGO 0.465060 0.004385 0.017842 0.229383 -0.199426 -0.106944 0.330026SEP 0.426048 0.484318 0.108759 0.181566 -0.231617 -0.433553 0.194637OCT 0.105328 -0.440297 -0.449922 0.020431 0.032838 -0.483826 0.383437NOV -0.155744 0.144738 0.236223 0.191124 0.578230 -0.074400 0.197534DIC -0.155736 0.347598 0.365381 0.310950 0.444259 -0.198663 0.464670

(Sesgo) -0.148024H(1:1) -0.285316H(1:2) -0.343733H(1:3) 0.468784

Capa oculta 1 H(1:4) 0.646759H(1:5) -0.845224H(1:6) 0.092344H(1:7) -0.092057

Cuadro 10: Estimaciones de Parametro

La grafica de valores observados versus estimados por el modelo se alinea en torno a una recta identica(figura 10 ) con lo cual se puede calificar de adecuado del modelo de Red Neuronal.

Figura 10: Valores observados vs. Valores estimados



La grafica ilustra el ajuste del modelo de Red Neuronal y el pronostico para el ano 1961 (figura 11 ) .

Figura 11: Serie G Pasajeros. Anos Observados 1959 y 1960, Pronostico 1961 Red Neuronal

Si consideramos un Error Cuadratico Medio sin correccion por grados de libertad, aplicado al modeloARIMA y a la Red Neuronal para los mismos meses, puesto que el modelo ARIMA sacrifica las primeras12 observaciones, se obtienen valores sorprendentemente parecidos.

Modelo ECMARIMA 118.059

Red Neuronal 118.294

El cuadro 12 presenta los valores observados de la serie pasajeros para los ultimos dos anos 1959-60 y lospronosticos de ambos modelos que se extienden al ano 1961.

Mes Pasajeros Pronostico Pronostico Mes Pasajeros Pronostico PronosticoRed Neuronal ARIMA Red Neuronal ARIMA

Ene-59 360 374.5 348.1 Jul-60 622 585.3 612.6Feb-59 342 355.3 337.7 Ago-60 606 608.3 625.3Mar-59 406 399.2 395.8 Sep-60 508 508.5 513.4Abr-59 396 402.7 391.5 Oct-60 461 455.8 445.5

May-59 420 424.7 406.3 Nov-60 390 384.0 401.0Jun-59 472 501.9 491.0 Dic-60 432 434.7 439.7Jul-59 548 553.7 537.4 Ene-61 453.5 448.4

Ago-59 559 561.8 545.1 Feb-61 430.7 423.7Sep-59 463 472.6 468.7 Mar-61 445.1 477.0Oct-59 407 418.2 408.2 Abr-61 477.3 490.0Nov-59 362 352.2 354.6 May-61 487.0 506.5Dic-59 405 399.7 398.2 Jun-61 580.6 580.5

Ene-60 417 413.1 420.4 Jul-61 609.3 666.6Feb-60 391 392.4 398.3 Ago-61 653.4 663.7Mar-60 419 423.7 459.7 Sep-61 539.5 555.5Abr-60 461 440.2 420.4 Oct-61 492.0 494.7

May-60 472 457.2 460.7 Nov-61 417.8 427.8Jun-60 535 543.7 548.9 Dic-61 468.7 475.0

Cuadro 12: Serie G Pasajeros. Valores observados 1959-60 y Pronosticos de Modelos ARIMA(0,1,1)(0,1,1)12 y RedNeuronal



La grafica correspondiente a los datos de cuadro anterior permite apreciar mejor la semejanza entreambos modelos (figura 12 ).

Figura 12: Serie G Pasajeros. Anos Observados 1959 y 1960, Pronostico 1961 Red Neuronal y ARIMA

4. Conclusiones

Sin duda el esfuerzo de modelaje mediante la Red Neuronal es menor que el requerido para la identifi-cacion y ajuste de un modelo de tipo ARIMA con excelentes resultados.



Referencias

[BJ71] George E.P. Box, Gwilym M. Jenkins. Time Series Analysis: Forecasting and Control. Holden-DayInc., San Francisco, Revised Edition, 1971.

[CG06] E.N.S. Camperos, A.Y.A. Garcıa. Redes Neuronales: Conceptos Fundamentales y Aplicaciones aControl Automatico. Automatica Robotica. Pearson Educacion, 2006.

[RP] J. L. Perez, A. Padron R. Prieto & A. Herrera. El Modelo Neuronal de McCulloch y Pitts. Inter-pretacion Comparativa del Modelo.

[Wil80] Victor L. Willson. Forecasting: Methods and applications: by Spyros Makridakis and Steven C.Wheelwright. New York: John Wiley and sons, 1978, 713 pp. Evaluation and Program Planning,3(3):213 – 214, 1980.



Estimacion de Parametrosde Distribuciones de Probabilidadmediante el Algoritmo del Gradiente ReducidoGeneralizado

palabra

Revista de Muestreo y Estadıstica Estimacion de Parametros de Distribuciones

ESTIMACION DE PARAMETROSDE DISTRIBUCIONES DE PROBABILIDAD

MEDIANTE EL ALGORITMO DEL GRADIENTE REDUCIDO GENERALIZADOFrancisco Sanchez Villarreal∗

Introduccion

LA ESTIMACION PUNTUAL DE LOS PARAMETROS de una funcion de distribucion es uno de los temasobligados en el estudio de la inferencia estadıstica. Encontrar metodos que proporcionen estimadores

que cumplan con las propiedades de insesgamiento, consistencia, eficiencia y suficiencia; pero que ademas,sean relativamente faciles de aplicar es el principal objetivo.

Entre los metodos mas conocidos, esta el de momentos, propuesto por Karl Pearson en 1894. El metodode momentos en forma resumida consiste en igualar las expresiones de los momentos teoricos de unafuncion de distribucion F(x) a los correspondientes momentos muestrales, de donde surgen ecuacionesque se resuelven para los parametros en funcion de estadısticas muestrales. El metodo en general proveeecuaciones que son relativamente faciles de resolver, sin embargo los estimadores que proporciona sue-len ser sesgados. A partir de que R.A. Fisher (1912) publico del metodo de maxima verosimilitud sedetectaron ventajas para este ultimo y desde entonces se constituyo como el mas popular. El metodo demaxima verosimilitud de Fisher parte de la funcion de densidad o probabilidad conjunta de la muestracuya optimizacion deriva en ecuaciones vinculadas a los parametros de la distribucion objetivo, aunquefrecuentemente su solucion se suele plantear en formas no lineales que deben ser resueltas mediantealgoritmos de aproximacion iterativa, con el uso de computadoras.

2. Estimacion de Parametros de la Distribucion Normal porMaxima Verosimilitud

Iniciamos con esta distribucion por ser un ejercicio obligado al introducirse en los metodos de esti-macion de parametros. Los estimadores de los parametros caracterısticos de la distribucion normal sonsu parametro de posicion, el valor esperado o media y su parametro de dispersion, la varianza. Los esti-madores obtenidos por el metodo de momentos y maxima verosimilitud coinciden para ambos parametros.El estimador de la varianza presenta un sesgo, cuya importancia disminuye conforme se dispone de mues-tras de mayor tamano.

∗Consultor Internacional en Estadıstica y Muestreo.Profesor Asociado B de Medio Tiempo del Departamento de Matematicas en la UNAM.Ha colaborado en ponencias cientıficas en la Asociacion Mexicana de EstadısticaE-mail: [email protected]



µ =1

n

n∑i=1

Xi σ =

n∑i=1

(Xi − X)

n

En el cuadro 1 se dispone de una muestra de 150 observaciones de una distribucion Normal con parametrospoblacionales µ = 600.0 y σ = 50.0. La media aritmetica y desviacion estandar calculadas con las ante-riores formulas de estimacion son µ = 601.0 y σ = 46.9259

534.43 546.08 606.20 557.34 645.84 523.68 643.51 607.54 624.64 595.21610.66 579.25 610.71 602.45 587.15 629.52 568.04 563.25 600.96 613.80572.19 640.99 617.22 647.71 537.61 588.06 593.74 618.20 518.69 558.46721.29 576.01 581.43 524.53 566.78 666.21 590.12 597.05 577.47 616.06626.16 564.41 609.24 551.33 579.90 580.85 599.36 599.54 634.47 658.38605.08 692.17 576.29 586.20 579.86 622.30 614.48 693.39 611.24 542.23651.92 566.46 653.85 652.15 629.84 562.30 624.41 631.86 611.47 569.69598.20 607.71 589.86 562.72 555.57 603.97 659.32 578.05 625.88 575.24542.11 588.42 670.64 509.15 540.14 537.68 658.57 587.16 627.35 600.13660.88 683.15 647.07 579.88 674.91 531.42 568.23 660.60 545.51 627.03573.11 548.69 611.83 546.82 630.91 630.38 667.61 631.62 631.70 558.28560.34 655.23 612.35 536.70 631.95 648.75 651.43 499.82 646.64 651.58581.23 625.40 600.31 582.34 531.31 637.67 627.72 550.75 517.30 519.70566.47 702.19 716.60 541.67 480.73 612.52 536.74 648.63 603.37 606.63556.89 627.17 551.52 672.37 596.68 693.64 641.03 645.63 589.16 623.16

Cuadro 1: Muestra de 150 observaciones de una Normal con µ=600 σ=50

A continuacion se calcula la distribucion empırica S(x) de la muestra, expresada como frecuencia relativaacumulada. El cuadro 2 muestra los primeros 10 registros de los valores ordenados de x y la correspon-diente distribucion empırica.

No. x S(x)1 480.7315 0.0066672 499.8248 0.0133333 509.1534 0.0200004 517.2990 0.0266675 518.6877 0.0333336 519.6966 0.0400007 523.6817 0.0466678 524.5267 0.0533339 531.3140 0.060000

10 531.4182 0.066667

Cuadro 2: Primeros 10 registros de S(x)

La figura 1 muestra el caracterıstico comportamiento sigmoide de la funcion de distribucion acumulativanormal.



Figura 1: Distribucion Acumulativa Empırica S(x) de Muestra Normal

El siguiente paso en el proceso de ajuste consiste en adoptar las estimaciones de los parametrosµ = 601.0 y σ = 46.9259, que corresponden a los de Maxima Verosimilitud, para calcular probabilidadesacumuladas de acuerdo a una funcion de distribucion acumulativa teorica F (x) de la normal, puesto queno existe una formula que resuelva la probabilidad en forma directa y se debe emplear una funcion aproxi-mada por series. La funcion de Excel DISTR.NORM(x,media,desvest,1) proporciona las probabilidadesacumuladas. En la figura 2 se grafica la distribucion empırica y la distribucion teorica valuadas en losvalores de la muestra. El cuadro 3 incluye los primeros 10 valores ordenados de x y sus correspondien-tes valores de la funcion de distribucion acumulativa empırica y la funcion de distribucion acumulativateorica, calculada con los estimadores de maxima verosimilitud. Tambien se incluyen las diferenciascuadraticas entre S(x) y F (x) cuyo promedio es la estadıstica de Error Cuadratico Medio (ECM) que midela bondad de ajuste.

ECM =

n∑i=1

(S(xi)− F (xi))2

n

No. x S(x) F(x) Max Ver e2 Max Ver1 480.7315 0.006667 0.007266 0.00000042 499.8248 0.013333 0.020000 0.00004443 509.1534 0.020000 0.031220 0.00012594 517.2990 0.026667 0.044874 0.00033155 518.6877 0.033333 0.047622 0.00020426 519.6966 0.040000 0.049702 0.00009417 523.6817 0.046667 0.058636 0.00014338 524.5267 0.053333 0.060683 0.00005409 531.3140 0.060000 0.079212 0.0003691

10 531.4182 0.066667 0.079527 0.0001654

Cuadro 3:



En la figura 2 se aprecia a simple vista que el ajuste es bueno y no podra ser de otra manera, puesto que lamuestra de origen es normal. Como medida de bondad de ajuste se tomo el promedio de los cuadrados delas diferencias de las funciones de distribucion empırica y teorica, valuadas en los mismos valores x. EsteError Cuadratico Medio se calcula sin correcciones por grados de libertad. El valor del ECM = 0.0002185

Figura 2: Distribuciones Empırica S(x) y Teorica F (x) Estimadores Maxima Verosimilitud. Distribucion Normal

3. Estimacion de Parametros de la Distribucion Normal porGradiente Reducido Generalizado

El metodo de estimacion de parametros que se propone se apoya en la aplicacion directa de la funcion dedistribucion acumulativa teorica F (x) aplicada a los mismos valores de muestra que se han tomado paraobtener la distribucion acumulativa empırica S(x). Los valores iniciales para los parametros de la mediay la varianza se toman en forma aleatoria, respetando la condicion de no negatividad para la varianza.Tambien una practica es asignar valores preliminares obtenidos por otro metodo, por ejemplo el metodo demomentos. A continuacion se debe minimizar el ECM, esto es el promedio de las diferencias cuadraticasde las distribuciones empırica y teorica, valuadas en los valores muestrales. El proceso de minimizacionse resuelve mediante el criterio de Gradiente Reducido Generalizado (GRG), una de cuyas versiones maseficientes (GRG2) se encuentra implantada en la aplicacion SOLVER de Excel, lo cual lo pone al alcanceque cualquier usuario, aun sin tener conocimientos de programacion.

En el caso que se expone, se asignan como valores iniciales en el rango de celdas a ser modificadas µ=500y σ = 20. La celda objetivo a minimizar corresponde al calculo del ECM, el cual inicialmente alcanzacon estos parametros el valor 0.3010784, una vez que sea ejecutado el procedimiento de minimizacion, seobtienen los valores µ= 600.345353, σ = 48.9448542 y el ECM=0.00014392. Este valor es 52% menor queel obtenido mediante los estimadores de Maxima Verosimilitud.



La figura 3 permite apreciar la similitud entre las funciones de distribucion ajustadas mediante MaximaVerosimilitud y el Gradiente Reducido Generalizado.

Figura 3: Distribucion Acumulativa Empırica y Distribuciones Teoricas obtenidas por Maxima Verosimilitud y Gra-diente Reducido Generalizado

4. Estimacion de Parametros de la Distribucion de Gumbelmediante Momentos

La funcion de distribucion de Gumbel, tambien conocida como doble exponencial, fue llamada ası enhonor del matematico aleman Emil Julius Gumbel (1981-1966). Gumbel realizo sus estudios universi-tarios en la Universidad de Munich en donde estudio Economıa, Ingenierıa y Actuarıa. Fue profesor deEstadıstica Matematica de la antigua Universidad de Heidelberg.



La funcion de distribucion acumulativade Gumbel depende de dos parametros:µ relacionado con su posicion y β con laforma y dispersion. En la figura 4 seaprecia la forma que adopta su funcionde distribucion acumulativa con diferen-tes valores de los parametros. β

F (x) = e−e(− x−µ

β)

µ ∈ R, β > 0

Figura 4: Funcion de Distribucion Acumulativa de Gumbel

La funcion de densidad adopta unaforma acampanada asimetrica positiva,cuya cola derecha pesa en funcion delparametro β

f(x) =1

βe

[− x−µβ −e

(− x−µβ

)]

Figura 5: Funcion de Densidad de Gumbel

El parametro µ se asocia principalmente con la posicion, el parametro β con la forma y la dispersion. Am-bos parametros se relacionan con la esperanza, mediana, moda y varianza poblacionales, cuyas formulasse presentan a continuacion.

E[X] = µ+ γβ

Donde γ = 0.5772156649015328606 es la constante de Euler Mascheroni.

γ = −∫ ∞0

e−xln(x) dx



La constante de Euler Mascheroni se relaciona con la diferencia entre la serie armonica y el logaritmonatural del numero de terminos. Hemos verificado que converge lentamente. Para n =10,000 se alcanzaprecision en la cuarta cifra decimal con el valor 0.57726566.

La varianza se relaciona unicamente con el parametro β

V (X) = β2 π2

6

5. Estimacion de Parametros por el Metodo de Momentos

Utilizando el metodo de momentos, se iguala la expresion teorica de la varianza con la varianza muestralS2 y se despeja el parametro β de donde se obtiene su estimador.

β =s√

6

π

La estimacion del parametro µ se puede obtener a partir de la ecuacion del valor esperado o mediapoblacional de la distribucion, sustituyendo esta por la media aritmetica. Una vez estimada β se expresaµ en funcion de β y de la constante de Euler.

µ = X − γβ

6. Simulacion de Valores de la Distribucion de Gumbel

En la funcion de distribucion acumulativa se sustituye el argumento de la probabilidad por el valorde una variable aleatoria uniforme (0,1) y se despeja x. Al cambiar el valor de la uniforme, se obtienenvalores de una variable Gumbel con los parametros relacionados de la forma siguiente.

x = µ− β ln (−ln u(0, 1))

Mediante este procedimiento se simularon 150 valores (cuadro 4 ) con parametros µ =8 y β=3, los valoresde la muestra ordenados de menor a mayor se muestran a continuacion.

Las estadısticas basicas y la grafica de la distribucion acumulativa empırica S(x), cuyo patron se asemejaa las graficas de funciones teoricas presentadas anteriormente.



2.272322 5.820833 6.582215 7.358713 8.113479 9.049526 9.685180 10.961660 12.566190 14.2304124.036393 5.959762 6.587255 7.408408 8.162407 9.053034 9.745554 11.068599 12.612707 14.3609984.395173 5.967751 6.590141 7.410602 8.166292 9.084535 9.864812 11.068642 12.659754 14.3778464.496830 5.975527 6.719644 7.535434 8.181447 9.096049 9.905019 11.072959 12.705207 14.5946924.638315 5.986793 6.749777 7.615921 8.182704 9.096882 10.010303 11.126767 12.870730 15.1013264.737417 6.033701 6.773123 7.635081 8.188893 9.354871 10.133644 11.319653 12.970063 15.1282534.834453 6.051432 6.816750 7.644395 8.218513 9.389855 10.190052 11.432103 13.025787 15.6339794.870640 6.065119 6.881473 7.676801 8.370742 9.437512 10.272743 11.482343 13.099726 15.7464245.065483 6.137782 6.931697 7.700875 8.601843 9.465709 10.300174 11.511881 13.124763 15.7472605.560916 6.151976 6.938836 7.761547 8.604007 9.503345 10.332968 11.564211 13.176016 16.5798755.584866 6.167293 7.037170 7.776527 8.615718 9.567963 10.467648 11.714398 13.404046 17.9438545.614387 6.175689 7.053373 7.789888 8.620907 9.588011 10.542458 11.938400 13.625968 18.5690445.640980 6.319044 7.089009 7.864928 8.933858 9.628542 10.594749 11.972685 13.857759 18.8476415.677104 6.426437 7.099028 7.933579 8.935606 9.637413 10.744718 12.110292 14.030773 19.4393155.796386 6.464706 7.198131 8.082509 8.971331 9.661862 10.887059 12.152627 14.067321 26.892329

Cuadro 4: 150 simulaciones de una Gumbel con µ=8 y β=3

Estadıstica ValorMedia 9.518770Error tıpico 0.293397Mediana 9.010429Desviacion Estandar 3.593359Varianza de la Muestra 12.912229Curtosis 3.071628Coeficiente de Asimetrıa 1.245927Rango 24.620007Mınimo 2.272322Maximo 26.892329Suma 1427.815553Cuenta 150

Cuadro 5: Estadısticas Basicas

Figura 6: Distribucion Acumulativa Empırica S(x) de Gumbel



7. Estimacion por el Metodo de Momentos

Las estimaciones de los parametros mediante el metodo de momentos resultan con los siguientes valoresβ = 2.80173053 y µ= 7.9015676, estos valores son cercanos a los empleados en la simulacion. La funcion dedistribucion ajustada, junto con la distribucion acumulativa empırica se presenta en la figura 7 . El errorcuadratico medio, que se adopta como medida de bondad de ajuste, alcanza con los parametros estimadospor el metodo de momentos ECM = 0.000178103

Figura 7: Distribuciones Empırica S(x) y Teorica F (x) Estimadores de Momentos. Distribucion Gumbel

8. Estimacion por Gradiente Reducido Generalizado

Como se menciono en el caso del ajuste a la normal, se parte de los valores de x ordenados, la funcionde distribucion empırica y la funcion de distribucion acumulativa teorica calculada con valores inicialesarbitrarios β =4 y µ= 4. El proceso de optimizacion mediante el GRG2 (SOLVER) de Excel, arroja losvalores β=2.81377672 y µ= 7.842269129. El error cuadratico medio alcanzado es ECM = 0.000146038,valor que es 22% menor al alcanzado mediante el Metodo de Momentos.



Figura 8: Distribucion Acumulativa Empırica y Distribuciones Teoricas obtenidas por Maxima Verosimilitud y Gra-diente Reducido Generalizado. Distribucion de Gumbel

Se han efectuado pruebas con diversas distribuciones con el metodo del GRG y se obtienen ECM menoresque con el Metodo de Momentos y el de Maxima Verosimilitud. Entre otras distribuciones se han probadolas distribuciones continuas como Weibull y Frechet, tambien discretas como Poisson. Un aspecto que sedebe cuidar corresponde a los valores iniciales, una mala seleccion de valores iniciales puede conducir aun optimo local y no al optimo global, por lo tanto, al obtener un ECM claramente mayor al esperado, sedeben probar otros valores de inicio.

9. Estimacion de Distribuciones de Variable Discreta porGradiente Reducido Generalizado

El metodo de GRG para estimar los parametros de distribuciones, se ha mostrado para variables contin-uas, sin embargo el metodo es valido para distribuciones de variable discreta. Como ejemplo se seleccionola distribucion de Poisson, la cual tiene la siguiente Funcion de Probabilidad.

f(x) =λxe−λ

x!x = 0, 1, 2, 3, . . .

La funcion de Poisson tiene la propiedad de coincidencia entre su valor esperado y la varianza. Ambascorresponden al parametro λ .

E(X) = λ V (X) = λ



La siguiente muestra corresponde a 200 datos de una distribucion de Poisson con parametro λ = 3.6.

5 7 5 1 2 1 6 1 0 31 6 3 4 1 5 5 3 3 37 1 3 4 7 3 5 7 3 43 2 4 1 4 2 4 3 6 47 6 4 2 6 5 8 3 7 43 4 5 3 1 6 2 1 2 04 4 3 2 4 2 3 4 2 36 7 2 3 4 5 4 3 2 52 4 1 2 6 6 3 0 3 44 1 5 4 7 5 3 3 6 36 3 2 1 9 4 4 4 7 14 5 7 6 5 2 5 5 3 43 5 4 4 5 5 5 2 0 15 4 2 2 3 2 1 3 5 36 2 6 5 4 3 4 3 5 31 3 3 1 0 6 3 5 7 14 2 5 5 2 3 4 5 3 55 2 2 5 3 4 4 6 4 54 7 3 4 1 6 1 3 10 32 4 2 5 4 5 2 2 3 1

Cuadro 6: 200 datos de una Distribucion de Poisson con λ=3.6

La muestra tiene media = 3.68500 y varianza = 3.46309, valores muy similares que confirma la propiedadteorica de igualdad de ambos parametros. La media aritmetica es el estimador para λ, tanto de maximaverosimilitud, como de momentos. Se toma este valor y se procede a efectuar el ajuste. La siguiente tablade frecuencias de valores de la muestra y las probabilidades calculadas con el parametro λ = 3.68500. Elerror cuadratico medio alcanza el valor ECM=0.00011474

Valores de Frecuencia Frecuencia Frec. Relativa Probabilidad Probabilidad Frecuencia ECMx Absoluta Acumulada Acumulada Poisson Acumulada Esperada0 5 5 0.0250 0.02509717 0.0250972 5 0.000000011 21 26 0.1300 0.09248309 0.1175803 18 0.000154252 28 54 0.2700 0.17040009 0.2879804 34 0.000323293 42 96 0.4800 0.20930811 0.4972885 42 0.000298894 39 135 0.6750 0.19282510 0.6901136 39 0.000228425 33 168 0.8400 0.14211210 0.8322257 28 0.000060446 17 185 0.9250 0.08728051 0.9195062 17 0.000030187 12 197 0.9850 0.04594696 0.9654531 9 0.000382088 1 198 0.9900 0.02116432 0.9866174 4 0.000011449 1 199 0.9950 0.00866561 0.9952831 2 0.0000000810 1 200 1.0000 0.00319328 0.9984763 1 0.0000023211 0 200 1.0000 0.00106975 0.9995461 0 0.0000002112 0 200 1.0000 0.00032850 0.9998746 0 0.00000002

200 0.99987459 0.00011474

Cuadro 7: Frecuencias 200 datos Poisson, cuadro 6



La grafica de frecuencias observadas y esperadas (figura 9 ) muestra intuitivamente la bondad de ajuste.

Figura 9: Ajuste Maxima Verosimilitud. Distribucion de Poisson

Partiendo de las frecuencias relativas acumuladas y las probabilidades acumuladas se define un valorarbitrario inicial para λ=2.0, para a continuacion tomar como objetivo de minimizacion el ECM medianteel GRG2. El valor que resulta de la optimizacion es λ=3.726801, valor que difiere ligeramente del 3.68500del estimador de maxima verosimilitud. El ajuste similar a lo expuesto en el caso de maxima verosimilitudse expone en la tabla 8 .

Valores de Frecuencia Frecuencia Frec. Relativa Probabilidad Frecuencia Probabilidad ECMx Absoluta Acumulada Acumulada Poisson Esperada Acumulada0 5 5 0.02500 0.0241406 5 0.0241406 0.000000741 21 26 0.13000 0.0898961 18 0.1140367 0.000254832 28 54 0.27000 0.1673804 33 0.2814171 0.000130353 42 96 0.48000 0.2077671 42 0.4891842 0.000084354 39 135 0.67500 0.1934240 39 0.6826082 0.000057885 33 168 0.84000 0.1440568 29 0.8266650 0.000177826 17 185 0.92500 0.0894079 18 0.9160730 0.000079697 12 197 0.98500 0.0475633 10 0.9636362 0.000456418 1 198 0.99000 0.0221399 4 0.9857761 0.000017849 1 199 0.99500 0.0091606 2 0.9949367 0.0000000010 1 200 1.00000 0.0034113 1 0.9983480 0.00000273

200 200 0.00011479

Cuadro 8:

El ECM = 0.00011479 es 0.0000005 mayor al de maxima verosimilitud, esto es practicamente iguales.Desde luego en el caso de Poisson es mas sencillo recurrir al estimador de maxima verosimilitud, perootorga un argumento positivo respecto a la versatilidad del Metodo de Ajuste mediante el GradienteReducido Generalizado.



Referencias

[ADP06] Sarabia Alegrıa, J. Gomez Deniz, y F.J.Vazquez Polo. Estadıstica Actuarial: Teorıa y Aplica-ciones. Pearson Educacion, 2006.

[Gum35] E.J. Gumbel. Les Valeurs Extremes des Distributions Statistiques. Annales de l’Institut HenriPoincare, 5(2):115–158, 1935.

[Gum41] E. J. Gumbel. The Return Period of Flood Flows. Ann. Math. Statist., 12(2):163–190, 06 1941.

[JKB95] N.L. Johnson, S. Kotz, y N. Balakrishnan. Continuous Univariate Distributions. Number v. 2in Wiley series in probability and mathematical statistics: Applied probability and statistics.Wiley & Sons, 1995.

[MC05] Smail M. and Myrtene C. Estimating Parameters of Gumbel Distribution using the Methodsof Moments, Probability weighted Moments and Maximum Likelihood. Revista de Matematica:Teorıa y Aplicaciones, 12:151–156, 2005.


palabra

Desarrollo

REVISTA DE ESTADISTICA Y MUESTREOes una publicacion desarrollada con comandos en software LATEX, por [email protected]

Con apoyo de PRAGMA S.A. de C.V. [email protected]

palabra - pragmamexico.com.mx · la construccion de conocimientos a partir del estudio de hechos y...

Documents

Transcript of palabra - pragmamexico.com.mx · la construccion de conocimientos a partir del estudio de hechos y...