Regresión Geográficamente Ponderada (GWR) y estimación de...

12
XV Congreso Nacional de Tecnologías de la Información Geográfica, Madrid, AGE-CSIC, 19-21 de Septiembre de 2012 Regresión Geográficamente Ponderada (GWR) y estimación de la demanda de las estaciones del Metro de Madrid J. Gutierrez-Puebla, J.C. García-Palomares y O. Daniel-Cardozo n.1 Regresión Geográficamente Ponderada (GWR) y estimación de la demanda de las estaciones del Metro de Madrid J. Gutiérrez-Puebla 1 , J.C. García-Palomares 1 y O. Daniel-Cardozo 2 1 Departamento de Geografía Humana. Universidad Complutense de Madrid 2 Instituto de Geografía. Universidad Nacional del Nordeste - Resistencia (Argentina) [email protected], [email protected], [email protected] RESUMEN En los últimos años se han desarrollado metodologías apoyadas en el uso de herramientas SIG y regresión múltiple, llamadas de respuesta rápida, que tratan de estimar la demanda en función de un reducido número de variables del entorno de la estación y las características de la misma. Frente a los más tradicionales, apoyados en el modelo de cuatro etapas, los de respuesta rápida tienen la ventaja de su simplicidad, la facilidad para interpretar sus resultados y su bajo costo. Sin embargo, estos modelos usan análisis de regresión múltiple (OLS) que asume estabilidad paramétrica. En esta comunicación se propone el uso de la regresión geográficamente ponderada (GWR) para estimar la demanda en las estaciones de Metro de Madrid. La regresión geográfica permite mejorar los ajustes, neutralizar la dependencia espacial en los residuos y conocer la distribución especial, tanto de las elasticidades en las variables explicativas, como en la significación local del modelo. Todo ello sin renunciar al carácter directo y de respuesta rápida. PALABRAS CLAVE Transporte público, modelos de estimación directa de la demanda, regresión geográficamente ponderada, Metro, Madrid. ABSTRACT In recent years, station-level ridership forecasting models have been developed based on Geographic Information Systems (GIS) and multiple regression analysis. These models estimate the number of passengers boarding at each station as a function of the station characteristics and the areas that they serve. These models have considerable advantages over the traditional four-step model, including simplicity of use, easy interpretation of results, immediate response and low cost. Nevertheless, the models usually use traditional ordinary least squares (OLS) multiple regression, which assume parametric stability. This study proposes a direct model that uses geographically weighted regression (GWR) to forecast boarding at the Madrid Metro stations. The GWR model results in a better fit than the traditional one. In addition, the information supplied by the GWR model regarding the spatial variation of elasticities and their statistical significance provides more realistic and useful results. KEY WORDS Transit ridership, direct forecasting models, Geographically Weighted Regression (GWR), Metro, Madrid.

Transcript of Regresión Geográficamente Ponderada (GWR) y estimación de...

Page 1: Regresión Geográficamente Ponderada (GWR) y estimación de ...tig.age-geografia.es/2012_Madrid/ponencia2/GutierrezPuebla_final_p… · estos modelos usan análisis de regresión

XV Congreso Nacional de Tecnologías de la Información Geográfica, Madrid, AGE-CSIC, 19-21 de Septiembre de 2012 Regresión Geográficamente Ponderada (GWR) y estimación de la demanda de las estaciones del Metro de Madrid

J. Gutierrez-Puebla, J.C. García-Palomares y O. Daniel-Cardozo

n.1

Regresión Geográficamente Ponderada (GWR) y estimación de la demanda de las estaciones del Metro de Madrid

J. Gutiérrez-Puebla1, J.C. García-Palomares1 y O. Daniel-Cardozo2

1Departamento de Geografía Humana. Universidad Complutense de Madrid 2Instituto de Geografía. Universidad Nacional del Nordeste - Resistencia (Argentina)

[email protected], [email protected], [email protected]

RESUMEN

En los últimos años se han desarrollado metodologías apoyadas en el uso de herramientas SIG y regresión múltiple, llamadas de respuesta rápida, que tratan de estimar la demanda en función de un reducido número de variables del entorno de la estación y las características de la misma. Frente a los más tradicionales, apoyados en el modelo de cuatro etapas, los de respuesta rápida tienen la ventaja de su simplicidad, la facilidad para interpretar sus resultados y su bajo costo. Sin embargo, estos modelos usan análisis de regresión múltiple (OLS) que asume estabilidad paramétrica. En esta comunicación se propone el uso de la regresión geográficamente ponderada (GWR) para estimar la demanda en las estaciones de Metro de Madrid. La regresión geográfica permite mejorar los ajustes, neutralizar la dependencia espacial en los residuos y conocer la distribución especial, tanto de las elasticidades en las variables explicativas, como en la significación local del modelo. Todo ello sin renunciar al carácter directo y de respuesta rápida.

PALABRAS CLAVE

Transporte público, modelos de estimación directa de la demanda, regresión geográficamente ponderada, Metro, Madrid.

ABSTRACT

In recent years, station-level ridership forecasting models have been developed based on Geographic Information Systems (GIS) and multiple regression analysis. These models estimate the number of passengers boarding at each station as a function of the station characteristics and the areas that they serve. These models have considerable advantages over the traditional four-step model, including simplicity of use, easy interpretation of results, immediate response and low cost. Nevertheless, the models usually use traditional ordinary least squares (OLS) multiple regression, which assume parametric stability. This study proposes a direct model that uses geographically weighted regression (GWR) to forecast boarding at the Madrid Metro stations. The GWR model results in a better fit than the traditional one. In addition, the information supplied by the GWR model regarding the spatial variation of elasticities and their statistical significance provides more realistic and useful results.

KEY WORDS

Transit ridership, direct forecasting models, Geographically Weighted Regression (GWR), Metro, Madrid.

Page 2: Regresión Geográficamente Ponderada (GWR) y estimación de ...tig.age-geografia.es/2012_Madrid/ponencia2/GutierrezPuebla_final_p… · estos modelos usan análisis de regresión

XV Congreso Nacional de Tecnologías de la Información Geográfica, Madrid, AGE-CSIC, 19-21 de Septiembre de 2012 Regresión Geográficamente Ponderada (GWR) y estimación de la demanda de las estaciones del Metro de Madrid J. Gutierrez-Puebla, J.C. García-Palomares y O. Daniel-Cardozo

1 INTRODUCCIÓN: MODELOS DE PREDICCIÓN DIRECTA DE DEMANDA A NIVEL DE ESTACIÓN Y LA REGRESIÓN GEOGRÁFICAMENTE PONDERADA

Los expertos en planificación del transporte han dedicado mucho tiempo y esfuerzo al estudio de la demanda de transporte. Para ello utilizan generalmente el denominado modelo de cuatro etapas (McNally, 2007; Ortúzar y Willumsen, 2008). Se trata de un modelo de eficacia probada, pero muy sofisticado (en realidad es una familia de modelos interrelacionados) y con un elevado coste de implantación y mantenimiento. Dado que su objetivo inicial en los años cincuenta era la predicción del tráfico, preferentemente a escalas regionales, no es de extrañar que su eficacia para la previsión de viajes disminuya en otros modos de transporte (como el transporte público) y en escalas de detalle (como a nivel de estación). Uno de sus problemas fundamentales es que este modelo de cuatro etapas no contempla adecuadamente las características del entorno de las estaciones, al trabajar con zonas de transporte relativamente extensas (Marshall y Grady, 2006; Cervero, 2006).

Para superar esta deficiencia, recientemente han surgido modelos denominados de predicción directa de la demanda a nivel de estaciones. Frente a los modelos de cuatro etapas, estos son de respuesta rápida y bajo coste. Se basan en la aplicación de modelos de regresión múltiple (OLS) para predecir la demanda de las estaciones a partir de un conjunto de predictores relativos a las características de la estación y de su área de influencia. Estas últimas se calculan con la ayuda de Sistemas de Información Geográfica (SIG), lo que permite un tratamiento detallado de las mismas (Walters y Cervero, 2003; Kuby et. al., 2004; Cervero, 2006; Cardozo et al., 2010). Así, los modelos de predicción directa permiten analizar con precisión las variables de las áreas de influencia de las estaciones y, a partir de las elasticidades, conocer las repercusiones de posibles actuaciones urbanísticas (como nuevos desarrollos, operaciones de densificación, etc.) sobre la demanda de viajeros, lo que resulta de particular interés en la planificación. Además, la combinación de precisión, bajo coste y sencillez les convierten en una alternativa razonable para municipios de tamaño pequeño o de recursos limitados, que necesitan evaluar de forma rápida y precisa la demanda prevista en sus planes de inversión en infraestructuras de transporte.

Como decimos, los modelos de predicción directa de la demanda a nivel de estación se basan normalmente en el análisis de regresión múltiple por ajuste de mínimos cuadrados (OLS) (Parsons Brinckerhoff, 1996; Walters y Cervero, 2003; Chu, et al., 2004; Kuby et al., 2004; Cardozo et al., 2010; Gutiérrez et al., 2011). Ésta aproximación analítica tiene el defecto de enmascarar las variaciones geográficas de las relaciones entre las variables (Lloyd y Shuttleworth, 2005), al adoptar el supuesto de relaciones estacionarias entre variables, ignorando la posibilidad de que existan variaciones locales a causa de la heterogeneidad propia del espacio (Páez, 2006). Sin embargo, es bien conocido que los datos geográficos normalmente no tienen un comportamiento estacionario (Haining, 2010). Cuando en los modelos de regresión se asume que el poder explicativo es igual para todo el conjunto de observaciones, la idea de un comportamiento uniforme y constante del ajuste a través del espacio geográfico resulta por lo menos sospechosa, y estaríamos frente al problema conocido en la literatura como inestabilidad paramétrica (Arbia, 2006; Páez et al., 2010; Haining, 2010). Aceptar como verdadero aquel supuesto es negar la posibilidad de conocer las interacciones locales que se producen dentro del área de estudio.

En el modelo OLS cada observación es considerada de forma independiente. Pero lo cierto es que los datos espaciales no cumplen la hipótesis de independencia, debido a que normalmente están autocorrelacionados, por lo que la fuerza de la relación entre las variables del modelo no será la misma en toda el área de estudio (Clark, 2007). En este sentido, Lloyd and Shuttleworth (2005) destacan la necesidad de incluir en los modelos especificaciones más apropiadas, que consideren la naturaleza intrínseca de los datos espaciales, que normalmente están autocorrelacionados.

Los modelos estadísticos tradicionales pueden mostrar problemas de especificación cuando no consideran la presencia de autocorrelación espacial en los datos. Una consecuencia importante es el riesgo de estimar coeficientes ineficientes para representar la magnitud de la relación entre las variables, por lo que las pruebas de significación estadística sobre los mismos serán cuestionables debido a la inflación en los errores estándar. Por esta razón, antes de cualquier interpretación de los resultados de un análisis regresión, es necesario someter los residuos a test específicos (como el I de Moran o el C de Geary) para demostrar estadísticamente su aleatoriedad espacial. En caso contrario, es decir, en presencia de autocorrelación espacial, es recomendable

Page 3: Regresión Geográficamente Ponderada (GWR) y estimación de ...tig.age-geografia.es/2012_Madrid/ponencia2/GutierrezPuebla_final_p… · estos modelos usan análisis de regresión

XV Congreso Nacional de Tecnologías de la Información Geográfica, Madrid, AGE-CSIC, 19-21 de Septiembre de 2012 Regresión Geográficamente Ponderada (GWR) y estimación de la demanda de las estaciones del Metro de Madrid

J. Gutierrez-Puebla, J.C. García-Palomares y O. Daniel-Cardozo

evaluar el empleo de alguna técnica diseñada específicamente para hacer frente a este tipo de problemas, como la Regresión Geográficamente Ponderada (GWR).

Brunsdon et al. (1996) introdujeron este término para aludir a una familia de modelos de regresión “ajustados al espacio”, donde es posible observar las variaciones espaciales de los parámetros estimados y con ello saber dónde y cuánto es el efecto de una variable explicativa sobre la dependiente. Se trata de ajustar tantas regresiones como observaciones (unidades espaciales) se consideren en el análisis, en base al concepto de distance decay (se da más peso a las observaciones más próximas y menos a las más lejanas), operacionalizado por medio de una función kernel, que simule el efecto de caída con la distancia. En consecuencia se pueden realizar estimaciones ajustadas a cada observación, aplicando su correspondiente ecuación.

La GWR considera así explícitamente la componente espacial de los datos, incorporando en su ecuación el valor de las coordenadas geográficas de las observaciones. Frente a la regresión OLS, los coeficientes βj (j = 0, 1, …, p) de los j predictores xj (j = 1, …, p) varían para cada localización, es decir, que para cada localización definida por sus coordenadas (ui, vi), el valor de la variable dependiente yi es estimado según:

yi = β0(ui, vi) + β1(ui, vi) x1 + β2(ui, vi) x2 + … + βp(ui, vi) xp

Algunas de las ventajas más importantes que justifican el empleo de la GWR son:

• Permite moverse desde una perspectiva global a un análisis local del problema, obteniendo un mayor grado de detalle y precisión (Lloyd, 2010).

• Los coeficientes de cada uno de los predictores (elasticidades) varían de una unidad espacial a otra (inestabilidad espacial).

• La posibilidad de estimar coeficientes de determinación locales para cada unidad espacial a partir de los valores de un conjunto de observaciones vecinas, permite conocer la forma en que se combinan localmente las variables de la regresión para obtener el “ajuste específico” en una localización (Fotheringham et al., 2002).

• La desagregación del coeficiente de determinación (R2) global en coeficientes locales y el análisis de su distribución geográfica permiten reconocer dónde las variables independientes tienen un mayor

o peor poder explicativo (Fotheringham et al., 2002; Lloyd, 2010).

• En la gran mayoría de los casos, esta clase de regresión genera errores de estimación más pequeños que el modelo tradicional, además de anular o reducir el problema de la autocorrelación espacial (Hadayeghi et al., 2010).

• La implementación de esta técnica en los Sistemas de Información Geográfica (SIG) facilita la elaboración de una amplia variedad de mapas con los resultados generados: variables dependientes e independientes, R2 locales, coeficientes locales de los predictores (elasticidades), valores t, residuos estandarizados (Mennis, 2006).

• Es posible generar superficies interpoladas para conocer la distribución espacial continua de los parámetros y aplicar los principios de la “predicción espacial” para hallar los valores de las observaciones que faltan (Anselin, 1988; Páez, 2006).

• Facilita explorar la estructura espacial del modelo, es decir, medir el grado de dependencia espacial presente en el modelo -pudiendo ser positiva o negativa-, o detectar clusters de datos (Anselin, 1988).

• Al proveer resultados específicos para cada localización, éstos pueden ser usados como evidencias para apoyar políticas o tomas de decisiones locales; por eso con frecuencia estas técnicas son llamadas “basadas en el lugar”.

Aunque la GWR es una técnica todavía muy joven, ha sido aplicada en campos de investigación muy distintos. En el ámbito del transporte se ha utilizado para explorar las variaciones espaciales que presentan variables como los accidentes de tráfico (Hadayeghi et al., 2010), la accesibilidad (Mountain et al., 2007), la tenencia de coche (Clark, 2007), el tráfico medio anual de las carreteras (Zhao y Park, 2004), las distancias medias recorridas por los commuters (Lloyd y Shuttleworth, 2005), el uso del transporte público (Chow et al., 2006 y 2010; Kobayashi y Lane, 2007; Blainey y Preston, 2010) o la influencia de las infraestructuras de transporte en el uso del suelo (Páez, 2006). Sin embargo la GWR apenas ha sido incorporada a los modelos de predicción directa de la demanda a nivel de estación.

El objetivo principal de esta comunicación es demostrar las ventajas de los modelos de regresión geográficamente ponderada en la estimación de la demanda del transporte público

Page 4: Regresión Geográficamente Ponderada (GWR) y estimación de ...tig.age-geografia.es/2012_Madrid/ponencia2/GutierrezPuebla_final_p… · estos modelos usan análisis de regresión

XV Congreso Nacional de Tecnologías de la Información Geográfica, Madrid, AGE-CSIC, 19-21 de Septiembre de 2012 Regresión Geográficamente Ponderada (GWR) y estimación de la demanda de las estaciones del Metro de Madrid J. Gutierrez-Puebla, J.C. García-Palomares y O. Daniel-Cardozo

a nivel de estación, y las grandes posibilidades de la explotación de sus resultados.

2 ÁREA DE ESTUDIO Y DATOS

Para cumplir ese objetivo se utiliza como área de estudio la red de Metro de Madrid. El año de referencia es 2004, ya que para esa fecha se dispone de un aforo de viajeros en todas las estaciones y una encuesta de movilidad. En 2004 la red contaba con un total de 12 líneas y 190 estaciones, y se extendía por el municipio de Madrid y varios de los municipios de su entorno: Alcorcón, Móstoles, Leganés, Fuenlabrada, Getafe, Rivas-Vaciamadrid y Arganda (figura 1).

Para alimentar los modelos de regresión se dispuso de las siguientes capas de información:

• Estaciones de la red de metro de Madrid (Consorcio Regional de Transportes de Madrid). Contiene información relativa a las características de las estaciones (por ejemplo, número de líneas de Metro que

pasan por la estación) y al número de viajeros que entraron en cada una de las 190 estaciones de la red en el mes de noviembre de 2004 (variable dependiente en los modelos de regresión).

• Red viaria (Instituto de Estadística de la Comunidad de Madrid). Utilizada para delimitar las áreas de influencia de las estaciones por medio de distancias a través del viario (no en línea recta).

• Zonas de transporte (Consorcio Regional de Transportes de Madrid). Contiene datos como población, empleos, ocupados, etc., referidas también al año 2004, y que permiten caracterizar los entornos de las estaciones.

• Estaciones de las redes de autobuses urbanos e interurbanos (Consorcio Regional de Transportes de Madrid). Utilizadas para calcular el número de líneas alimentadoras en el entorno de las estaciones de metro.

Figura 1: Distribución geográfica de la red de Metro en el área metropolitana de Madrid

3 METODOLOGÍA Para calcular las variables del entorno de las

estaciones (población, empleo, mezcla de usos del suelo, etc.) usadas como variables explicativas, la mayor parte de los estudios anteriores delimitan áreas de influencia a partir de distancias euclidianas (por ejemplo, Parsons Brinckerhoff, 1996; Walters y Cervero, 2003; Chu et al., 2004). En este trabajo las distancias se calculan a través de la red viaria (utilizando el módulo de Network Analyst de ArcGIS), hasta un umbral de distancia de 800 metros en torno a las

estaciones, umbral en el que se obtuvo el máximo ajuste para la mayor parte de los modelos calibrados (Gutiérrez et al., 2011). Posteriormente, se han superpuesto las franjas de cobertura con las capas que contienen las distintas variables de población y empleo y se ha usado el método de proporción de áreas (ver Moreno y Prieto, 2003) para su reparto según dichas franjas.

A partir de las fuentes de información mencionadas se generaron inicialmente 9 variables (tabla 1) como posibles predictores del número de entradas mensuales al Metro. Estas

Page 5: Regresión Geográficamente Ponderada (GWR) y estimación de ...tig.age-geografia.es/2012_Madrid/ponencia2/GutierrezPuebla_final_p… · estos modelos usan análisis de regresión

XV Congreso Nacional de Tecnologías de la Información Geográfica, Madrid, AGE-CSIC, 19-21 de Septiembre de 2012 Regresión Geográficamente Ponderada (GWR) y estimación de la demanda de las estaciones del Metro de Madrid

J. Gutierrez-Puebla, J.C. García-Palomares y O. Daniel-Cardozo

nueve variables fueron identificadas en un trabajo anterior donde se analizan los factores que afectan a la demanda de transporte público (ver Gutiérrez et al., 2011). Para las 9 variables iniciales se aplicaron los test disponibles en los paquetes SIG para comprobar la presencia o no de autocorrelación espacial es sus distribuciones, usando el I de Moran global y local, estimados en OpenGeoDa. A la vez, se realizó una matriz de correlaciones bivariadas entre las variables incluidas en el modelo, con el fin de identificar posibles problemas de multicolinealidad en los modelos de regresión. Los cálculos de los modelos de regresión (OLS y GWR) se implementaron utilizando las herramientas modelado de relaciones espaciales de ArcGIS (versión 10).

Variable Descripción

Población Población total en el área de cobertura a 800 m

Empleo Empleos en el área de cobertura a 800 m

Ocupados Población ocupada total residente en el área de cobertura a 800 m

Hogares sin coche

Porcentaje de hogares sin coche en el área de cobertura a 800 m

Mezcla de usos

Inverso del coeficiente de variación en el área cubierta por diferentes usos del suelo dentro del área de cobertura a 800 m (valores altos indican alta diversidad de uso)

Densidad de viario

Densidad de viario en área de cobertura a 800 m

Número de líneas

Número de líneas que pasan por la estación

Buses urbanos Número de líneas de autobuses urbanos en el área de cobertura a 800 m

Buses interurbanos

Número de líneas del autobús interurbanos en el área de cobertura a 800 m

Tabla 1: Variables predictores candidatas para los modelos OLS y GWR

A partir de los nueve predictores se realizaron múltiples modelos, hasta seleccionar uno con un alto poder explicativo y que incorpora tan sólo cuatro variables independientes, pero relevantes en la planificación y estimación del uso de las estaciones. Manteniendo el número de

observaciones y de variables constantes, se estimó el modelo GWR en ArcGIS. Esta técnica da más peso a las observaciones más cercanas al ajustar la ecuación. En nuestro caso, para la asignación de los pesos se utilizó una función Kernel adaptativa, que es la utilizada con más frecuencia en estos modelos, ya que se adapta mejor a una distribución irregular de las observaciones como en el caso de estaciones de metro. Para establecer el umbral de observaciones a considerar en el GWR se utilizó el Criterio de Información de Akaike (AIC) (Fotheringham et al., 2002).

Una vez que se obtuvieron los dos modelos (OLS y GWR), estos son comparados tanto por su ajuste global como por la distribución de sus residuos. La decisión de recurrir a la regresión espacial se justifica cuando se produce una mejora en el ajuste global o cuando se detecta la presencia de agrupaciones espaciales (clusters) en la distribución de los residuos, que debe corregirse. Para ello, se han cartografiado los residuos de ambos modelos, y se ha calculado el I de Moran de dichas distribuciones.

Finalmente, se analizó la distribución espacial de los ajustes del modelo GWR (valores locales de R2) y de los coeficientes locales β (y sus significaciones). Estos coeficientes se han interpolado mediante el método IDW para obtener superficies continuas, que ayuden a comprender el patrón espacial de la fuerza de cada variable en el modelo. De esta forma es posible analizar la bondad del ajuste (R2) a nivel local y realizar un análisis espacial de las elasticidades y la importancia de las variables explicativas.

4 RESULTADOS Antes de construir los modelos se realizaron

los análisis para determinar si, tanto la variable dependiente como los posibles predoctores, presentaban autocorrelación espacial. Todas las variables, salvo la mezcla de usos del suelo, presentan autocorrelación espacial, significativa estadísticamente (tabla 2).

Para la prueba de multicolinealidad entre las variables independientes se calcularon las correlaciones bivariadas entre los predictores candidatos (tabla 3). Los coeficientes de correlación más altos se observan entre las variables número de ocupados y número de empleos (0,547) y entre el total de población y la mezcla de usos del suelo (0,583). En cualquier caso, todas las correlaciones entre las variables independientes están debajo del nivel de riesgo de 0,7 (Clark y Hosking, 1986). La selección del modelo final se basa en los métodos de los paquetes estadísticos convencionales y en las teorías de los modelos de estimación directa. El objetivo es conciliar una alta capacidad

Page 6: Regresión Geográficamente Ponderada (GWR) y estimación de ...tig.age-geografia.es/2012_Madrid/ponencia2/GutierrezPuebla_final_p… · estos modelos usan análisis de regresión

XV Congreso Nacional de Tecnologías de la Información Geográfica, Madrid, AGE-CSIC, 19-21 de Septiembre de 2012 Regresión Geográficamente Ponderada (GWR) y estimación de la demanda de las estaciones del Metro de Madrid J. Gutierrez-Puebla, J.C. García-Palomares y O. Daniel-Cardozo

explicativa, con un número bajo de variables independientes, y que éstas sean fáciles de obtener y relevantes desde la perspectiva de la planificación. El modelo final incorpora cuatro variables independientes: tres relativas al área de

influencia de la estación (cantidad de ocupados, cantidad de empleos, número de líneas de autobuses interurbanos) y una relativa a las características de las estaciones (número de líneas que pasan por la estación).

Variable Moran’s I Pauta z-score p-value

Entradas 0.094 Agrupación 8.004 0.00

Población 0.091 Agrupación 7.579 0.00

Empleo 0.339 Agrupación 27.302 0.00

Ocupados 0.114 Agrupación 9.407 0.00

Hogares sin coche 0.034 Agrupación 3.156 0.00159

Mezcla de usos -0.002 Aleatoria 0.270 0.7868

Densidad de viario 0.394 Agrupación 31.632 0.00

Número de líneas 0.112 Agrupación 9.311 0.00

Buses urbanos 0.112 Agrupación 9.255 0.0000

Buses interurbanos 0.192 Agrupación 15.742 0.0000

Tabla 2: Autocorrelación espacial con I-Moran para la variable dependiente y las independientes candidatas

Número de líneas

Población

Empleo

Ocupados

Buses interurban

os

Buses urbanos

Densidad de viario

Mezcla de

usos

Hogares sin

coche

Número de líneas 1

Población -,034 1

Empleo ,455** -,018 1

Ocupados ,228** ,379** ,547** 1

Buses interurbanos ,082 ,171* -,133 ,028 1

Buses urbanos ,268** ,066 ,481** ,455** -,071 1

Densidad de viario ,199** ,326** ,328** ,365** -,231** ,345** 1

Mezcla de usos -,049 ,583** ,079 ,392** ,000 ,239** ,340** 1

Hogares sin coche ,073 ,448** ,034 ,173* ,051 ,110 ,268** ,312** 1

** La correlación es significativa al nivel de 0.01. * La correlación es significativa al nivel de 0.05.

Tabla 3: Correlaciones bivariadas (Pearson r) entre las variables independientes candidatas

Page 7: Regresión Geográficamente Ponderada (GWR) y estimación de ...tig.age-geografia.es/2012_Madrid/ponencia2/GutierrezPuebla_final_p… · estos modelos usan análisis de regresión

XV Congreso Nacional de Tecnologías de la Información Geográfica, Madrid, AGE-CSIC, 19-21 de Septiembre de 2012 Regresión Geográficamente Ponderada (GWR) y estimación de la demanda de las estaciones del Metro de Madrid

J. Gutierrez-Puebla, J.C. García-Palomares y O. Daniel-Cardozo

El ajuste del modelo global (OLS) ofrece unos R2 y R2 ajustado de 0,56 y 0,57, respectivamente, lo que significa que con solo cuatro variables se explica un poco más de la mitad de la variabilidad en el número de viajeros que entran en las estaciones de la red de Metro (tabla 4). Todas las variables independientes son significativas a un nivel de 0,05 y presentan los coeficientes esperados. Los valores de VIF (todos por debajo del umbral de 7,5) indican que no hay problemas de multicolinearidad entre las variables explicativas. El elevado valor del estadístico F (60,6) y su bajo p-value asociado (0,000000) denotan la elevada significación estadística del modelo.

Sin embargo, la significación (p-value = 0,0023) del estadístico Koenker indica errores estándares sesgados producto de la heteroscedasticidad. El p-value significativo (0,000000) en el estadístico Jarque-Bera demuestra que los residuales se desvían de una distribución normal teórica. Asimismo los resultados de los test I de Moran aplicados, indican presencia de autocorrelación espacial en los residuos (figura 2). Por lo tanto existen evidencias suficientes para recurrir a la regresión geográfica.

Resumen modelo OLS

Variable Coeficiente β StdError t-Statistic Probabilidad VIF

Intercept -233283,245 38117,356 -6,120 0,0000* -----

Número de líneas

306115,745 26118,755 11,720 0,0000* 1,173

Ocupados 14,65796 5,288 2,7722 0,0061* 1,598

Buses interurbanos

1295,41846 497,645 2,603 0,0099* 1,037

Empleos 7,073422 3,109 2,274 0,0240* 1,836

Diagnóstico modelo OLS

Número de observaciones 190

Número de variables 5

R2 Ajustado 0,557

R2 0,567

AIC 5157,689

Grados de Libertad: 185

F-Statistic 60,637 Prob(>F), (4,185) degrees of freedom: 0,0000*

Koenker (BP) Statistic 16,534 Prob(>chi-squared), (4) degrees of freedom:

0,0024*

Jarque-Bera Statistic 1403,820 Prob(>chi-squared), (2) degrees of freedom:

0,0000*

Tabla 4: Resumen y diagnóstico de los coeficientes en el Modelo OLS

Page 8: Regresión Geográficamente Ponderada (GWR) y estimación de ...tig.age-geografia.es/2012_Madrid/ponencia2/GutierrezPuebla_final_p… · estos modelos usan análisis de regresión

XV Congreso Nacional de Tecnologías de la Información Geográfica, Madrid, AGE-CSIC, 19-21 de Septiembre de 2012 Regresión Geográficamente Ponderada (GWR) y estimación de la demanda de las estaciones del Metro de Madrid

J. Gutierrez-Puebla, J.C. García-Palomares y O. Daniel-Cardozo

Modelo OLS Modelo GWR

Variables Min. Max. Media Std Desv.

Intercept -233283.245 -252229.59 -81629.73 -181531.73 49688.93

Número de líneas 306115.745 188054.54 317444.42 268099.52 30369.49

Ocupados 14.657960 -3.60 30.02 12.20 6.77

Empleos 7.073422 2.74 13.33 7.49 2.08

Buses interurbanos 1295.418463 -833.07 11598.57 6097.50 3959.04

Diagnóstico

R2 0.57 0.73

R2 Ajustado 0.56 0.70

AICc 5157.68 5095.90

Number of parameters 5 24.49

Sigma (σ) 35114930078.30 152398.96

Residual Squares 184907.89 145031.96

Tabla 5: Parámetros estimados y estadísticos de diagnóstico en ambos modelos

Los R2 y R2 ajustado obtenidos usando GWR son de 0,73 y 0,70, respectivamente, lo cual supone una mejora muy importante con respecto al modelo OLS. También resulta un valor más reducido del AIC, así como de otros parámetros (Sigma y Desvío Standard) referidos al error en el modelo (tabla 5).

Asimismo, el análisis de los residuos también muestra mejores resultados en la GWR que en la OLS.

Esta mejora se comprueba estadísticamente con los datos de la tabla 6, donde el valor calculado del I de Moran se aproxima mucho más al valor esperado en el modelo GWR, mostrando además una menor varianza y mayores probabilidades de distribución aleatoria (p-valor y Z score). Más claros aún son los mapas de clusters y significación (figura 2), donde los residuos del modelo tradicional presentan clusters de valores significativamente altos, tanto positivos como negativos, mientras que en el modelo espacial se descarta algún tipo de agrupamiento.

Por otra parte, la distribución espacial de los ajustes locales producidos con la GWR, permite conocer la variación espacial del poder explicativo del modelo. La figura 3 muestra que el modelo tiene mejor capacidad predictiva hacia el norte y

centro de la red principalmente, mientras que disminuye su precisión en el sur. Esta tendencia muestra como el ajuste es peor en aquellos espacios dónde hay menor densidad de estaciones, de manera que las estaciones tienen un número bajo de vecinos. Al contrario, en las zonas con más densidad, aparecen más vecinos a la hora de realizar el ajuste del modelo para cada estación, incrementándose los R2 por encima del 0.71.

Método OLS

Método GWR

I calculado 0,022755 -0,020655

I esperado -0,005291 -0,005291

Varianza 0,000153 0,000149

z-score 2,264975 -1,257582

p-value 0,023514 0,208543

Tabla 6: Test de Moran en los Residuos

Page 9: Regresión Geográficamente Ponderada (GWR) y estimación de ...tig.age-geografia.es/2012_Madrid/ponencia2/GutierrezPuebla_final_p… · estos modelos usan análisis de regresión

XV Congreso Nacional de Tecnologías de la Información Geográfica, Madrid, AGE-CSIC, 19-21 de Septiembre de 2012 Regresión Geográficamente Ponderada (GWR) y estimación de la demanda de las estaciones del Metro de Madrid

J. Gutierrez-Puebla, J.C. García-Palomares y O. Daniel-Cardozo

Figura 2: Clusters espaciales y significación en los errores del modelo OLS y el GWR

Figura 3: Distribución espacial de la R2 locales

Otra posibilidad que brinda la GWR es el análisis de la variabilidad espacial de los coeficientes locales de las variables independientes (elasticidades) (figura 4). Así, por ejemplo, las elasticidades medias de la variable ocupados es de 12,2. Esto significa que por cada nuevo ocupado en el área de cobertura de la estación el número de viajes mensuales se incrementa en 12,2. Sin embargo, estas elasticidades son más altas (más viajes por ocupado) en el sur (estratos sociales bajo y medio-bajo, más dependientes del transporte público) que en el norte (estratos sociales alto y medio-alto, más proclives al uso del transporte

privado). Al contrario, la media de los coeficientes de la variable empleo fue de 7,49, pero con valores muy elevados en el centro y centro-oeste, donde se concentran los empleos comerciales, administrativos y educativos. Este tipo de empleos presenta ratios de viajes atraídos por empleo más elevados que otros tipos de empleo, como por ejemplo los industriales, lo cual explica que en las áreas donde se concentran el valor de las elasticidades sea más elevado. No obstante, la variación espacial de los coeficientes debe interpretarse cuidadosamente. La cartografía de los t-value muestra como los coeficientes no son significativos estadísticamente (al nivel de 0,05, t-

Page 10: Regresión Geográficamente Ponderada (GWR) y estimación de ...tig.age-geografia.es/2012_Madrid/ponencia2/GutierrezPuebla_final_p… · estos modelos usan análisis de regresión

XV Congreso Nacional de Tecnologías de la Información Geográfica, Madrid, AGE-CSIC, 19-21 de Septiembre de 2012 Regresión Geográficamente Ponderada (GWR) y estimación de la demanda de las estaciones del Metro de Madrid J. Gutierrez-Puebla, J.C. García-Palomares y O. Daniel-Cardozo

value menor de 1,96) en algunas áreas. Normalmente las zonas con menor densidad de estaciones (figura 4).

5 CONSIDERACIONES FINALES

Los modelos de predicción directa de la demanda de transporte público a nivel de estación tienen indudables ventajas en relación al tradicional modelo de cuatro etapas: respuesta rápida, simplicidad, fácil comprensión de los resultados, menores necesidades de información y bajo coste. Es cierto que carecen de la perspectiva regional del modelo de cuatro etapas, pero permiten profundizar en el análisis del entorno de las estaciones y evaluar la influencia que los cambios en esos entornos (por ejemplo, nuevos desarrollos residenciales o áreas de actividad económica) tendrán en la demanda del transporte público. Ello gracias a que utilizan los SIG como herramienta para el cálculo de esas variables, mediante operaciones de desagregación espacial que permiten conocer con detalle los entornos de las estaciones (una aproximación de grano fino, en palabras de Cervero, 2006).

La incorporación de técnicas de estadística espacial –medidas de autocorrelación espacial y GWR- en los modelos de predicción directa supone claras ventajas sobre el empleo de métodos estadísticos tradicionales (OLS). En presencia de autocorrelación espacial (lo que es habitual en los datos geográficos) el modelo GWR se comporta de forma más eficiente porque considera las variaciones espaciales de las relaciones entre las variables y obtiene parámetros locales que reflejan más exactamente su influencia en el uso del transporte público. El modelo GWR no sólo suele tener un mayor poder explicativo que el OLS, sino que además permite profundizar en el análisis local, ya que se dispone de una ecuación de regresión para cada observación, ajustada localmente. Así es posible conocer dónde el modelo tiene un mayor o menor ajuste (R2) y cómo cambia la relación entre las variables en el espacio (coeficientes de los predictores) y con qué significación estadística.

El conocimiento de la variación de cada coeficiente en el espacio (elasticidades) permite extraer conclusiones más realistas, basadas en el análisis local: operaciones urbanísticas en el entorno de las estaciones podrán producir un mayor o menor número de viajes en función del lugar donde se realicen. Sin duda esto resulta de gran ayuda para los decisores políticos, al poder

disponer de predicciones más realistas. Estos modelos no solamente son útiles para conocer los efectos de las políticas de uso del suelo en la demanda de las estaciones, sino que también pueden ser una alternativa razonable al modelo de cuatro etapas para predecir la demanda de nuevas estaciones. En el caso de que las nuevas estaciones se construyeran en líneas existentes (por ejemplo, una nueva estación pasante), la inclusión de la frecuencia de la línea como predictor contribuye a alcanzar coeficientes de determinación más elevados (Blainey, 2010).

Sin embargo todavía existen muy pocos modelos de predicción directa de demanda a nivel de estación que incorporen la GWR en lugar del método OLS. Este trabajo aporta evidencia de las ventajas de considerar el análisis local en este tipo de modelos. El modelo resultante es sencillo, de respuesta rápida y aporta resultados relevantes. El coeficiente de determinación aumentó de forma dramática con respecto al obtenido con el modelo OLS y el análisis de su distribución espacial y la de las elasticidades aportó información complementaria de gran interés. Estos resultados permiten demostrar algunas de las ventajas del modelo propuesto y aportan argumentos para su utilización en la planificación del transporte.

AGRADECIMIENTOS Esta comunicación ha sido financiada por

el Ministerio de Economía y Competividad (Proyecto TRA2008-06682). Una versión ampliada de este trabajo ha sido publicada en Applied Geography 34 (2012) 548-558.

BIBLIOGRAFÍA Anselin, L. 1988. Spatial Econometrics: methods

and models. Kluwer Academic, Dordrecht.

Arbia, G. y Baltagi, B.H. 2009. Spatial econometrics. Methods and applications. Physica-Verlag, Heidelberg.

Blainey, S.P. 2010. Trip end models of local rail demand in England and Wales. Journal of Transport Geography 18 (1), 153-165.

Blainey, S.P. y Preston, J.M. 2010. A geographically weighted regression based analysis of rail commuting around Cardiff, South Wales. Paper presented at the 12th World Conference on Transportation Research, Lisbon, Portugal.

Page 11: Regresión Geográficamente Ponderada (GWR) y estimación de ...tig.age-geografia.es/2012_Madrid/ponencia2/GutierrezPuebla_final_p… · estos modelos usan análisis de regresión

XV Congreso Nacional de Tecnologías de la Información Geográfica, Madrid, AGE-CSIC, 19-21 de Septiembre de 2012 Regresión Geográficamente Ponderada (GWR) y estimación de la demanda de las estaciones del Metro de Madrid

J. Gutierrez-Puebla, J.C. García-Palomares y O. Daniel-Cardozo

Figura 4: Distribución espacial de los coeficientes locales (elasticidades)

Empleos

Ocupados

Número de líneas

Líneas autobuses interurbanos

Page 12: Regresión Geográficamente Ponderada (GWR) y estimación de ...tig.age-geografia.es/2012_Madrid/ponencia2/GutierrezPuebla_final_p… · estos modelos usan análisis de regresión

XV Congreso Nacional de Tecnologías de la Información Geográfica, Madrid, AGE-CSIC, 19-21 de Septiembre de 2012 Regresión Geográficamente Ponderada (GWR) y estimación de la demanda de las estaciones del Metro de Madrid

J. Gutierrez-Puebla, J.C. García-Palomares y O. Daniel-Cardozo

Brunsdon, C., Fotheringham, A.S. y Charlton, M.E. 1996. Geographically weighted regression: a method for exploring spatial nonstationarity. Geographical Analysis 28 (4), 281-298.

Cardozo, O.D., Gutiérrez, J. y García, J.C. 2010. Influencia de la morfología urbana en la demanda de transporte público: análisis mediante SIG y modelos de regresión múltiple. GeoFocus 10, 82-102.

Cervero, R. 2006. Alternative approaches to modeling the travel-demand impacts of smart growth. Journal of the American Planning Association 72 (3), 285-295.

Chow, L.F., Chi, H. y Zhao, F. 2010. Subregional transit ridership models based on geographically weighted regression. Paper presented at 89th Annual Meeting of Transportation Research Board, Paper #10-3810.

Chow, L.F., Zhao, F., Min-Tang, L., Liu, X. y Ubaka, I. 2006. Transit ridership model based on geographically weighted regression. Journal of the Transportation Research Board 1972, 105-114.

Chu, X. 2004. Ridership models at the stop level. National Center for Transit Research, Florida Department of Transportation. Report Nº BC137-31.

Clark, S.D. 2007. Estimating local car ownership models. Journal of Transport Geography 15, 184-197.

Clark, W.A.V. y Hosking, P.L. 1986. Statistical Methods for Geographers. Wiley, New York.

Fotheringham, A.S., Brunsdon, C. y Charlton, M.E. 2002. Geographically weighted regression: the analysis of spatially varying relationships. Wiley, Chichester.

Gutiérrez, J., Cardozo, O.D. y García-Palomares, J.C. 2011. Transit ridership forecasting at station level: an approach based on distance-decay weighted regression. Journal of Transport Geography 19, 1081-1092.

Hadayeghi, A., Shalaby, A.S. y Persaud, B.N. 2010. Development of planning level transportation safety tools using geographically weighted poisson regression. Accident Analysis and Prevention 42, 676-688.

Haining, R.P. 2010. The nature of georeferenced data. In: Fischer, M.M., Getis, A. (Eds.) Handbook of applied spatial analysis. Software tools, methods and applications. Springer, Berlin, pp. 197-218.

Kobayashi, T. y Lane, B. 2007. Spatial heterogeneity and transit use. Paper presented at the 11th World Conference on Transportation Research, Berkeley, USA.

Kuby, M., Barranda, A. y Upchurch, C. 2004. Factors influencing light-rail station boardings in the United States. Transportation Research A 38 (3), 223-247.

Lloyd, C.D. y Shuttleworth, I. 2005. Analysing commuting using local regression techniques: scale, sensitivity, and geographical patterning. Environment and Planning A 37 (1), 81-103.

Marshall, N. y Grady, B. 2006. Sketch Transit Modeling Based on 2000 Census Data. Journal of the Transportation Research Board 1986, 182-189.

McNally, M.G. 2007. The four step model. In: Hensher, D.A. and Button, J.K. (Eds.) Handbook of transport modeling. Pergamon, Oxford, pp. 35-52.

Mennis, J. 2006. Mapping the results of geographically weighted regression. Cartographic Journal 43 (2), 171-179.

Moreno, A. y Prieto, M. 2003. “Evaluación de los procedimientos para delimitar áreas de servicio de líneas de transporte urbano con Sistemas de Información Geográfica”, Investigaciones Regionales, 2, 85-102.

Mountain, D.M., Tsui, J.L.Y. y Raper, J.F. 2007. Modelling accessibility via transportation networks based upon previous experience: a geographically weighted regression approach. Paper presented at the Geocomputation 2007, Maynooth, Ireland.

Ortúzar, J.D. y Willumsen, L.G. 2008. Modelos de transporte. PubliCan Ediciones, Santander.

Páez, A. 2006. Exploring contextual variations in land use and transport analysis using a probit model with geographical weights. Journal of Transport Geography 14 (3), 167-176.

Páez, A., Le Gallo, J., Buliung, R.N. y Dall’erba, S. 2010) Progress in spatial analysis. Methods and applications. Springer, Heidelberg.

Parsons Brinckerhoff. 1996. Transit and Urban Form. TCRP Report 16, Vol. 1. Transportation Research Board, National Research Council, Washington DC, USA.

Walters, G. y Cervero, R. 2003. Forecasting transit demand in a fast growing corridor: the direct-ridership model approach. Fehrs and Peers Associates.