Post on 14-Jul-2022
UNIVERSIDAD DE CHILE
FACULTAD DE CIENCIAS FÍSICAS Y MATEMÁTICAS
DEPARTAMENTO DE INGENIERÍA INDUSTRIAL
DEPARTAMENTO DE INGENIERÍA CIVIL
EVALUACIÓN DE HERRAMIENTAS RECOMENDACIÓN DE
RUTAS DE TRANSPORTE PÚBLICO USANDO MODELOS
BASADO EN LA UTILIDAD Y DATOS PASIVOS
TESIS PARA OPTAR AL GRADO DE MAGÍSTER EN
GESTIÓN DE OPERACIONES
MEMORIA PARA OPTAR AL TÍTULO DE INGENIERO CIVIL
FELIPE IGNACIO VERA GONZÁLEZ
PROFESORA GUÍA:
MARCELA ADRIANA MUNIZAGA MUÑOZ
MIEMBROS DE LA COMISIÓN:
C. ANGELO GUEVARA CUÉ
FERNANDO IVÁN ORDOÑEZ PIZARRO
SANTIAGO DE CHILE
2020
i
RESUMEN DE LA TESIS PARA
OPTAR AL TITULO DE:
Ingeniero Civil, mención transporte y
grado de Magíster en Gestión de
Operaciones
POR: Felipe Ignacio Vera González
FECHA: 2020
PROFESORA GUÍA: Marcela Adriana
Munizaga Muñoz
EVALUACIÓN DE HERRAMIENTAS RECOMENDACIÓN DE
RUTAS DE TRANSPORTE PÚBLICO USANDO MODELOS
BASADO EN LA UTILIDAD Y DATOS PASIVOS
En la actualidad es posible utilizar datos pasivos para reconocer los viajes que los usuarios
de transporte público efectúan. En Santiago de Chile esta labor es realizada por el software
ADATRAP, obteniendo una basta fuente de información de movilidad de pasajeros que
puede ser utilizada para comprender y generar herramientas de recomendación de rutas
de transporte público. Por lo anterior, esta tesis busca generar modelos de recomendación
de rutas que incorporen las preferencias de cada individuo a partir de esta información y
evaluar su desempeño en la recomendación de rutas.
Para lo anterior, un primer desafío enfrentado en el presente trabajo es construir el
conjunto de alternativas que el usuario posee al momento de efectuar su viaje (conjunto
de consideración). El conjunto anterior fue generado a partir de todas las alternativas
observadas por usuarios que tenían un par origen y destino cercano de viaje. Luego, se
procedió a estimar modelos de elección de rutas basados en la maximización de la utilidad
aleatoria, obteniendo valorizaciones de los atributos de rutas a nivel poblacional e
individual. Para finalizar se estimaron indicadores de desempeño de recomendación de
cada modelo incluyendo modelos de elección de rutas de mínimo tiempo y con
valorizaciones de atributos estimados en otro estudio con la información de la Encuesta
Origen Destino Santiago 2012
La metodología aplicada permitió cuantificar la valorización de atributos de las rutas a
partir de datos pasivos. Lo anterior, es una gran oportunidad producto de que este tipo de
fuente de datos posee una amplia variedad espacial y temporal, pudiendo actualizar de
forma económica el conocimiento que se tiene de esto por autoridades de transporte
público. Además, se obtuvo una mejora de rendimiento de recomendación de los modelos
basado en la maximización de la utilidad aleatoria medido por la recuperación de la
primera preferencia con respecto a la metodología basada en la recomendación de la ruta
más corta. Con lo anterior, es posible que planificadores de viajes puedan evaluar un
rediseño de su sistema de recomendación que implique incorporar modelos de elección
de rutas estimados de datos pasivos.
ii
Dedicado a
Mi familia, amigos y profesores
“life is a journey, not a destination”
Dedicado a ti,
por supuesto
Dedicado a
Mi linfoma, q.e.p.d
iii
Agradecimientos
Muchas personas han contribuido directa y/o indirectamente en este proceso que culmina
con la entrega del presente documento.
Primero agradezco a mi familia, que siempre me han dado su apoyo. Especialmente a mis
padres, que siempre han confiado en mí y a mis hermanos Manuel y Amaro.
A todos los profesores por su labor de enseñanza, mención que se extiende a profesores
de enseñanza Básica, Media y Profesional. Especialmente a la profesora Marcela
Munizaga por todo el apoyo que ha significado en el proceso y al profesor Angelo Guevara
por estar siempre dispuesto a resolver las dudas.
A Kimberly por estar acompañándome en los momentos más difíciles del proceso, por el
cariño y preocupación constante. A Allison, Esteban, Jacqueline y Nicolás por hacer esta
última etapa más amena con su compañía.
A mis amigos de la universidad, Hans y Laura, Campos, Fabiola, Felipe, Alejandro, a los
hermanos Villalobos, a los Danieles y a los integrantes de la oficina 519 (a pesar de perder
muchos partidos de fútbol).
A todos los integrantes de la división de Transporte de la universidad de Chile y cada
funcionario que hizo este proceso posible, mención especial para Linda Valdés, por su
constante preocupación en el actual proceso.
A mis amigos del Liceo, que a pesar de la distancia del proceso aún mantienen contacto,
especialmente a Néstor y Oscar.
Al grupo de Natación de la Facultad, especialmente a la entrenadora Mónica. A todo el
equipo de Transapp, que deseo que siga creciendo (descarguen la aplicación).
Si alguien siente que debió ser incluido en esta sección, hacerlo saber al correo
felipe94b@gmail.com, si efectivamente su petición fuera aceptada, le estaré en deuda. Esta
deuda puede ser cancelada mediante la compra de un chocolate o un paseo en bicicleta.
iv
Tabla de contenido
CAPÍTULO 1: INTRODUCCIÓN ....................................................................................... 1
1.1. MOTIVACIÓN ................................................................................................. 1 1.2. OBJETIVOS .................................................................................................... 2 1.3. CONTENIDO ................................................................................................... 2
CAPÍTULO 2: REVISIÓN BIBLIOGRÁFICA ................................................................... 4
2.1. RECONOCIMIENTO DE RUTAS ELEGIDAS A PARTIR DE DATOS PASIVOS .................... 5 2.2. GENERACIÓN DEL CONJUNTO DE RUTAS ALTERNATIVAS DE VIAJE .......................... 8
2.2.1. Basadas en rutas más cortas ............................................................. 10 2.2.2. Otras metodologías ........................................................................... 12
2.3. MODELOS DE ELECCIÓN DE RUTAS .................................................................. 13 2.3.1. Heterogeneidad de gustos ................................................................. 15 2.3.2. Correlación entre alternativas .......................................................... 17
2.4. SÍNTESIS ..................................................................................................... 19
CAPÍTULO 3: DESCRIPCIÓN Y ANÁLISIS DE DATOS .................................................. 21
3.1. INFORMACIÓN DE LA RED DE TRANSPORTE .......................................................... 21 3.2. INFORMACIÓN DE LA DEMANDA DE VIAJES ........................................................... 23
3.2.1. Selección de pares Origen-Destino (pares OD) ...................................... 24 3.2.2. Selección y atributos de viajes .............................................................. 25
3.3. REGISTRO DE PREFERENCIAS REVELADAS ........................................................... 27 3.4. DATOS DE ESTIMACIÓN Y PREDICCIÓN ................................................................ 29
CAPÍTULO 4: MODELOS DE RECOMENDACIÓN DE RUTA ......................................... 31
4.1. MODELO BASE: RECOMENDACIÓN DE LA ALTERNATIVA DE MENOR TIEMPO TOTAL DE VIAJE
............................................................................................................................ 31 4.2. CON PARÁMETROS DE GUSTO DE OTRO ESTUDIO ................................................... 31 4.3. ESTIMACIÓN DE PARÁMETROS DE GUSTOS A PARTIR DE DATOS PASIVOS ................... 32
4.3.1. Modelos con parámetros de gustos poblacionales ................................ 34 4.3.2. Modelo con parámetro de gustos individuales ..................................... 37
4.4. COMPARACIÓN DE MODELOS: DESEMPEÑO DE PREDICCIÓN ................................... 39 4.4.1. Recuperación de la primera preferencia (𝑭𝑷𝑹) ..................................... 39 4.4.2. Promedio de la probabilidad de la alternativa elegida (𝑷𝒎) ................ 39
CAPÍTULO 5: RESULTADOS DE MODELACIÓN ........................................................... 41
5.1. ESTIMACIÓN MODELOS BASADO EN LA MAXIMIZACIÓN DE LA UTILIDAD ALEATORIA ... 41 5.1.1. Modelo Multinomial Logit (MNL) .......................................................... 41 5.1.2. Modelo Mixed Logit con heterogeneidad de gustos (MXL) .................... 42 5.1.3. Modelo con parámetros individuales (IP) ............................................. 44
5.2. RENDIMIENTO DE PREDICCIÓN DE RUTAS DE LOS MODELOS ................................... 49
CAPÍTULO 6: CONCLUSIONES Y LÍNEAS FUTURAS DE INVESTIGACIÓN ................ 52
6.1. SÍNTESIS Y CONCLUSIONES ................................................................................ 52 6.2. LÍNEAS FUTURAS DE INVESTIGACIÓN .................................................................. 54
BIBLIOGRAFÍA ........................................................................................................... 55
v
Índice de tablas
TABLA 1: TAMAÑO DEL CONJUNTO DE CONSIDERACIÓN Y NÚMERO DE PARES OD. ............... 28 TABLA 2: ATRIBUTOS PROMEDIOS DE ALTERNATIVAS DE VIAJES GENERADAS. .................... 29 TABLA 3: ATRIBUTOS PROMEDIOS DE ALTERNATIVAS DE VIAJES ELEGIDAS ESTIMACIÓN Y PREDICCIÓN
........................................................................................................................ 30 TABLA 4: PARÁMETROS DE GUSTOS MULTINOMIAL LOGIT A PARTIR DE EOD 2012. ............. 32 TABLA 5: ESTIMACIÓN DE PARÁMETROS DE GUSTOS A PARTIR DE MODELO LOGIT MULTINOMIAL.
........................................................................................................................ 42 TABLA 6: VALORES RELATIVO CON RESPECTO A VALORIZACIÓN DEL TIEMPO DE VIAJE. ........ 42 TABLA 7: ESTIMACIÓN DE PARÁMETROS DE GUSTOS A PARTIR DE MODELO MIXED LOGIT CON
HETEROGENEIDAD DE GUSTOS. ............................................................................. 43 TABLA 8: PARÁMETROS DE GUSTOS CON DISTRIBUCIÓN LOG-NORMAL .............................. 43 TABLA 9: MEDIA Y DESVIACIÓN ESTÁNDAR DE DISTRIBUCIÓN DE PARÁMETROS DE GUSTOS. . 45 TABLA 10: RENDIMIENTO EN PREDICCIÓN DE MODELOS DE ELECCIÓN DE RUTAS. ............... 49 TABLA 11: RECUPERACIÓN ESPERADA DE MODELOS ESTIMADOS A PARTIR DE DATOS PASIVOS.51
vi
Índice de ilustraciones
FIGURA 1: PLANIFICADORES DE VIAJES ACTUALES. ........................................................... 4 FIGURA 2: METODOLOGÍA DE IDENTIFICACIÓN DEL PARADERO DE BAJADA Y RECONSTRUCCIÓN DE
VIAJES. ............................................................................................................... 7 FIGURA 3: RELACIÓN ENTRE ALTERNATIVAS EXISTENTES, LÓGICAS, FACTIBLES, CONOCIDAS,
CONSIDERADAS Y ESCOGIDAS .................................................................................. 9 FIGURA 4: VISUALIZACIÓN PARADEROS DE LA RED DE TRANSPORTE. ................................ 22 FIGURA 5: VISUALIZACIÓN LÍNEAS DE METRO DE LA RED DE TRANSPORTE ......................... 22 FIGURA 6: VISUALIZACIÓN DE RECORRIDOS DE BUSES DE LA RED DE TRANSPORTE . ............ 23 FIGURA 7: DISTRIBUCIÓN DEL NÚMERO DE VIAJES OBSERVADOS . .................................... 24 FIGURA 8: REPRESENTACIÓN DE VIAJES SELECCIONADOS ............................................... 25 FIGURA 9: ESTIMACIÓN DE LA DISTANCIA DE CAMINATA POR DISTANCIA MANHATTAN ........ 27 FIGURA 10: VISUALIZACIÓN PARES OD ESTUDIADOS . .................................................... 28 FIGURA 11: HISTOGRAMAS DE DISTRIBUCIÓN DEL GUSTO DEL TIEMPO A BORDO. ................ 45 FIGURA 12: HISTOGRAMAS DE DISTRIBUCIÓN DEL GUSTO DEL TIEMPO DE ESPERA. ............. 46 FIGURA 13: HISTOGRAMAS DE DISTRIBUCIÓN DEL GUSTO DEL TIEMPO DE CAMINATA. ......... 46 FIGURA 14: HISTOGRAMAS DE DISTRIBUCIÓN DEL GUSTO ................................................ 48
1
Capítulo 1: Introducción
1.1. Motivación
La elección de ruta en un contexto de viaje multimodal es un problema de gran
escala para usuarios en ciudades que poseen un sistema de transporte público
denso en servicios y paraderos. Las posibles transferencias de servicios y/o
intercambios modales dificultan el proceso de elección, incorporando nuevos
atributos y estrategias de viaje que deben ser contemplados en la elección.
Entre los nuevos atributos que se añaden al realizar un viaje en más de una etapa
pueden señalarse el tiempo de espera y de caminata como unos de los principales.
Asimismo, el pasajero en cada etapa de su viaje puede adoptar una estrategia de
elección de servicios que lo conducirán a su siguiente paradero de bajada, ya sea
para llegar a destino o para realizar una nueva etapa en la ruta elegida.
Para facilitar este proceso de elección existen herramientas de planificación de
viajes, las cuales generan la secuencia de servicios y paradas para alcanzar un
destino de viaje a partir de un origen conocido. Estas herramientas son fuente de
información del sistema de transporte, sin embargo, si aquellas no consideran un
sistema de recomendación de rutas que satisfaga las necesidades de cada
individuo, puede que los usuarios no hagan uso de estas al poco tiempo de
comenzar a utilizarlas (Rudloff y Leodolter, 2017). Además, estas herramientas
aún proveen recomendaciones de rutas de mínima distancia y tiempo de viaje
solamente, descuidando las preferencias de los individuos (Campigotto et al.,
2016).
Por lo anterior, la evaluación de sistemas de recomendación de rutas que
incorporen las preferencias individuales y su desempeño en la recomendación es
un desafío que se tratará en el presente trabajo. Para aquello se considera el uso
de fuentes de datos pasivos del transporte público de la ciudad de Santiago (GPS
de buses y tarjetas inteligentes) para generar un registro de observaciones de
preferencias reveladas. El uso de este tipo de datos permite incorporar una gran
cantidad de información distribuida en el espacio y tiempo a un bajo costo
(comparado con la generación de encuestas tradicionales de preferencias
declaradas) que permitirán estimar modelos de elección de rutas (multinomial
2
logit, mixed logit con heterogeneidad de gustos y obtención de parámetros de
gustos individuales) y generar recomendaciones de rutas a partir de aquellos. Con
lo anterior se espera evaluar la factibilidad y el rendimiento que tendrían las
herramientas de planificación de viajes basados en modelos de utilidad estimados
a partir de datos pasivos.
1.2. Objetivos
El objetivo general de esta tesis es evaluar el desempeño de herramientas de
recomendación de rutas de transporte público basado en modelos de elección
discreta estimados a partir de fuentes de datos pasivos para la ciudad de Santiago,
Chile.
Como objetivos específicos, se tiene:
• Construcción de un registro de observaciones de elección de rutas de
preferencias reveladas a partir de datos pasivos (AFC y AVL) del transporte
público de Santiago, procesados a partir de la metodología expuesta en
Munizaga y Palma (2012).
• Estimación de modelos de elección de rutas que consideren atributos y
estrategias de viajes en un contexto multimodal. Específicamente se
estimarán modelos Multinomial Logit, Mixed Logit con heterogeneidad de
gustos y obtención de parámetros individuales a partir de la metodología
expuesta en Train (2009).
• Comparación del desempeño de predicción de rutas de transporte público
de modelos de elección de rutas estimados.
• Analizar la factibilidad de incorporar la metodología propuesta en actuales
herramientas de planificación de viajes.
1.3. Contenido
La tesis se encuentra organizada en seis capítulos. En el Capítulo 2, se realiza una
revisión bibliográfica de los desafíos inherentes a la modelación de elección de
rutas a partir del uso de datos pasivos. Primero, se presentan metodologías de
reconocimiento de viajes de los usuarios del transporte público haciendo uso de
datos pasivos. Luego se sintetiza la literatura referida a procesos de construcción
3
y reconocimiento de las alternativas de viajes (conjunto de consideración),
distinguiendo metodologías basadas en rutas más cortas y otras. Posteriormente,
se presentan los modelos de elección de rutas basado en la teoría de la utilidad
aleatoria, enfocándose en dos temas: la heterogeneidad de gustos y la correlación
entre alternativas.
En el Capítulo 3 se describen las fuentes de información utilizadas y su
procesamiento para obtener un registro de datos de preferencias reveladas a
partir de datos pasivos. Primero, se describe la red de transporte de la ciudad de
Santiago a través de información que provee el GTFS (GTFS – General Transit
Feed Specification). Posteriormente, se describen los viajes reconocidos por el
software ADATRAP, que procesa datos AFC y AVL para construir cadenas de
viajes para los usuarios del sistema de transporte público de Santiago.
Finalmente, se describe el proceso llevado a cabo para obtener un registro de
datos de preferencias reveladas distinguiendo aquellos registros que serán
utilizados para la estimación y predicción de modelos de recomendación de rutas.
En el Capítulo 4 se presentan los modelos de elección de ruta que serán utilizados
con el fin de estimar parámetros de gustos a nivel poblacional e individual para
predecir la elección de ruta con el fin de evaluar el desempeño de los modelos de
recomendación.
En el Capítulo 5 se muestran los principales resultados obtenidos de la estimación
de los modelos presentados en el capítulo anterior, haciendo hincapié en los
parámetros de gustos, su valorización relativa y el desempeño de predicción de
ruta.
En el Capítulo 6 se sintetizan los principales resultados obtenidos, se evalúa la
metodología propuesta en función de los objetivos específicos y generales, se
analiza la factibilidad de incorporación en las actuales herramientas de
planificación de viajes. Además, se muestran posibles líneas futuras de
investigación que surgen de este trabajo.
4
Capítulo 2: Revisión bibliográfica
De acuerdo con Nuzzolo et al. (2014), los planificadores de viajes pueden ser
clasificados por el enfoque usado para la generación de rutas en: basados en
reglas, basados en la asignación de pesos al tiempo o basados en la utilidad.
Figura 1: Planificadores de viajes actuales. (Izquierda) Clasificación de planificadores de viajes de acuerdo con enfoque de generación de rutas (Fuente: Nuzzolo et al. (2014)). (Derecha) Selección de regla de ruteo de planificación de Google.
Como se presenta en la Figura 1, un ejemplo del enfoque basado en reglas es la
herramienta de planificación que entregan los servicios de Google, donde el
usuario puede seleccionar opciones de minimización del tiempo, de transbordos
y/o la selección de preferencia de modos de viajes.
OpenTripPlanner constituye otra herramienta de planificación, pero basada en la
asignación de pesos al tiempo (penalizando tiempo de viaje, de acceso y de espera)
a través de un controlador externo que fija estos pesos indiferentes al usuario que
haga uso de las consultas de planificación.
Las dos herramientas anteriores constituyen en gran medida la oferta de
planificadores de viajes que las aplicaciones y sitios web utilizan,
retroalimentándose de información del transporte público a través de
especificaciones generales (GTFS) donde se detalla la operación de los recorridos
5
mediante sus trazados, frecuencias, horarios de operación, entre otros. Sin
embargo, estas herramientas no proveen una retroalimentación de elección de
rutas por parte de los usuarios de transporte para poder estimar recomendaciones
de rutas basadas en la utilidad. Por lo anterior, Nuzzolo et al. (2014) desarrolla un
prototipo de planificación de viaje basado en la utilidad (TVPTA), el que sugiere
el mejor conjunto de rutas de acuerdo con las preferencias personales de cada
viajero.
En este capítulo se revisan los desafíos relacionados a la recomendación de rutas
de transporte público a partir de datos pasivos. Primero, se presenta las técnicas
de reconstrucción de viajes que usuarios del transporte público realizan a través
del uso de datos pasivos. Luego, se presentan metodologías que permiten
reconocer las alternativas de viajes que debieran ser consideradas, distinguiendo
metodologías basadas en rutas más cortas y otras. Finalmente se presentan los
modelos de elección de ruta, haciendo énfasis a dos problemas principales
tratados en la literatura, la heterogeneidad de gustos y la correlación entre
alternativas.
2.1. Reconocimiento de rutas elegidas a partir de datos pasivos
El uso de datos pasivos, tales como, la colección automática de tarifas (AFC) y la
localización automática de vehículos (AVL), han permitido el estudio de la
movilidad de usuarios del transporte público en aquellos sistemas que tienen
integradas estas tecnologías. Bacgchi y White (2005) y Agard et al. (2006),
señalan que el acceso a este tipo de información permite obtener grandes
volúmenes de datos de forma continua y cubriendo largos periodos de tiempo y
espacio. Además, estos pueden ser utilizados para reconstruir los viajes que las
personas hacen durante el transcurso del día y examinar comportamientos de
viajes que son difíciles de obtener con otras fuentes de información (Pelletier et
al., 2011, Munizaga y Palma, 2012).
La reconstrucción de viajes a partir del uso de datos pasivos posee el desafío de
identificar los paraderos y servicios utilizados en cada etapa. La identificación del
paradero de subida al sistema de transporte resulta ser de menor complejidad, ya
que por lo general las transacciones de tarifas suelen efectuarse al inicio de cada
etapa, pudiendo detectar el momento, servicio y lugar donde esta ocurre
(Trepanier et al., 2007). Sin embargo, sistemas de pagos donde la transacción es
efectuada solo al ingreso del servicio de transporte, deben preocuparse de
6
reconocer los paraderos de bajadas. Para aquello existen diferentes metodologías
que permiten incorporar la información del paradero de bajada a este tipo de
datos.
Una de aquellas, es a través del análisis de las siguientes transacciones de pago
realizadas, identificando la bajada más probable de acuerdo con la minimización
de la distancia caminable o tiempo generalizado al siguiente paradero de subida
al sistema (Zhao et al., 2007; Trepanier et al., 2007; Munizaga y Palma, 2012).
Otras formas posibles, son a través del análisis de la probabilidad del paradero de
bajada en base a información como distancia recorrida y número de pasajeros
(Huili et al., 2007).
Otro desafío para la reconstrucción del viaje es poder definir cuáles de las etapas
registradas para un usuario conforman parte de un mismo viaje. Este problema
ha sido solucionado estableciendo reglas lógicas relacionadas con la distancia
caminable para el transbordo, tiempo transcurrido desde el descenso de una etapa
previa de viaje, transacciones en diferentes servicios para cada etapa, entre otras
(Seaborn et al., 2009; Munizaga y Palma, 2012; Munizaga et al., 2014; Gordon et
al., 2013).
En la Figura 2 se presenta la metodología descrita en Munizaga y Palma (2012), donde se identifica el paradero de bajada de cada etapa incorporando información de las siguientes transacciones de viajes y minimizando el tiempo generalizado. Asimismo, se definen los criterios que permiten la unión de etapas en una cadena de viaje, los cuales están relacionadas al tiempo transcurrido a la siguiente transacción y distancia caminable.
7
Figura 2: Metodología de identificación del paradero de bajada y reconstrucción de viajes.
(Fuente: Munizaga y Palma (2012))
Si bien las técnicas mencionadas permiten reconocer los viajes efectuados por
cada usuario y los servicios que abordaron, no necesariamente reflejan la
estrategia de movilidad que tenían al momento de realizar su viaje. Lo anterior se
debe a que aquellos no necesariamente esperan un recorrido en particular (el
reconocido por las metodologías anteriores), si no un conjunto de ellos en cada
etapa del viaje.
Chriqui y Robillard (1975) da un ejemplo de lo anterior, definiendo el conjunto de
recorridos que permite recorrer cada par origen-destino (o etapa de viaje en su
defecto) con el fin de reducir el tiempo total de viaje y abordando el primer
servicio que llegue de este conjunto. Esta estrategia de movilidad queda
representada por el siguiente problema de optimización:
Min 𝑥𝑖 ∈ {0,1}
𝛼
∑ 𝑥𝑖 𝑓𝑖𝑖∈𝐶𝑠
+∑ 𝑥𝑖 𝑓𝑖 𝑇𝑣𝑖𝑖∈𝐶𝑠
∑ 𝑥𝑖 𝑓𝑖𝑖∈𝐶𝑠
(2.1)
Donde 𝑥𝑖 es una variable binaria sobre los recorridos que conectan un par origen-
destino o etapa de viaje 𝐶𝑠, tomando valor 1 si el servicio 𝑖 disminuye el tiempo
total de viaje y 0 en caso contrario. 𝑓𝑖 y 𝑇𝑣𝑖 son la frecuencia y tiempo de viaje del
servicio 𝑖 respectivamente. 𝛼 es un valor que depende del proceso de llegada de
8
los recorridos al paradero, si este es a través de un proceso de Poisson toma valor
1, si se asume llegada uniforme de servicios toma valor 0,5.
Por otra parte, la incorporación de información en tiempo real permitiría
considerar estrategias de movilidad más sofisticadas. De acuerdo con Hickman y
Wilson (1995), usuarios pueden adoptar estrategias “inteligentes” que les
permitan decidir abordar o no un servicio que llega a la parada de acuerdo con la
espera y tiempo de viajes de otros servicios próximos.
A pesar de las ventajas del uso de datos pasivos para el estudio de la movilidad de
las personas, estos tienen la limitación de la falta de información
sociodemográfica. Por aquello, investigadores han hecho esfuerzo por estudiar
métodos que permitan combinar distintas fuentes de información a este tipo de
datos. La incorporación de encuestas, datos de uso de suelo, zonas de residencia
y propósito de viaje permitiría mejorar la comprensión que este tipo de datos
puede ofrecernos con respecto a la elección de rutas (Kusakabe y Asakura (2014),
Lee and Hickman (2014), Long y Thill (2015), Amaya et al. (2018)).
2.2. Generación del conjunto de rutas alternativas de viaje
La generación del conjunto de alternativas de viajes es un desafío para el
investigador ya que no siempre es posible conocerlo explícitamente. Además, en
una red de transporte público densa de paraderos y servicios se posee un sinfín de
alternativas para conectar cada origen y destino de viaje, por lo que enumerar
todas las rutas disponibles y evaluar su pertenencia al conjunto de alternativas
relevantes no es factible (Prato, 2009).
De acuerdo con Van Nes et al. (2008) las alternativas de viajes pueden ser
clasificadas a partir de sus características, en alternativas existentes, lógicas,
factibles, conocidas, consideradas y escogidas. Mientras las alternativas existentes
son innumerables producto de los transbordos e intercambios modales, dentro de
estas existe un subconjunto de alternativas con características lógicas y factibles
(ejemplo, aquellas que no contienen ciclos y cumplan con limitaciones de tiempo
para llegar a destino). Luego, dentro de estas alternativas existen aquellas que son
conocidas por los usuarios, que a la vez forman un subconjunto de alternativas
que forman parte del proceso de elección (conjunto de consideración). En la
Figura 3, es posible observar la relación entre el conjunto de alternativas obtenido
9
y las características de estas de acuerdo con lo propuesto por Van Nes et al.
(2008).
La formación de un conjunto de consideración es justificada por un proceso de
elección de doble etapa, donde en una primera etapa prima la selección no
compensatoria de alternativas, pudiendo descartar opciones que tienen
características o modos de viajes no deseables (Horowitz y Louviere, 1995; Bovy,
2009).
Figura 3: Relación entre alternativas existentes, lógicas, factibles, conocidas, consideradas y escogidas desde la perspectiva de los investigadores. Fuente: Van Nes et al. (2008)
El reconocimiento del conjunto de consideración toma importancia en datos de
preferencias reveladas, teniendo que recurrir a técnicas que permitan captar el
conjunto de alternativas relevantes para el proceso de elección del usuario
(Rieser-Schüssler et al., 2013). Además, la definición del conjunto de alternativas
considerado toma importancia cuando se trata de la estimación de modelos de
elección y predicción de rutas (Van Nes et al., 2008; Bovy, 2009). La formación
del conjunto debería facilitar a los modelos de estimación la obtención de
consistencia y eficiencia estadística, mientras que debería contener todas las
alternativas relevantes para los modelos de predicción Van Nes et al. (2008).
Por lo anterior, en la literatura se han descrito distintas metodologías para
obtener un conjunto de alternativas explícito a partir de las alternativas factibles
10
para modelos de estimación y predicción de rutas, buscando incrementar el
número y heterogeneidad de alternativas.
2.2.1. Basadas en rutas más cortas
Las metodologías basadas en rutas más cortas buscan generar alternativas de
rutas en la red de transporte repitiendo el algoritmo de búsqueda de la ruta de
mínima distancia o tiempo de viaje. Prato (2009) clasifica estas metodologías en
determinísticas y estocásticas, dependiendo si estas generan el mismo conjunto
de alternativas para un par origen-destino en diferentes instancias de ejecución.
Metodologías determinísticas
Las metodologías determinísticas son adaptaciones del modelo base que permite
encontrar un conjunto de alternativas de mínima distancia que sea independiente
de la instancia de ejecución.
Reconocer las 𝑘-ésima rutas más cortas es una adaptación que a través de
múltiples etiquetas de distancias permite generar un conjunto de alternativas de
tamaño controlado (𝑘). Otra adaptación al modelo base es la de labeling approach,
la cual permite incorporar diferentes objetivos (como por ejemplo minimizar el
tiempo de viaje, minimizar el número de transbordos, evitar vías congestionadas)
y a partir de cada uno de ellos encontrar la ruta óptima. La eliminación de arcos
es otra técnica que permite eliminar parte o la totalidad de arcos pertenecientes a
las rutas más cortas obtenidas en iteraciones previas y así aumentar el número de
alternativas generadas. Otra metodología similar a la anterior es la de penalidad
de arcos, que incrementa el costo de recorrer arcos pertenecientes a las rutas más
cortas ya procesadas en iteraciones previas.
En Bekhor et al. (2006) se evalúan métodos determinísticos de generación del
conjunto de consideración sobre 188 observaciones de elección de rutas de
conductores para la región de Boston, EE. UU. Los métodos tratados son de
labeling approach (con diversos objetivos), de penalidad de arcos, de eliminación
de arcos y combinación de los métodos anteriores. Los resultados fueron
analizados de acuerdo con el porcentaje de similitud entre el conjunto de
consideración generado y las rutas elegidas por los conductores (cobertura),
obteniendo mejores resultados (83% de cobertura) en aquellas donde se aplicaban
11
distintas metodologías de forma simultánea. Además se presentaron criterios de
similitud entre rutas generadas y observadas donde una superposición de ellas del
100%, 90% y 80% fueron aplicadas.
Metodologías estocásticas
En esta categoría se reconocen aquellas que poseen un enfoque de simulación y
aquellas que poseen una función de generación doblemente estocásticas. Las del
primer grupo se basan en el supuesto de que los pasajeros perciben el costo de las
rutas con error, para lo cual se construyen funciones de distribución sobre los
atributos de cada arco de la red y se define el número de realizaciones
(extracciones estocásticas sobre función distribución de los atributos),
obteniendo para cada realización una la ruta más corta. Aquellas que poseen una
función de generación doblemente estocásticas, añaden el hecho de que los
individuos pueden tener diferencia de gustos de los atributos de las rutas. Para
lo anterior, se incorpora heterogeneidad de gustos sobre los atributos de las rutas
con la definición de funciones de distribución.
Ambas técnicas requieren definir las funciones de distribución a utilizar y el
número de realizaciones para generar el conjunto de alternativas. Las
metodologías estocásticas permiten obtener diferentes alternativas de viajes en
cada instancia de ejecución, ya que es dependiente de las realizaciones obtenidas
sobre sus funciones de distribución.
Desde una perspectiva de lograr replicar con éxito las rutas observadas, Bovy
2009 señala que las metodologías determinísticas obtienen resultados
insatisfactorios ya que no logran generar suficiente variedad espacial y funcional
entre las rutas generadas. Además, señala que resultados prometedores pueden
obtenerse a partir de modelos doblemente estocásticos, los cuales son
confirmados por el trabajo realizado por Rasmussen et al. (2016).
En Bekhor et al. (2006) se aplica un método de simulación para producir
alternativas factibles de viaje para la región de Boston, EE. UU. En el se generan
distribuciones Gaussianas con media y desviación estándar calculada de los
tiempos de viaje, extrayendo hasta 48 realizaciones sobre ellas. Los resultados de
cobertura obtenidos (coincidencia entre el conjunto de consideración y las rutas
observadas) fueron crecientes con respecto al número de realizaciones y al igual
12
que las metodologías determinísticas se obtienen mejores resultados al combinar
distintos métodos de forma simultánea.
2.2.2. Otras metodologías
Entre las metodologías que no se basan en el algoritmo de ruta más cortas Prato
(2009) y Bovy (2009), señalan las metodologías probabilísticas y de enumeración
de restricciones.
Las metodologías probabilísticas implican asignar una probabilidad de
pertenencia a las rutas o arcos de la red en función de sus atributos. Prato (2009)
y Bovy (2009), señalan que esta probabilidad de pertenencia puede ser utilizada
directamente en la función de utilidad de las rutas, donde una mayor probabilidad
de pertenencia aumentaría la utilidad de las rutas pertenecientes al conjunto de
consideración.
Otra opción es mediante la ejecución repetitiva del procedimiento de caminata
aleatoria sobre la red de transporte con arcos que poseen una probabilidad de ser
recorrido de acuerdo con sus características (ejemplo distancia al destino de
viaje). Schmöcker et al. (2013) propone un modelo anidado, donde cada nido está
constituido por un subconjunto de alternativas correspondiente a un posible
conjunto de consideración. Con la asignación de una probabilidad esperada a cada
nido de acuerdo con los atributos de las alternativas pertenecientes a este, logra
obtener una probabilidad de elección determinística a cada alternativa
dependiente de su frecuencia.
La enumeración de restricciones genera un árbol conexo entre origen y destino de
viaje procesando una secuencia de arcos de acuerdo con reglas de ramificación
conforme con otros patrones de comportamiento distintos al de minimización de
costo de ruta. Estas reglas de ramificación pueden ser procesadas en técnicas
branch-and-bound y están relacionadas a la búsqueda de alternativas
heterogéneas que cumplan con restricciones lógicas (tolerancia de tiempo y
distancia máxima, número de ciclos, superposición de rutas). Hoogendoorn-
Lanser (2006) realiza una adaptación de esta técnica para ser implementada en
una red intermodal.
Por otro lado, los modelos recursivos de elección de rutas descomponen el proceso
de elección de ruta en opciones secuenciales de arcos. Estos modelos no requieren
de la enumeración de alternativas de viajes, pues en cada nodo de la red es posible
13
obtener una utilidad estimada que refleja la oportunidad de todas las alternativas
de rutas que se dirigen hacia el destino (Nassir et al., 2019).
En tanto las metodologías probabilísticas pueden resultar impracticables para
redes densas producto de la enumeración de alternativas y conjuntos (salvo para
metodologías de caminata aleatoria). La factibilidad de metodologías de
enumeración de restricciones depende exponencialmente de la profundidad del
árbol generado y consecuentemente de los arcos de la red. Con respecto a las
técnicas recursivas de elección de rutas, si bien evitan la enumeración de
alternativas, aumentan la complejidad de los modelos de estimación y poseen
menor conocimiento de las alternativas de viajes evaluadas.
Villalobos y Guevara (2019) realizaron simulaciones de Monte Carlo de diferentes
metodologías prácticas de construcción del conjunto de consideración para
probar la robustez de rescatar parámetros de gustos de los atributos de las rutas.
En el estudio se muestra el sesgo de recuperación de parámetros de gustos que
pueden generar la construcción del conjunto de consideración a través del
conjunto universal de alternativa y metodologías de 𝑘-ésima rutas más cortas. Sin
embargo, en el estudio se propone que la construcción del conjunto de
consideración basados en elecciones históricas (o serie de elecciones
experimentadas) podría ser un camino robusto para abordar el problema.
2.3. Modelos de elección de rutas
La modelación del comportamiento de elección de rutas es esencial, por la
posibilidad de apreciar la percepción de los atributos de las rutas, predecir el
comportamiento de viajeros bajo escenarios hipotéticos, predecir condiciones de
tráfico futuras sobre la red de transporte y comprender la reacción y adaptación
de viajeros a las distintas fuentes de información (Prato, 2009). En este trabajo
nos centraremos en analizar los principales estudios relacionados con la
apreciación de la percepción de los atributos de las rutas por parte de los usuarios
para ser utilizados en modelos de recomendación de rutas.
La percepción de los atributos de las alternativas por parte de los usuarios es
obtenida principalmente a través de la estimación de parámetros de gustos en
modelos basados en la utilidad aleatoria (Train, 2009). Este enfoque se basa en el
supuesto de que los individuos eligen la alternativa que le genere mayor utilidad
entre un conjunto de alternativas disponibles (Manski, 1977).
14
La cuantificación de la utilidad que generan las alternativas está sujeta a la
medición e identificación de los atributos relevante. Por lo anterior se supone que
existe una componente determinística o sistemática de la utilidad (observable y
medible) y una componente aleatoria (no observable), pudiendo representar la
utilidad mediante la siguiente expresión:
𝑈𝑖,𝑛 = 𝑉𝑖,𝑛 + εi,n = 𝛽 𝑋𝑖 + εi,n (2.2)
Donde 𝑈𝑖,𝑛 es la utilidad que genera la alternativa 𝑖 a un individuo 𝑛, 𝑉𝑖,𝑛 y
εi,n corresponden a la componente sistemática y aleatoria de la utilidad
respectivamente. Además, la componente sistemática suele definirse como una
combinación lineal sobre los parámetros de gustos 𝛽 y los atributos medibles de
las alternativas 𝑋𝑖.
Debido a que la cuantificación de la utilidad está sujeta a la componente aleatoria,
la elección de la alternativa de mayor utilidad está sujeta a una probabilidad de
elección:
𝑃𝑖,𝑛 = 𝑃(𝑈𝑖,𝑛 ≥ 𝑈𝑗,𝑛, ∀𝑗 ∈ 𝐶𝑛) = 𝑃(𝑉𝑖,𝑛 − 𝑉𝑗,𝑛 ≥ ε𝑗,n − εi,n, ∀𝑗 ∈ 𝐶𝑛) (2.3)
Donde 𝑃𝑖,𝑛 es la probabilidad de elección de la alternativa 𝑖 y 𝐶𝑛 el conjunto de
consideración del individuo 𝑛.
Como se desconoce la distribución de la parte aleatoria de la utilidad, los
supuestos que se generan sobre ella determinan la generación de diferentes
modelos. Un modelo ampliamente utilizado por poseer una expresión cerrada
para 𝑃𝑖,𝑛 corresponde al logit multinomial. Bajo el supuesto que los errores de la
utilidad distribuyen idéntica e independientemente Gumbel (i.i.d valor extremo
tipo I), la probabilidad de elección logit puede obtenerse a partir de los atributos
observados, a través de la siguiente expresión:
𝑃𝑖,𝑛 =exp(𝑉𝑖,𝑛)
∑ exp(𝑉𝑗,𝑛)𝑗∈𝐶𝑛
(2.4)
Bajo un contexto de elección de ruta de modelos basados en la utilidad la literatura
se ha preocupado de estudiar la heterogeneidad de gustos y la correlación entre
15
alternativas. La heterogeneidad de gustos es producto de la diferencia de
valorización de atributos que cada usuario del sistema de transporte posee y la
correlación entre alternativas se produce por la alta similitud entre las rutas.
Ambos son problemas que violan el supuesto de i.i.d valor extremo tipo I del
modelo logit por lo que se presentarán los principales modelos que hacen frente a
aquellos desafíos.
2.3.1. Heterogeneidad de gustos
Con frecuencia los modelos de elección y recomendación de rutas utilizan
funciones de utilidad que usan los mismos parámetros de gustos para todos los
individuos, como es el caso del modelo estándar logit, que asume que los 𝛽 son
constantes. Este modelo asume que todos los individuos de la población tienen la
misma valorización de los atributos observados de las alternativas. Sin embargo,
hay casos en que este supuesto no es razonable, y se debe utilizar modelos que
permitan obtener parámetros de gusto personalizados (Campigotto et al., 2016).
Logit multinomial individual
El modelo logit puede ser utilizado a nivel individual si se logra obtener suficientes
observaciones para poder estimar los parámetros de gusto de cada individuo.
Nuzzolo y Comi (2016) logran estimar parámetros de gusto individuales en el
contexto de elección de ruta de viajes utilizando un modelo Logit para cada
individuo. Esto fue posible de efectuar debido al gran número de observaciones
individuales rescatadas, obtenidas de datos de panel de una encuesta de
preferencias declaradas con 160 escenarios de elección por individuo. Los
resultados de desempeño de predicción de la alternativa escogida son superiores
a los obtenidos con la estimación de un modelo logit de gustos promedios en toda
la población.
Modelo de clases latentes
Los modelos de clases latentes permiten obtener parámetros de gustos para cada
grupo de individuos (clases). Como describe Rudloff y Leodolter (2017), la
pertenencia de un individuo 𝑛 a una clase 𝑞 puede ser definida a través de una
probabilidad de pertenencia (𝑃𝑛(𝑞)), la cual puede depender de atributos de cada
16
individuo y calculada por un modelo Logit. Luego la probabilidad de elección de
una alternativa 𝑖 por un individuo 𝑛 puede ser obtenida con la siguiente expresión:
𝑃𝑛𝑖 = ∑ 𝑃𝑛(𝑞)𝑃𝑛(𝑖|𝑞)
𝑞
(2.5)
Donde, 𝑃𝑛(𝑖|𝑞) es la probabilidad condicional de pertenecer a la clase 𝑞 y elegir la
alternativa 𝑖, que puede ser calculada a través de un modelo Logit con parámetros
de gustos para cada clase (𝛽𝑞).
La heterogeneidad de gustos de estos modelos queda representada obteniendo los
parámetros de gustos individuales (𝛽𝑛), lo que puede ser logrado con la siguiente
expresión:
𝛽𝑛 = ∑ 𝛽𝑞𝑃𝑛(𝑞)
𝑞
(2.6)
Rudloff y Leodolter (2017) evalúan modelos de clases latentes en el contexto de
elección de rutas obteniendo desempeños de predicción de rutas escogidas
superiores al modelo Logit estándar con un bajo número de escenarios de
elección.
Mixed logit con heterogeneidad de gustos
Los modelos mixed logit permiten definir funciones distribución sobre los
parámetros de gustos y así estimar parámetros de distribución del gusto sobre la
población (Train, 2009).
𝑃𝑖 = ∫ 𝑃𝑖(𝛽)𝑓(𝛽|𝜃) 𝑑𝛽
(2.7)
Donde, 𝑃𝑖(𝛽) es la probabilidad logit dado un parámetro de gusto 𝛽 y 𝑓(𝛽|𝜃) la
función densidad del parámetro de gusto sobre una función de distribución
poblacional parametrizada por 𝜃.
17
De la base anterior es posible incorporar datos de panel de un individuo a través
del tiempo para obtener una distribución personalizada ℎ(𝛽|𝑦𝑛, 𝜃) a partir de la
distribución poblacional de gustos 𝑔(𝛽|𝜃) como es propuesto en Train (2009).
ℎ(𝛽|𝑦𝑛, 𝜃) =𝑃(𝑦𝑛|𝛽)𝑔(𝛽|𝜃)
𝑃(𝑦𝑛|𝜃) (2.8)
𝑃(𝑦𝑛|𝛽) = ∏ 𝑃(𝑦𝑛𝑡)
𝑡 (2.9)
𝑃(𝑦𝑛|𝜃) = ∫ 𝑃(𝑦𝑛|𝛽)𝑔(𝛽|𝜃)𝑑𝛽 (2.10)
Donde, 𝑃(𝑦𝑛|𝛽) es la probabilidad Logit condicional de escoger el vector de
elección 𝑦𝑛 = {𝑦𝑛1, … , 𝑦𝑛
𝑡}, donde 𝑦𝑛𝑡 es la alternativa elegida por el individuo 𝑛 bajo
un escenario de elección 𝑡. 𝑃(𝑦𝑛|𝜃) corresponde a la probabilidad de elección de
𝑦𝑛 condicionada a una distribución poblacional parametrizada por 𝜃.
Los parámetros de gustos para cada individuo (𝛽𝑛) son posible de rescatar
mediante el uso de la distribución personalizada con la siguiente expresión:
𝛽𝑛 = ∫ 𝛽 ℎ(𝛽|𝑦𝑛, 𝜃)𝑑𝛽 (2.11)
Nuzzolo y Comi (2016) hacen uso de esta metodología en el contexto de elección
de ruta utilizando datos de preferencias declaradas, obteniendo un desempeño de
recuperación de la alternativa elegida por sobre el 80% en predicción con datos
de panel de 160 escenarios de elección.
2.3.2. Correlación entre alternativas
La correlación de alternativas es un problema presente en la elección de rutas que
viola uno de los principales supuestos del modelo logit multinomial, que es el de
independencia de alternativas. Normalmente las alternativas de ruta no son
independientes entre sí, debido a que comparten el espacio físico (similares vías
y paradas) e incluso pueden compartir el servicio utilizado en algunas de las
etapas del viaje. Para tratar con este problema, Prato (2009) revisa los principales
modelos de elección discreta que se hacen a cargo de la violación de la
independencia entre alternativas de viajes.
18
Con estructura Logit
Prato (2009) muestra investigaciones que se han hecho a cargo del problema de
correlación con modificaciones al modelo estándar Logit (C-Logit, Path Size Logit
y Path Size Correction Logit), introduciendo un término de corrección a la parte
determinística de la función de utilidad como se presenta en la siguiente ecuación.
𝑃𝑖 =exp(𝑉𝑖 + 𝛽𝐶𝐹𝐶𝐹𝑖)
∑ exp (𝑉𝑙 + 𝛽𝐶𝐹𝐶𝐹𝑙)𝑙∈𝐶 (2.12)
Donde 𝑃𝑖 corresponde a la probabilidad de elección de la alternativa 𝑖, 𝑉𝑖 la
utilidad determinística u observada de la alternativa 𝑖. 𝐶 representa el conjunto
de alternativas consideradas en el proceso de elección. 𝐶𝐹𝑖corresponde al factor
de similitud o corrección path size de la alternativa 𝑖. 𝛽𝐶𝐹 es el parámetro de
estimación asociado a la correlación rescatada, el cual debería tener un signo que
disminuya la utilidad determinística a mayor correlación medida.
El factor de similitud de la alternativa puede ser obtenido por distintas
expresiones (principal diferencia entre los modelos), normalmente relacionadas
a una medida dependiente de los arcos compartidos entre las rutas. En general
este factor solo captura parte de la correlación presente entre las alternativas, pero
no introduce cambios en la estructura Logit y no incrementa la complejidad de
estimación de parámetros. Sin embargo, la estimación del parámetro asociado
(𝛽𝐶𝐹) no siempre obtiene el signo esperado como es reportado en Rasmussen et
al. (2016).
Con estructura GEV
Otra forma de enfrentar el problema de correlación entre alternativas es a través
del uso de modelos con estructura generalizada de valor extremo (GEV). Los
modelos GEV constituyen una clase grande de modelos que presentan la similitud
que la parte no observada de la utilidad distribuye valor extremo generalizado, lo
que permite relajar el supuesto de independencia entre alternativas (Train, 2009).
Dentro de esta clasificación Prato (2009) señala el uso de Paired Combinatorial
Logit (PCL), Cross Nested Logit (CNL) y Generalized Nested Logit (GNL). Los
modelos anteriores permiten anidar alternativas teniendo expresiones para la
19
probabilidad de elección del nido y de cada alternativa perteneciente a los nidos,
con lo cual es posible derivar la probabilidad de elección de cada alternativa. La
permanencia de una alternativa a uno o más nido puede ser por construcción,
como es el caso de PCL donde los nidos se construyen con todos los pares de dos
alternativas, o por la incidencia de las rutas a los distintos arcos de la red, como
es el caso de CNL y GNL.
Con respecto al desempeño de estos modelos, poseen un aumento en la
complejidad computacional que incrementa con el número de nidos generados y
que la generación de nidos no necesariamente logra rescatar todas las
correlaciones existentes entre alternativas. Para el caso de PCL se vuelve
impracticable generar todas las combinaciones para una red de tamaño real y en
el caso de CNL y GNL estos tienden a colapsar al modelo estándar Logit (Prato,
2009).
Sin estructura GEV
Prato (2009), señala el uso de estructuras que no presentan una expresión cerrada
para la probabilidad de elección como si se obtienen con modelos GEV, pero que
permiten incorporar correlación entre alternativas. Tal es el caso de modelos
Probit multinomial (MNP) y Logit Kernel con enfoque de factor analítico. MNP
asume distribución normal sobre el componente no observado de la utilidad y
requiere especificar una matriz de covarianza para obtener la probabilidad de
elección. Logit Kernel con enfoque de factor analítico incorpora a la utilidad
determinística un factor que relaciona a las distintas rutas con elementos de la red
que puedan contribuir a la correlación entre alternativas, asumiendo una
distribución y matriz de covarianza es posible obtener la probabilidad de elección.
Si bien estas estructuras permiten enfrentar el problema de correlación, poseen
un gran esfuerzo computacional al calcular la probabilidad de elección y por tal
motivo normalmente se adoptan otras especificaciones para estudiar el
comportamiento de los viajeros.
2.4. Síntesis
La literatura presentada requiere el análisis de modelos de elección de rutas
estimados a partir de preferencias reveladas, ya que esta suele realizarse mediante
datos de preferencias declaradas a partir de encuestas y/o simulaciones de
20
escenarios. Para esto, los datos pasivos nos ofrecen la oportunidad de reconocer
la elección de rutas de viajes, pero hay que considerar que en cada etapa de viaje
la elección de recorridos puede ser más amplia a esperar un único recorrido de
viaje.
Para lo anterior, la selección de conjunto de recorridos óptimos por etapa de viaje,
como propone Chriqui y Robillard (1975), permitiría no solamente considerar una
elección más amplia y coherente con una estrategia de movilidad, si no también
reducir la correlación entre alternativas. Esto último se debe a que recorridos
similares deberían reducirse a un mismo conjunto y no a alternativas de viajes
diferentes. Finalmente, la estimación de la valorización de los atributos de viajes
mediante el uso de modelos que permitan considerar la heterogeneidad de gustos
nos permitiría profundizar en aquellos modelos de recomendación de rutas
basados en la utilidad y de acuerdo con las preferencias de elección de cada
individuo.
21
Capítulo 3: Descripción y análisis de
datos
En este capítulo se describen las fuentes de información utilizadas y el
procesamiento llevado a cabo para obtener un registro de datos de preferencias
reveladas a partir de datos pasivos. Este registro será utilizado en los modelos de
recomendación de rutas y se alimenta principalmente de información de la red de
transporte y de demanda de viajes.
La información de la red de transporte está constituida por los paraderos,
recorridos y operación del sistema, la cual es obtenida de la especificación general
de alimentación del transporte público (GTFS - General Transit Feed
Specification) operativa en agosto de 2017 en la ciudad de Santiago. GTFS es un
formato común de una serie de archivos de textos para definir el sistema de red
de transporte de una ciudad con información geográfica asociada. Distintas
ciudades en el mundo publican el GTFS de su sistema de transporte, en la ciudad
de Santiago esta información es actualizada constantemente por el Directorio de
Transporte Público Metropolitano.
La información de demanda de viaje es obtenida a partir de los viajes reconocidos
en los primeros tres días de agosto de 2017 por ADATRAP. ADATRAP es un
software de reconocimiento de viajes que utiliza la información de los GPS de los
buses del sistema de transporte, las transacciones de pago de la tarjeta inteligente
(Bip!) y la metodología propuesta en Munizaga y Palma (2012).
3.1. Información de la Red de transporte
El presente estudio se efectúa sobre la red del sistema de transporte público de
Santiago de Chile operativa en el mes de agosto del 2017. De acuerdo con el GTFS
correspondiente, este sistema está constituido principalmente por una red de
aproximadamente 11.000 paraderos, 350 recorridos de buses y 5 líneas de metro
(ver Figura 4, Figura 5 y Figura 6). El usuario del sistema en cada etapa de su viaje
puede efectuar transbordos entre modos y/o servicios haciendo uso de la tarjeta
inteligente de pago del sistema (bip!). La tarjeta de pago a su vez forma parte de
un sistema integrado de tarifa y es transada al abordar cada etapa del viaje en un
22
validador que almacena la información de la transacción, sin embargo, no existe
operación de la tarjeta al momento de la bajada.
Figura 4: Visualización paraderos de la red de transporte de Santiago, Chile. Elaboración propia a partir de datos del GTFS de agosto, 2017.
Figura 5: Visualización líneas de metro de la red de transporte de Santiago, Chile. Elaboración propia a partir de datos del GTFS de agosto, 2017.
23
Figura 6: Visualización de recorridos de buses de la red de transporte de Santiago, Chile. Elaboración propia a partir de datos del GTFS de agosto, 2017.
La operación del sistema de transporte es por frecuencia la cual está definida en
el GTFS para distintos periodos del día. En el presente estudio el periodo evaluado
corresponde al de punta mañana de un día laboral (comprendido entre las 06:00
a.m. y 09:00 a.m.) que posee una frecuencia promedio de aproximadamente 6
[veh/hora]. Además, el GTFS proporciona el tiempo de viaje entre las paradas de
todos los recorridos de la red como información estática.
3.2. Información de la demanda de viajes
Los datos de demanda de viajes utilizados para el estudio corresponden a
reconstrucciones de viajes de usuarios del transporte público de Santiago para los
días 1, 2 y 3 de agosto del 2017 en periodo punta mañana (entre las 06:00 a.m. y
las 09:00 a.m.). Como se había mencionado anteriormente, estos son obtenidos a
partir del procesamiento de datos pasivos (GPS de buses y tarjetas inteligentes),
con la metodología propuesta en Munizaga y Palma (2012), haciendo uso del
software ADATRAP. Cada individuo es asociado a un identificador de tarjeta y es
posible obtener los paraderos de subida, los paraderos de bajada y los recorridos
utilizados en cada etapa de los viajes realizados en transporte público. De los
24
viajes procesados por ADATRAP se consideran aquellos viajes en donde es posible
identificar los paraderos y servicios utilizados, ya que es información relevante
para identificar la elección de ruta de cada individuo con precisión.
3.2.1. Selección de pares Origen-Destino (pares OD)
Se agruparon los viajes reconstruidos por ADATRAP según los paraderos de inicio
y fin del viaje, y solamente se consideraron aquellos grupos que tienen más de una
observación por día (denominados como pares OD válidos). Con esto se obtiene
un total de 1.000.713 viajes observados y distribuidos en 31.040 pares OD válidos,
con un máximo de 2.505 viajes observados en un solo par OD. La Figura 7 muestra
la distribución del número de viajes en los pares OD válidos, en ella se puede
apreciar que el valor más frecuente es de 8 viajes y que la densidad de pares OD
con más de 25 viajes es menor o igual a 1%. Lo anterior conlleva a una
concentración de pares OD válidos con entre 6 y 25 viajes observados y un número
reducido de pares OD con más viajes observados a partir de ese punto.
Figura 7: Distribución del número de viajes observados en los pares OD válidos.
Para reducir el esfuerzo computacional del procesamiento de información, en este
trabajo se seleccionó aleatoriamente un total de 5.000 pares OD válidos.
0
1
2
3
4
5
6
7
8
9
6 10 14 18 22 26 30 34 38 42 46 50 54 58 62 66 70 74 78 82 86 90 94 98
den
did
ad d
e p
ares
OD
vál
ido
s [%
]
n° de viajes observados en par OD válido
25
3.2.2. Selección y atributos de viajes
Fueron seleccionados y agrupados todos los viajes reconocidos por ADATRAP
cuyos paraderos de inicio y fin de viaje están dentro de una zona de influencia (o
“buffer”) de los 5.000 pares OD seleccionados. Esta zona de influencia fue
definida por una circunferencia de radio definido alrededor de cada origen y
destino (ver Figura 8).
Figura 8: Representación de viajes seleccionados, cuyos paraderos de inicio y fin están dentro del área de influencia de un par OD. En cada etapa de los viajes seleccionados se aplica
procedimiento de obtención de líneas comunes.
El radio definido para las zonas de influencias es de 100 [m], valor que permitía
ampliar las opciones de rutas de viajes observadas en transporte público que
tienen un OD similar y no repetir rutas de viajes equivalentes. La definición de
radios más grandes puede repercutir en añadir paraderos consecutivos de los
servicios de transporte en una misma zona de influencia debido a que la distancia
promedio entre ellos es cercana a los 200 [m], lo que conlleva en obtener rutas
observadas idénticas (en servicios utilizados), cuya única diferencia son los
paraderos de inicio y fin de viaje.
26
Adicionalmente, para cada etapa de los viajes y bajo el supuesto de que los
usuarios buscan minimizar su tiempo esperado se procedió a obtener el conjunto
de recorridos óptimos como propone Chriqui y Robillard (1975) en el problema
de líneas comunes (ver sección 2.1). Con esto se asigna a cada etapa no solamente
el recorrido observado en ADATRAP, sino también el conjunto que le permite
reducir el tiempo de recorrido para llegar a su próximo paradero de bajada. De
esta forma el tiempo de viaje y de espera en cada etapa de las alternativas
reconocidas estaría definido por la esperanza de todos los recorridos considerados
dentro de la estrategia de líneas comunes a través de las siguientes expresiones:
𝔼[𝑇𝐸] =1
2 ∑ 𝑓𝑖𝑖∈𝐿𝐶 (3.1)
𝔼[𝑇𝑉] =∑ 𝑓𝑖 𝑇𝑣𝑖𝑖∈𝐿𝐶
∑ 𝑓𝑖𝑖∈𝐿𝐶 (3.2)
Donde 𝔼[𝑇𝐸] 𝑦 𝔼[𝑇𝑉] representa la esperanza del tiempo de espera y tiempo de
viaje respectivamente. 𝐿𝐶 representa al conjunto de líneas comunes para una
misma etapa de viaje entre dos paraderos conocidos. 𝑓𝑖 y 𝑇𝑣𝑖 corresponden a la
frecuencia y tiempo de viaje de operación del servicio 𝑖, el cual es obtenido de la
información de operación del GTFS.
Con respecto al tiempo de caminata, este se estimó a partir de la distancia
Manhattan entre los paraderos de bajada y subida de etapas consecutivas de los
viajes. Como se aprecia en la Figura 9, la distancia Manhattan (transfer distance)
es una alternativa al cálculo de la distancia euclidiana, donde la conexión entre el
origen y fin de la caminata (precise stop locations) no se realiza de forma directa
(por la hipotenusa), sino más bien se realiza a través de los catetos de dicha
conexión. Además, se simplifica la caminata vertical entre paraderos asumiendo
que todos los paraderos se encuentran al mismo nivel. La caminata de acceso y
egreso se simplifican asumiendo que los viajes empiezan y finalizan en los
paraderos de origen y destino de los viajes observados. Finalmente, el tiempo de
caminata se obtiene asumiendo una velocidad de tránsito peatonal de 1.4 [m/s].
27
Figura 9: Estimación de la distancia de caminata por distancia Manhattan (transfer distance). (Fuente: Morency et al., 2011).
3.3. Registro de preferencias reveladas
Hasta el momento se han identificado los pares OD y rutas de transporte público
que los usuarios del sistema escogieron para realizar su viaje, sin embargo, no se
ha identificado el conjunto de rutas alternativas (conjunto de consideración). En
el trabajo se opta por generar el conjunto de consideración de cada par OD
seleccionado a partir de las rutas observadas en sus respectivas zonas de
influencia, considerando un área de 100 [m] de radio en torno al punto de
subida/bajada.
A modo de ejemplo, todas las rutas observadas en la Figura 8 son parte del
conjunto de consideración de los usuarios que realicen viajes en aquel par OD. Se
debe contemplar que los viajes observados que poseen rutas idénticas son
considerados solo una vez (para no duplicar alternativas) y que aquellos pares OD
que resultan con un tamaño del conjunto de consideración igual a 1 son
descartados al no poder procesar una elección de solo una alternativa disponible.
Con lo anterior el número de pares OD disponibles para el análisis es de 2.421.
La Figura 10 muestra los pares OD estudiados, se puede observar que los orígenes
(color verde) poseen una mayor distribución espacial, en cambio los destinos
(color rojo) se concentran en la zona centro y nororiente de la ciudad. Lo anterior
28
es esperado pues en el periodo estudiado (punta mañana) una gran cantidad de
viajes son con propósito estudio y trabajo, desplazándose desde el hogar
(distribuidos en la ciudad) hacía los sectores de trabajo y estudio (cuya densidad
es mayor en el sector centro y nororiente).
Figura 10: Visualización pares OD estudiados (Verde: orígenes, Rojo: destinos).
Como se mencionó anteriormente, cada par OD seleccionado posee un conjunto
de consideración constituido por los viajes observados en las zonas de influencia.
En la Tabla 1 se muestra el número de pares OD para cada tamaño del conjunto
de consideración, donde se puede apreciar un decrecimiento del número de pares
OD con respecto al número de alternativas disponibles.
Tabla 1: Tamaño del conjunto de consideración y número de pares OD.
N° alternativas 2 3 4 5 6 7 8 9 10 11 12 Total
N° de pares OD 1.099 622 351 190 79 49 18 3 6 2 2 2.421
La Tabla 2 muestra los atributos promedio de las alternativas generadas, en
aquella se aprecia que el tiempo de viaje es de 38,5 [min], el tiempo de espera total
es de 7,6 [min] (la suma del tiempo de espera en cada etapa), el tiempo de
caminata es de 1,2 [min], el tiempo de uso de metro es de 18,0 [min] y un total de
29
2,1 etapas promedio de viajes son realizadas. Los valores obtenidos son razonables
y se recalca nuevamente que se considera el viaje desde el paradero de subida
hasta el paradero de bajada, pues la información disponible se restringe a lo que
se observa en el sistema de transporte público, por lo que el tiempo de caminata
no contempla el acceso y egreso del viaje.
Tabla 2: Atributos promedios de alternativas de viajes generadas.
Atributo Valor Tiempo de viaje 38,5 [min] Tiempo en metro 18,0 [min] Tiempo de espera total 7,6 [min] Tiempo de caminata 1,2 [min] Tiempo de caminata (solo alternativas con más de una etapa) 1,4 [min] Número de etapas 2,1 [etapas]
Finalmente, el registro de observaciones de preferencias reveladas a partir de
datos pasivos posee 69.553 observaciones distribuidas en 2.421 pares OD con un
promedio de 3,1 alternativas de rutas para realizar el viaje.
3.4. Datos de estimación y predicción
Las observaciones obtenidas son clasificadas en aquellas que serán utilizadas para
estimación y aquellas utilizadas para estudiar el rendimiento de predicción de los
modelos de elección de rutas.
Las observaciones de predicción corresponden aquellas registradas el tercer día
de evaluación (3 de agosto del 2017) de aquellos individuos que además
presentaron observaciones en los dos días anteriores. Las demás observaciones
son utilizadas para la estimación.
Con lo anterior se obtiene un total de 6.512 observaciones de predicción y 63.015
observaciones de estimación. La Tabla 3 presenta los atributos promedios de las
alternativas de viajes elegidas para ambos tipos de viajes observándose que los
atributos de las alternativas elegidas son similares entre tipo de datos, salvo para
el atributo tiempo de caminata.
30
Tabla 3: Atributos promedios de alternativas de viajes elegidas estimación y predicción
Atributo de ruta Datos de estimación Datos de predicción Tiempo de viaje [min] 27,9 30
Tiempo en metro [min] 18,8 21,6 Tiempo de espera total
[min] 4,6 4,7
Tiempo de caminata [min]
1,2 0,4
Número de etapas 1,6 1,7
Por otra parte, al comparar los datos de la Tabla 3, que poseen los promedios de
las alternativas elegidas, con los datos reportados en la Tabla 2, que poseen los
promedios de las alternativas del conjunto de consideración, se aprecia lo
siguiente:
• Las alternativas elegidas tienen menor tiempo de viaje con respecto a las
alternativas del conjunto de consideración.
• Las alternativas elegidas poseen un porcentaje de uso mayor de metro con
respecto a las alternativas del conjunto de consideración.
• El tiempo de espera total es menor para las alternativas elegidas.
• El número de etapas de viajes es menor para las alternativas elegidas.
Las observaciones anteriores podrían deberse al periodo de tiempo evaluado
(punta mañana de días laborales), donde los propósitos de viajes más importantes
son del tipo trabajo y estudio, teniendo premura en llegar a destino. Lo anterior
conllevaría a la preferencia de elección de alternativas de viajes más rápidas
(menor tiempo de viaje y mayor uso de metro). Asimismo, en este tipo de periodo
es posible que los pasajeros eviten un cambio de modo y/o servicio, por el
hacinamiento en los vehículos, lo que explicaría la reducción del número de etapas
y con ellos del tiempo de espera total.
31
Capítulo 4: Modelos de
recomendación de ruta
En este capítulo se presentan los modelos que serán evaluados para la
recomendación de rutas, los que utilizan como fuente de información el conjunto
de rutas alternativas con sus atributos de viajes obtenidos del registro de datos de
preferencias reveladas.
El modelo base será el de recomendación de la alternativa de menor tiempo total
de viaje y se comparará con modelos basados en la utilidad que incorporan la
información de elección de rutas de los individuos para la estimación de
parámetros de gustos.
La comparación de modelos se efectuará a partir del desempeño de predicción de
rutas con la medición de la recuperación de la primera preferencia y el promedio
de la probabilidad de la alternativa elegida como se detallarán en el presente
capítulo.
4.1. Modelo Base: Recomendación de la alternativa de menor
tiempo total de viaje
Dentro del conjunto de rutas alternativas obtenidos del registro de preferencias
reveladas es posible seleccionar la alternativa de menor tiempo total de viaje como
alternativa recomendada. Es decir, será recomendada aquella ruta cuya suma del
tiempo de espera, tiempo de caminata y tiempo a bordo de los vehículos resulte
menor. Este modelo será fundamental para determinar la efectividad de
planificadores que se basen en algoritmos de rutas mínimas.
4.2. Con parámetros de gusto de otro estudio
En FDC (2016) se reporta la estimación de parámetros de gustos a partir de la
información de la Encuesta Origen Destino Santiago 2012 (EOD 2012) para la
actualización del modelo ESTRAUS (modelo de equilibrio oferta-demanda para
redes multimodales de transporte urbano). La siguiente tabla presenta los
parámetros de gusto obtenidos:
32
Tabla 4: Parámetros de gustos multinomial logit a partir de EOD 2012.Fuente: FDC (2016)
Parámetro coeficiente
𝛽𝑡𝑣 -0,0132
𝛽𝑡𝑒 -0,0243
𝛽𝑡𝑐 -0,0515
𝛽𝑡𝑟𝑎𝑛𝑠𝑏𝑜𝑟𝑑𝑜𝑠 -0,6696
Los parámetros mostrados en la tabla anterior son un extracto de aquellos que
serán utilizados, omitiendo aquellos cuyos atributos no fueron cuantificados en el
presente estudio. Estos parámetros de gusto serán utilizados para estimar utilidad
sistemática mediante la siguiente expresión:
𝑉𝑖 = 𝛽𝑡𝑣𝑇𝑣𝑖 + 𝛽𝑡𝑒𝑇𝑒𝑖 + 𝛽𝑡𝑐𝑇𝑐𝑖 + 𝛽𝑡𝑟𝑎𝑛𝑠𝑏𝑜𝑟𝑑𝑜𝑠𝑇𝑟𝑎𝑛𝑠𝑏𝑜𝑟𝑑𝑜𝑠𝑖 (4.1)
Donde 𝑇𝑣𝑖, 𝑇𝑒𝑖, 𝑇𝑐𝑖 y 𝑇𝑟𝑎𝑛𝑠𝑏𝑜𝑟𝑑𝑜𝑖 corresponden al tiempo de viaje a bordo del
vehículo, tiempo total de espera, tiempo de caminata de transbordo y números de
transbordos de la ruta 𝑖 respectivamente.
La recomendación de rutas que se genera a partir de los parámetros estimados
(��), serán aquellas rutas cuyo 𝑉𝑖(��) dentro del conjunto de consideración sea
mayor.
4.3. Estimación de parámetros de gustos a partir de datos
pasivos
Se generan modelos basados en la utilidad utilizando los datos de estimación del
registro de preferencia revelada. Lo anterior se realiza con el fin de evaluar el
impacto de generar recomendaciones de rutas a partir de información obtenida
de datos pasivos.
Como señala Train (2009), una forma ampliamente utilizada para estimar
parámetros de gusto (𝛽) es a través de la solución del problema de optimización
de la maximización de la verosimilitud (𝐿), cuya expresión está representada en la
siguiente fórmula:
33
𝐿(𝛽) = ∏ ∏(𝑃𝑛𝑖)𝑑𝑛𝑖
𝐼𝑛
𝑖
𝑁
𝑛=1
(4.2)
Donde N corresponde a la muestra de individuos utilizados con fines de
estimación, 𝐼𝑛 corresponde al conjunto de consideración del individuo 𝑛. 𝑑𝑛𝑖 es
una variable binomial que toma valor 1 si el individuo 𝑛 eligió la alternativa 𝑖 y
valor 0 si no la eligió. 𝑃𝑛𝑖 es la probabilidad de que el individuo 𝑛 elija la alternativa
𝑖, cuya expresión depende del modelo de utilidad utilizado.
Aprovechando la propiedad del logaritmo sobre el producto y debido a que esta es
una función monótonamente creciente el problema de maximización planteado
también puede resolverse a partir de la maximización de la log-verosimilitud (𝐿𝐿):
𝐿𝐿(𝛽) = ∑ ∑ 𝑑𝑛𝑖𝐿𝑛(𝑃𝑛𝑖)
𝑖𝑛
(4.3)
Ahora bien, para considerar datos de panel (𝑦𝑛) en donde cada individuo 𝑛 posee
un total de 𝑇𝑛 escenarios de elecciones, la expresión anterior puede ser
reemplazada por la siguiente:
𝐿𝐿(𝛽) = ∑ 𝐿𝑛(𝐿𝑛)
𝑛
(4.4)
𝐿𝑛 = ∏ 𝑃𝑛,𝑦𝑛𝑡
𝑇𝑛
𝑡=𝑡1
(4.5)
Donde el conjunto de datos de panel de cada individuo es 𝑦𝑛 = {𝑦𝑛𝑡1, … , 𝑦𝑛
𝑇𝑛} y 𝑦𝑛𝑡
define la alternativa elegida en cada escenario de elección.
En el actual trabajo clasificamos en dos grupos los modelos de utilidad estimados,
aquellos que obtienen parámetros de gustos promedios o poblacionales y aquellos
que permiten obtener parámetros de gustos para cada individuo estudiado.
34
4.3.1. Modelos con parámetros de gustos poblacionales
Los modelos basados en la utilidad con parámetros de gustos poblacionales se
caracterizan por obtener valorizaciones únicas de los atributos evaluados para
toda la población. En el presente estudio se consideran la estimación de modelos
multinomial logit y mixed logit con heterogeneidad de gustos.
Multinomial Logit
El modelo multinomial logit (MNL) se caracteriza por tener una expresión cerrada
para la probabilidad de elección 𝑃𝑛,𝑦𝑛𝑡 en función de los atributos de las
alternativas y de los parámetros de gustos. La fórmula 4.6 y 4.7 presentan la
probabilidad de elección y la función utilidad sistemática respectivamente.
𝑃𝑛,𝑦𝑛𝑡 (𝛽) =
𝑒𝑉
𝑦𝑛𝑡 (𝛽)
∑ 𝑒 𝑉𝑗(𝛽)
𝑗∈𝐼𝑛
(4.6)
𝑉𝑖(𝛽) = 𝛽 ∙ 𝑋𝑖 = ∑ 𝛽𝑘 𝑋𝑖𝑘
𝑘∈𝐾
(4.7)
Donde 𝑉𝑖 corresponde a la función de utilidad sistemática, 𝑋𝑖 = {𝑋𝑖1, 𝑋𝑖2, … , 𝑋𝑖𝐾}
es el vector de atributos de la alternativa 𝑖 con 𝐾 atributos medibles y sus
respectivos parámetros de gusto quedan determinados por 𝛽 = {𝛽1, 𝛽2, … , 𝛽𝑘}.
Específicamente para el presente estudio la función de utilidad sistemática es
equivalente a la utilizada en la sección 4.2 (con parámetros de gusto de otro
estudio) y queda representada por la siguiente expresión:
𝑉𝑖 = 𝛽𝑡𝑣𝑇𝑣𝑖 + 𝛽𝑡𝑒𝑇𝑒𝑖 + 𝛽𝑡𝑐𝑇𝑐𝑖 + 𝛽𝑡𝑟𝑎𝑛𝑠𝑏𝑜𝑟𝑑𝑜𝑠𝑇𝑟𝑎𝑛𝑠𝑏𝑜𝑟𝑑𝑜𝑠𝑖 (4.8)
La recomendación de rutas que se genera a partir de los parámetros estimados
(��), serán aquellas rutas cuyo 𝑉𝑖(��) dentro del conjunto de consideración sea
mayor.
35
Mixed Logit con heterogeneidad de gusto
El modelo mixed logit con heterogeneidad de gusto (MXL) permite asumir que
los parámetros de gusto no son fijos en la población al incorporar funciones de
distribución sobre estos 𝑔𝑘(𝛽 |𝜃). Esto queda representado a través de la
probabilidad de elección 𝑃𝑛,𝑦𝑛𝑡 (𝛽, 𝜃) que se presenta en la siguiente expresión.
𝑃𝑛,𝑦𝑛𝑡 (𝛽, 𝜃) = ∫ 𝑃𝑛𝑖(𝛽)𝑓(𝛽|𝜃) 𝑑𝛽 (4.9)
En el presente estudio 𝑃𝑛,𝑦𝑛𝑡 (𝛽) y su respectiva función de utilidad mantienen la
formulación descrita en el modelo multinomial logit anterior, para poder evaluar
exclusivamente la incorporación de funciones de distribución sobre los
parámetros de gustos. La función de distribución utilizada es log-normal para
asegurar que a lo largo del rango de la función los parámetros de gustos tuvieran
un único signo (el cual debe ser negativo debido a que los atributos causan
desutilidad).
Debido a que 𝑃𝑛,𝑦𝑛𝑡 (𝛽, 𝜃) no tiene una expresión cerrada se procede a simular las
probabilidades de elección con el siguiente procedimiento:
1. Se definen 𝑅 realizaciones simuladas 𝑁𝑘 = [𝑁𝑘1, … , 𝑁𝑘
𝑟 , … , 𝑁𝑘𝑅], para cada
atributo 𝑘.
2. En cada realización 𝑟 se extraen valores al azar sobre una distribución
normal estándar 𝑛𝑘𝑛𝑟 para cada individuo 𝑛 (de un total de 𝑁), obteniéndose
una matriz por cada atributo 𝑘 de ℝ𝑁𝑥ℝ𝑅 observaciones al azar.
𝑁𝑘 = [𝑁𝑘1, … , 𝑁𝑘
𝑟 , … , 𝑁𝑘𝑅] =
𝑛𝑘11 . . . 𝑛𝑘1
𝑟 . . . 𝑛𝑘1𝑅
.𝑛𝑘𝑛
1
.
. 𝑛𝑘𝑛
𝑟 .
.𝑛𝑘𝑛
𝑅
.𝑛𝑘𝑁
1 . . . 𝑛𝑘𝑁𝑟 . . . 𝑛𝑘𝑁
𝑅
(4.10)
Notar que las realizaciones generadas en la fórmula 4.10 son
proporcionales al número de individuos y no al total de registros de
36
estimación. Lo anterior se debe a que un individuo en distintos escenarios
de elección debe recibir las mismas realizaciones.
3. Para cada alternativa 𝑖 y realización 𝑟 se computa la función de utilidad
sistemática en el escenario de elección 𝑡 de cada individuo 𝑛 (𝑉𝑖,𝑡𝑛,𝑟). Debido
a que la distribución utilizada es log-normal definida negativa esta queda
representada de la siguiente forma:
𝑉𝑖,𝑡𝑛,𝑟 = − ∑ 𝑒𝛽𝑘+𝜎𝑘𝑁𝑘
𝑟
𝑋𝑘𝑖,𝑡
𝑘
(4.11)
Donde 𝛽𝑘 y 𝜎𝑘 representan la parametrización de la distribución normal
del gusto (𝜃) que se desea estimar y 𝑋𝑘𝑖,𝑡 es el valor del atributo 𝑘 de la
alternativa 𝑖 en el escenario de elección 𝑡.
4. Con 𝑉𝑖,𝑡𝑛,𝑟computado se obtiene la probabilidad de elección respectiva:
𝑃𝑖,𝑡𝑛,𝑟 =
𝑒𝑉𝑖,𝑡𝑛,𝑟
∑ 𝑒𝑉𝑗,𝑡
𝑛,𝑟
𝑗
(4.12)
5. Luego el promedio de la probabilidad simulada para cada individuo 𝑛 sobre
cada uno de sus escenarios de elección será:
��𝑛,𝑡 =1
𝑅∑ 𝑃
𝑦𝑛𝑡 ,𝑡
𝑛,𝑟
𝑅
𝑟=1
(4.13)
6. Con lo anterior, se computa la función de la log-verosimilitud simulada
mediante la siguiente expresión:
𝑆𝐿𝐿 = ∑ 𝐿𝑛(��𝑛,𝑡)
𝑁
𝑛=1
(4.14)
7. Finalmente, se resuelve problema de optimización de maximización de la
log-verosimilitud simulada:
37
maxβk,σk
𝑆𝑆𝐿 (4.15)
Resolviendo el procedimiento anterior obtenemos la estimación de la distribución
del gusto en la población donde los parámetros βk es la media y σk es la desviación
estándar de una distribución normal. Para determinar la media ��𝑘 y desviación
estándar ��𝑘 de la distribución log-normal se aplica la siguiente transformación:
��𝑘 = −𝑒��𝑘+��𝑘2/2 , ��𝑘 = ��𝑘
√𝑒��𝑘2
− 1 (4.16)
La recomendación que se dará a partir de este modelo se genera repitiendo el
procedimiento anterior hasta el cálculo de 𝑃𝑖,𝑡𝑛,𝑟 sobre todas las realizaciones
(fórmula 4.12), considerando los parámetros βk y σk estimados. Luego, la
alternativa dentro del conjunto de consideración con un mayor 𝑃𝑖,𝑡𝑛,𝑟 promedio será
la recomendada para cada individuo.
4.3.2. Modelo con parámetro de gustos individuales
La distribución del gusto poblacional 𝑔𝑘(𝛽 |𝜃) de un atributo 𝑘 fue estimado a
partir de los θk = mk, sk obtenidos del modelo MXL. Sin embargo, este modelo no
personaliza la recomendación para cada individuo pues la probabilidad de
elección estará basada en los atributos de las alternativas de viaje y la distribución
poblacional del gusto solamente.
Como fue señalado en la selección de datos de estimación y predicción, aquellos
datos que se utilizan con fines de predicción poseen 2 días previos de registro de
elección de viaje que se integraron a los datos de estimación. Por lo anterior, cada
observación (o individuo) de predicción posee datos de panel a través del tiempo
(𝑦𝑛 = {𝑦𝑛𝑑í𝑎 1, 𝑦𝑛
𝑑í𝑎 2}) los cuales permiten obtener una distribución personalizada
del gusto ℎ(𝛽|𝑦𝑛, 𝜃) (ver detalle en sección 2.3.1 - Mixed logit con heterogeneidad
de gustos).
Para evaluar exclusivamente la incorporación de datos de panel en la
recomendación de rutas se determinó que la función de utilidad y la distribución
del gusto derivan de los modelos previamente tratados (MNL y MXL). Con lo
38
anterior, los parámetros de gusto para cada individuo 𝛽𝑛 a partir de una
distribución personalizada queda representada por la siguiente fórmula:
𝛽𝑛 = ∫ 𝛽 ℎ(𝛽|𝑦𝑛, 𝜃)𝑑𝛽 = ∫ 𝛽 𝑃(𝑦𝑛|𝛽)𝑔(𝛽|𝜃)
𝑃(𝑦𝑛|𝜃)𝑑𝛽
(4.17)
Debido a que los 𝛽𝑛 no tiene una expresión cerrada, se calculan siguiendo el
siguiente procedimiento:
1. Para cada parámetro de gusto se generan 𝐷 realizaciones sobre su
distribución de gusto estimada del modelo MXL 𝑔𝑘(𝛽 |𝜃𝑘).
2. Para cada realización 𝑑 de los parámetros de gustos (𝛽𝑑), se calcula la
probabilidad de elección de los eventos pasados 𝑦𝑛 ⊆ {𝑦𝑛𝑑í𝑎 1, 𝑦𝑛
𝑑í𝑎 2}:
𝑃(𝑦𝑛|𝛽𝑑) = ∏ 𝑃(𝑦𝑛𝑡|𝛽𝑑)
𝑡
(4.18)
Donde 𝑃(𝑦𝑛𝑡|𝛽𝑑) corresponde a la probabilidad MNL de que el individuo
𝑛 repita su elección en el escenario 𝑡 del registro de datos de panel.
3. Luego se calcula el peso de dicha realización sobre todas las realizaciones
generadas:
𝜔𝑑 =𝑃(𝑦𝑛|𝛽𝑑)
∑ 𝑃(𝑦𝑛|𝛽𝑔) 𝑔∈𝐷
(4.19)
4. Finalmente se estiman los parámetros de gusto de cada individuo con el
promedio de las realizaciones realizadas:
��𝑛 ≈ ��𝑛 = ∑ 𝜔𝑑
𝑑
𝛽𝑑
(4.20)
Con el procedimiento anterior es posible generar recomendaciones de forma
similar a la generada en el modelo MNL, pero considerando los ��𝑛 como
parámetro de gusto para cada individuo.
39
4.4. Comparación de modelos: Desempeño de predicción
Los modelos de utilidad generados serán analizados en primera instancia por la
magnitud, signo y significancia de los parámetros de gustos estimados en cada
uno de ellos, para posteriormente medir el desempeño de predicción de las rutas
elegidas por los modelos. La medición de la recuperación de la primera
preferencia y el promedio de la probabilidad de la alternativa elegida son los
indicadores de desempeño de predicción que serán utilizados.
4.4.1. Recuperación de la primera preferencia (𝑭𝑷𝑹)
Análogamente, como se realiza en Nuzzolo (2015), el desempeño de predicción de
los modelos se realiza mediante la recuperación de la primera preferencia (𝐹𝑃𝑅 de
su sigla en inglés - First Preference Recovery). De acuerdo con Ortuzar et. al
(2008), el 𝐹𝑃𝑅 de un modelo mide la proporción de individuos que realmente
eligen la opción con la utilidad más alta modelada.
La siguiente expresión será utilizada para la obtención del 𝐹𝑃𝑅 de cada modelo
𝑚:
𝐹𝑃𝑅𝑚 = 1001
|𝑁| ∑ Ι𝑛,𝑚
𝑛∈𝑁
(4.21)
Donde Ι𝑛,𝑚 es un indicador que toma valor 1 si el modelo 𝑚 recomienda la
alternativa elegida por el individuo 𝑛 y valor 0 en caso contrario. 𝑁 es el conjunto
de individuos analizados en predicción y |𝑁| su cardinal.
4.4.2. Promedio de la probabilidad de la alternativa elegida (𝑃𝑚)
Asimismo, se calcula para cada modelo estimado el promedio de la probabilidad
de la alternativa elegida 𝑃𝑚 con la siguiente expresión:
𝑃𝑚 = 1001
|𝑁| ∑ 𝑃𝑛,𝑚
𝑛∈𝑁
(4.22)
40
Donde 𝑃𝑛,𝑚 es la probabilidad asignada por el modelo 𝑚 sobre la alternativa que
efectivamente elige el individuo 𝑛. Sin embargo, esta probabilidad no puede ser
calculada para el modelo base de recomendación de la alternativa de menor
tiempo total de viaje y no es comparable con la probabilidad para el modelo
estimado con parámetros extraídos de la EOD 2012.
41
Capítulo 5: Resultados de modelación
En este capítulo se presentarán los resultados de la estimación de los parámetros
de gustos para los modelos basado en la utilidad y el desempeño de predicción de
las rutas elegidas por los siguientes modelos de recomendación:
• RM: Modelo base de recomendación de alternativa de menor tiempo total
de viaje.
• M EOD 2012: Modelo basado en la utilidad con parámetros estimados
con datos de la encuesta Origen Destino 2012.
• MNL: Logit multinomial estimado con datos pasivos.
• MXL: Mixed logit con heterogeneidad de gustos estimado con datos
pasivos.
• IP: Modelo con parámetros de gustos individuales con datos pasivos.
5.1. Estimación Modelos basado en la maximización de la
utilidad aleatoria
Con los datos de preferencias reveladas obtenidos del procesamiento de datos
pasivos se estimaron modelos basados en la maximización de la utilidad aleatoria
para obtener parámetros de gustos de los atributos (𝛽𝑘). Los atributos
considerados son el tiempo a bordo del vehículo (𝑇𝑣), el tiempo de espera (𝑇𝑒), el
tiempo de caminata en el transbordo (𝑇𝑐) y el número de transbordos.
5.1.1. Modelo Multinomial Logit (MNL)
Resolviendo el problema de la maximización de la log-verosimilitud (𝐿𝐿) sobre la
función de utilidad del modelo logit multinomial, los parámetros de gustos
estimados son los siguientes:
42
Tabla 5: Estimación de parámetros de gustos a partir de modelo logit multinomial.
Coeficiente Estimado Error
estándar Valor 𝑡
𝛽𝑡𝑣 -0,172109 0,0015 -111,15 𝛽𝑡𝑒 -0,262039 0,0038 -69,28 𝛽𝑡𝑐 -0,509591 0,0078 -65,13
𝛽𝑡𝑟𝑎𝑛𝑠𝑏𝑜𝑟𝑑𝑜𝑠 -1,012651 0,0192 -52,62
𝑛° obs: 63.015 𝐿𝐿(��): -36.277,02
Los parámetros resultan ser significativos con al menos un 95% de confianza, con
signo esperado de acuerdo con la hipótesis de que los atributos generan
desutilidad. Además, la magnitud relativa de los parámetros estimada puede ser
apreciada en la siguiente tabla:
Tabla 6: Valores relativo con respecto a valorización del tiempo de viaje. EIV = tiempo equivalente en el vehículo.
Coeficiente Valor relativo [EIV] Valor Relativo EOD 2012
𝛽𝑡𝑒/𝛽𝑡𝑣 1,52 1,84
𝛽𝑡𝑐/𝛽𝑡𝑣 2,96 3,90
𝛽𝑡𝑟𝑎𝑛𝑠𝑏𝑜𝑟𝑑𝑜𝑠/𝛽𝑡𝑣 5,88 50,73
La magnitud relativa obtenida es coherente con respecto al supuesto de que
esperar, caminar y ejercer una nueva etapa de viaje generan una desutilidad
mayor al tiempo a bordo del vehículo. Sin embargo, existe diferencia al valor
relativo que se obtiene del modelo M EOD 2012, que se expresa significativamente
en el atributo del número de transbordos.
5.1.2. Modelo Mixed Logit con heterogeneidad de gustos (MXL)
Resolviendo el problema de optimización de maximización de la log-verosimilitud
simulada y utilizando el procedimiento descrito en el modelo mixed logit con
heterogeneidad de gustos mediante la generación de 𝑅 = 100 realizaciones, los
parámetros de gustos estimados son los siguientes:
43
Tabla 7: Estimación de parámetros de gustos a partir de modelo Mixed Logit con heterogeneidad de gustos.
Coeficiente Estimado Error
estándar Valor 𝑡
𝛽𝑡𝑣 -1,56424 0,01193 -131,11 𝛽𝑡𝑒 -1,32709 0,01940 -68,42 𝛽𝑡𝑐 -0,58369 0,02622 -22,27
𝛽𝑡𝑟𝑎𝑛𝑠𝑏𝑜𝑟𝑑𝑜𝑠 -0,97540 0,02178 -44,79 𝜎𝑡𝑣 0,38294 0.01200 31,92 𝜎𝑡𝑒 0,81561 0,03619 22,54 𝜎𝑡𝑐 1,48494 0,03455 42,98
𝑛° obs: 63.015 𝐿𝐿(��): -35.601,06
El modelo reportado en la tabla anterior fue el modelo resultante de probar
distintas especificaciones de utilidad (con las opciones de incluir o no distribución
de gustos en los distintos atributos). Como resultado no se considera distribución
de gusto en la variable relacionada al número de transbordos, obteniendo
parámetros significativos con al menos un 95% de confianza, los parámetros de
distribución log - normal 𝑚𝑘 y 𝑠𝑘 y la magnitud relativa del modelo en estudio se
puede observar en la siguiente tabla:
Tabla 8: Parámetros de gustos con distribución log-normal y valores relativos con respecto a valorización del tiempo de viaje.
Coeficiente Estimado Valor relativo [EIV] 𝑚𝑡𝑣 -0,225 - 𝑚𝑡𝑒 -0,370 1,64 𝑚𝑡𝑐 -1,680 7,46
𝛽𝑡𝑟𝑎𝑛𝑠𝑏𝑜𝑟𝑑𝑜𝑠 -0,975 4,33 𝑠𝑡𝑣 0,089 - 𝑠𝑡𝑒 0,360 - 𝑠𝑡𝑐 4,773 -
En la tabla anterior la magnitud relativa obtenida es coherente con respecto al
supuesto de que esperar, caminar y ejercer un nuevo transbordo de viaje generan
una desutilidad mayor al tiempo a bordo del vehículo, sin embargo, difiere de la
obtenida en el modelo multinomial logit.
44
El ajuste de log-verosimilitud con respecto al modelo logit multinomial aumenta.
Si aplicamos una prueba de razón de verosimilitud considerando como modelo
restringido al modelo logit multinomial y al modelo mixed logit con
heterogeneidad de gusto como modelo irrestricto los resultados son los
siguientes:
−2 (𝐿𝐿𝑅(��𝑀𝑁𝐿) − 𝐿𝐿𝑀𝑋𝐿(��𝑀𝑋𝐿)) (5.1)
−2(−36.277,02 − −35.601,06) = 1.351,92 (5.2)
La prueba estadística 𝜒2 con 3 grados de libertad (equivalente al número de
restricciones del modelo multinomial logit) y a un 95% de confianza tiene un valor
estadístico crítico correspondiente a 7,82. Con lo anterior, la hipótesis nula del
modelo logit multinomial claramente se rechaza considerando la importancia de
la distribución del gusto en la población.
5.1.3. Modelo con parámetros individuales (IP)
Para los individuos que poseían datos de panel se procedió a estimar los
parámetros de gustos de cada uno considerando la distribución log - normal del
modelo mixed logit con heterogeneidad de gusto.
Para lo anterior se extrajeron 𝐷 = 100 realizaciones por cada atributo de acuerdo
con el procedimiento descrito en la sección 4.3.2. Se consideró los escenarios de
elección previos por separado, es decir, 𝑦𝑛 = {𝑦𝑛𝑑𝑖𝑎 1} y 𝑦𝑛 = {𝑦𝑛
𝑑𝑖𝑎 2}, dejando el
tercer día para evaluar los escenarios de predicción de todos los modelos.
Adicionalmente, los ��𝑛 estimados para cada día (��𝑛dia 1 y ��𝑛
dia 2) se promediaron
para cada individuo obteniendo los siguientes resultados:
45
Tabla 9: Media y desviación estándar de distribución de parámetros de gustos.
Parámetros de
Distribución
MXL ��𝑘, ��𝑘
IP día 1
��𝑛𝑑𝑖𝑎 1
IP día 2
��𝑛𝑑𝑖𝑎 2
𝑚𝑡𝑣 -0,225 -0,226 -0,225
𝑠𝑡𝑣 0,089 0,032 0,031
𝑚𝑡𝑒 -0,370 -0,368 -0,366
𝑠𝑡𝑒 0,360 0,129 0,131
𝑚𝑡𝑐 -1,680 -1,646 -1,646
𝑠𝑡𝑐 4,773 1,591 1,718
𝛽𝑡𝑟𝑎𝑛𝑠𝑏𝑜𝑟𝑑𝑜𝑠 -0,975 -0,975 -0,975
Los datos presentes en la tabla anterior pueden visualizarse para cada atributo
con las siguientes figuras que muestran los histogramas de los parámetros de
gustos estimados para todos los individuos.
Figura 11: Histogramas de distribución del gusto del tiempo a bordo del vehículo.
46
Figura 12: Histogramas de distribución del gusto del tiempo de espera.
Figura 13: Histogramas de distribución del gusto del tiempo de caminata.
47
Como se aprecia en la Tabla 9, Figura 11,
Figura 12 y Figura 13, las medias de distribución del modelo MXL fueron bien
reproducidas por la metodología IP difiriendo en menos del 2% entre ellas. Sin
48
embargo, las desviaciones estándar de la metodología IP solo pudieron reproducir
alrededor del 30%-35% de la desviación del modelo MXL. No obstante, se mostró
consistencia en los resultados de estimación de parámetros de gustos por
individuo a pesar de considerar días distintos para la estimación.
Figura 14: Histogramas de distribución del gusto (parámetros de caminata se truncan para poder visualizar mejor las distribuciones)
Finalmente, la Figura 14 nos presenta la diferencia de medias y desviación de los
parámetros de gustos de los tres atributos con distribución, apreciándose la mayor
varianza y media de los atributos tiempo de caminata y tiempo de espera con
respecto al tiempo a bordo del vehículo.
49
5.2. Rendimiento de predicción de rutas de los modelos
Con los modelos definidos y estimados se evalúa su rendimiento en función de la
predicción que generan sobre las elecciones de rutas. Hay que recordar que los
datos de predicción fueron definidos como el tercer día de aquellos individuos que
poseían un registro de 3 días observados en la base de datos recopilada teniendo
un total de 6.512 observaciones de predicción.
A continuación se resume la recomendación que cada modelo genera en el
presente estudio:
• RM: Recomendación de la alternativa de menor tiempo total de viaje
dentro del conjunto de consideración
• M EOD 2012: Recomendación de la alternativa de mayor utilidad
sistemática dentro del conjunto de consideración.
• MNL, MXL e IP: Recomendación de la alternativa de mayor utilidad
sistemática dentro del conjunto de consideración o equivalentemente a la
de mayor probabilidad de elección.
Como fue mencionado en la sección 4.4 el desempeño de predicción de rutas
elegidas será evaluado a través de la 𝐹𝑃𝑅𝑚y 𝑃𝑚 de cada modelo estudiado, los
cuales se presentan en la siguiente tabla:
Tabla 10: Rendimiento en predicción de modelos de elección de rutas.
RM
EOD 2012
MNL MXL IP
día 1 IP
día 2
𝑭𝑷𝑹𝒎 (%)
78,6 75,0 82,1 82,2 83,0 82,3
𝑷𝒎 (%) - - 71,6% 76,6% 76,8% 76,0%
El modelo base RM posee una FPR mayor al obtenido por el modelo basado en la
EOD 2012, pero menor al registrado para los modelos estimados a partir de datos
pasivos (MNL, MXL e IP). A su vez los modelos IP tienen un leve aumento de la
FPR con respecto a los modelos con parámetros de gustos poblacionales (MNL y
MXL). Asimismo los modelos con heterogeneidad de gusto incluida (MXL e IP)
presentaron una mayor Pm con respecto al modelo MNL.
50
Los resultados de predicción observados eran esperables por las siguientes
razones:
• El modelo M EOD 2012 posee una gran diferencia relativa en la estimación
del 𝛽𝑡𝑟𝑎𝑛𝑠𝑏𝑜𝑟𝑑𝑜𝑠, equivalentes a 50,73 [min] de tiempo a bordo de un
vehículo. Esto conlleva a privilegiar alternativas sin transbordos para la
recomendación. Sin embargo, las alternativas elegidas presentan un
promedio de 1,7 etapas de viaje, por lo que la presencia de transbordos en
ellas es significativa. No obstante, el FPR obtenido es alto.
• El modelo RM también posee un elevado FPR , lo que muestra que gran
parte de los individuos eligen la alternativa más rápida observada para
llegar a destino. Lo anterior puede deberse al horario elegido de estudio
(punta mañana de días laborales) donde la urgencia de llegar a tiempo
puede prevalecer a la comodidad del viaje.
• Los modelos basados en la utilidad mejoraron el FPR al incorporar más
información a la recomendación de rutas. Asimismo, la incorporación de
heterogeneidad de gusto en la estimación de modelos obtuvo una mayor
Pm, lo cual que era esperable por el aumento de la log-verosimilitud de
modelos con mayor libertad de parámetros.
Como señala Ortuzar et. al (2008), la FPR de cada modelo puede ser comparado
con la posibilidad de recuperación dada por el modelo equiprobable (𝐶𝑅 del inglés
chance recovery) y la recuperación esperada de los modelos (𝐸𝑅 del inglés
expected recovery) que pueden obtenerse con las siguientes expresiones:
𝐶𝑅 = 1001
|𝑁|∑
1
|𝐶𝑛|𝑛∈𝑁
(5.3)
𝐸𝑅𝑚 = 1001
|𝑁|∑ 𝑃𝑚,𝑛
𝑚𝑎𝑥
𝑛∈𝑁
(5.4)
Donde |𝐶𝑛| es el cardinal del conjunto de consideración del individuo 𝑛 y 𝑃𝑚,𝑛𝑚𝑎𝑥 es
la máxima probabilidad que el modelo 𝑚 asigna a una alternativa del individuo 𝑛.
En el presente estudio 𝐶𝑅 es igual a 38,3%, lo que señala que los modelos
presentados tuvieron un alza significativa de predicción comparados con el
modelo equiprobable (alza de un 40-45% aproximadamente).
51
Los respectivos 𝐸𝑅 de cada modelo se presentan a continuación:
Tabla 11: Recuperación esperada de modelos estimados a partir de datos pasivos.
MNL MXL
IP día 1
IP día 2
𝑬𝑹𝒎 (%) 77,8% 86,5% 84,8% 85,0%
El FPR del modelo MNL fue mayor al esperado y para los modelos MXL e IP
fueron menor, sin embargo, sus diferencias no son mayor al 10%. Debido a la
similitud entre 𝐹𝑃𝑅 y 𝐸𝑅 y que estos son mas grandes que 𝐶𝑅 podemos señalar
que los modelos generados a partir de datos pasivos son razonables e
informativos.
52
Capítulo 6: Conclusiones y líneas
futuras de investigación
6.1. Síntesis y Conclusiones
En el trabajo desarrollado se logró implementar una metodología que permite
generar recomendaciones de rutas basadas en la utilidad a partir de datos pasivos
de colección automática de tarifas (AFC) y de localización automática de vehículos
(AVL). Si bien el estudio se llevó a cabo en la ciudad de Santiago de Chile, este es
extensible a cualquier ciudad que cuente con un sistema de almacenamiento de
datos pasivos como los utilizados y una definición de la operación del sistema de
transporte a través de un formato GTFS o similar.
En primer lugar se procedió a la construcción del registro de preferencias
reveladas a partir de los datos pasivos, obteniendo un tamaño promedio del
conjunto de consideración de 3.1 alternativas de viajes. El número de alternativas
disponible es reducido producto de que solo fueron considerados aquellas rutas
que los usuarios utilizaban y porque los recorridos similares de una misma etapa
de viaje se agruparon en una misma alternativa (mediante el procedimiento de
líneas comunes).
Los atributos de las alternativas generadas son razonables, pero al compararlos
con los resultados del informe de Estudio Satisfacción de Empresas Operadoras –
Noviembre 2017 (DTPM, 2017) estos difieren en los atributos tiempo de viaje y
espera. Mientras el tiempo de viaje reportado en aquel estudio es
aproximadamente un 20% superior, el tiempo de espera percibido en aquel
estudio es aproximadamente el doble. Ambas diferencias pueden atribuirse a que
el estudio mencionado no cuantifica aquellos atributos mediante el seguimiento
del usuario, si no que a través de una encuesta de percepción del tiempo de viaje
a su destino y el tiempo de espera en paradero, pudiendo afectar la valorización
del gusto de los atributos del tiempo.
Posteriormente se procedió a estimar los parámetros de gustos de los modelos de
elección de rutas. Con el modelo MNL se logró obtener parámetros de gustos
significativos para los atributos de tiempo de viaje a bordo del vehículo, tiempo
53
de espera, tiempo de caminata y número de transbordos. Si bien los valores
relativos de los parámetros obtenidos difieren con respecto al modelo MNL
estimados a partir de datos de la encuesta Origen Destino Santiago 2012 (M EOD
2012), estos parecen ser razonables en magnitud y coherente en signo.
El modelo MXL logra rescatar la significancia de la distribución del gusto en los
atributos tiempo de viaje a bordo del vehículo, tiempo de espera y tiempo de
caminata. Además la prueba de razón de verosimilitud con respecto al modelo
MNL confirma el hecho de que la distribución del gusto es un factor relevante en
la estimación del modelo. Los valores relativos de los parámetros de gustos
obtenidos difieren de los modelos anteriores, pero parecen ser razonables en
magnitud (el signo fue impuesto por la distribución log-normal como negativo).
Posteriormente con la inclusión de un día de información como dato de panel se
logró estimar parámetros de gustos para cada individuo dentro de la muestra
utilizada para predicción. Las medias obtenidas por las metodologías IP replican
a la distribución del gusto estimada en MXL, pero la varianza es inferior. La
varianza de la distribución de los parámetros de gustos puede aumentar si se
consideran más días en los datos de panel.
Con respecto al desempeño de predicción de los modelos hay que señalar que
todos ellos (incluidos los que no fueron estimados) tuvieron una recuperación de
la primera preferencia mayor a la del modelo equiprobable, permitiendo concluir
que estos son razonables e informativos. El modelo base de recomendación de
ruta de mínimo tiempo total de viaje tiene un desempeño elevado, explicado por
el periodo de estudio (punta mañana de un día laboral), donde la urgencia de
llegar al destino de viaje puede primar por sobre la comodidad del viaje. Sin
embargo, los modelos basados en la utilidad tienen un FPR mayor a medida que
incorporan más información a la recomendación de rutas. Con respecto al
indicador del promedio de la probabilidad de la alternativa elegida, la inclusión
de heterogeneidad de gusto que fue considerada en los modelos MXL e IP, permite
obtener una mejora de 5 puntos porcentuales con respecto al modelo MNL.
Finalmente, como fue mencionado, dos de las principales herramientas de
recomendación de rutas utilizadas por aplicaciones móviles y sitios web están
basados en los servicios que entrega Google (con un enfoque basado en reglas) y
los proporcionados por OpenTripPlanner (basada en la asignación de pesos al
tiempo).
54
Los servicios de planificación que entrega Google no están construidos
actualmente para diferenciar los atributos de viajes de acuerdo con la valorización
de los usuarios del sistema de transporte, por lo que la integración de un sistema
basado en la utilidad se vuelve complejo hoy en día con esta herramienta.
OpenTripPlanner por su parte ofrece mediante un controlador externo poder fijar
parámetros de gustos para los atributos de tiempo de caminata y tiempo de
espera, sin embargo, estos quedan fijos para todos los usuarios del sistema de
planificación, no pudiendo diferenciar por individuo y no considerando la
penalidad de realizar un transbordo.
6.2. Líneas futuras de investigación
El trabajo presentado logró generar un registro de preferencias reveladas de
usuarios de transporte público de Santiago de alrededor de 70.000 observaciones.
Este puede ser utilizado para estimar diferentes modelos basado en la utilidad que
no hayan sido evaluados (path size logit, C-logit, entre otros).
El procedimiento de reconocimiento del conjunto de consideración puede ser
modificado por metodologías basadas en rutas más cortas u otras y evaluar el
impacto de estos conjuntos en la estimación de parámetros de gusto y
posteriormente en la predicción de elección de rutas. Además, es posible
considerar otras estrategias de movilidad de los usuarios (diferente a la de líneas
comunes por etapas).
Otra extensión del trabajo es la replicación de la metodología en diferentes
periodos de tiempo, pudiendo considerar estimación de parámetros de gustos por
individuo en diferentes periodos del día. Lo anterior permitiría generar sistemas
de recomendación de rutas personalizados y adaptados al momento de la consulta
de la planificación del viaje.
Finalmente, la incorporación de más datos de panel para obtener parámetros de
gustos individuales es un hecho factible de realizar replicando la metodología.
Producto del bajo costo que genera la obtención de datos pasivos es un hecho que
vale la pena considerar en una línea futura de trabajo.
Lo anterior muestra que el trabajo presentado es perfectible y el autor invita a los
interesados en el área a expandir el conocimiento
55
Bibliografía
Agard, B., Morency, C., & Trépanier, M. (2006). Mining public transport user
behaviour from smart card data. IFAC Proceedings Volumes, 39(3), 399-404. Amaya, M., Cruzat, R., & Munizaga, M. A. (2018). Estimating the residence zone
of frequent public transport users to make travel pattern and time use
analysis. Journal of Transport Geography, 66, 330-339. Bagchi, M., & White, P. R. (2005). The potential of public transport smart card
data. Transport Policy, 12(5), 464-474.
Bekhor, S., Ben-Akiva, M. E., & Ramming, M. S. (2006). Evaluation of choice
set generation algorithms for route choice models. Annals of Operations
Research, 144(1), 235-247. Bovy, P. H. (2009). On modelling route choice sets in transportation networks:
a synthesis. Transport reviews, 29(1), 43-68. Campigotto, P., Rudloff, C., Leodolter, M., & Bauer, D. (2016). Personalized and
situation-aware multimodal route recommendations: the FAVOUR
algorithm. IEEE Transactions on Intelligent Transportation Systems, 18(1),
92-102. Chriqui, C., & Robillard, P. (1975). Common bus lines. Transportation
science, 9(2), 115-121. Gordon, J. B., Koutsopoulos, H. N., Wilson, N. H., & Attanucci, J. P. (2013).
Automated inference of linked transit journeys in London using fare-
transaction and vehicle location data. Transportation research
record, 2343(1), 17-24.
de Dios Ortuzar, J., & Willumsen, L. G. (2008). Modelos de transporte (Vol. 1).
Ed. Universidad de Cantabria.
DTPM, 2017. Estudio Satisfacción de Empresas Operadoras - Noviembre 2017.
Disponible en: http://www.dtpm.cl/index.php/omnis-iste-natus-error
56
FDC, consultores (2016). Actualización del Modelo ESTRAUS con Información
de la EOD 2012.
Gunn, H., & Bates, J. (1982). Statistical aspects of travel demand
modelling. Transportation Research Part A: General, 16(5-6), 371-382.
Hess, S., & Train, K. E. (2011). Recovery of inter-and intra-personal
heterogeneity using mixed logit models. Transportation Research Part B:
Methodological, 45(7), 973-990. Hickman, M. D., & Wilson, N. H. (1995). Passenger travel time and path choice
implications of real-time transit information. Transportation Research Part C:
Emerging Technologies, 3(4), 211-226. Hoogendoorn-Lanser, S., Van Nes, R., & Hoogendoorn, S. P. (2006). Modeling
transfers in multimodal trips: explaining correlations. Transportation research
record, 1985(1), 144-153. Horowitz, J. L., & Louviere, J. J. (1995). What is the role of consideration sets
in choice modeling?. international Journal of Research in Marketing, 12(1),
39-54. Huili, D., Haode, L., & Xiaoguang, Y. (2007). OD matrix estimation method of
public transportation flow based on passenger boarding and
alighting. Computer and Communications, 25(2), 79. Kusakabe, T., & Asakura, Y. (2014). Behavioural data mining of transit smart
card data: A data fusion approach. Transportation Research Part C: Emerging
Technologies, 46, 179-191. Lee, S. G., & Hickman, M. (2014). Trip purpose inference using automated fare
collection data. Public Transport, 6(1-2), 1-20. Long, Y., & Thill, J. C. (2015). Combining smart card data and household travel
survey to analyze jobs–housing relationships in Beijing. Computers,
Environment and Urban Systems, 53, 19-35.
Manski, C. F., 1977. The structure of random utility models. Theory and
decision, 8(3), p. 229
57
Morency, C., Trépanier, M., & Demers, M. (2011). Walking to transit: an
unexpected source of physical activity. Transport Policy, 18(6), 800-806. Munizaga, M. A., & Palma, C. (2012). Estimation of a disaggregate multimodal
public transport Origin–Destination matrix from passive smartcard data from
Santiago, Chile. Transportation Research Part C: Emerging Technologies, 24,
9-18. Munizaga, M., Devillaine, F., Navarrete, C., & Silva, D. (2014). Validating travel
behavior estimated from smartcard data. Transportation Research Part C:
Emerging Technologies, 44, 70-79. Nassir, N., Hickman, M., & Ma, Z. L. (2019). A strategy-based recursive path
choice model for public transit smart card data. Transportation Research Part
B: Methodological, 126, 528-548. Nuzzolo, A., & Comi, A. (2016). Advanced public transport and intelligent
transport systems: new modelling challenges. Transportmetrica A: Transport
Science, 12(8), 674-699. Nuzzolo, A., & Comi, A. (2016). Individual utility-based path suggestions in
transit trip planners. IET Intelligent Transport Systems, 10(4), 219-226. Nuzzolo, A., Comi, A., Crisalli, U., & Rosati, L. (2014, October). A new Advanced
Traveler Advisory Tool based on personal user preferences. In 17th
International IEEE Conference on Intelligent Transportation Systems
(ITSC) (pp. 1561-1566). IEEE. Nuzzolo, A., Crisalli, U., Comi, A., & Rosati, L. (2015). Individual behavioural
models for personal transit pre-trip planners. Transportation Research
Procedia, 5, 30-43. Pelletier, M. P., Trépanier, M., & Morency, C. (2011). Smart card data use in
public transit: A literature review. Transportation Research Part C: Emerging
Technologies, 19(4), 557-568. Prato, C. G. (2009). Route choice modeling: past, present and future research
directions. Journal of choice modelling, 2(1), 65-100.
58
Rasmussen, T. K., Anderson, M. K., Nielsen, O. A., & Prato, C. G. (2016).
Timetable-based simulation method for choice set generation in large-scale
public transport networks. European Journal of Transport and Infrastructure
Research, 16(3). Rieser-Schüssler, N., Balmer, M., & Axhausen, K. W. (2013). Route choice sets
for very high-resolution data. Transportmetrica A: Transport Science, 9(9),
825-845. Rudloff, C., & Leodolter, M. (2017). Personalization of routing services: User
classification as a method to overcome the cold start problem for personalized
models. Transportation Research Record, 2666(1), 38-46. Schmöcker, J. D., Shimamoto, H., & Kurauchi, F. (2013). Generation and
calibration of transit hyperpaths. Transportation Research Part C: Emerging
Technologies, 36, 406-418. Seaborn, C., Attanucci, J., & Wilson, N. H. (2009). Using smart card fare
payment data to analyze multi-modal public transport journeys in London. Train, K. E. (2009). Discrete choice methods with simulation. Trépanier, M., Tranchant, N., & Chapleau, R. (2007). Individual trip destination
estimation in a transit smart card automated fare collection system. Journal of
Intelligent Transportation Systems, 11(1), 1-14. Van Nes, R., Hoogendoorn-Lanser, S., & Koppelman, F. S. (2008). Using choice
sets for estimation and prediction in route choice. Transportmetrica, 4(2), 83-
96.
Villalobos, G., N., y Guevara, A. (2019). Caracterización del conjunto de
consideración en elección de ruta [Presentación de PowerPoint]. 19° Congreso
de Ingeniería de Transporte, Santiago 2019. Disponible en:
http://cchit.ing.uc.cl/pdf/modelos_eleccion_4.pdf Zhao, J., Rahbee, A., & Wilson, N. H. (2007). Estimating a rail passenger trip
origin‐destination matrix using automatic data collection systems. Computer‐
Aided Civil and Infrastructure Engineering, 22(5), 376-387.