BEIO Volumen 32 - Inicio - seio

96
BEIO Boletín de Estadística e Investigación Operativa Revista Oficial de la Sociedad de Estadística e Investigación Operativa Volumen 32 Número 1 Marzo 2016 ISSN: 2387-1725 M. J. García-Ligero Editorial 1 J. J. Egozcue V. Pawlowsky-Glahn What are compositional data and how should they be analyzed? 5 M. Albareda- Sambola E. Fernández Uncertainty in Discrete Facility Location 30 L. Cerno A Reflection regarding the Official Data Treatment in Applied Statistics 58 C. Cosculluela- Martínez Raquel Ibar-Alonso Effects on Labour of Transportation Infrastructure Investment: Empirical Studies 69 N. Rico J. J. Merelo Á. P. Hinojosa Open Science through Open Source Software, Open Data and Open Access 83

Transcript of BEIO Volumen 32 - Inicio - seio

Page 1: BEIO Volumen 32 - Inicio - seio

BEIO Boletín de Estadística e Investigación Operativa

Revista Oficial de la Sociedad de Estadística e Investigación Operativa

Volumen 32 Número 1

Marzo 2016

ISSN: 2387-1725

M. J. García-Ligero Editorial 1

J. J. Egozcue V. Pawlowsky-Glahn

What are compositional data and how should they be analyzed?

5

M. Albareda-Sambola E. Fernández

Uncertainty in Discrete Facility Location 30

L. Cerno A Reflection regarding the Official Data Treatment in Applied Statistics

58

C. Cosculluela- Martínez Raquel Ibar-Alonso

Effects on Labour of Transportation Infrastructure Investment: Empirical Studies

69

N. Rico J. J. Merelo Á. P. Hinojosa

Open Science through Open Source Software, Open Data and Open Access

83

Page 2: BEIO Volumen 32 - Inicio - seio

BEIO (Boletín de Estadística e Investigación Operativa) es una revista que publica cuatrimestralmente artículos de divulgación científica de Estadística y de Investigación Operativa. Los artículos pretenden abordar tópicos relevantes para una gran mayoría de profesionales de la Estadística y de la Investigación Operativa, primando la intención divulgativa sin olvidar el rigor científico en el tratamiento de la materia en cuestión. Las secciones que incluye la revista son: Estadística, Investigación Operativa, Estadística Oficial, Historia y Enseñanza y Opiniones sobre la Profesión.

BEIO nació en 1985 como Boletín Informativo de la SEIO (Sociedad de Estadística e Investigación Operativa). A lo largo de los años ha experimentado una continua evolución. En 1994, aparece publicado el primer artículo científico y desde entonces el número de artículos científicos publicados ha ido creciendo hasta que en 2008 se segregan del Boletín los contenidos relacionados con la parte informativa y comienza a perfilarse como revista de divulgación de la Estadística y de la Investigación Operativa.

Los artículos publicados en BEIO están indexados en Scopus, MathScinet, Biblioteca Digital Española de Matemáticas, Dialnet (Documat), Current Index to Statistics, The Electronic Library of Mathematics (ELibM), COMPLUDOC y Catálogo Cisne Complutense.

La Revista está disponible online en www.seio.es/BEIO.

Editor

Ana María Aguilera del Pino, Universidad de Granada [email protected]

Editores Asociados

Estadística Mathieu Kessler Universidad Politécnica de Cartagena [email protected]

Investigación Operativa Javier Toledo Melero Universidad Miguel Hernández de Elche [email protected]

Estadística Oficial Pedro Revilla Novella Instituto Nacional de Estadística [email protected]

Historia y Enseñanza Mª Carmen Escribano Ródenas Universidad CEU San Pablo de Madrid [email protected]

Editores Técnicos

María del Carmen Aguilera Morillo, Universidad Carlos III de Madrid [email protected]

María Jesús Gisbert Francés, Universidad Miguel Hernández de Elche

[email protected]

Celeste Pizarro Romero, Universidad Rey Juan Carlos [email protected]

Normas para el envío de artículos

Los artículos se enviarán por correo electrónico al editor asociado correspondiente o al editor de la Revista. Se escribirán en estilo article de Latex. Cada artículo ha de contener el título, el resumen y las palabras clave en inglés sin traducción al castellano. Desde la página web de la revista se pueden descargar las plantillas tanto en español como en inglés, que los autores deben utilizar para la elaboración de sus artículos.

Copyright © 2016 SEIO

Ninguna parte de la revista puede ser reproducida, almacenada ó trasmitida en cualquier forma ó por medios, electrónico, mecánico ó cualquier otro sin el permiso previo de la SEIO. Los artículos publicados representan las opiniones del autor y la revista BEIO no tiene por qué estar necesariamente de acuerdo con las opiniones expresadas en los artículos publicados. El hecho de enviar un artículo para la publicación en BEIO implica la transferencia del copyright de éste a la SEIO. Por tanto, el autor(es) firmará(n) la aceptación de las condiciones del copyright una vez que el artículo sea aceptado para su publicación en la revista.

Edita SEIO Facultad de CC. Matemáticas

Universidad Complutense de Madrid Plaza de Ciencias 3, 28040 Madrid

ISSN: 2387-1725

BEIO Revista Oficial de la Sociedad de Estadística e Investigación

Operativa

Page 3: BEIO Volumen 32 - Inicio - seio

Boletın de Estadıstica e Investigacion OperativaVol. 32, No. 1, Marzo 2016

Indice

Editorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1Marıa Jesus Garcıa-Ligero Ramırez 1

Estadıstica 5

What are compositional data and how should they be analyzed? 5

5Juan Jose Egozcue and Vera Pawlowsky-Glahn 5

Investigacion Operativa 30

Uncertainty in Discrete Facility Location . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

30Marıa Albareda-Sambola and Elena Fernandez 30

Estadıstica Oficial 58

A Reflection regarding the Official Data Treatment in Applied

Statistics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

58Leonel Cerno 58

Historia y Ensenanza 69

Effects on Labour of Transportation Infrastructure Investment:

Empirical Studies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

69Carolina Cosculluela-Martınez and Raquel Ibar-Alonso 69

Opiniones sobre la profesion 83

Open Science through Open Source Software, Open Data and Open

Access . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

83Nuria Rico Castro, Juan Julian Merelo Guervos and Angel Pablo Hinojosa 83

c⃝ 2016 SEIO

Page 4: BEIO Volumen 32 - Inicio - seio

Pagina en blanco

Page 5: BEIO Volumen 32 - Inicio - seio

Boletın de Estadıstica e Investigacion OperativaVol. 32, No. 1, Marzo 2016, pp. 1-4

Editorial

Marıa Jesus Garcıa-Ligero RamırezDepartamento de Estadıstica e Investigacion Operativa

Universidad de Granada! [email protected]

El grupo de trabajo Ensenanza y Aprendizaje de la Estadıstica y la Inves-tigacion Operativa (GENAEIO) fue constituido formalmente como grupo de laSociedad Estadıstica e Investigacion Operativa (SEIO) en marzo de 2007. Sinembargo, el origen del mismo arranca en el XXVIII Congreso Nacional de laSEIO, celebrado en Cadiz en 2004, cuando al finalizar la sesion “Ensenanza de laEstadıstica”, el entonces presidente de la SEIO, Domingo Morales Gonzalez, nospropuso la formacion de un grupo cuyo objetivo fuera la ensenanza y aprendi-zaje de la Estadıstica e Investigacion Operativa. Los asistentes a dicha reunioncoincidıan en que los cambios que se estaban experimentando en la ensenanzauniversitaria por la implantacion del Espacio Europeo de Educacion Superiory por el avance en el uso de las nuevas tecnologıas debıan de disponer de unforo donde debatir sus implicaciones y problematicas en las materias de nuestraarea. Esto nos llevo a comprometernos a comenzar a trabajar en la creacion delmencionado grupo. En esta reunion Ana Marıa Lara Porras del Departamentode Estadıstica e Investigacion Operativa de la Universidad de Granada se ofreciopara llevar a cabo los tramites necesarios para la formacion del grupo en el senode la SEIO.

El objetivo general del grupo es promover la comunicacion y la investigacionen la ensenanza y aprendizaje de la Estadıstica e Investigacion Operativa y masespecıficamente los propositos del grupo son los siguientes:

1. Estudiar los problemas relacionados con la Ensenanza de la Estadıstica yde la Investigacion Operativa.

2. Utilizar las TIC (tecnologıas de la informacion y comunicacion) como he-rramienta docente.

3. Intercambiar experiencias e inquietudes con otros profesionales del area.

4. Crear un foro de discusion para todos los profesores e investigadores rela-cionados con la Educacion en Estadıstica y en Investigacion Operativa.

c⃝ 2016 SEIO

Page 6: BEIO Volumen 32 - Inicio - seio

2 M. J. Garcıa-Ligero

5. Analizar y promover lıneas de investigacion relacionadas con la Ensenanzade la Estadıstica y de la Investigacion Operativa, como:

(a) El aprendizaje, y sus dificultades, de la Estadıstica, la InvestigacionOperativa y la Probabilidad.

(b) Recursos para la ensenanza de la Estadıstica, la Investigacion Opera-tiva y la Probabilidad.

(c) La formacion inicial y permanente del profesorado.

6. Iniciar procesos de colaboracion educativa entre diferentes areas de conoci-miento, titulaciones y niveles de escolaridad, originando innovaciones in-vestigables.

La primera reunion oficial del grupo, constituido como tal, tuvo lugar en elXXX congreso de la SEIO celebrado en Valladolid en 2007 donde, entre otrascuestiones, se eligio como coordinadora a Ana Marıa Lara Porras para dar conti-nuidad a su buen trabajo realizado en la puesta en marcha del grupo. De acuerdocon la normativa de los grupos de la SEIO, su trabajo concluyo en enero de 2013,empezando entonces mi labor de coordinacion hasta enero de 2016 en que meha sustituido Monica Ortega Moreno del Departamento de Metodos Cuantitati-vos para la Economıa y la Empresa, Estadıstica e Investigacion Operativa de laUniversidad de Huelva.

El objetivo general del grupo, intercambio de experiencias e inquietudes entrelos docentes del area, se lleva a cabo principalmente en las sesiones del grupocelebradas en los Congresos de la SEIO. Sin embargo en ellas, la exposicion ydiscusion de los trabajos presentados es breve y general, debido principalmentea la limitacion de tiempo. Por este motivo, en la reunion del grupo celebradaen el XXXI Congreso Nacional de la SEIO celebrado en Murcia, se decidio rea-lizar una nueva actividad del grupo independiente de las reuniones celebradasen los Congresos de la Sociedad. Esta actividad, que se denomino I Jornadasde la Ensenanza y Aprendizaje de la Estadıstica y la Investigacion Operativa,tuvo como objetivo abordar algunos temas de nuestro interes de manera masamplia, donde la limitacion de tiempo no fuera un handicap. Bajo esta premisase propusieron diferentes temas a tratar, referentes a las nuevas tecnologıas ya la ensenanza de la Estadıstica e Investigacion Operativa y nuevos planes deestudios. Se decidio que las jornadas se celebrarıan en Melilla en 2010 y fueranorganizadas por nuestros companeros de la Seccion departamental de Melilladel Departamento de Estadıstica e Investigacion Operativa de la Universidadde Granada. Para llevar a cabo nuestro objetivo, las jornadas se estructuraronen una serie de talleres practicos sobre R-Commander, herramientas para crearmateriales didacticos como eXeLearning y Hot Potatoes y el uso de la platafor-ma Moodle para la docencia, ası como una conferencia-debate donde se abordoel tema “La ensenanza de la Estadıstica en las nuevas titulaciones adaptadas al

Page 7: BEIO Volumen 32 - Inicio - seio

Editorial 3

Espacio Europeo de Educacion Superior”. El exito de estas jornadas nos llevo adecidir realizarlas anualmente y que fueran organizadas, junto con la SEIO, porlas instituciones a las que representan los miembros del grupo.

Debido a lo fructıferas que resultaron las I Jornadas realizadas por el grupoGENAEIO en Melilla, el objetivo de las siguientes ha estado marcado por ellas.Concretamente en estas reuniones, el proposito, como hemos comentado, no esuna exposicion breve y general de los trabajos realizados sino que el objetivo esmas ambicioso ya que, por una parte, se realizan talleres teoricos y practicos y,por otra, los asistentes pueden tambien dar a conocer sus trabajos y debatir eintercambiar experiencias en la ensenanza universitaria de la Estadıstica e Inves-tigacion Operativa. Mediante los talleres practicos se pretende que los asistentesaprendan y manejen nuevas tecnicas (programas, plataformas, etc.) que propor-cionen recursos y materiales con los que abordar nuestra labor docente desdediferentes perspectivas y entornos de trabajo. En este ambito, se han realizadotalleres sobre:

Elaboracion de examenes: Construccion de un banco de ıtems recalculablespara la elaboracion de examenes individualizados tipo test con correccion auto-matica; Elaboracion de un examen de practicas mediante CGI con R; Persona-lizacion de actividades de evaluacion con LaTeX; Creacion de examenes on-linecon LimeSurvey y obtencion de resultados en informes dinamicos pdf (LaTeX +R) con Sweave; Automatizacion de un Proceso de Generacion y Seguimiento deActividades Personalizadas para el Aprendizaje de la Estadıstica en EntornosMasivos.

Recursos didacticos: Diseno de Recursos Didacticos Interactivos para la En-senanza y el Aprendizaje de la Estadıstica utilizando GeoGebra; Calculo de lapotencia y del nivel de significacion empırico en un contraste parametrico conR; Test de permutaciones y test bootstrap con R; Proyecto R-UCA: Pasado,Presente y Futuro. Desarrollo de aplicacione con R y Shiny; Creacion y edicionde vıdeos como recurso didactico; La interaccion entre LaTeX y R: Utilizacion deSweave y Knitr; Secuencias de aprendizaje; Problemas numericos con correccionautomatica: que se puede y que se debe hacer; Shiny: aplicaciones interactivascon R; y Herramientas de diseno de autor de software libre.

En los talleres mas teoricos, aunque tambien han tenido alguna componentepractica, se han tratado temas de actualidad o temas que los miembros del grupohan solicitado como por ejemplo: Introduccion al Analisis de Datos Funcionalescon R, Introduccion a Big data y Big data para estadısticos.

Estas jornadas estan dirigidas, principalmente, a profesores universitarios delarea de Estadıstica e Investigacion Operativa, y en particular a todos aquellosque esten interesados por la Estadıstica e Investigacion Operativa; de hecho enalgunas ocasiones han asistido profesores de Ensenanzas Medias y algun alumnodel Grado en Estadıstica. Ademas me gustarıa destacar la participacion muyactiva desde las primeras jornadas de los miembros de la Secretarıa General

Page 8: BEIO Volumen 32 - Inicio - seio

4 M. J. Garcıa-Ligero

Tecnica (SEGENTE) del Ministerio de Defensa, no solamente por su asistenciasino tambien por la participacion de alguno de sus miembros como ponente dealgunos talleres y finalmente con la organizacion de las V Jornadas de la Ense-nanza y Aprendizaje de la Estadıstica y la Investigacion Operativa celebradas enla Escuela de Guerra del Ejercito en Madrid en junio de 2014. En este punto quie-ro destacar la utilidad de estas jornadas no solo desde el punto de vista cientıficosino tambien del intercambio de problemas asociados a la docencia y, en particu-lar, a la realizacion de practicas externas. Fruto de las conversaciones iniciadasen dichas jornadas con el Secretario General, D. David Javier Santos Fernandez,el pasado 9 de diciembre se firmo un acuerdo de colaboracion entre la SEIO yel Ministerio de Defensa para la realizacion de practicas academicas externas deestudiantes universitarios del area de Estadıstica e Investigacion Operativa enunidades pertenecientes a los Servicios de Estadıstica e Investigacion Operativadel Ministerio de Defensa.

Hasta la actualidad se han celebrado seis Jornadas para la Ensenanza yAprendizaje de la Estadıstica e Investigacion Operativa organizadas por lasUniversidades de Granada (Seccion Departamental de Melilla), Gran Canaria,Publica de Navarra, Cadiz y Huelva, y por la Secretarıa General Tecnica delMinisterio de Defensa. Finalmente, me gustarıa resaltar el esfuerzo realizado pornuestros companeros en la organizacion de las jornadas para que se pudieranllevar a cabo y fueran un exito desde el punto de vista cientıfico.

Page 9: BEIO Volumen 32 - Inicio - seio

Boletın de Estadıstica e Investigacion OperativaVol. 32, No. 1, Marzo 2016, pp. 5-29

Estadıstica

What are compositional data and how should they beanalyzed?

Juan Jose Egozcue

Departamento de Ingenierıa Civil y AmbientalUniversidad Politecnica de Cataluna

! [email protected]

Vera Pawlowsky-Glahn

Departamento de Informatica, Matematica Aplicada y EstadısticaUniversidad de Girona

! [email protected]

Abstract

Compositions describe parts of a whole which carry relative informa-

tion. Compositional data appear in all fields of science and their analysis

requires paying attention to the appropriate sample space. The log-ratio

approach proposes the simplex, endowed with the Aitchison geometry, as

an appropriate sample space. The main characteristics of the Aitchison

geometry are presented, which open the door to compositional statistical

analysis. The main consequence is that compositions can be represented

in Cartesian coordinates by using the so called isometric log-ratio transfor-

mation. Standard statistical techniques can be used on these coordinates.

Employment-unemployment data for the period 2008-2015, distributed by

activity sectors across Comunidades Autonomas in Spain, provides an ex-

ample to demonstrate the exploratory capabilities of three specific tools

of compositional data analysis: the variation matrix, the compositional

biplot, and the dendrogram. An exploratory regression on time is also

presented.

Keywords: Compositional data analysis, Aitchison geometry, simplex,

variation matrix, compositional biplot, balance dendrogram, ilr, clr

AMS Subject classifications: 62-07, 62-02

c⃝ 2016 SEIO

Page 10: BEIO Volumen 32 - Inicio - seio

6 J. J. Egozcue, V. Pawlowsky-Glahn

1. Composiciones

Una composicion describe las partes de un todo en forma cuantitativa. Seconsidera que la informacion composicional que contiene reside en las razonesentre cualesquiera de las partes consideradas (Aitchison, 1986; Pawlowsky-Glahnet al., 2015). Esta sencilla definicion permite ver que el concepto de composicionaparece muy frecuentemente en observaciones de todos los campos de la cienciay la ingenierıa. Algunos ejemplos pueden clarificar el concepto abstracto:

• Composicion quımica. Las concentraciones de algunos elementos quımicosen una muestra (material, disolucion, suspension) se expresan frecuente-mente en partes por millon (ppm). Las partes son cada uno de los elementosobservados. El interes no reside en la masa de la muestra, sino en las pro-porciones en que se presentan los elementos: por ejemplo, la concentracionde sodio es el doble de la del potasio. No interesa la diferencia entre esosdos elementos, por ejemplo 200 ppm, sino su cociente. En ningun momentoel total de masa es relevante, pues no es observable.

• Reparto de un presupuesto en diferentes conceptos. El reparto frecuente-mente se realiza sin conocer el total a repartir. Por tanto las diferenciasentre los valores de las proporciones es irrelevante y el interes puede cen-trarse en las razones entre los conceptos.

• Intencion de voto en una encuesta polıtica. Se trata de proporciones deelectores que eligen una u otra opcion. Si el estudio se realiza por distritos,el numero de respuestas en cada distrito solo refleja el numero de electores(o interrogados) del distrito correspondiente.

• Probabilidades. Las probabilidades de una coleccion exhaustiva de sucesossuman la unidad. Sin embargo, la comparacion entre distintas probabilida-des se realiza por cociente entre ellas (odds). La suma unitaria es irrelevantepuesto que las probabilidades expresadas en tanto por cien (suma 100) danexactamente la misma informacion.

• Paro y empleo por sectores de actividad en comunidades autonomas. Elnumero de parados y empleados por sectores en una comunidad autonomason valores absolutos (numero de personas), pero la informacion de interesradica en las proporciones entre los sectores, pues los valores absolutos soloreflejan el tamano de la comunidad examinada. Este ejemplo se utilizarapara ilustrar algunos detalles del analisis composicional.

La mayor parte de los ejemplos mencionados permiten expresar una composicioncomo un conjunto de numeros positivos que suman una constante (1 para pro-porciones y probabilidades, 100 para porcentajes, 106 para concentraciones en

Page 11: BEIO Volumen 32 - Inicio - seio

What are compositional data and how should they be analyzed? 7

ppm ...). Este hecho motivo que se considerase que una composicion es un con-junto de numeros positivos que suman una constante en todas las observacionesque se realicen (Aitchison, 1986). No obstante, en las concentraciones quımicaspueden utilizarse unidades como miligramos por litro (mg/L); las partes de es-tas composiciones observadas en estas unidades no suman un valor concreto.En cada comunidad, los parados por sectores de actividad suman el numerototal de parados, que no es una constante a traves de las comunidades. Sin em-bargo, las razones entre las partes siguen conteniendo la informacion propia deuna composicion. Desde el punto de vista formal conviene definir una equiva-lencia composicional. Dos vectores de D componentes, x = (x1, x2, . . . , xD) ey = (y1, y2, . . . , yD), con todas sus componentes positivas, se consideran com-posicionalmente equivalentes si sus componentes son proporcionales, es decir, siexiste una constante α > 0 tal que x = αy (Barcelo-Vidal et al., 2001; Martın-Fernandez et al. 2003; Egozcue, 2009; Pawlowsky-Glahn et al., 2015). Se diceque cada clase de equivalencia es una composicion de D partes.

Como en cualquier estudio estadıstico, uno de los objetivos del analisis dedatos composicionales es realizar inferencias sobre poblaciones de las que se ob-servan muestras de caracterısticas composicionales. Por tanto, resulta necesariodeterminar un espacio muestral adecuado para estudiar la informacion de in-teres. Recordemos que es particularmente importante la estructura del espaciomuestral, pues de ella dependen tanto los metodos que puedan aplicarse, comolas conclusiones que puedan extraerse. El κ-sımplex de D-partes, definido como

SD =

(x1, x2, . . . , xD) ∈ RD

∣∣∣∣∣xi > 0, i = 1, 2, . . . , D ,D∑

i=1

xi = κ

,

se ha tomado como espacio muestral para los datos composicionales. La constanteκ es arbitraria, aunque frecuentemente se toma κ = 1 (proporciones) o κ = 100(porcentajes). En efecto, de cualquier clase de equivalencia composicional deD partes puede seleccionarse un elemento en SD sin mas que dividir por lasuma de las componentes y multiplicar por κ. A esta operacion de seleccion delrepresentante de la clase se le suele llamar clausura y se la denota como C, deforma que

Cx =

(κ · x1∑Dj=1 xj

,κ · x2∑Dj=1 xj

, . . . ,κ · xD∑Dj=1 xj

).

Espacio muestral

Una cuestion crucial en el diseno de cualquier espacio muestral es decidircuales son las operaciones y la metrica que reflejan la naturaleza de las observa-ciones a tratar. Esta decision debe atenerse a la interpretabilidad. Sin embargo,el hecho de que SD sea un subconjunto de RD puede tentar al analista a adop-tar la metrica y operaciones (suma y multiplicacion por escalares) de RD para

Page 12: BEIO Volumen 32 - Inicio - seio

8 J. J. Egozcue, V. Pawlowsky-Glahn

empleados y parados solo paradosuAgr uInd uCon uSer uAgr uInd uCon uSer

uAgr 1 -0.01 0.63 0.60 uAgr 1 -0.13 0.01 -0.69uInd -0.01 1 -0.21 -0.49 uInd -0.13 1 -0.12 -0.58uCon 0.63 -0.21 1 0.71 uCon 0.01 -0.12 1 -0.20uSer 0.60 -0.49 0.71 1 uSer -0.69 -0.58 -0.20 1

Tabla 1: Correlaciones (espurias) de las proporciones entre los parados de distin-tos sectores en las CA, tercer trimestre de 2015. Derecha: usando la composicionde empleados y parados (9 partes); Izquierda: usando la subcomposicion de pa-rados asignados a sectores (4 partes).

las composiciones representadas en el sımplex. En esta estrategia se detectaninmediatamente defectos como el hecho de que la suma (resta) de vectores en elsımplex no sea del sımplex; que el elemento neutro (0, 0, . . . , 0) no este en SD yotros detalles matematicos. Los efectos devastadores de esta opcion al intentarhacer estadıstica con datos en el sımplex fueron detectados por K. Pearson ha-ce mas de 100 anos (Pearson, 1897) y que se reflejan en la llamada correlacionespuria. Esta problematica fue recogida particularmente por F. Chayes (1971)quien insistio sobre todo en su importancia para las Ciencias de la Tierra, comodemuestran sus numerosos artıculos y los de sus discıpulos. Para ilustrar este fe-nomeno, se han tomado los datos de la Encuesta de Poblacion Activa (EPA) enEspana en el tercer trimestre de 2015 (INE, 2015). Allı se consignan el numero(en miles) de personas paradas y empleadas en cada uno de los sectores para ca-da comunidad autonoma (CA): agricultura (Agr), industria (Ind), construccion(Con), servicios (Ser) y sin sector asignado (Nos). Los empleados se designan conuna “e” precediendo al sector y los parados (unemployed) precedidos por “u”. Elgrupo Nos solo se define para parados. Las comunidades de Ceuta y Melilla sehan excluido del analisis. Una vez traducidos los miles de personas a proporcio-nes en la CA (operacion de clausura), se obtiene una muestra composicional de9 partes de tamano 17 CA’s. La Tabla 1 en su parte izquierda muestra la matrizde correlaciones que se obtiene para las partes correspondientes a los paradoscon sector asignado (4 partes). Las correlaciones no son altas pero pueden des-tacarse algunos valores mayores que 0.60. A continuacion, se procede a extraerla subcomposicion que corresponde a los parados con sector asignado que solotiene 4 partes y se calculan las proporciones dentro de la subcomposicion. Lacorrelacion entre las proporciones de esa subcomposicion se muestran en la partederecha de la Tabla 1. La comparacion de ambas partes de la Tabla es desas-trosa; por ejemplo, la correlacion entre uAgr y uSer es de 0.60 considerando lacomposicion de 9 partes, mientras que se obtiene −0.69 con la subcomposicionde 4 partes; o tambien, la correlacion entre uCon y uSer es 0.71 y −0.20 en lascorrelaciones con 9 partes y 4 partes respectivamente. Al mismo tiempo otras

Page 13: BEIO Volumen 32 - Inicio - seio

What are compositional data and how should they be analyzed? 9

correlaciones no han cambiado sustancialmente. Es decir, un analista que con-sulta la correlacion de la izquierda concluye que, cuando aumentan los paradosen el sector servicios (uSer), tambien aumentan los parados de la construccion(uCon); pero otro analista que solo trabaja con los parados por sectores conclu-ye que, cuando aumentan los parados en el sector servicios (uSer), disminuyenlos parados de la construccion (uCon), en flagrante contradiccion con el primeranalista. La aparicion de la correlacion espuria senala la eleccion inadecuada dela estructura del sımplex SD heredada de la geometrıa euclıdea de RD.

Para elegir una estructura adecuada en SD es conveniente explicitar lo que seespera de un analisis de datos composicionales. Se han establecido unos princi-pios (Aitchison, 1986; Egozcue, 2009; Pawlowsky-Glahn et al., 2015) que puedenresumirse en los siguientes:

• Invariancia frente a escalado. El analisis no depende de que los datossean multiplicados por una constante positiva. La informacion proporcio-nada debe ser la misma antes y despues del escalado. La informacion delos datos reside en los cocientes entre las partes o componentes.

• Coherencia subcomposicional. Los resultados del analisis de una sub-composicion no pueden ser contradictorios con los obtenidos analizando lacomposicion completa. Esto puede garantizarse con dos condiciones tecni-cas.

– dominancia subcomposicional, las distancias entre subcomposicionesdeben ser menores o iguales que las obtenidas con las respectivascomposiciones completas.

– la invariancia frente al escalado se mantiene en cualquier subcompo-sicion.

De la invariancia frente al escalado se deduce que las funciones de la compo-sicion que se utilicen en el analisis (coordenadas, distancias, productos escalares)deben ser homogeneas de grado cero. Notese que este no es el caso si las compo-siciones se consideran como vectores de RD.

2. Geometrıa de Aitchison en el sımplex

Una de las aportaciones basicas de J. Aitchison (1986) consistio en definiruna operacion entre elementos del sımplex SD, y por tanto entre composiciones,con interpretacion intuitiva en la mayor parte de los escenarios. Si x e y soncomposiciones representadas en SD, la operacion perturbacion entre ellas puededefinirse como

x⊕ y = C(x1y1, x2y2, . . . , xDyD) .

Puede demostrarse que la perturbacion es una operacion de grupo conmutativaen SD (Aitchison et al. 2001; Pawlowsky-Glahn y Egozcue, 2001). Asimismo,

Page 14: BEIO Volumen 32 - Inicio - seio

10 J. J. Egozcue, V. Pawlowsky-Glahn

puede comprobarse que la composicion con todas sus partes iguales, C(1, 1, . . . , 1)es el elemento neutro de la perturbacion y que el elemento opuesto de x es⊖x = C(x−1

1 , x−12 , . . . , x−1

D ). La operacion de potenciacion se define como

α⊙ x = C(xα1 , x

α2 , . . . , x

αD) ,

donde α es una constante real arbitraria y juega el papel de la multiplicacion porconstantes. Con estas dos operaciones, perturbacion y potenciacion, el sımplextiene estructura de espacio vectorial de dimension D− 1 (Billheimer et al. 2001;Pawlowsky-Glahn y Egozcue, 2001).

La interpretacion de la perturbacion depende del contexto en que se utili-cen las composiciones. Por ejemplo, cuando se trata de composiciones quımicas,la perturbacion representa una operacion de filtrado donde las concentracionescambian de forma multiplicativa. Si se trata de una coleccion de activos finan-cieros que aumentan o disminuyen su valor en determinados porcentajes, se estaindicando una perturbacion de la composicion de los valores. Y si se trata convectores de probabilidades, la perturbacion corresponde a la formula de Bayes to-mando x como las probabilidades iniciales (priori), y como la funcion (discreta)de verosimilitud, y el resultado x⊕y como las probabilidades finales (posteriori).

La mencionada estructura de espacio vectorial se completa con una distancia(Aitchison, 1986, Sec. 8.3). Para introducir esta distancia puede utilizarse lallamada transformacion log-cociente centrada (clr) de una composicion

clr(x) =

(log

x1

g(x), log

x2

g(x), . . . log

xD

g(x)

),

donde g(x) denota la media geometrica de las partes de x. Observese que lasuma de las componentes de clr(x) es cero. Las propiedades de clr tienen granimportancia en el analisis composicional. En primer lugar es una aplicacion bi-unıvoca entre SD y el hiperplano de RD cuyas coordenadas suman 0. Por tanto,si v = clr(x) la transformacion inversa es

x = C exp(v) ,

donde exp actua sobre cada una de las componentes de v. Por otra parte, clrreduce las operaciones de SD a la suma y multiplicacion ordinarias en RD, esdecir,

clr(x⊕ y) = clr(x) + clr(y) , clr(α⊙ x) = α · clr(x) .

El producto escalar entre composiciones se define como

⟨x,y⟩a = ⟨clr(x), clr(y)⟩ , (2.1)

donde el segundo producto escalar corresponde al de RD. De acuerdo con ello,

Page 15: BEIO Volumen 32 - Inicio - seio

What are compositional data and how should they be analyzed? 11

la distancia de Aitchison en el sımplex es

da(x,y) = d(clr(x), clr(y)) , (2.2)

donde d es la distancia euclıdea ordinaria en RD. La consecuencia de estas defi-niciones es que SD es un espacio euclıdeo de dimension D−1. A la geometrıa co-rrespondiente se le llama geometrıa de Aitchison del sımplex (Pawlowsky-Glahny Egozcue, 2001).

Dado que el sımplex SD es un espacio euclıdeo con la geometrıa de Aitchi-son, es posible la representacion de composiciones en coordenadas cartesianas,tantas como la dimension del espacio que es D − 1. Las funciones que hacencorresponder a cada composicion representada en SD sus coordenadas se llamantransformaciones log-cociente isometricas (ilr) (Egozcue et al., 2003). El calcu-lo de las coordenadas ilr, y la recuperacion de la composicion a partir de lascoordenadas, se efectua con las operaciones matriciales

z = ilr(x) = V ⊤ logx , x = ilr−1(z) = C exp(V z) , (2.3)

donde la matriz de contraste V es una matriz (D,D − 1) que satisface las con-diciones V ⊤V = ID−1, V V ⊤ = ID − D−11D1⊤

D (Egozcue et al., 2011). Losprocedimientos para construir V se comentaran a lo largo del ejemplo que sedesarrolla en la seccion 4. Las coordenadas ilr reducen las operaciones y metricade la geometrıa de Aitchison a las correspondientes al espacio euclıdeo RD−1. Esdecir,

ilr(x⊕ y) = ilr(x) + ilr(y) , ilr(α⊙ x) = α · ilr(x) ,

⟨x,y⟩a = ⟨ilr(x), ilr(y)⟩ , da(x,y) = d(ilr(x), ilr(y)) .

Notese que ⟨·, ·⟩ y d(·, ·) son el producto escalar y la distancia en RD−1, encontraste con las ecuaciones (2.1-2.2), referentes a la transformacion clr, queoperan en RD.

A pesar de la aparente complicacion de las operaciones y metrica de la geo-metrıa de Aitchison, las transformaciones clr e ilr permiten establecer una reglapractica en el manejo de composiciones: transformar las composiciones a coor-denadas ilr, operar con ellas como en cualquier espacio RD−1 y, si es necesario,anti-transformar los resultados para expresarlos como composiciones. Esta prac-tica se ha llamado Principio de trabajo en coordenadas Mateu-Figueras et al.,2011).

3. Centro y variabilidad de composiciones

La definicion de media y varianza de una variable aleatoria dependen de laestructura del espacio muestral. Cuando se utilizan composiciones aleatorias yse adopta el sımplex con la geometrıa de Aitchison como espacio muestral, hay

Page 16: BEIO Volumen 32 - Inicio - seio

12 J. J. Egozcue, V. Pawlowsky-Glahn

que replantearse el concepto de media y varianza de una composicion. Siguiendoel planteamiento de Frechet (1948), se define variabilidad de una composicionaleatoria X respecto a una composicion de referencia ξ como

Var[X; ξ] = E[d2a(X, ξ)] ,

donde debe observarse el uso de la distancia de Aitchison en lugar de la euclıdeaordinaria. La minimizacion de la variabilidad respecto al punto de referencia ξpermite definir el valor medio de X, llamado centro, como

Cen[X] = argminξ∈SD

Var[X; ξ] = ilr−1(E[ilr(X)]) ,

donde ilr puede cambiarse por clr o incluso por log (Pawlowsky-Glahn et al.,2015, Cap. 6). La variabilidad de la composicion es totVar[X] = Var[X; Cen[X]],que suele llamarse varianza total o varianza metrica (Pawlowsky-Glahn y Egoz-cue, 2001).

Muchos analisis estadısticos de composiciones aleatorias se basan en la des-composicion de la varianza total expresadas en funcion de las coordenadas ilr yclr e incluso en funcion de log-cocientes simples. Estas descomposiciones (Egoz-cue y Pawlowsky-Glahn, 2011) pueden resumirse en

totVar[X] =D−1∑

i=1

Var[ilri(X)] =D∑

j=1

Var[clrj(X)] =1

2D

D∑

i=1

D∑

j=1

Var

[ln

Xi

Xj

].

(3.1)Estas expresiones sugieren que los estimadores de la varianza total y sus des-composiciones se obtienen sustituyendo las varianzas por sus valores muestrales.

4. Analisis exploratorio de datos de paro y empleo enEspana

Para explicar las principales caracterısticas de los procedimientos explorato-rios composicionales se han elegido datos procedentes de la Encuesta de Pobla-cion Activa (INE, 2015). Se han extraıdo los datos de paro y empleo por sectoresde actividad de las comunidades autonomas desde el primer trimestre de 2008hasta el tercer trimestre de 2015 (31 trimestres). Por simplicidad se han seleccio-nado dos comunidades autonomas (Andalucıa y Cataluna) para los ejemplos quesiguen, aunque todas las CAs han sido ya utilizadas en el ejemplo de la seccion1. Los sectores de actividad, ya explicados en la seccion 1, son para parados yempleados en agricultura (uA, eA), industria (uI, eI), construccion (uC, eC),servicios (uS, eS) y sin sector asignado (uN). Los empleados se designan con una“e” y los parados (unemployed) con “u”. El grupo uN solo se define para parados.

Todo analisis estadıstico comienza describiendo que cuestiones se van a plan-

Page 17: BEIO Volumen 32 - Inicio - seio

What are compositional data and how should they be analyzed? 13

tear e intentar resolver a partir de los datos. En nuestro caso el interes se centraen las proporciones de empleados y parados de los diferentes sectores a lo largode los trimestres con datos disponibles y en diversas CAs. Es decir, las cifras ab-solutas de los diversos sectores no interesan directamente, porque esencialmentereflejan el tamano de poblacion activa de cada CA en cada momento. Interesa verque tipo de diferencias hay entre CAs; si la evolucion temporal puede describirsede forma simple; y tambien si existen relaciones entre los diferentes sectores deparados y empleados. Obviamente estas cuestiones pueden detallarse con masprecision despues del analisis exploratorio que nos proponemos. Pero la cuestionmas importante es decidir cual es el espacio muestral de los datos con los quevamos a tratar. Por ejemplo, la poblacion activa de una CA, en un determinadotrimestre, puede considerarse que es la suma de empleados y parados. Se trata deuna variable estrictamente positiva, cuyos incrementos se expresan normalmentemediante porcentajes de crecimiento/decrecimiento. Es decir, los incrementos seconsideran multiplicativos: un incremento de 3% significa multiplicar por 1.03;una disminucion del 3% consiste en multiplicar por 0.97. Por tanto no se tratade una variable real sino positiva con escala relativa. Es habitual transformar lavariable en real (con la suma y multiplicacion ordinarias) tomando logaritmos(Pawlowsky-Glahn y Egozcue, 2001; Tarantola, 2006). Las proporciones de em-pleados y parados por sector de actividad pueden considerarse composicionales:interesan los cocientes entre ellas y no sus valores absolutos; pueden expresarseen proporcion o en tanto por ciento (invariancia frente al escalado); el nume-ro de sectores analizados puede cambiar sin menoscabo del interes de los datosy esperando llegar a conclusiones coherentes con otros analisis con mas secto-res; imaginemos, por ejemplo, que solo estamos interesados en la poblacion deparados... (coherencia subcomposicional). Debe notarse que los datos originalesestan dados en miles de personas con un decimal y que en ningun caso la sumade las variables, la poblacion activa, es una constante a lo largo de las CAs o deltiempo.

4.1. Ceros y datos perdidos

Como en todo problema estadıstico una de las primeras operaciones consisteen detectar posibles anomalıas en los datos, valores imposibles, erroneos, censu-rados o faltantes. En el caso composicional, los ceros son datos anomalos y debedecidirse cuales son las razones por la que aparecen en la muestra. Ciertamenteuna parte de una composicion no puede ser cero porque el cero, respecto a cual-quier otra variable, no contiene informacion relativa. Pero conviene distinguirentre diversos tipos de ceros que pueden presentarse. Los mas frecuentes sonaquellos que podemos llamar “por debajo del lımite de deteccion”. No es que laproporcion consignada en la tabla de datos sea cero, sino que su valor esta pordebajo del que puede detectarse en el procedimiento de muestreo. Se trata deun caso especial de dato censurado. En los datos de la EPA aparecen algunos

Page 18: BEIO Volumen 32 - Inicio - seio

14 J. J. Egozcue, V. Pawlowsky-Glahn

sectores (especialmente en parados de la agricultura) que contienen un signo deno disponible, pero que, por el patron de aparicion, podrıan ser ceros por debajodel lımite de deteccion, el cual puede a su vez situarse en 0.05 miles de personas.En el ejemplo de de la seccion 1, se han sustituido dos de estos ceros por 0.02miles de personas. Existen diversos metodos de imputacion de ceros en el contex-to composicional (Martın-Fernandez et al.,2011; Martın-Fernandez et al. 2003).En ocasiones los ceros son estructurales, es decir, la proporcion de un sector esestrictamente nula. Aunque no es el caso en la EPA, es imaginable una CA enla que un sector de actividad es inexistente; los ceros en empleados y paradosde ese sector constituirıan ceros estructurales. Este tipo de ceros suele tratarsecomo un factor o indicador de poblaciones diferenciadas.

4.2. La matriz de variacion

En estadıstica multivariante de variables reales, con soporte el espacio realdotado de la geometrıa euclıdea habitual, la matriz de correlacion entre variableses un primer indicador de las relaciones entre las variables. Sin embargo, en elcaso composicional la correlacion entre proporciones es espuria (ver seccion 1)y no debe emplearse so pena de cometer errores de bulto. Como alternativa seusa el concepto de proporcionalidad. Se dice que dos partes de una composicionestan (estrictamente) asociadas si sus valores son proporcionales a lo largo deuna muestra. Una medida de asociacion composicional entre las partes xi y xj

consiste en estimar tij = Var[log(xi/xj)]. Si esta varianza es pequena sugiereuna fuerte asociacion entre ambas partes. Los valores de estas varianzas organi-zadas en matriz se llama matriz de variacion (Aitchison, 1986) y en cierto modosustituye a la tradicional matriz de correlaciones. Debe notarse la conexion en-tre la matriz de variaciones y la descomposicion de la varianza total (terceradescomposicion en la Ec. 3.1) que, de hecho, fue la inicialmente introducida porAitchison (1986).

La Tabla 2 muestra la matriz de variacion (triangulo superior) para Andalucıaa lo largo de los trimestres considerados. El triangulo inferior es la misma tablanormalizada segun τij = (D − 1)tij/totvar, de forma que si τij = 1 las dospartes tienen el grado de asociacion que corresponde a que todas las partesesten con disociacion maxima; los valores τij > 1 indican clara disociacion ylos valores τij < 1 sugieren algun grado de asociacion, especialmente cuandolos valores estan por debajo de 0.1. No obstante, para confirmar la asociaciones necesario realizar algun test de significacion (Lovell et al., 2015). En generalpuede afirmarse que, para Andalucıa, no hay asociaciones muy fuertes entre losdistintos sectores, salvo acaso entre eI y eS. Ni siquiera esta asociacion puedeconsiderarse muy fuerte como muestra la Figura 1, donde se han representadolos valores de los coeficientes clr de eI y de eS. Si la asociacion fuera estrictalos puntos debieran seguir una lınea de pendiente 1 (lınea representada). En laTabla 2 (triangulo inferior), los valores superiores a 1 corresponden a sectores de

Page 19: BEIO Volumen 32 - Inicio - seio

What are compositional data and how should they be analyzed? 15

uA uI uC uS uN eA eI eC eSuA 0 0.11 0.26 0.02 0.06 0.14 0.14 0.40 0.08uI 0.72 0 0.06 0.07 0.24 0.07 0.05 0.18 0.04uC 1.73 0.37 0 0.19 0.47 0.12 0.08 0.10 0.11uS 0.15 0.44 1.27 0 0.07 0.07 0.09 0.32 0.04uN 0.38 1.60 3.08 0.47 0 0.24 0.31 0.68 0.21eA 0.95 0.48 0.79 0.45 1.60 0 0.03 0.16 0.03eI 0.92 0.32 0.52 0.60 2.01 0.23 0 0.08 0.01eC 2.64 1.16 0.67 2.14 4.46 1.04 0.50 0 0.14eS 0.52 0.28 0.70 0.29 1.38 0.19 0.06 0.90 0

Tabla 2: Matriz de variacion (triangulo superior) y su normalizacion (trianguloinferior) para los datos de Andalucıa. Se han destacado en negrita las asociacionesmaxima y mınima en ambos triangulos.

−0.2 0.0 0.2 0.4 0.6

2.0

2.2

2.4

2.6

clr−eI

clr−eS

Figura 1: Coeficientes clr correspondientes a los empleados en los sectores indus-trial (eI) y servicios (eS) en Andalucıa. La lınea representa la asociacion estricta.Los puntos corresponden a todos los trimestres considerados.

Page 20: BEIO Volumen 32 - Inicio - seio

16 J. J. Egozcue, V. Pawlowsky-Glahn

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

−1.0

−0.5

0.0

0.5

1.0

w covariance biplot

first axis, var% 82.0

seco

nd a

xis,

var%

13.

0

uA uI

uC

uS

uN

eAeI

eC

eS

−0.5 0.0 0.5

−0.5

0.0

0.5

w form biplot

first axis, var% 82.0se

cond

axi

s, va

r% 1

3.0

uAuI

uC

uS

uN

eA

eI

eC

eS

Figura 2: Biplots de las composiciones de paro y empleo en Andalucıa () yCataluna ("). Izquierda: biplot de covarianza. Derecha: biplot de forma. Lavarianza total es 3.09 , de la que la proyeccion representa el 95%.

actividad claramente disociados.

4.3. El biplot composicional

Una herramienta muy util en el analisis exploratorio de datos composiciona-les es el biplot composicional (Aitchison y Greenacre, 2002). Esta basado en ladescomposicion en valores singulares de la matriz de las transformaciones clr delos datos (previamente centrada por columnas), lo que corresponde a un analisisde componentes principales (Aitchison, 1983). El “biplot” representa simultanea-mente las variables clr, frecuentemente representadas como rayos desde el origen,y los datos (composiciones). Todo ello proyectado en el plano de maxima varia-bilidad composicional. Aunque las tecnicas asociadas al analisis de componentesprincipales son estandar, cuando se aplican a datos composicionales adquierenalgunas peculiaridades que conviene tener en cuenta para la interpretacion y quese comentan a continuacion.

La Figura 2 presenta el biplot del los datos de los sectores de actividad paraAndalucıa y Cataluna a lo largo de los trimestres disponibles en la base dedatos. A la izquierda se presenta el biplot de covarianza donde los rayos estannormalizados para que su longitud sea proporcional a la desviacion tıpica dela correspondiente variable clr en la proyeccion plana adoptada. A la derecha elbiplot de forma, normalizado para que los rayos de las variables clr sean unitariosantes de la proyeccion y que las distancias en el grafico entre puntos correspondana las distancias de Aitchison entre los datos antes de la proyeccion. En el biplotde covarianza el principal elemento de interpretacion son las uniones entre losextremos de los rayos. Si, como en el caso presente, gran parte de la varianzatotal queda representada en el plano de proyeccion (95%), la longitud de las

Page 21: BEIO Volumen 32 - Inicio - seio

What are compositional data and how should they be analyzed? 17

uniones es aproximadamente proporcional a la desviacion tıpica del log-cocientede las variables en los extremos; tambien la ortogonalidad entre uniones sugierela incorrelacion de los log-cocientes correspondientes; o uniones paralelas suponeuna alta correlacion entre los log-cocientes. Por ejemplo, la union entre uA y eI,casi paralela a la primera componente principal, nos dice que la contribucion ala varianza total del log cociente de uA con eI domina la primera componenteprincipal. Por la distribucion de los datos puede apreciarse que esa variabilidad esprincipalmente debida a las diferencias estructurales entre ambas comunidades.Asimismo se aprecia que el log-cociente uA, eI tiene muy probablemente uncomportamiento aproximadamente incorrelacionado con el log-cociente uC, uN.Globalmente, puede decirse que el contraste entre agricultura (uA, eA) contra elsector industrial (uI, eI) marca la diferencia entre Andalucıa y Cataluna, y queesa diferencia se mantiene mas o menos constante a lo largo de los anos de crisisanalizados. Los cambios a lo largo del tiempo parecen seguir un recorrido enla direccion de la segunda componente principal, dominada por el log-cocienteuN, uC, o algo desviada hacia el log-cociente uN, eC. Es decir, la evoluciondesde 2008 hasta 2015 del mercado laboral consiste en que el cociente entreparados sin sector asignado (jovenes, parados de larga duracion ...) y empleadosy desempleados en el sector de la construccion disminuye en ambas comunidades.Esto puede deberse a una disminucion del numero de parados sin sector asignado,a un aumento de los empleados y desempleados en el sector de la construccion,o a una combinacion de ambos.

El biplot de forma (Fig. 2, derecha), es adecuado para valorar aproximada-mente las distancias de Aitchison entre los puntos (trimestres). Se aprecia queen el periodo 2008-2015 la distancia entre Andalucıa y Cataluna apenas ha cam-biado y su evolucion es notablemente paralela. Por otra parte, en el biplot deforma la longitud de los rayos serıa identica si la proyeccion fuera perfecta: unrayo corto indica una mala representacion de la correspondiente variable clr enel plano de las dos primeras componentes principales. Las variables clr mejorrepresentadas son uA y uN, y las peor representadas son uS, eS, eI.

A pesar del comentario sobre la evolucion paralela a lo largo de 2008-2015de Andalucıa y Cataluna, en la Figura 2 (derecha) se aprecia que el paralelismose acentua en los ultimos anos 2011-2015 (por debajo del primer eje). Cabepreguntarse cual es el mecanismo que provoca este sutil cambio de tendenciatemporal en Cataluna. La evolucion de la poblacion activa (empleados y parados)da alguna clave. La Figura 3 presenta la evolucion de la poblacion activa enambas comunidades. Estas observaciones hechas sobre los biplots de la Figura 2pueden estudiarse con mas detalle, por ejemplo mediante modelos de regresion.Si se estima un modelo de regresion tomando como variable respuesta el log-cociente log eA/eI, y como variable explicativa el total de poblacion activa juntocon la comunidad como factor y sus interacciones se obtiene R2 = 0.985. El totalde poblacion activa tiene participacion significativa, pero el factor de comunidad

Page 22: BEIO Volumen 32 - Inicio - seio

18 J. J. Egozcue, V. Pawlowsky-Glahn

2008 2010 2012 2014

3700

3800

3900

4000

4100

tiempo

tota

les p

obla

ción

Figura 3: Evolucion en el tiempo de la poblacion activa en Andalucıa (lınea atrazos) y Cataluna (lınea continua).

y su interaccion con la poblacion activa no son significativos. Otros modelos deregresion pueden ser utiles para explicar lo que se observa en los biplots. Perodebemos ser conscientes de que aquı se esta estudiando el comportamiento de lacomposicion por sectores de la poblacion activa respecto a variables externas ala composicion, como pueden ser el total de poblacion activa, su logaritmo o eltiempo.

4.4. El dendrograma composicional

Otra forma de explorar la muestra composicional consiste en expresarla encoordenadas ilr y proceder a un analisis (estandar) de estas. La eleccion desistema de coordenadas permite adaptarlas a las necesidades e intuiciones delanalista, de forma que las coordenadas sean interpretables en el contexto delos datos. Una posible eleccion del sistema coordenado consiste en definir unaparticion secuencial binaria (SBP) de la composicion (Egozcue y Pawlowsky-Glahn, 2005; Egozcue y Pawlowsky-Glahn, 2006). En un primer paso, se separanlas partes de la composicion en dos grupos, que se indican con +1 y −1 (Tabla3). En los siguientes pasos cada grupo de partes con igual indicador se vuelve aseparar en dos grupos indicados a su vez con +1 y −1 mientras que las partesque no participan en esta separacion se indican con 0. El procedimiento acabacuando todos los grupos contienen una sola parte. Si la composicion tenıa Dpartes, el numero de particiones necesarias es D − 1, que es la dimension delsımplex de D partes.

A cada una de las particiones le corresponde un elemento de la base ortonor-

Page 23: BEIO Volumen 32 - Inicio - seio

What are compositional data and how should they be analyzed? 19

coord. uA uI uC uS uN eA eI eC eSz1 1 1 1 1 1 −1 −1 −1 −1z2 1 1 1 1 −1 0 0 0 0z3 1 −1 −1 −1 0 0 0 0 0z4 0 1 1 −1 0 0 0 0 0z5 0 1 −1 0 0 0 0 0 0z6 0 0 0 0 0 1 −1 −1 −1z7 0 0 0 0 0 0 1 1 −1z8 0 0 0 0 0 0 1 −1 0

Tabla 3: Codigo de signos de la SBP elegida. Las coordenadas ilr (balances) co-rrespondientes se han denotado zi. La primera coordenada representa el balanceentre parados (u) y empleados (e) de los diferentes sectores.

mal y la correspondiente coordenada cuya expresion es

zi =

√n+n−

n+ + n−log

(∏+(xk)

)1/n+

(∏−(xk)

)1/n−,

donde n+, n− son, respectivamente, el numero de +1 y −1 en el paso i-esimode la SBP; y en el numerador y denominador de la fraccion aparecen las mediasgeometricas de las partes en los grupos indicados con +1 y −1. Esta expresionno es mas que un caso particular de la ecuacion (2.3) en donde la matriz decontraste V se construye con las transformaciones clr de las composiciones dela base ortonormal. Por la forma de las coordenadas, que son log-cocientes demedias geometricas, se denominan balances.

Una forma de visualizar las caracterısticas de una muestra composicional esel dendrograma composicional (Thio-Henestrosa et al. 2008; Pawlowsky-Glahny Egozcue 2011). La estructura de arbol describe la SBP utilizada agrupandolos sucesivos grupos de partes. La longitud de las lıneas verticales expresa ladescomposicion de la varianza total (3.1) segun las coordenadas ilr. Los puntos deanclaje de estas lıneas verticales indican la media de la coordenada en una escalaidentica para todas las lıneas horizontales. En las mismas lıneas horizontalespueden representarse diagramas de caja de la muestra mostrando la mediana ylos cuartiles de la muestra de los diferentes balances. Si se distinguen dos o maspoblaciones, en nuestro caso Andalucıa y Cataluna, al dendrograma de toda lamuestra (lıneas de varianza mayores) se le superponen los dendrogramas de cadauna de las poblaciones con la correspondiente descomposicion de la varianza ydiagramas de caja. En la Figura 4 los diagramas de caja en posicion superiorcorreponden a Andalucıa y los inferiores a Cataluna. Puede observarse que lasmedias de los balances difieren sustancialmente entre las dos comunidades encasi todos los casos (caja central del diagrama de caja disjunta). Las unicasexcepciones son los balances uN respecto todos los demas sectores de parados

Page 24: BEIO Volumen 32 - Inicio - seio

20 J. J. Egozcue, V. Pawlowsky-Glahn

Figura 4: Dendrograma composicional de la composicion por sectores de activi-dad para Andalucıa y Cataluna. El arbol corresponde a la SBP utilizada. Todaslas lıneas horizontales estan escaladas de -4 a 4. Los diagramas de caja superiorescorresponden a Andalucıa, los inferiores a Cataluna. Las barras verticales corres-ponden a la descomposicion de la varianza por balances; las barras verticales maslargas corresponden a la muestra conjunta de las dos comunidades.

Page 25: BEIO Volumen 32 - Inicio - seio

What are compositional data and how should they be analyzed? 21

(u) y el balance uC, uI contra uS. Aun en estos casos un test rechazarıa laigualdad de medias de los balances. Es decir, el dendrograma de la Figura 4rechaza visualmente la igualdad de los centros de las dos comunidades. Por otraparte las lıneas de varianza de las poblaciones son sensiblemente menores porcomunidades que cuando se toma toda la poblacion, indicando ası que buenaparte de la varianza total es debida a las diferencias entre comunidades, muchomas que intra comunidades. Los balances citados con la diferencia de mediasson excepciones. En cualquier caso puede destacarse la escasa variabilidad de losbalances involucrando eI, eC, eS y tambien uI, uC, uS lo que indica una ciertaestabilidad entre estos sectores a lo largo del periodo 2008-2015. Las grandesvariaciones se producen por las comparaciones con empleados y parados delsector agrıcola (eA, uA) y, muy especialmente, con los parados no asignados(uN) que incluyen jovenes antes de su primer trabajo y parados de larga duracion.Finalmente el balance entre empleados y parados resulta tener una variabilidadconsiderable tanto entre comunidades como intra comunidades.

4.5. Regresion lineal

Es posible estimar modelos de regresion donde la composicion completa setoma como variable respuesta a variables explicativas reales externas a la compo-sicion (Aitchison y Shen, 1980; Aitcison, 1986). Despues de tomar coordenadasilr en la composicion y tomar estas coordenadas como variables explicativas elproblema se reduce a un modelo lineal estandar de regresion multivariante (Egoz-cue et al., 2012; Pawlowsky-Glahn et al., 2015). Para mostrar las posibilidades delas tecnicas de regresion con variables respuesta composicionales, se ha ajustadoun modelo en que el tiempo aparece como unica variable externa

xi = β0⊕ (ti⊙β1)⊕ (Cat⊙δ0)⊕ ((ti ·Cat)⊙δ1)⊕ϵi , i = 1, 2, . . . , n , (4.1)

donde xi es la composicion de parados-empleados en el trimestre i-esimo; Catrepresenta el indicador de Cataluna frente a Andalucıa; los coeficientes de laregresion son β0,β1, ordenada en origen y pendiente composicionales para An-dalucıa; δ0, δ1 son los incrementos de la ordenada en origen y pendiente com-posicionales sobre los parametros de Andalucıa debidos al cambio a Cataluna;Cat es el indicador de Cataluna; ϵi es el residuo composicional en el trimestre i-esimo. Tomando ilr en ambos miembros del modelo (4.1), se obtiene un conjuntode D− 1 = 8 modelos de regresion simple, uno para cada coordenada ilr, que sepueden ajustar por mınimos cuadrados de forma estandar. Este modelo, por susimplicidad (lineal en el tiempo, sin estacionalidad), parece condenado al fracasoe indicarıa un proceso sin interacciones entre los distintos sectores de actividad,salvando las diferencias estructurales entre las dos comunidades. Sin embargo,algunos de los balances sı tienen un comportamiento lineal en el tiempo que ade-mas es parecido en su pendiente en las dos comunidades. La Figura 5 muestra

Page 26: BEIO Volumen 32 - Inicio - seio

22 J. J. Egozcue, V. Pawlowsky-Glahn

2008 2010 2012 2014

3.5

3.0

2.5

2.0

1.5

1.0

0.5

tiempo

bala

nce

u|e

2008 2010 2012 2014

3.0

2.5

2.0

1.5

1.0

0.5

0.0

tiempo

bala

nce

usec

|uN

2008 2010 2012 2014

2.0

1.5

1.0

0.5

0.0

0.5

1.0

tiempo

bala

nce

uI|u

C

2008 2010 2012 2014

32

10

1

tiempo

bala

nce

eA|eI

CS

Figura 5: Balances ajustados linealmente en el tiempo con factor comunidad: Andalucıa; " Cataluna. Superior-izquierda z1 (u|e) parados contra empleados;superior-derecha z2 (uAICS|nN) parados con sector asignado contra parados sinsector asignado; inferior-izquierda z5 (uI|uC) parados de industria contra paradosde la construccion; inferior-derecha z6 (eA|eICS) empleados de agricultura contraempleados de industria, construccion y servicios.

los ajustes del modelo a los valores de los balances observados. En la Figura 5superior izquierda se muestra la evolucion temporal del balance entre paradosy empleados z1. Aunque el ajuste puede considerarse aceptable, la autocorrela-cion de los residuos no puede ignorarse. Parece reclamar la utilizacion de otrasvariables externas polıticas o economicas, mas alla del total de poblacion activa(que no resulta significativa). Destaca el casi paralelismo de las rectas ajustadasy de los propios datos (coeficiente de interaccion con el tiempo no significativo).El ajuste aquı presentado es el peor de las 8 regresiones realizadas. En la partesuperior-derecha se presenta el balance z2 que compara los parados con sectorasignado contra los parados sin sector asignado. El ajuste es mejor que en elcaso de z1 pero aun se aprecia autocorrelacion de los residuos: nuevamente laconstante de la regresion es diferente para las dos comunidades pero la pendienteno tiene diferencias significativas. En la parte inferior izquierda de la Figura 5

Page 27: BEIO Volumen 32 - Inicio - seio

What are compositional data and how should they be analyzed? 23

2008 2010 2012 2014 2016

0.00

0.05

0.10

0.15

0.20

0.25

tiempo

proporción

uA

uIuC

uS

uN

uAuIuC

uS

uN

Figura 6: Observaciones de las proporciones de parados para Andalucıa () yCataluna ("). Modelo ajustado para Andalucıa: lıneas continuas, para Cataluna:lıneas discontinuas. Los sectores a que corresponde cada lınea estan indicados alfinal de cada lınea.

se ha representado el balance z5 que compara los parados de industria con losde la construccion. Los ajustes son bastante buenos, la autocorrelacion de losresiduos es menos apreciable y se repite la escasa significacion de la diferenciaentre las pendientes. En la parte inferior izquierda se presenta el balance de losempleados en el sector agrıcola contra los empleados en los otros sectores z6(eA|eICS). El ajuste es bastante bueno y en esta ocasion la diferencia de pen-diente entre Andalucıa y Cataluna es moderadamente significativa. Es notorioque la autocorrelacion de los residuos en Andalucıa ajusta la estacionalidad delempleo en agricultura. En Cataluna la ligera autocorrelacion no responde a laestacionalidad. Todos esos ajustes tienen coeficientes de correlacion multiple su-periores a 0.90, salvo el de z1 que es 0.78. Puede concluirse que, a pesar de quela varianza total explicada por este modelo global es alta, mayor que 90%, tienepoco valor predictivo debido a las autocorrelaciones de los residuos. Estas defi-ciencias del modelo pueden verse en la Figura 6, donde se han representado lasproporciones de parados por sectores, observadas y predichas. Aunque la Figuraresulta algo confusa, puede observarse como para uN (ambas comunidades) yuS (especialmente Cataluna), el modelo sobrevalora la proporcion observada enlos primeros y ultimos anos, mientras que la infravalora en el centro del perio-do. Para establecer modelos estadısticos de esta serie de paro-empleo es preciso

Page 28: BEIO Volumen 32 - Inicio - seio

24 J. J. Egozcue, V. Pawlowsky-Glahn

establecer mas claramente los objetivos del analisis y hacer hipotesis acerca delas covariables (cuantitativas, factores, autorregresivas) que deberıan participaren el modelo. Pero esto escapa a un planteamiento puramente exploratorio de laserie.

4.6. Comentarios finales

Muchos de los metodos estadısticos convencionales estan disenados para tra-tar con datos reales, es decir, con soporte el espacio real con la geometrıa euclıdeausual. Las composiciones, bajo los principios formulados en la Seccion 1, tienenun espacio muestral diferente, el sımplex, con operaciones que no son la suma,multiplicacion y distancia ordinarias, por lo que los metodos convencionales nodebieran ser utilizados sobre composiciones o datos de los que se quiere tratarinformacion composicional. La eleccion de espacio muestral y de su estructuraes una decision del analista, pero este debe ser consciente de las consecuenciasde esta eleccion. Aquı se propone el sımplex como espacio muestral de datoscomposicionales con la geometrıa de Aitchison. Esta se adapta a la mayor partede las situaciones en que los datos satisfacen invariancia por cambio de escala yson susceptibles de analisis en subcomposiciones.

Las dificultades de calculo con las operaciones y distancia del sımplex seresuelven mediante transformaciones log-cociente. En particular, la transforma-cion log-cociente isometrica (ilr) permite representar las composiciones mediantecoordenadas cartesianas. Estas coordenadas pueden tratarse con metodos mul-tivariantes habituales sin apenas restricciones. A este tipo de practica se le hallamado Principio de trabajar en coordenadas (Mateu-Figueras et al., 2011). Lamayorıa de los modelos lineales son utilizables. Aquı hemos aplicado una re-gresion lineal a las coordenadas y la unica covariable (no composicional) erael tiempo. Cabe utilizar otra composicion como covariable, basta reducirla acoordenadas. El hecho de que los modelos formulados en coordenadas puedanexpresarse con las operaciones del sımplex garantiza que los resultados obteni-dos sean independientes de la representacion en coordenadas elegida. El ejemplode paro-empleo por sectores de actividad, debidamente transformado a coorde-nadas, puede tratarse como una serie temporal. La descomposicion en valoressingulares utilizada para obtener el biplot es en realidad una transformacion ilry es, por tanto, un ejemplo de trabajar en coordenadas.

Suele producir confusion el hecho de que existan diversas transformacioneslog-cociente y que cada una de ellas permita estimar matrices de covarianzasdiferentes. Por ejemplo, la matriz de covarianzas de las componentes clr, la matrizde variacion, o la matriz de covarianza de coordenadas ilr, siendo diferentes,contienen toda la informacion de segundo orden y, en efecto, pueden deducirseunas de otras. La confusion procede de que la transformacion clr y el sistemade log-cocientes simples son coeficientes respecto a un sistema generador y norespecto a un sistema de coordenadas en la dimension del sımplex. Por tanto no

Page 29: BEIO Volumen 32 - Inicio - seio

What are compositional data and how should they be analyzed? 25

corresponden a coordenadas ortonormales.

Conviene definir las distribuciones de probabilidad para composiciones sobrelas coordenadas ilr para composiciones aleatorias. Por ejemplo, la distribucionnormal multivariante para coordenadas ilr puede trasladarse al sımplex, dondeadquiere el nombre de normal en el sımplex o logıstico normal (Aitchison, 1982;Mateu-Figueras et al. 2013), y su densidad se define con respecto a la medida deAitchison. Esta distribucion goza de las propiedades de la distribucion normalmultivariante, incluido el teorema del lımite central (Pawlowsky-Glahn et al.,2015, Cap. 6) respecto a la operacion perturbacion en el sımplex, en lugar dela suma ordinaria. Tradicionalmente, las composiciones se representaban en elsımplex y las distribuciones disponibles se reducıan a la distribucion de Dirichlety algunas modificaciones de esta (Aitchison, 1986).

Se han dado ejemplos de utilizacion de las herramientas exploratorias masespecıficas para datos composicionales (matriz de variaciones, biplot y dendro-grama composicionales, regresion sobre variables externas a la composicion). Enmuchas ocasiones estos procedimientos proporcionan la deteccion de caracterıs-ticas de los datos que no son accesibles con los metodos disenados para variablesreales. Mas alla de estas herramientas, se han desarrollado metodos mas avan-zados. Cabe destacar los metodos estadısticos robustos (por ejemplo, Filzmosery Hron, 2008, 2009, 2011). Tambien se han desarrollado metodos geoestadısti-cos (Pawlowsky, 1986; Pawlowsky-Glahn y Olea, 2004; Tolosana-Delgado, 2006;Tolosana-Delgado et al. 2008; Tolosana-Delgado et al. 2011). La generalizaciondel analisis de datos composicionales, con un numero finitos de categorıas, adensidades de medidas (incluyendo las de probabilidad) (Egozcue et al. 2006,Boogaart et al., 2010; Egozcue et al. 2013; Boogaart et al., 2014) parecen ser unmarco adecuado para tratar problemas de datos funcionales (Menafoglio et al.,2014).

Existe software especıfico para tratar datos composicionales. En R (R Co-re Team, 2013) existen varios paquetes dirigidos al analisis composicional co-mo “compositions”, “robCompositions” y “zcompositions” (Boogaart et al. 2013,Templ et al. 2011, Palarea-Albaladejo et al., 2014); la mayor parte de los calculosrealizados para este artıculo han sido realizados con ellos. Para una primera apro-ximacion, tambien puede ser util y de manejo sencillo CoDaPack (Comas-Cufıy Thio-Henestrosa, 2011).

Agradecimientos

Este artıculo ha sido financiado por Ministerio de Economıa y Competivi-dad bajo el proyecto “METRICS” (Ref. MTM2012-33236); y por AGAUR de laGeneralitat de Catalunya bajo el proyecto “COSDA” (Ref: 2014SGR551).

Page 30: BEIO Volumen 32 - Inicio - seio

26 J. J. Egozcue, V. Pawlowsky-Glahn

Referencias

[1] Aitchison, J. (1982). The statistical analysis of compositional data (withdiscussion). J Roy Stat Soc B 44, 139–177.

[2] Aitchison, J. (1983). Principal component analysis of compositional data.Biometrika 70, 57–65.

[3] Aitchison, J. (1986). The Statistical Analysis of Compositional Data. Chap-man & Hall, London (UK). (Reprinted in 2003 with additional material byThe Blackburn Press).

[4] Aitchison, J., Barcelo-Vidal, C., Martın-Fernandez, J. A. and Pawlowsky-Glahn, V. (2001). Reply to Letter to the Editor by S. Rehder and U. Zier on“Logratio analysis and compositional distance”. Math Geol 33, 849–860.

[5] Aitchison, J. and Greenacre, M. (2002). Biplots for compositional data. JRoy Stat Soc C-App 51, 375–392.

[6] Aitchison, J. and Shen, S. M. (1980). Logistic-normal distributions. Someproperties and uses. Biometrika 67, 261–272.

[7] Barcelo-Vidal, C., Martın-Fernandez, J. A. and Pawlowsky-Glahn, V. (2001).Mathematical foundations of compositional data analysis. In: G. Ross (Ed.),Proc IAMG’01, Cancun (Mex), 20 p.

[8] Billheimer, D., Guttorp, P. and Fagan, W. (2001). Statistical interpretationof species composition. J Am Stat Assoc 96, 1205–1214.

[9] Boogaart, K.G.v.d., Egozcue, J.J. and Pawlowsky-Glahn, V. (2010). Bayeslinear spaces. SORT 34, 201–222.

[10] Boogaart, K.G.v.d., Egozcue, J.J. and Pawlowsky-Glahn, V. (2014). BayesHilbert spaces. Aust NZ J Stat 56, 171–194.

[11] Boogaart, K.G.v.d., Tolosana-Delgado, R. and Bren, M. (2013). composi-tions: Compositional Data Analysis. R package version 1.40-1.

[12] Chayes, F. (1971). Ratio Correlation. University of Chicago Press, Chicago,IL (USA).

[13] Comas-Cufı, M. and Thio-Henestrosa, S. (2011). CoDaPack 2.0: a stand-alone, multi-platform compositional software. In Egozcue, J.J., Tolosana-Delgado, R., and Ortego, M.I. (Eds.), Proc CoDaWork’11, Sant Feliu deGuıxols (E).

[14] Egozcue, J.J. (2009). Reply to “On the Harker variation diagrams;...” byJ.A. Cortes. Math Geosci 41, 829–834.

Page 31: BEIO Volumen 32 - Inicio - seio

What are compositional data and how should they be analyzed? 27

[15] Egozcue, J.J., Barcelo-Vidal, C., Martın-Fernandez, J. A., Jarauta-Bragulat, E., Dıaz-Barrero, J.L. and Mateu-Figueras, G. (2011). Elementsof simplicial linear algebra and geometry. In: [36], 141–157.

[16] Egozcue, J.J., Daunis-i Estadella, J., Pawlowsky-Glahn, V., Hron, K., andFilzmoser, P. (2012). Simplicial regression. The normal model. JAPS 6, 87–108.

[17] Egozcue, J.J., Dıaz-Barrero, J.L. and Pawlowsky-Glahn, V. (2006). Hilbertspace of probability density functions based on Aitchison geometry. ActaMath Sin 22, 1175–1182.

[18] Egozcue, J.J. and Pawlowsky-Glahn, V. (2005). Groups of parts and theirbalances in compositional data analysis. Math Geol 37, 795–828.

[19] Egozcue, J.J. and Pawlowsky-Glahn, V. (2006). Simplicial geometry forcompositional data. In: Compositional Data Analysis in the Geosciences:From Theory to Practice, Geol Soc, London (UK) 145–159.

[20] Egozcue, J.J. and Pawlowsky-Glahn, V. (2011). Basic concepts and proce-dures. In: [36], 12–28.

[21] Egozcue, J.J., Pawlowsky-Glahn, V. , Mateu-Figueras, G., and Barcelo-Vidal, C. (2003). Isometric logratio transformations for compositional dataanalysis. Math Geol 35, 279–300.

[22] Egozcue, J.J., Pawlowsky-Glahn, V. , Tolosana-Delgado, R., Ortego, M.I.and Boogaart, K.G.v.d. (2013). Bayes spaces: use of improper distributionsand exponential families. RACSAM 107, 475–486.

[23] Filzmoser, P. and Hron, K. (2008). Outlier detection for compositional datausing robust methods. Math Geosci 40, 233–248.

[24] Filzmoser, P. and Hron, K.(2009). Correlation analysis for compositionaldata. Math Geosci 41, 905–919.

[25] Filzmoser, P. and Hron, K.(2011). Robust statistical analysis. In: [36], 59–72.

[26] Frechet, M. (1948). Les elements Aleatoires de Nature Quelconque dans uneEspace Distancie. Ann I H Poincare B 10, 215–308.

[27] INE (2015). Encuesta de Poblacion Activa (EPA). In: www.ine.es

[28] Lovell, D., Pawlowsky-Glahn, V. , Egozcue, J.J., Marguerat, S. and Bahler,J. (2015). Proportionality: A valid alternative to correlation for relative data.PLoS Comput Biol 11, e1004075.

Page 32: BEIO Volumen 32 - Inicio - seio

28 J. J. Egozcue, V. Pawlowsky-Glahn

[29] Martın-Fernandez, J.A., Barcelo-Vidal, C. and Pawlowsky-Glahn, V.(2003). Dealing with zeros and missing values in compositional data setsusing nonparametric imputation. Math Geol 35, 253–278.

[30] Martın-Fernandez, J.A., Palarea-Albaladejo, J. and Olea, R. (2011). Dealingwith zeros. In: [36], 43–58.

[31] Mateu-Figueras, G., Pawlowsky-Glahn, V. and Egozcue, J.J. (2011). Theprinciple of working on coordinates. In: [36], 31–42.

[32] Mateu-Figueras, G., Pawlowsky-Glahn, V. , and Egozcue, J.J. (2013). Thenormal distribution in some constrained sample spaces. SORT 37, 29–56.

[33] Menafoglio, A., Guadagnini, A. and Secchi, P. (2014). A kriging approachbased on Aitchison geometry for the characterization of particle-size curvesin heterogeneous aquifers. SERRA 28, 1835–1851.

[34] Palarea-Albaladejo, J. and Martın-Fernandez, J.A. (2014). zCompositions:Imputation of Zeros and Nondetects in Compositional Data Sets. R packageversion 1.0.3.

[35] Pawlowsky, V. (1986). Raumliche Strukturanalyse und Schatzung ortsab-hangiger Kompositionen mit Anwendungsbeispielen aus der Geologie. PhDthesis, Fachbereich Geowissenschaften, Freie Universitat Berlin, Berlin (D).

[36] Pawlowsky-Glahn, V. and Buccianti, A. (Eds.) (2011). Compositional DataAnalysis: Theory and Applications. John Wiley & Sons.

[37] Pawlowsky-Glahn, V. and Egozcue, J.J. (2001). Geometric approach to sta-tistical analysis on the simplex. SERRA 15, 384–398.

[38] Pawlowsky-Glahn, V. and Egozcue, J.J. (2011). Exploring CompositionalData with the Coda-Dendrogram. Austrian J Stat 40, 103–113.

[39] Pawlowsky-Glahn, V., Egozcue, J.J., and Tolosana-Delgado, R. (2015). Mo-deling and analysis of compositional data. John Wiley & Sons, Chichester(UK).

[40] Pawlowsky-Glahn, V. and Olea, R.A. (2004). Geostatistical Analysis ofCompositional Data. Oxford University Press, New York (USA).

[41] Pearson, K. (1897). Mathematical contributions to the theory of evolution.On a form of spurious correlation which may arise when indices are used inthe measurement of organs. Proc Roy Soc Lond LX, 489–502.

[42] R Core Team (2013). R: A Language and Environment for Statistical Com-puting. Vienna (A): R Foundation for Statistical Computing. En: www.R-project.org

Page 33: BEIO Volumen 32 - Inicio - seio

What are compositional data and how should they be analyzed? 29

[43] Tarantola, A. (2006). Elements for Physics - Quantities, Qualities, and In-trinsic Theories. Springer-Verlag, Berlin (D).

[44] Templ, M., Hron, K. and Filzmoser, P. (2011). robCompositions: an R-package for robust statistical analysis of compositional data. In: [36], 341–354.

[45] Thio-Henestrosa, S., Egozcue, J.J., Pawlowsky-Glahn, V. , Kovacs, L.O.and Kovacs, G. (2008). Balance-dendrogram. A new routine of CoDaPack.Comput Geosci 34, 1682–1696.

[46] Tolosana-Delgado, R. (2006). Geostatistics for constrained variables: posi-tive data, compositions and probabilities. PhD thesis, Universitat de Girona(Spain).

[47] Tolosana-Delgado, R., Pawlowsky-Glahn, V. and Egozcue, J.J. (2008). In-dicator kriging without order relation violations. Math Geosci 40, 327–347.

[48] Tolosana-Delgado, R., Boogaart, K.G.v.d. and Pawlowsky-Glahn, V. (2011).Geostatistics for compositions. In:[36], 73–86.

Acerca de los autores

Juan Jose Egozcue es Catedratico de Universidad en Matematica Apli-cada en la Universidad Politecnica de Cataluna (Barcelona) y se ha dedicadoa la docencia de Estadıstica en los ultimos 20 anos. En la actualidad se dedi-ca principalmente a la investigacion en dos lıneas: metodos de analisis de datoscomposicionales, con especial enfasis en el modelado del espacio muestral; ya metodos bayesianos para la estimacion de peligrosidad de sucesos naturalesextremos. Relacionado con el analisis de datos composicionales, ha iniciado elestudio de los espacios de Bayes, cuyos elementos son densidades de medidaspositivas, con posibles aplicaciones al estudio de datos funcionales.

Vera Pawlowsky-Glahn es Catedratica de Universidad en Estadıstica en laUniversidad de Girona. Su actividad docente se ha centrado en la Estadısticay su actividad investigadora en el analisis de datos composicionales. Desde susinicios en este campo, con una tesis doctoral sobre los datos composicionalescon dependencia espacial (1986), ha continuado trabajando sobre todo en aspec-tos metodologicos, con particular enfasis en el espacio muestral, su estructuraalgebraico-geometrica, y la medida natural en el mismo. Ha colaborado en laextension a espacios de Bayes.

Page 34: BEIO Volumen 32 - Inicio - seio

Boletın de Estadıstica e Investigacion OperativaVol. 32, No. 1, Marzo 2016, pp. 30-57

Investigacion Operativa

Uncertainty in Discrete Facility Location

Marıa Albareda-Sambola

Dept. d’Estadıstica i Investigacio Operativa,Carrer Colom, 11, 08022 Terrassa, SpainUniversitat Politecnica de Catalunya

! [email protected]

Elena Fernandez

Dept. d’Estadıstica i Investigacio Operativaand Barcelona Graduate School of Mathematics (BGSMath)

Campus Nord, C5-208, Jordi Girona 1-3, 08034 Barcelona, SpainUniversitat Politecnica de Catalunya

! [email protected]

Abstract

This paper reviews some of the most widely used alternatives for in-

troducing uncertainties in optimization, focusing on the particular case of

discrete location problems. The covered topics include multistage stochas-

tic programming and robust optimization. We provide three examples to

illustrate possible sources of uncertainty in this type of problems as well

as a variety of tools for addressing it, both, from the modelling and from

the algorithmic point of view.

Keywords: Discrete Location, Stochastic Programming.

AMS Subject classifications: 90B80, 90C11, 90C15, 90C90, 65K05

1. Introduction

Dealing with uncertainty is nowadays one of the most relevant topics in math-ematical programming, in general, and in discrete optimization, in particular.This paper uses discrete location (DL) to overview some of the main issues thatarise when addressing uncertainty in discrete optimization. This was the topicof the talk “Uncertainty in Discrete Location” in the SEIO 2015 Conference inPamplona, which, to a large extent, is summarized in this paper.

DL is one of the largest areas in discrete optimization. The large variety ofapplications and the relevance of theoretical aspects that appear when study-ing these problems place them as the focus for many researchers. Potential

c⃝ 2016 SEIO

Page 35: BEIO Volumen 32 - Inicio - seio

Uncertainty in Discrete Facility Location 31

applications of DL arise in nearly any field. Logistic and distribution net-works is one area where DL applications abound (see, for instance, Klose etal., 2005; Melo et al., 2009). The location of essential services and communica-tions/telecommunications are classical application areas, although DL problems(DLPs) also appear in such diverse domains as the public sector, software forGIS or robotics (see, for instance Drezner et al., 2004). Further examples ofapplications are discussed in Daskin et al., 1998; Daskin et al., 2002; Nagy etal., 2007; Ordonez et al., 2007, to mention just a few.

Broadly speaking, DLPs emerge when there is a demand for service, ex-pressed as a given set of users, and the location for the centers that will providethe service to users must be decided. The main feature of DL is that the set ofpotential sites for service centers is discrete and known in advance. Selecting asubset of sites in the above set to locate (open) the facilities (plants) that willserve the users is not the only decision in DL; how demand points will be servedfrom the open plants must also be determined. Depending on the particularmodel or the potential application the service decision may have different impli-cations. In the so-called location-allocation problems each demand point will beexplicitly allocated to some open facility, meaning that its demand will be fullyor partly served from that facility. Single allocation is the term used to indicatethat, for each user, all its demand is served from the same facility. Instead,Multiple allocation is the term used when it is possible to split the demand ofusers among several facilities. In covering location problems, users are implicitlyserved from an open plant when they are within a given coverage radius fromit, but the specific plant(s) that will serve the users demand need not to bemade explicit. In competitive location some company wants to enter a new mar-ket and a user (customer) is served if the company captures its demand. In allcases, DLPs are optimization problems. This means that in all cases the locationand service decisions must be such that they optimize a given objective function.

Many different objective functions can be considered in DL. They often de-pend on the type of potential application for the particular problem that is beingaddressed. Among the most studied ones we can mention the following:

1. Minimize set-up costs plus assignment costs. This objective focuses on theoverall costs, and is typically considered in location-allocation problemswhere the allocation of customers to open plants is explicit and assumesthat both location and allocation decisions involve costs.Problems with such an objective function usually appear in the publicsector when locating facilities for essential services: public hospitals orschools, dumps for garbage collection, etc. In the private sector, however,service to customers produces a profit to companies so that the objective of

Page 36: BEIO Volumen 32 - Inicio - seio

32 M. Albareda-Sambola, E. Fernandez

companies facing location decisions for their service centers is to maximizethe net profit defined as the difference between the revenue derived fromthe serviced customers and the cost for the location of the selected facili-ties. An essential difference between these two models is that minimizationDLPs impose that all users are served (no demand point can be excludedfrom an essential service), while in maximization DLPs not all users neces-sarily have to be served. The company may not have enough incentive forservicing all demand points and only those generating a profit in an op-timal location setting will be served. From a mathematical programmingpoint of view, however, the maximization and minimization versions areequivalent (see, for instance, Fernandez et al., 2015).

2. Minimize or maximize assignment costs.These objectives focus on the overall service cost and are considered whena fixed number of facilities must be opened and the set-up cost of all thefacilities is the same, so the overall set-up cost for the open facilities is aconstant and it can be removed from the objective function.

3. Minimize the maximum assignment cost.This objective is usually referred to as center objective. It is considered insome applications related to essential services, where the decision makeris concerned with the service cost of the user with the highest cost. Whenconsidering the location of fire brigades or ambulances this cost is normallymeasured in terms of the time needed to reach the location of each user.Thus a relevant objective is the minimization of the maximum service cost.

4. Maximize the minimum distance to a facility. This objective is consideredin situations where, even if open facilities provide service to users, theyalso cause inconveniences so users do not want the facilities to be locatedclose to them. Typical applications for this objective can be the locationof garbage dumps or even airports.

5. Maximize the captured demand. This is a typical objective for competitivelocation where any company entering a market wishes to maximize themarket share it captures when opening a fixed number of facilities. Analternative objective in this setting, when a minimum threshold for thecaptured demand is imposed, is the minimization of the set-up costs of theopened facilities.

Many additional considerations may be present in a DLP. Some of the mostfrequent ones are capacity constraints on the open facilities, a fixed or maximumnumber of open facilities, temporal constraints, specific constraints on the as-signment of users to open facilities, etc. We will not escribe them in detail, as thefocus of the paper is to overview uncertainty issues in DL rather than studying

Page 37: BEIO Volumen 32 - Inicio - seio

Uncertainty in Discrete Facility Location 33

DL in depth, although some of them may be briefly mentioned in some of thespecific problems that will be described in the following. Before, in Section 2we recall the main elements in DL and introduce the notation that we will beusing. Then, in Section 3 we discuss the various ways in which uncertainty mayarise in discrete optimization. Sections 4, 5, and 6 illustrate some of the aboveconcepts with three different examples of discrete location problems with uncer-tainty that have been studied in the literature Albareda et al., 2011; Albaredaet al., 2013; Alvarez-Miranda et al., 2015. Section 7 concludes the paper withsome final comments.

2. Discrete Location Problems

Input data in DL may vary among different problems. Typical data that ispresent in nearly all DLPs include the following:

• J = 1, 2, . . . , n: Index set of demand users.

• I = 1, 2, . . . ,m: Discrete index set of potential facilities locations.

• dj : Amount of demand of customer j ∈ J .

• fi: Setup cost for facility i ∈ I. This is a fixed cost that will be incurredif a facility is opened at the potential location i.

• bi: Capacity for facility i ∈ I. This is the maximum demand that couldbe served from potential facility i, if it is opened.

• cij : The assignment cost of customer j ∈ J to facility i ∈ I is the cost forserving all the demand of j from i. This cost is incurred in applicationswhere the allocation of customers to open plants is explicit.

The location decision in DL consists in selecting a subset S ⊆ I to locate theservice facilities. In a location-allocation problem the allocation decision consistsin selecting for each user i ∈ J a plant i(j) ∈ S from which j will be served.These decisions are visualized in Figure 1where users are represented by circlesand potential locations for the facilities by rectangles. The set of open facilitiesare the shaded rectangles and the lines connecting users to facilities indicate theallocation of users to open plants.

3. Some concepts related to uncertainty

When referred to an optimization problem, uncertainty is a very generic term,which, broadly speaking, indicates that some data of an instance of the problemunder consideration is not deterministic. Hence, in reality, most of the problemsare uncertain in nature. This is particularly true in DL when, most often, thedecisions are taken in advance while the precise values for data are not known

Page 38: BEIO Volumen 32 - Inicio - seio

34 M. Albareda-Sambola, E. Fernandez

Figure 1: Examples of solutions in DL

beforehand. Setting up a system (building and equipping the selected facilities,etc.) usually requires some time and the actual data when the system will beoperating are not known at the moment when the decisions are made. In thesecases, estimations, approximations, or even expected values of uncertain data,are often used as deterministic information instead of addressing the real uncer-tain optimization problem. The motivation for this is the notable increase in thedifficulty of the optimization problems when uncertainty is explicitly addressed,which makes them much more difficult to solve than their deterministic coun-terparts. Still, the remarkable methodological advances in the field of the lastdecades (see, for instance, Birge et al., 2011; Shapiro, 2014) make it more andmore realistic to address uncertainty within optimization, in general, and in DL,in particular, as we discuss in the reminder of this paper.

One first issue that arises when addressing uncertainty in optimization is toanalyze its possible sources. That is, where uncertainty may appear and how itcan be expressed. It is widely accepted (see, for instance Shen et al., 2011) thatthe main sources of uncertainty in DL are of the following types:

• Provider-side: This is the uncertainty that refers to the agent providingservice in the system, i.e., the facilities. In this respect uncertainty mayaffect to the availability of a potential location for a facility or, even ifavailable, to its reliability or its potential capacity if it is opened.

• Receiver-side: This type of uncertainty refers to the agents receiving servicein the system, i.e., the set of users, whose structure may be uncertain. Inthis context, uncertain elements can be the customer locations, customerdemands, etc.

• In-between: In some situations there may be uncomplete knowledge of thenetwork topology that will be available for the allocation of users to open

Page 39: BEIO Volumen 32 - Inicio - seio

Uncertainty in Discrete Facility Location 35

facilities. This may arise due to natural disasters or terrorist attacks, forinstance. In less extreme situations, the network topology may be knownbut allocation costs be uncertain. Even in regular conditions, the networkcongestion can be unpredictable.

A relevant issue in this context is to analyze the alternative ways in whichuncertainty can be expressed. Next we briefly describe the most usual ones.

• Via a probability distribution. In some cases it may happen that uncertaindata follow (or can be approximated by) a probability distribution and thisinformation is known to the decision maker. Then it is sometimes possibleto exploit such information to obtain easier formulations for the problem athand. In Section 4 we will see an example of such a situation for the facilitylocation problem with Bernoulli demand. Unfortunately, in general, even ifthe probability distribution of uncertain data is known, this is not enoughto obtain a deterministic equivalent formulation suitable for being solvedby the usual techniques.

• A set of values or intervals that uncertain data can take. This type of infor-mation can be used, for instance, to guarantee that the obtained solutionsperform reasonably well even in the worst possible scenario.

• As a set of scenarios. In a large number of cases, uncertainty is expressed bymeans of a set of scenarios, where each scenario corresponds to a possiblerealization (combination of values of uncertain data). Sections 5 and 6 willgive examples of two different DL problems in which uncertainty is handledvia a set of scenarios.

Knowing the type of uncertainty and how to express it is not enough forsolving an optimization problem with uncertainty. The crucial aspect is to findsuitable ways of dealing with the optimization problem. This matter is closelyrelated to analyzing the hypotheses that must be applied in order to obtain amodel that truly represents the problem being addressed. Since uncertainty mayaffect both the feasibility of solutions and their cost, the above considerationsinvite to pay particular attention to what a solution means now and how tocompute its cost. It is, of course, possible to only consider solutions that arefeasible for all possible realizations of an instance. This is however not advisableas, in general, it would produce extremely costly and/or inefficient solutions.A frequent approach is therefore to follow a two-stage (or multi-stage) process,in which solutions to the uncertain optimization problem consist of an a priorisolution, which is independent of the possible realizations and can be infeasiblefor some of them, together with a so-called recourse action. The recourse actionindicates how to transform the a priori solution into a feasible solution in therealizations where it is infeasible. Note that for a given a priori solution, the

Page 40: BEIO Volumen 32 - Inicio - seio

36 M. Albareda-Sambola, E. Fernandez

outcome of the recourse action can vary for the different realizations of a giveninstance. Informally speaking one could say that a recourse action is a plan B forthose realizations where the a priori solution is not feasible. It is thus natural toexpect that the outcome of such a plan depends on each realization. A genericscheme of a two-stage process is the following:

First stage: Define an a priori solution(it may not be feasible for some realizations)

→ Realization

Second stage: Recourse action (a posteriori solution).Adjust the a priori solution to make it feasible for thecurrent realization (this may incur a cost)

We next illustrate the above two-stage process by means of an example.

Example 3.1. Consider the facility location problem with Bernoulli demand(FLPBD) studied in Albareda et al., 2011. In this DL problem demand for ser-vice of each customer j ∈ J is given by a binary random variable, indicatingwhether or not customer j requests the service. Furthermore, it is assumed thatthese variables follow independent Bernoulli probability distributions with pa-rameters pj , j ∈ J . For i ∈ I, we have, in addition, the following (deterministic)data:

fi: fixed set-up cost for opening facility i;

Ki: maximum number of customers that can be served from facility i when itis opened;

cij : cost for serving customer j from facility i (j ∈ J).

Recall that in a particular realization of the random vector, there may becustomers without service demand. Hence, we will distinguish between the as-signment of customers to plants, which is done a priori and is independent ofthe potential realizations, and the service, which is decided a posteriori via therecourse action, once the realization of the random vector is known. An a priorisolution for the FLPBD is thus defined by a set of open facilities together withan assignment of each customer to an open facility.

Figures 2.(a) and 2.(b) graphically represent two a priori solutions for anFLPBD instance with |I| = 6 and |J | = 23 with Ki = 6 for all i ∈ I. Whilethe solution depicted in Figure 2.(a) could be immediately implemented in anypossible realization of this instance, the a priori solution of Figure 2.(b) requiresreadjustments in those realizations where the number of customers with demandallocated to some open facility exceeds its service capacity Ki. This is illustratedin Figure 3.1, where customers with demand are represented by filled nodes andcustomers without demand by light gray nodes, and the facility with insufficientservice capacity has been highlighted.

Page 41: BEIO Volumen 32 - Inicio - seio

Uncertainty in Discrete Facility Location 37

Figure 2: Two feasible a priori solutions for an instance with Ki = 6, i ∈ I

In the a posteriori solution all the demand customers assigned to open facilityi receive service from it, each of them incurring a service cost cij , j ∈ J . Whenthe number of demand customers assigned to i, say zi, exceeds Ki, then thedeficit of service capacity zi −Ki is outsourced at a unit cost of gi. That is, giis the penalty cost for each unit of outsourced demand at facility i.

Figure 3: Instance for which the recourse action must be applied

The above example raises the question of how to define, in general, the apriori solution and the recourse action. There is no recipe for this. A rule ofthumb for the a priori solution would be to try that the values of the variablesassociated with the most strategic decisions (in this case the location variables)remain unchanged (if possible) after the recourse action, and try to reduce pos-sible modifications in the recourse action. The only guideline for the definitionof the recourse action is that the resulting solution must be feasible for the re-

Page 42: BEIO Volumen 32 - Inicio - seio

38 M. Albareda-Sambola, E. Fernandez

alization it is applied to. Indeed this opens a wide range of possibilities forhow to define the recourse action for a given uncertain optimization problem.Again, the potential applications of the problem may give hints on how realistica hypothetical recourse action can be. Another consideration that must alwaysbe present is the additional difficulty for modeling (and solving) some recurseactions, particularly when they are very sophisticated.

It should be clear by now that uncertainty typically affects the cost of solu-tions. Now a solution which is good for a given realization may be very bad for adifferent one. It is therefore also necessary to discuss how to compute the valueof solutions and what are the objectives that can be useful in this context. Usualpractice is to focus on solutions that are usually good, or to focus on robust so-lutions, the ones that prevent very exceptional situations. Indeed a solution thatis good in general may be very bad for some realizations (maybe just one), whilea robust solution, which is never too bad, may have a not-so-good performanceon average. Thus, depending on the potential application(s) of the uncertainproblem under study, the decision maker will decide where to put the stress,that is, what objective to optimize. If the focus are usually good solutions, thenatural alternatives are:

(i) To use as objective function the recourse function, which is the expectedcost of the a posteriori solution, over all possible realizations of the demandvector

(ii) To use the so-called probabilistic or chance constraints, which impose thatthe probability that something good (or bad) occurs is large (small) enough(see, for instance, Miller et al., 1965; Zhang et al., 2014). Maybe commentthat such inequalities are not always easy to linearize, and this may limitits applicability.

When the focus are robust solutions the natural option is normally to use amin/max type (bottleneck) objective function, to optimize the cost of the worsescenario.

4. Deterministic equivalent formulations: the example ofthe FLPBD

In this section we retake the FLPBD to illustrate that, in some cases, whenthe probability distribution of uncertain data is known it is possible to build adeterministic formulation which fully captures the uncertain nature of the prob-lem, in the sense that it produces optimal solutions for it. We will consider theFLPBD presented in Example 3.1 in which the customers demands are indepen-dent binary random variables that we will denote by ξj , each of them followinga Bernoulli probability distribution of parameter pj . The interested reader isaddressed to Albareda et al., 2011 for further details of the developments of this

Page 43: BEIO Volumen 32 - Inicio - seio

Uncertainty in Discrete Facility Location 39

section.

In order to give a mathematical programming formulation the FLPBD wedefine the following sets of decision variables:

yi =

1 if a facility is established at i,0 otherwise.

xij =

1 if customer j is allocated to i,0 otherwise.

(i ∈ I, j ∈ J)

Then a formulation for the FLPBD is:

(P ) min∑

i∈I

fiyi +Q(x) (4.1)

s. t.∑

i∈I

xij = 1 j ∈ J (4.2)

xij ≤ yi i ∈ I, j ∈ J (4.3)

yi ∈ 0, 1 i ∈ I (4.4)

xij ∈ 0, 1 i ∈ I, j ∈ J. (4.5)

Constraints (4.2) impose that all customers are assigned to (exactly) onefacility while constraints (4.3) impose that these assignments are only done tooperating facilities. The domain of the variables is defined by (4.4)–(4.5). Theobjective function (4.1) includes the fixed costs for opening the facilities plus therecourse function Q(x) where

Q(x) = Eξ(Service cost + Facility outsourcing cost) =

Eξ(Service cost) + Eξ(Facility outsourcing cost).

Of course, the specific expression of Q(x) is directly related to what therecourse action is. Recall that in the recourse action of Example 3.1 facility iserves all its allocated demand customers at a service cost cij and outsources themissing capacity at a unit penalty cost gi. Hence, for a given a priori solution(y, x) the expected service cost is

Eξ(Service cost) =∑

i∈I

j∈J

cijpjxij . (4.6)

For the expression of the expected outsourcing cost we introduce some addi-tional notation. Let zi denote the number of customers assigned to facility i ∈ Ifor a priori solution, (y, x). Let also ηi be the random variable that represents

Page 44: BEIO Volumen 32 - Inicio - seio

40 M. Albareda-Sambola, E. Fernandez

the number of customers assigned to i that have demand. That is,

zi =∑

j∈J

xij and ηi =∑

j∈J

ξjxij .

Then,

Eξ(Facility outsourcing cost) =∑

i∈I

zi∑

s=Ki+1

gi(s−Ki)Px[ηi = s], (4.7)

where for i ∈ I the probability that exactly s of its assigned customers havedemand is:

Px[ηi = s] =∑

S⊂Ji:|S|=s

j∈S

pj∏

j∈Ji\S

(1− pj) (4.8)

with Ji = j ∈ J : xij = 1 denoting the set of customers assigned to facility iin the a priori solution.

The above expression is quite involved, particularly if it has to be used withina mathematical programming formulation, as it implicates some binary decisionvariables. Nevertheless, in the particular case when all users have the sameprobability of demand, i.e. pj = p for all j ∈ J , the random variable ηi followsa Binomial probability distribution with parameters zi and p, so

Px[ηi = s] =bzis =

(t

s

)ps(1− p)t−s. (4.9)

Hence, under the assumption that all users have the same probability ofdemand we have

Q(x) =∑

i∈I

j∈J

pcijxij +∑

i∈I

gi

zi∑

s=Ki+1

bzis(s−Ki). (4.10)

Even if (4.10) is much simpler than the general expression (4.9), it is still notuseful to obtain a tractable expression for objective (4.1). The reason is thatzi, which depends on the values of the decision variables, appears in the upperlimit of the second sum and is also needed to compute the values of coefficientsbzis. Luckily, this difficulty can be overcome by redefining the location decisionvariables as follows:

yti =

1 if a facility is established at i and t customers are assigned to it,0 otherwise.

(i ∈ I, t = 1, . . . , |J |)

Page 45: BEIO Volumen 32 - Inicio - seio

Uncertainty in Discrete Facility Location 41

By definition∑|J|

t=1 yti ≤ 1 and yti = 1 if and only if zi = t. Therefore, (4.10)

can be written as:

i∈I

j∈J

cijpxij +∑

i∈I

|J|∑

t=1

ytigi

[t∑

s=Ki+1

bts(s−Ki)

]

which is a linear expression on the new decision variables so objective (4.1) canbe written as

v1(y, x) =∑

i∈I

|J|∑

t=1

f ti y

ti +

i∈I

j∈J

cijxij

where f ti = fi+gi

t∑s=Ki+1

bts(s−Ki) (i ∈ I, t = ℓi, . . . , |J |), and cij = pcij (i ∈ I,

j ∈ J).

That is, a compact deterministic equivalent formulation of the FLPBD forthe case when all users have the same probability of demand and the outsourcingpolicy of Example 3.1 is applied is:

(P1) min v1(y, x) (4.11)

s. t.∑

i∈I

xij = 1 j ∈ J (4.12)

j∈J

xij =

|J|∑

t=1

tyti i ∈ I (4.13)

|J|∑

t=1

yti ≤ 1 i ∈ I (4.14)

yti ∈ 0, 1 i ∈ I (4.15)

xij ∈ 0, 1 i ∈ I, j ∈ J. (4.16)

The new equalities (4.13) relate the assignment variables and the new loca-tion variables and inequalities (4.14) assure the consistency in the choice of theyti : for each i ∈ I at most one can be equal to 1.

Hence, when all demand probabilities are the same there is a tractable deter-ministic formulation which fully captures the uncertainty of the FLPBD. Unfor-tunately, we have also seen that knowing the probability distribution of uncer-tain data is, in general, not enough to obtain a tractable formulation which fully

Page 46: BEIO Volumen 32 - Inicio - seio

42 M. Albareda-Sambola, E. Fernandez

captures the uncertainty of the original problem, as the resulting expressionsmay be intractable algorithmically. One alternative in these cases, is to resortto approximations like the Sample Average Approximation (SAA) Kleywegt etal., 2001. SAA is an iterative method with good theoretical properties, as itconverges to the optimum value of the original problem. At each iteration asample of possible scenarios is generated and an optimization problem, whichis the restriction of the original problem to the subset of generated scenarios issolved. A summary of the method is presented below where f(Ω) denotes the op-timal value of an FLPBD problem restricted to a sample of possible scenarios Ω :

While not terminate do:

• t← 1; z∗ ← +∞

• Select a sample of possible scenarios Ωt

• Compute zt = f(Ωt); xt ∈ argmin f(Ωt)

• if (zt < z∗) then

z∗ ← zt; x∗ ← xt

• Compute zt =

t∑s=1

zs

t

The expression of an FLPBD subproblem associated with a sample of sce-narios Ω is:

FO(Ω) min∑

i∈I

fiyi +∑

ω∈Ω

i∈I

j∈J

(pjcijdωj )xij +

1

|Ω|∑

ω∈Ω

i∈I

giθωi

s. t.∑

i∈I

xij = 1 j ∈ J (4.17)

xij # yi i ∈ I, j ∈ J (4.18)∑

j∈J

dωj xij # Kiyi + θωi i ∈ I,ω ∈ Ω (4.19)

yi ∈ 0, 1 i ∈ I (4.20)

xij ∈ 0, 1 i ∈ I, j ∈ J (4.21)

θωi ∈ Z+ i ∈ I,ω ∈ Ω, (4.22)

where the binary coefficients dωj indicate whether or not customer j ∈ J hasdemand in scenario ω. Thus, the last two terms of the objective function modelthe average of the costs for the different scenarios. The role of constraints (4.19)is to compute for each open facility i the amount of capacity that needs to beoutsourced in scenario ω, θωi , if the capacity of the facility is not enough so asto serve all its assigned demand customers.

Page 47: BEIO Volumen 32 - Inicio - seio

Uncertainty in Discrete Facility Location 43

Despite the good theoretical properties of SAA, its application in practicemay not always be successful. On the one hand, the number of iterations untilconvergence can be very high. On the other hand, most often, the solution ofFO(Ω) is far from being trivial. For instance, in the case of the FLPBD it is amixed integer linear programming (MILP) problem with a considerable numberof variables and constraints, which depends on the size of the sample. Solvingone of these problems can be already highly time consuming. Solving one suchproblem per iteration may produce a non-viable solution method.

Below we show a different alternative solution method based on building theso-called scenario tree, which can be used when uncertainty is expressed via aset of scenarios.

5. Scenario trees: Multi-period Location-Allocation underUncertainty

In the multi-period incremental service facility location problem (MIFLP)Albareda et al., 2009, facilities are opened throughout a time horizon T =0, 1, ..., T and the number of customers whose demand is satisfied progres-sively increases with time as the number of open facilities also increases. Themain characteristics and decisions of the MIFLP are the following:

• Location decisions: At each time period t ∈ T , at least mt facilitiesmust be opened.

– If facility i ∈ I opens at t, it remains open until the end of the timehorizon.

– If facility i ∈ I opens at t, it incurs a set-up cost fSti at time period

t, and a maintenance cost fMti in all subsequent time periods t′ ≥ t.

• Allocation decisions: Progressively assign customers to open facilities.

– At least nt customers must be assigned (with single assignment) toan open facility at each time period t ∈ T .

– Once a customer is assigned for the first time it remains assigned inall subsequent periods.

– Customers assignments may change from period to period.

– All customers must be assigned at T .

In general, there is a latency τ , which indicates the number of periods thatpass since it is decided to open a facility until the facility is available. Neverthe-less, in order to keep notation as simple as possible, in the following we assumethat τ = 0.

Page 48: BEIO Volumen 32 - Inicio - seio

44 M. Albareda-Sambola, E. Fernandez

Figure 4: Example of a MIFLP instance

A visual example of the MIFLP with |I| = 3 potential facilities, |J | = 5customers and T = 3 time periods is depicted in Figure 4, which has been takenfrom Albareda et al., 2013. In this example facilities a and b are opened at timeperiod 1, whereas facility c is opened at time period 2. Customers 1 and 3 areassigned already at time period 1, whereas customers 2 and 4 are assigned attime period 2 and customer 5 is assigned only in the last time period. Observethat the assignment of customer 1 changes at every time period, so it is servedfrom facility a at time periods 1 and 3, whereas it is served from facility b att = 2. Instead, the assignment of all other customers remains stable once theystart receiving service.

The multi-period stochastic facility location (MSFLP) Albareda et al., 2013is an extension of the MIFLP in which each customer may demand service at anysubset of periods. These requests will only be served if the customer is alreadyassigned. Assigned customers do not necessarily have demand at all periodsafter their first assignment. The main assumptions are the following:

• Service requests are binary, uncertain and independent.

• Assigning a customer to a facility at a given period incurs a cost, even ifthe customer does not have demand at that period. In addition, a penaltyis paid for not servicing unassigned customers with demand. For j ∈ J ,let ρj denote the penalty for not servicing the demand of customer j.

The MSFLP is an example of a multi-period problem in which uncertain param-eters are are gradually unveiled along T . In the MSFLP uncertainty is expressedby a set of scenarios Ω, where each scenario ω ∈ Ω occurs with probability pω

Page 49: BEIO Volumen 32 - Inicio - seio

Uncertainty in Discrete Facility Location 45

and indicates a possible realization of the uncertain parameters throughout thetime horizon T . In this context many of today’s approaches resort to scenariotrees to model this uncertainty Alonso-Ayuso et al., 2007. Next we give somerelated concepts.

The set of scenarios can be visualized by a tree, rooted at a node that rep-resents the beginning of the time horizon. Each level corresponds to each timeperiod so each node represents a point in time where a decision can be made.Once a decision is made, realizations of some uncertain parameters occur, sothat tree branches correspond to different values of the random parameters. Ascenario group in period t ∈ T , Gt, is a set of scenarios that share the samerealizations of the uncertain parameters at all time periods t′ # t. Thus, eachroot-to-leaf path represents one scenario, and partial paths from the root tointermediate nodes correspond to scenario groups, which are usually identifiedwith the intermediate node. That is, in a given period, scenarios with the samerealizations of the uncertain parameters up to the period belong to the samegroup. In the following we denote by G the set of all scenario groups and byG− ≡ ∪t∈T \0Gt. We also use γ(g) to denote the immediate ancestor node ofnode g ∈ G−. Figure 5, taken from Albareda et al., 2013 illustrates the aboveconcepts for a problem with |T | = 4 time periods and |Ω| = 8 scenarios. In thisexample the group of scenarios represented by node 4, contains two scenariosthat only differ in values of the random parameters that are revealed at the lasttime period.

t = 0 t = 1 t = 2 t = 3

0

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

Ω = Ω0 = 9, 10, . . . , 16; Ω1 = 9, 10, 11

G = 0, 1, . . . , 16; G1 = 1, 2, 3; G2 = 4, 5, . . . , 8

t(0) = 0; t(1) = 1; t(8) = 2

γ(9) = 4

Figure 5: Scenario tree

Page 50: BEIO Volumen 32 - Inicio - seio

46 M. Albareda-Sambola, E. Fernandez

The uncertain parameters in the MPSFLP are the following:

dgj : coefficient that takes the value 1 or 0 depending on whether or not customerj ∈ J has demand under scenario group g ∈ G−.

ng : minimum number of customers to be serviced at period t(g) under scenariogroup g ∈ G−.

mg : minimum number of facilities to be opened at period t(g) under scenariogroup g ∈ G.

fSgi : set-up cost for facility i ∈ I at period t(g) under scenario group g ∈ G.

fMgi : maintenance cost for facility i ∈ I at period t(g) under scenario group

g ∈ G−.

cgij : assignment cost of customer j ∈ J to facility i ∈ I under scenario groupg ∈ G−.

5.1. 0-1 DEM for the a priori location strategy

Two alternative strategies have been considered in Albareda et al., 2013 forthe MPSFLP, corresponding to two alternative stochastic models. Both strate-gies follow the same policy for the assignment decisions, and differ only in whenlocation decisions are made. In the scenario-dependent location strategy, loca-tion decisions are made at each time period and depend on the realizations ofthe random parameters in the previous periods as well as on the scenarios of thegroup where the location decision is made. In contrast, in the a priori locationstrategy there is a unique location decision which is made at the beginning ofthe time horizon and dictates the facilities to open at the different periods alongthe time horizon. Hence, the a priori location strategy does not depend on therealizations of uncertain data in the different periods, as it is applied just once atthe beginning of the time horizon. The scenario-dependent strategy is suitablefor situations where both the location and the assignment decisions are consid-ered operational, while the a priori strategy is suitable for contexts in which thelocation is strategic and allocations are operational.

Next we present a pure 0-1 deterministic equivalent formulation for the apriori strategy. The interested reader is addressed to Albareda et al., 2013 forfurther details of the presented formulation as well as for a deterministic equiva-lent formulation for the scenario-dependent location strategy. As it is frequentlydone in multistage stochastic programs where stochasticity is represented by ascenario tree, the variables corresponding to decisions that are made at a giventime period are replicated to allow for a different decision for each scenariogroup of that time period. Allowing only for those replicas, instead of replicat-ing each variable for each scenario guarantees that the obtained solutions satisfy

Page 51: BEIO Volumen 32 - Inicio - seio

Uncertainty in Discrete Facility Location 47

the nonanticipativity principle; i.e. no decision depends on values of randomvariables that are unveiled after the decision is made.

For building a MILP formulation for the MPSFLP for the a priori locationstrategy we define the following 0-1 variables:

yti =

⎧⎪⎪⎪⎨

⎪⎪⎪⎩

1, if by period t it has been

decided to open facility i

0, otherwise.

(i ∈ I, t ∈ T )

xgij =

⎧⎪⎪⎪⎨

⎪⎪⎪⎩

1, if customer j is assigned to facility i

at period t(g), under scenario group g

0, otherwise.

(i ∈ I, j ∈ J, g ∈ G)

The formulation is as follows,

min∑

i∈I

fS0i y0i +

t∈T

[∑

i∈I

fSti (yti − yt−1

i ) +∑

t′≥t

fMt′

i yti

]+

g∈G−

pg∑

j∈J

(∑

i∈I

cgijxgij + ρjd

gj

(1−

i∈I

xgij

))(5.1)

s. t.∑

i∈I

j∈J

xgij ≥ ng g ∈ G− (5.2)

i∈I

xgij ≤ 1 j ∈ J, g ∈ G− (5.3)

i∈I

xgij = 1 j ∈ J, g ∈ GT (5.4)

i∈I

xγ(g)ij ≤

i∈I

xgij j ∈ J, g ∈ G : t(g) > 1 (5.5)

xgij ≤ yti(g) j ∈ J, i ∈ I, g ∈ G− (5.6)

i∈I

(yti − yt−1i ) ≥ mt t ∈ T \ 0 (5.7)

yt−1i ≤ yti i ∈ I, t ∈ T \ 0 (5.8)

xgij ∈ 0, 1 i ∈ I, j ∈ J, g ∈ G− (5.9)

yti ∈ 0, 1 i ∈ I, t ∈ T. (5.10)

Page 52: BEIO Volumen 32 - Inicio - seio

48 M. Albareda-Sambola, E. Fernandez

The objective (5.1) minimizes the total expected location-allocation cost overall scenarios. Constraints (5.2) guarantee the minimum number of assigned cus-tomers at period t ∈ T −. Constraints (5.3) ensure that, at each period, eachcustomer is assigned to one facility at the most, whereas (5.4) impose that allcustomers are assigned at the end of the time horizon. By constraints (5.5),a customer already assigned at period t − 1 will also be assigned at period t,although the facility to whom it is assigned is not necessarily the same at bothperiods. Constraints (5.6) model that, at any period, customers can be assignedonly to open facilities. Constraints (5.7) guarantee that a minimum requestednumber of facilities is opened at each a time period. Finally, constraints (5.8)ensure that if a facility is open at a given period t, then it remains open at allsubsequent periods.

The size of formulation (5.1)-(5.10) depends not only on the number of poten-tial facilities (|I|), customers (|J |) and time periods (T ), but also on the numberof scenarios (|Ω|) and scenario groups (|G|). Therefore, in practice, plain useof state-of the art MILP solvers can only be effective for instances where thosevalues are very small, and alternative decomposition solution methods have tobe used if larger instances want to be solved. In Albareda et al., 2013 formula-tion (5.1)-(5.10) has been solved with the so-called Fix-and-Relax-Coordination(FRC) matheutistic.

FRC is a specialization of the Fix-and-Relax (FR) heuristic embedding aBranch-and-Fix Coordination (BFC) two-stage solution algorithm. FR is aniterative heuristic for binary problems, which consists of solving a series of ap-proximate MILP subproblems, and was introduced in Dillenberger et al., 94 ina deterministic environment. In each subproblem the variables are partitionedin three subsets. The values of the variables in the first subset are fixed eitherto 0 or 1; the variables in the second subset are relaxed and can take any valuein [0, 1]; and the variables in the third subset maintain the binary constraints.As stated in Alonso-Ayuso et al., 2007, multi-period stochastic binary problemsare well suited for FR, since an ordering and partition of the variables for FRarises naturally by associating FR levels with scenario groups in the periods ofthe time horizon T . Each of the subproblems defined in the FR scheme is solvedexactly with BFC, introduced in Alonso-Ayuso et al., 2003, which is specificallydesigned for simultaneously exploring sets of Branch-and-Fix trees. To the bestof our knowledge Albareda et al., 2013 is the first time that a FR heuristic hasbeen used in combination with a scenario tree enumeration method. The in-terested reader is addressed to Albareda et al., 2013 for further details of thepresented formulation as well as for a deterministic equivalent formulation forthe scenario-dependent location strategy. The referenced paper also includesnumerical results and analysis from extensive computational experiments with

Page 53: BEIO Volumen 32 - Inicio - seio

Uncertainty in Discrete Facility Location 49

the FR heuristic applied to the deterministic equivalent formulations of both thea priori and the scenario-dependent strategies.

6. Minimizing the cost of the worse scenario: TheRecoverable Robust Facility Location Problem

The objective in the problems presented in Sections 4 and 5 focuses on therecourse function, i.e. the expected cost of the a posteriori solution, over allpossible realizations of the uncertain data. Instead, the Recoverable RobustFacility Location Problem (RRFLP) that we discuss in this section is an exampleof a DL problem with uncertainty where the focus is the cost of the worsescenario. Like in the MSFLP, in the RRFLP uncertainty is expressed by a set ofpossible scenarios, although it is no longer assumed that the probability of eachscenario is known. As we will see, uncertainty is very general in the RRFLPwhere in-between uncertainty plays an important role as the set of possibleallocations of customers to facilities varies among the different scenarios. TheRRFLP was introduced in Alvarez-Miranda et al., 2015, where an exact solutionalgorithm in proposed and the numerical results from extensive computationalexperiments reported and analyzed. The main characteristics of the RRFLP arethe following:

• It is a single-period DL problem.

• Uncertainty is expressed by a set of scenarios Ω whose probabilities arenot known.

• It can be modeled as a two-stage process with recourse.

• The objective is to minimize the cost of the worse scenario

Before presenting a MILP formulation for the RRUFL we describe it moreprecisely and introduce the notation that will be used in the MILP formulationthat will be presented.

The RRUFL is an extension of the well-known uncapacitated facility locationproblem (UFL) (see Daskin et al., 2013; Eiselt et al., 2011; Fernandez et al., 2015for recent surveys), which deals with situations where uncertainty is present atall levels: the set of customers (receiver-side), the set of locations (provider-side),and the set of allocation links (in-between), as well as in their corresponding set-up and allocation costs. Applications of the RRUFL may arise, for instance,in disaster management where evacuation and emergency planning has to bedecided. In such cases it can be very hard to estimate in advance (i) the areasthat would require humanitarian relief, (ii) where the emergency facilities couldbe located and (iii) how the damaged areas could be reached by the emergencyservices coming from the installed facilities.

Page 54: BEIO Volumen 32 - Inicio - seio

50 M. Albareda-Sambola, E. Fernandez

Let Jω, Iω and Aω respectively denote the set of customers that requirethe service, the set of locations where facilities can be opened, and the set oflinks that can be used in scenario ω ∈ Ω. Let also J0 =

⋃ω∈Ω Jk denote the

set of potential customers, I0 =⋃

ω∈Ω Iω the set of potential locations andA0 =

⋃ω∈Ω Aω the set of potential connections. We assume that each customer

j ∈ Jω can be reached by some link from Aω so that the classical deterministicUFL defined on J0, I0 and A0 has at least one feasible solution. The RRUFLmodels the following two-stage decision process:

• A priori solution: Open some facilities and allocate some customers toopened facilities

• Recourse action (when the scenario ω ∈ Ω is revealed and Jω, Iω and Aω

are known). Recover (render feasible) the a priori solution. This mayrequire some of the following actions:

– Open new facilities

– Allocate customers to facilities opened (either in first or second stage).

– Re-allocate customers allocated to non-available facilities

Figure 6(a) shows a RRUFL instance taken from Alvarez-Miranda et al., 2015with set of customers J0 = 1, 2, 3, 4 and set of facilities I0 = A,B,C. Sce-nario ω = 1 is given by J1 = 1, 3, 4, I1 = A,B, A1 = (A, 1), (B, 1), (A, 3),(B, 4) (dashed lines), and scenario ω = 2 by J2 = 2, 3, 4, I2 = B,C,A2 = (B, 2), (B, 4), (C, 3) (dotter lines). In the first stage, all facility set-upcosts are 2 and all allocation costs are 1. In the recourse action, set-up and allo-cation costs are 1.5 and 3, respectively, the cost for reallocating a customer is 2,and the penalty for a facility opened at a non-available site is 3.5. An a priorisolution is shown in Figure 6(b); facility A is opened and customers 1 and 3 areallocated to it. Its total cost is 4. Figure 6(c) shows the optimal recourse actionfor scenario ω = 1 for this a priori solution: facility A remains open and facilityB must be opened; customers 1 and 3 keep their allocations while customer 4is allocated to B. Thus the cost of the recourse action for ω = 1 is 4.5. Theoptimal recourse action for scenario ω = 2 is shown in Figure 6(d): facility Abecomes unavailable and facilities B and C have to be opened; customers 2 and4 are allocated to B, whereas customer 3 is reallocated to C. Its cost is 18.5corresponding to opening B and C (3 + 3), allocating customers 2 and 4 (1.5 +1.5), reallocating customer 3 (2), plus the penalty for having opened A in the apriori solution (3.5). Therefore, in the worst scenario, the overall first-stage +recourse action cost of the a priori solution is max4 + 4.5, 4 + 14.5 = 18.5.

The RRUFL is to find an a priori solution that minimizes the total a priori+ recourse-action cost in the worst possible scenario. For the above example,

Page 55: BEIO Volumen 32 - Inicio - seio

Uncertainty in Discrete Facility Location 51

Figure 6: Example of an instance and first-and second-stage solutions for the RRUFL.

the optimal a priori solution is to open facility B and to allocate customer 4 toit; the first-stage cost of this solution is 3 and the cost of the recourse action forthe worst scenario is 6, yielding a total cost of 9.

In Alvarez-Miranda et al., 2015 a MILP formulation is proposed for theRRUFL which uses the following sets of decision variables for the a priori solu-tion: y0 ∈ 0, 1|I0| binary vector such that y0i = 1 if facility i ∈ I0 is opened(at cost f0

i ) and y0i = 0 otherwise; x0 ∈ 0, 1|A0| binary vector such thatx0ij = 1 if the link (i, j) ∈ A0 is used to allocate customer j ∈ J0 to the facility

i ∈ I0 (at cost c0ij) and x0ij = 0 otherwise. Hence, a first-stage solution is a pair

(y0,x0) ∈ 0, 1|I0|+|A0| satisfying

x0ij ≤ y0i , (i, j) ∈ A0 (6.1)

(i,j)∈A0

x0ij ≤ 1, j ∈ J0. (6.2)

For a given a priori solution (y0,x0) the decisions of the recourse actioncorresponding to scenario ω ∈ Ω, are dictated by the values of the following setsof decision variables: yω ∈ 0, 1|Iω| binary vector such that yωi = 1 if facilityi ∈ Iω is opened (at cost fω

i ) and yωi = 0 otherwise; xω ∈ 0, 1|Aω| binary vectorsuch that xω

ij = 1 if the link (i, j) ∈ Aω is used to allocate customer j ∈ Jω tofacility i ∈ Iω (at cost cωij) and xω

ij = 0 otherwise; and, zω ∈ 0, 1|Aω| binaryvector such that zωjl = 1 if the link (l, j) ∈ Aω is used to reallocate customerj ∈ Jω to facility l ∈ Iω (at cost rωjl) and zωjl = 0 otherwise. If facility i ∈ I0 isopened in the a priori solution (y0i = 1) and location i is available for scenarioω in the second stage (i ∈ Iω), then facility i remains open and no extra cost isincurred; instead, if location i is not available in the second stage (i ∈ I0 \ Iω),then a penalty pωi must be paid.

The recovery cost of the a priori solution (y0,x0) for scenario ω ∈ Ω, is theminimum total cost ρ(y0,x0,ω) of the recourse action (yω,xω, zω) needed to

Page 56: BEIO Volumen 32 - Inicio - seio

52 M. Albareda-Sambola, E. Fernandez

render (y0,x0) feasible for scenario ω. Hence, ρ(y0,x0,ω) is the optimal valueto the following recovery problem:

ρ(y0,x0,ω

)

= min∑

i∈Iω

fωi

(yωi − y0i

)+

(i,j)∈Aω

cωijxωij+

(l,j)∈Aω

rωjlzωjl +

i∈I0\Iω

pωi y0i

(6.3)

s.t.∑

(i,j)∈A0

x0ij +

(i,j)∈Aω

xωij = 1, j ∈ Jω (6.4)

(i,j)∈A0\Aω

x0ij ≤

(l,j)∈Aω

zωjl, j ∈ Jω (6.5)

xωij + zωji ≤ yωi , (i, j) ∈ Aω, j ∈ Jω (6.6)

y0i ≤ yωi , i ∈ Iω (6.7)

yω ∈ 0, 1|Iω|, xω ∈ 0, 1|A

ω|, zω ∈ 0, 1|Aω|. (6.8)

Objective function (6.3) accounts for the overall cost in the second-stage:facilities set-up costs (

∑i∈Iω fω

i (yωi − y0i )); allocation costs (

∑(i,j)∈Aω cωijx

ωij);

reallocation costs (∑

(l,j)∈Aω rωjlzωjl); and the total penalty due to facilities opened

in the first stage that are no longer available in scenario ω ∈ Ω (∑

i∈I0\Iω pωi y0i ).

Constraints (6.4) state that a customer is either allocated in the first stage(∑

(i,j)∈A0 x0ij) or in the second-stage (

∑(i,j)∈Aω xω

ij). Constraints (6.5) modelthe fact that if a customer j ∈ Jω has been allocated in the a priori solutionby means of a link that is no longer available ((i, j) ∈ A0\Aω) then it has tobe reallocated through a link (l, j) available in the second-stage (

∑(l,j)∈Aω zωjl).

Constraints (6.6) impose that if a customer is allocated or reallocated to a facilityi ∈ Iω, then facility i must be available and reachable in the second-stage. Thefact that a facility that has been opened in the first stage should remain openin the second stage is modeled by (6.7). The domain of the variables is definedin (6.8).

For a given first-stage solution (y0,x0) the robust recovery cost R(y0,x0)corresponds to the maximum recovery cost among all ω ∈ Ω, i.e.,

R(y0,x0

)= max

ω∈Ωρ(y0,x0,ω

). (6.9)

Page 57: BEIO Volumen 32 - Inicio - seio

Uncertainty in Discrete Facility Location 53

Combining (6.1)-(6.2), (6.3)-(6.8) and (6.9), a formulation for the RRUFL is

OPTRR =min∑

i∈I0

f0i y

0i +

(i,j)∈A0

c0ijx0ij +R

(x0,y0

)(6.10)

R(y0,x0

)≥ ρ

(y0,x0,ω

)ω ∈ Ω (6.11)

s.t. (6.1)-(6.2), (6.4)-(6.8) and (x0,y0) ∈ 0, 1|A0|+|I0|. (6.12)

Formulation (6.10)-(6.12) has a polynomial number of variables and con-straints with respect to |J0|, |A0| and |Ω|. Therefore it can be solved directlythrough any state-of-the-art MILP solver. Nevertheless, when large realisticinstances have to be solved, the direct use of solvers turns out to be impractical.

In Alvarez-Miranda et al., 2015 a sophisticated branch-and-cut frameworkbased on Benders decomposition was designed and complemented by severalnon-trivial enhancements. Observe that formulation (6.10)-(6.12) is a naturalcandidate to be solved by means of a Benders type decomposition method: thefirst-stage variables (y0,x0) are incorporated in the master problem and thesecond-stage variables (yω,xω, zω) are replaced by a single variable η represent-ing the robust recovery cost of a given (y0, x0), which can be computed bysolving |Ω| slave problems. Hence, for each given value of

(y0,x0,ω

), η can be

computed by independently solving |Ω| problems (6.3)-(6.8).

Two large sets of realistic instances (more than 7500 in total) incorporatingspatial and demographic information of Germany and US in the first set, andBangladesh and the Philippines in the second set are used in Alvarez-Miranda etal., 2015 as benchmarks for potential applications of the RRUFL in the contextof transportation and disaster management, respectively. The authors used theseinstances to study the performance of their solution algorithm, which producedgood quality solutions within short computing times. Computational experi-ments were also run to analyze the characteristics of the RRUFL model and itssolutions. The results showed the strong influence of the instance cost structureon both the algorithmic performance and solution characteristics.

7. Some final comments

The possibility to take into account uncertain data in decision making be-comes specially relevant when the decisions are made at a strategic level, since,in this case, decisions must be made much before most of the relevant informa-tion is completely revealed. This is the case of many DLPs in which locationdecisions must be made before having detailed information on the customersbehavior, the communication network or even the actual system performance.

This paper overviews some of the most relevant issues when dealing withuncertainty in discrete optimization. For this we have explored the large area ofDL where multiple models exist that highlight the various modeling difficulties

Page 58: BEIO Volumen 32 - Inicio - seio

54 M. Albareda-Sambola, E. Fernandez

and solution options, Correia et al., 2015. On the basis of three different exam-ples, we illustrate how different alternatives can be considered in several aspectsof the modeling process when uncertainty is present.

This includes alternative ways of representing uncertain data, each corre-sponding to a different level of knowledge of its behavior. Also, different succes-sions of decisions and data disclosure can be considered, depending on wether ornot corrective actions are allowed once (some of the)uncertain data is revealed.Furthermore, several choices exist also for measuring the suitability of a solutionwithin a stochastic context. They range from situations where feasibility is mea-sured in terms of the probability of satisfying a given constraint, to situationswhere, basically, the possible outcomes of the random variables affect in one oranother way the solution costs.

From the examples discussed in this work one can see that in some very par-ticular cases, depending on the modeling assumptions, it is possible to developcompact deterministic formulations that take into account the stochasticity with-out resorting to scenario enumeration. Only in these situations one can expectsolving mid-size instances with a reasonable computational effort using generalMILP solvers. When this is not the case, the resulting formulations tend to in-volve a huge number of decision variables, that are typically associated with thedifferent possible scenarios. In these cases, however, the formulations are heavilystructured (blocks of variables corresponding to one scenario each can easily beidentified), which encourages the design of specific algorithms that, taking ad-vantage of this structure, allow to solve efficiently the considered problems. Thisobservation extends to many other stochastic DLPs available in the literaturethat are not covered in this paper.

Acknowledgements This research was partially funded through grant MTM2012-36163-C06:04-05 of the Spanish Ministry of Science and Education and ERDFfunds.

References

[1] Albareda-Sambola, M., Fernandez, E., and Saldanha da Gama, F. (2011).The facility location problem with bernoulli demands. Omega, 39, 335–345.

[2] Albareda-Sambola, M., Alonso-Ayuso, A., Escudero, L. F., Fernandez, E.,Hinojosa, Y., and Pizarro, C. (2009). A Computational comparison of sev-eral formulations for the multi-period incremental service facility locationproblem, TOP, 18, 62–80.

[3] Albareda-Sambola, M., Alonso-Ayuso, A., Escudero, L.F., Fernandez, E. andPizarro, C. (2013). Fix-and-Relax-Coordination for a Multi-period Location-Allocation Problem under Uncertainty, COMPUT OPER RES, 40, 2878–2892.

Page 59: BEIO Volumen 32 - Inicio - seio

Uncertainty in Discrete Facility Location 55

[4] Alonso-Ayuso, A., Escudero, L.F. and Ortuno, M.T. (2003). BFC, a Branch-and-Fix Coordination algorithmic framework for solving stochastic 0-1 pro-grams. EUR J OPER RES, 151, 503–519.

[5] Alonso-Ayuso, A., Escudero, L.F., Ortuno, M.T. and Pizarro, C. (2007). Ona Stochastic Sequencing and Scheduling problem. COMPUT OPER RES,34, 2604–2624.

[6] Alvarez-Miranda, E., Fernandez, E. and Ljubic, I. (2015). The RecoverableRobust Facility Location Problem. TRANSPORT RES B-METH, 79, 93–120.

[7] Birge, J. R. and Louveaux, F. (2011). Introduction to Stochastic Program-ming, Springer, New York.

[8] Correia, I. and Saldanha da Gama, F. (2015). Facility location under uncer-tainty. In: Location Science, Laporte, G., Nickel, S. and Saldanha da Gama,F. (Eds.), Springer.

[9] Daskin, M. S., Coullard, C. R. and Shen, Z. M. (2002). An Inventory-Location Model: Formulation, Solution Algorithm and Computational Re-sults. ANN OPER RES, 110, 83–106.

[10] Daskin, M. (2013). Network and Discrete Location: Models, Algorithms,and Applications, Wiley, 2nd edition.

[11] Dillenberger, C. H., Escudero, L. F., Wollensak, A. and Zang, W. (1994).On practical resource allocation for production planning and scheduling withperiod overlapping setups. EUR J OPER RES, 75, 275–286.

[12] Drezner, Z., Hamacher, H. W. (Eds.). (2002). Facility Location: Applica-tions and Theory, Springer, New York.

[13] Eiselt, H. A. and Marianov, V. (Eds.). (2011). Foundations of LocationAnalysis. In: International Series in Operations Research & ManagementScience, vol. 155, Springer.

[14] Fernandez, E. and Landete, M. (2015). Fixed-Charge Facility LocationProblems. In: Location Science, Laporte, G., Nickel, S. and Saldanha daGama, F. (Eds.), Springer.

[15] Jiaa, H., Ordonez, F. and Dessouky, M. (2007). A modeling framework forfacility location of medical services for large-scale emergencies. IIE Transac-tions, 39, 41–55.

[16] Kleywegt AJ, Shapiro, A. and Homem-de-Mello, T. (2001). The SampleAverage Approximation Method for Stochastic Discrete Optimization. SIAMJournal Optimization, 12, 479–502.

Page 60: BEIO Volumen 32 - Inicio - seio

56 M. Albareda-Sambola, E. Fernandez

[17] Klose, A. Drexl, A. (2005). Facility location models for distribution systemdesign. European Journal of Operational Research, 162, 4–29.

[18] Melo, M. T. Nickel, S. and Saldanha-da-Gama, F. (2009). Facility locationand supply chain management - A review. EUR J OPER RES , 196, 401–412.

[19] Miller, B. L. and Wagner, H. M. (1965). Chance-constrained programmingwith joint constraints. OPER RES, 13, 930–945.

[20] Nagy, G. and Salhi, S. (2007). Location-routing: Issues, models and meth-ods. EUR J OPER RES, 177, 649–672.

[21] Owen, S. H. and Daskin, M. S. (1998). Strategic facility location: A review.EUR J OPER RES, 111, 423–447.

[22] Shapiro, A., Dentcheva, D. and Ruszczynski, A. (2014). Lectures onStochastic Programming - Modeling and Theory. MOS-SIAM Series on Op-timization, 16.

[23] Shen, Z., Zhan, R. and Zhang, J. (2011). The Reliable Facility Loca-tion Problem: Formulations, Heuristics, and Approximation Algorithms.NFORMS J Comput, 23, 470–482.

[24] Zhang, M., Kucukyavuz, S. and Goel, S. (2014). A branch-and-cut methodfor dynamic decision making under joint chance constraints. MANAGE SCI,60, 1317–1333.

About the authors

Marıa Albareda is Associate Professor in the Statistics and Operations Re-search department of Universitat Politecnica de Catalunya. Her research linesinclude discrete optimization problems arising in logistics. In particular, she hasworked on vehicle routing and discrete location both, under deterministic andstochastic assumptions. Her work on these problems has given rise to over 20publications in International journals. She is currently a member of the edito-rial advisory board of Computers & Operations Research, and of ComputationalOptimization and Applications.

Elena Fernandez is Professor in the Department of Statistics and OperationsResearch at Universitat Politecnica de Catalunya- BcnTech in Barcelona. Herresearch interest focuses on discrete optimization, mainly in discrete location,network design and vehicle routing. Elena is author of over 60 scientific papers,with about 40 co-authors from a dozen of different countries. She is an associateeditor of TOP, the Operations Research Journal of the Spanish Society SEIO,

Page 61: BEIO Volumen 32 - Inicio - seio

Uncertainty in Discrete Facility Location 57

and belongs to the editorial board of Computers & Operations Research andof the recently created EURO Journal on Computation Optimization. Elena isthe President of The Association of European Operational Research Societies,EURO, for the period 2015-2016.

Page 62: BEIO Volumen 32 - Inicio - seio

Boletın de Estadıstica e Investigacion OperativaVol. 32, No. 1, Marzo 2016, pp. 58-68

Estadıstica Oficial

A Reflection regarding the Official Data Treatment inApplied Statistics

Leonel Cerno

Instituto de Estudios Fiscales y Universidad Complutense de Madrid

! [email protected]

Abstract

Problems such as multicollinearity, missing data and misspecification

as a consequence of non observable latent variables are some of the trou-

bles where the researchers in social sciences have to deal when they treat

with real data. From the 70’s onwards, the introduction of Structural

Equation Systems into the applied research has been received with great

interest because there’s a solution of main difficulties founded for the First-

Generation techniques (such as regression-based approach). Nevertheless,

in spite of this possibility, not all researchers are aware both the useful-

ness and easiness from one of the technical framed within them: the PLS

regression. Therefore, the main goal of this article is to present it. As this

article was written in an introductory way, there are not almost math-

ematical details, although there are a lot of suggested readings for who

wants to deepen.

Keywords: PLS regression, linear regression, multicollinearity, latent

variables.

AMS Subject classifications: 62P10, 62P20, 62P25, 93E24.

1. Introduccion

La investigacion en las ciencias experimentales envuelve distintos tipos devariables. En economıa o sociologıa, por ejemplo, con frecuencia contamos convariables controlables y facilmente medibles, a veces denominadas “factores”.A partir de estos factores se intentan descubrir relaciones causales, o dicho deotra manera, se intentan explicar, regular o predecir el comportamiento de otrasvariables (variables respuesta). Dichos factores pueden ser medidos de distintasmaneras, y pueden ser abundantes o escasos.

Si hubiera pocos factores, si no existe “redundancia significativa” (problemasde multicolinealidad) y si la relacion entre variables es clara y bien explicada

c⃝ 2016 SEIO

Page 63: BEIO Volumen 32 - Inicio - seio

A Reflection regarding the Official Data Treatment in Applied Statistics 59

por algun fundamento teorico, entonces la regresion lineal multiple ordinaria,enmarcada dentro de las tecnicas de “primera generacion”1, sera el metodo massencillo e intuitivo de aplicar y mas robusto para medir dichas relaciones causales.Ası, principalmente a partir del siglo XX los investigadores empıricos de lasciencias sociales que utilizan datos oficiales suelen aplicar este tipo de metodosen donde encuentran interesantes resultados en sus investigaciones (Spearman,1904, Altman, 1968, Hofstede, 1983, solo por mencionar algunos).

Sin embargo, si alguna de estas condiciones mencionadas mas arriba no sediera, entonces la regresion ordinaria puede ser completamente ineficaz. No espoco usual que en las aplicaciones de estas tecnicas a datos oficiales los inves-tigadores se encuentren con variables relacionadas entre sı a traves de vınculosespurios o difusos (lo que reduce el objetivo solo a la construccion de un buenmodelo predictivo, dejando de lado todo lo demas) o se encuentren con muchı-simos factores, poco correlacionados entre sı, que si bien ajustan muy bien unaregresion a una muestra determinada, suelen predecir mal (problemas de sobre-ajuste). Todo esto sin mencionar los problemas de especificacion de las funcionescausales o el asumir que todos los factores influyentes son observables, dejandode lado los factores “latentes”. A su vez, el inconveniente de considerar que todaslas variables utilizadas estan medidas sin ningun error.

El presente artıculo tiene como finalidad retomar la discusion acerca de losproblemas que se encuentra el investigador de las ciencias sociales cuando intentarealizar inferencia estadıstica con datos reales publicados por las oficinas estadıs-ticas, por lo general haciendo tanto uso como abuso de la regresion lineal (Box,1966) y otras herramientas hoy muy extendidas gracias a los programas informa-ticos al alcance de todos. A su vez, se plantean diferentes alternativas, centran-dose principalmente en la regresion de Mınimos Cuadrados Parciales (PartialLeast Square regression, en ingles, de aquı en adelante PLS).

2. El problema de los factores latentes

En su artıculo seminal de 1966, George Box empieza planteando que la re-gresion lineal tal y como la conocemos actualmente, la propuso Gauss en 1821basandose en un trabajo de Legendre de 1805. Gauss demostro que si tenemos nobservacione y1...yn y si la relacion causal con otras variables se puede expresaren la forma yi = β0 + β1xi1 + ...+ βkxik + εi, donde los βi son parametros des-conocidos, las xi son variables no estocasticas, y las εi son variables aleatoriasincorrelaccionadas entre sı y tienen todas una media igual a cero y la mismavarianza, se podran obtener estimadores insesgados y de mınima varianza alminimizar

∑(yi − yi)

2 en donde yi = β0 + β1xi1 + ... + βkxik. Este metodode estimacion, conocido como Mınimos Cuadrados, se ha utilizado y se sigue

1Enfoques basados en la regresion tales como el analisis discriminante, la regresion logısticao el analisis de varianza, entre otras.

Page 64: BEIO Volumen 32 - Inicio - seio

60 L. Cerno

utilizando muchısimo en el tratamiento de los datos en las ciencias sociales, endonde se busca ası, a traves del ajuste del modelo especificado, estimar los efectosparciales de las xi en las yi.

Sin embargo, en la investigacion con datos aplicada, muchas veces se cometenerrores importantes porque casi siempre se cae en la tentacion de quedarse conlos resultados obtenidos y confiar ciegamente en la primera diagnosis realizada(bondad de ajuste, significatividad individual y global aceptables) y trivializarla idea de que realmente el termino εi esta describiendo el efecto de un grannumero de variables que perturban la relacion lineal originalmente especificaday que cuya verdadera importancia en la descripcion de las variaciones de yi sedesconoce.

Ası, por ejemplo, si se plantean tambien efectos lineales de esos factoreslatentes, de manera tal que εi = βk+1xik+1 + βk+2xik+2...+ βmxim, en notacionvectorial tendrıamos entonces que la verdadera especificacion serıa Y = XT

1 B1+XT

2 B2 en donde XT1 son los valores de k factores observables, y XT

2 son loselementos de m− k variables latentes.

Estudiar el impacto de una o dos variables aisladamente podrıa casi siem-pre resultar relativamente artificial e inconsecuente debido a que se vive en unmundo complejo y multivariante (Jacoby, 1978). Sin embargo ya se sabe desdeel inicio del tratamiento de datos que al construir un modelo que los relacione,siempre se omiten aspectos de la realidad (Shugan, 2002). Ası, cuando se pre-tende estudiar situaciones mas complejas o mas realısticas, la regresion linealpodrıa ser muy limitada en su aplicacion, principalmente al asumir que todas lasvariables que se estan utilizando en el analisis son perfectamente observables, locual, estrictamente hablando, no se pueden considerar como tal ya que no hansido obtenidas a traves de la muestra de un“experimento” (Mc Donald, 1996). Asu vez, y a pesar de tratarse de microdatos publicados por oficinas estadısticas,practicamente siempre las variables con datos recogidos del mundo real que seutilizan en los modelos aplicados estan medidas con error. Los errores pueden seraleatorios (provocados por el orden de los ıtems en el cuestionario de la encuesta,o la propia fatiga de la persona que esta siendo encuestada, etc.) o sistematicos(parte de la varianza atribuida al metodo de medida utilizado) y se desconocecual es mayor o menor en cada caso. Entonces, el valor de cada variable serasiempre la suma de tres componentes: el verdadero valor, el error aleatorio y elerror sistematico (Heeler y Ray, 1972; Churchill, 1979; Bagozzi, Yi y Philipps,1991).

Estrictamente hablando, la tecnica de la regresion lineal y otras tecnicas deprimera generacion solo seran aplicables cuando no haya ni errores sistematicosni errores aleatorios formando parte de las variables que se utilizan.

Para superar todas estas limitaciones mencionadas, se plantea el uso de al-ternativas consideradas de segunda generacion, tales como los Modelos de Ecua-ciones Estructurales.

Page 65: BEIO Volumen 32 - Inicio - seio

A Reflection regarding the Official Data Treatment in Applied Statistics 61

Los Modelos de Ecuaciones Estructurales (MEE) son un tipo de planteamien-to que va mas alla del enfoque de la regresion lineal que considera relacionescausales entre una variable dependiente y un conjunto de variables independien-tes al mismo tiempo. Aquı se permite la “simultaneidad” en las relaciones talque ya no se diferencie entre variables dependientes e independientes pero que sıdistinga entre variables exogenas y endogenas latentes (Diamantopoulos, 1994).A su vez, permite al investigador construir variables no observables a traves deindicadores (variables independientes), determinar los errores de medida de lasvariables observables como ası tambien darle al investigador la posibilidad de un“analisis confirmatorio”2 (Chin, 1998).

Existen dos enfoques para estimar los parametros de un MEE: el enfoquebasado en la covarianza, y el basado en la varianza (o en los componentes). Elprimero tuvo su gran apogeo en las decadas de los 70, 80 y 90 en donde mu-chos investigadores aplicados de las ciencias sociales utilizaron el enfoque basadoen la covarianza, utilizando diferentes herramientas informaticas y obteniendoresultados muy interesantes.

Una de las tecnicas enmarcadas dentro del segundo enfoque, el basado en lavarianza, actualmente esta teniendo bastante repercusion en ciertas aplicaciones,principalmente en la investigacion de mercados y el marketing. Dicho metodo yafue mencionado mas arriba como PLS. Esta tecnica fue propuesta formalmentepor S. Wold en 1975.

La idea general de PLS es extraer los factores latentes no observables querecojan la mayor parte de la variabilidad de la variable respuesta. De esta ma-nera, se estarıa recogiendo la mayor parte de la variacion de los factores realesy se estarıa modelizando de la mejor manera posible las relaciones causales. Susaplicaciones no son particularmente complicadas y las hipotesis de partida son defacil cumplimiento, pero sobre todo presenta mejoras considerables en la ayudade la interpretacion de los resultados. Es una tecnica accesible para principian-tes en el conocimiento de estadıstica en general, y de modelos estructurales enparticular.

A continuacion, en los apartados siguientes el artıculo se centrara en la uti-lidad del metodo factorial PLS y presentar su interes dentro de las cienciasexperimentales.

3. Otras salvedades al relacionar variables

Es bien sabido tanto en econometrıa como en otras ramas de las cienciassociales en donde se aplican tecnicas de inferencia estadıstica, que la presenciade multicolinealidad acarrea consecuencias de inestabilidad de los coeficientesde regresion de manera que pueden tener signos erraticos o pueden llegar a

2Realizacion de contrastes apriorısticos de la especificacion teorica y de los supuestos ini-ciales de los datos empıricos.

Page 66: BEIO Volumen 32 - Inicio - seio

62 L. Cerno

ser no significativos individualmente y significativos globalmente, produciendoserios problemas de interpretacion de la ecuacion especificada. A lo largo detoda la bibliografıa econometrica dedicada a este tema suele ser importante nosolo detectar la multicolinealidad sino tambien tomar medidas para atenuarla.Es decir, el problema no es que haya o no haya correlacion entre las variablesexplicativas y estas a su vez con la variable respuesta, sino que dicha correlacion,elevada o no, sea realmente un problema de imprecision e inestabilidad a la horade estimar e interpretar las estimaciones.

Otras dos situaciones problematicas que habrıa que mencionar son cuandohay mayor numero de variables que de individuos, y la existencia de datos au-sentes. La primera situacion conlleva a que el determinante de XTX sera nulo,mientras que en cuanto a los datos ausentes, existe la alternativa bastante exten-dida de la imputacion, en sus diferentes variantes. Tambien hay otra alternativa,que aunque menos difundida, resulta muy eficaz. Esta opcion es el algoritmoNIPALS 3 (Wold y Lyttkens, 1969). Al aplicar este algoritmo a conjuntos dedatos con valores ausentes, no es necesaria la supresion de individuos ni la impu-tacion de dichos valores. Si bien dicha herramienta no estuvo tan difundida ensu momento, actualmente se la puede hallar en paquetes estadısticos libres talescomo R o de pago como Matlab.

4. La regresion PLS como una opcion a considerar

Como se menciona mas arriba en este artıculo, hay dos enfoques en la es-timacion de parametros con MEE. El enfoque de la covarianza lo que hace esminimizar las diferencias en las covarianzas muestrales observadas y las predi-chas por el modelo especificado. Concretamente, lo que intenta el proceso deestimacion es reproducir la matriz de covarianzas de las medidas observadas(Chin y Newsted, 1999). Existe una amplia variedad de artıculos tanto teoricoscomo aplicados en donde se encuentra la introduccion a esta tecnica, a distintosniveles. Un buen resumen se encuentra en Diamantopoulos (1994).

La regresion PLS, como se menciono ya, fue introducida formalmente porWold (1975) bajo el nombre de NIPALS. Desde el punto de vista teorico, se en-foca en la maximizacion de la varianza de las variables dependientes explicadaspor las variables independientes en lugar de reproducir la matriz de covarianzasempırica. Consiste en una parte estructural en donde se refleja la relacion conlas variables latentes, y un componente de medida que muestra como las varia-bles latentes y sus indicadores estan relacionados. Pero tambien hay un tercer

3El algoritmo NIPALS (Nonlinear Iterative Partial Least Squares) considerado como elpredecesor de la regresion PLS, el metodo permite la realizacion de un analisis de datos ausentescon Componentes Principales del triplete (X,Q,D) donde:

X: Matriz (n× p) de datos cuantitativos centrados por columnas.Q: Metrica de dimension (p× p) que calcula la distancia entre individuos.D: Metrica de dimension (n× n) que calcula la distancia entre variables.

Page 67: BEIO Volumen 32 - Inicio - seio

A Reflection regarding the Official Data Treatment in Applied Statistics 63

elemento, los pesos de relacion, que son utilizados para estimar los componentesque forman parte de las variables latentes.

En contraste con el otro enfoque de estimacion de MEE, la regresion PLScomienza por calcular estos componentes mencionados. Es decir, que variablesinobservables son estimadas como una combinacion lineal exacta de sus indi-cadores empıricos (Fornell y Bookstein, 1982). La regresion PLS trata a esascombinaciones lineales como sustitutos perfectos de las variables latentes (Dijks-tra, 1983).

Los pesos utilizados para determinar esos componentes son estimados demanera tal que capturen lo mas que se pueda de la varianza de las variablesindependientes para poder predecir la variable dependiente (Garthwaite, 1994).Utilizando estos pesos entonces sera posible determinar el valor de cada varia-ble inobservable simplemente calculandolas como promedios ponderados de estosindicadores. Ası, esto resultara un modelo en que todas las variables inobserva-bles son aproximadamente un conjunto de valores que pueden ser estimados pormınimos cuadrados ordinarios de manera simple a la usanza de los modelos deprimera generacion.

Resumiendo lo expuesto, la idea basica de la regresion PLS es bastante sen-cilla e intuitiva (Fornell y Bookstein, 1982):

• Especificacion de relaciones de peso ligadas a indicadores de sus respectivasvariables inobservables.

• Calculo de componentes para cada variable inobservada basandose en elpromedio ponderado de los indicadores utilizando las relaciones de pesocomo input.

• Dichos componentes se utilizan en una regresion ordinaria para estimar losparametros de las relaciones estructurales.

Aquı se deduce que la parte crucial en la regresion PLS es justamente la esti-macion de las relaciones de peso. Podrıa ser facil considerar para todos los indica-dores el mismo peso4, pero este planteamiento tendrıa dos desventajas: primero,no es teoreticamente aceptable que todos los indicadores tengan exactamenteel mismo peso, y segundo, no se estarıa considerando que algunos indicadorespodrıan ser mejores o mas confiables que otros y que deberıan tener mayor peso(Chin, Marcolin y Newsted, 2003). Consecuentemente, la regresion PLS utilizaun planteamiento complejo en dos etapas para estimar los pesos (wi): primero,los valores de cada variable latente se estiman como un promedio ponderado desus respectivos indicadores:

4Los parametros estimados en los Modelos de Ecuaciones Estructurales dependeran del tipode peso utilizados siempre que el numero de los mismos no sea excesivo (McDonald, 1996)

Page 68: BEIO Volumen 32 - Inicio - seio

64 L. Cerno

γA2 = w1y3 + w2y4.

Los pesos se determinan en una manera similar al analisis de componentesprincipales o analisis de regresion de indicadores formativos (Cassel, Hack yWestlund, 1999). En el paso siguiente, se mejora el componente calculando unpromedio ponderado de las variables latentes cercanas:

γB2 = w3γ

A1 + w4δ

A1 + w5δ

A2 + w6δ

A3

Utilizando esta segunda estimacion del componente, las relaciones de pesoson modificadas:

γB2 = wA

1 y3 + wA2 y4

Ası, el proceso vuelve al inicio nuevamente y se repetira hasta una conver-gencia considerada para los componentes (Cassel et al., 1999)5.

Por lo tanto, la regresion PLS tiene la ventaja de que en un contexto de infor-macion limitada no hay necesidad de realizar supuestos acerca de la poblacion olas escalas de medida (Fornell y Bookstein, 1982; Dijkstra, 1983), y ası estima sinsupuestos distribucionales y con cualquier tipo de variable (nominal, ordinal oescala de intervalo). Sin embargo, al tratarse de una tecnica estadıstica, siemprehabra algun tipo de supuesto a cumplirse. Ademas de aquellos clasicos supuestosdel modelo de regresion lineal que aparecen en cualquier libro de econometrıabasica, el supuesto mas importante es la especificacion del predictor (Chin yNewsted, 1999). Es decir, que la parte sistematica de la regresion lineal debeser igual a la esperanza condicional de la variable dependiente (Wold, 1975) ydebera cumplirse en muchos casos6.

Por otro lado, hay que mencionar que la regresion PLS adolece de algunosproblemas cronicos de consistencia. Por lo que ya se conoce y cuya definicion laencontramos en los libros de econometrıa, un estimador consistente es aquel queconverge en probabilidad al valor desconocido del parametro a medida que el ta-mano de la muestra se incrementa. Pero los componentes de las variables latentesen la regresion PLS, que son agregados de variables observables que envuelven

5Para una explicacion simple y detallada del proceso, tanto teorica como practica, se reco-mienda a Valencia Delfa y Dıaz-Llanos.

6Sin embargo, Cassel et al. (1999) utilizando una simulacion de Monte Carlo demuestranque la regresion PLS es bastante robusta con respecto a ciertas insuficiencias como asimetrıao multicolinealidad de las variables o incluso mala especificacion del modelo estructural.

Page 69: BEIO Volumen 32 - Inicio - seio

A Reflection regarding the Official Data Treatment in Applied Statistics 65

seguramente errores de medida, se deberıan considerar como inconsistentes (For-nell y Cha, 1994). Sin embargo, se salvaguarda la cuestion al demostrarse quelos coeficientes estimados con PLS convergen a los parametros de un modelo devariables latentes sı y solo sı tanto el tamano de la muestra como el numerode indicadores de cada variable latente tiende a infinito (McDonald, 1996) Esteproblema se conoce como “consistencia en general”7. Ası, en una situacion realen el que el numero de observaciones en la muestra y el numero de variablesobservables por cada variable latente es finito, la regresion PLS tendera a sub-estimar las correlaciones entre las variables latentes y sobreestimar los pesos, ysolo cuando el numero de casos en la muestra y el numero de indicadores porvariable latente tiendan a infinito este problema mencionado ira desapareciendo(Lohmoller, 1989).

5. Conclusiones

La idea del presente artıculo es realizar una vision general de los tıpicos pro-blemas con los que se encuentra el investigador social que trabaja con datos ofi-ciales. Se espera dar una primera impresion de la estimacion mediante regresionPLS de los MEE en particular como solucion a muchos de estos inconvenientes,y asumir sus ventajas y desventajas. Existen muchos puntos al respecto en losque no se ha profundizado o que se han dejado de lado. Referente a la regresionPLS hay tambien muchos puntos adicionales que merecen una especial atencion.Por ejemplo, la cuestion del tamano muestral. Cuando el tamano muestral esespecialmente pequeno, la regresion PLS es totalmente recomendable, pero al-gunos autores (Nassel y Wisenbaker, 2003) recomiendan un mınimo de tamanomuestral de 200 observaciones, para evitar resultados ambiguos que no se puedeninterpretar como por ejemplo estimaciones negativas de varianzas o correlacionesmayores que uno. Sin embargo, otros autores (Chin y Newsted, 1999) demues-tran con simulaciones de Monte Carlo que la regresion PLS puede aplicarse sinproblemas graves con tamanos muestrales menores a 50. Pero al considerar elproblema cronico de consistencia mencionado en el apartado anterior, la cuestionde si estos resultados son realmente utiles es difıcil de responder. Es decir que ladiscusion no se acaba aquı, sino que en realidad acaba de empezar.

Resumiendo, para profundizar en el tema se recomiendan principalmente tresreferencias. A Wold (1975), en donde se presenta por primera vez PLS, a Loh-moller (1989) con una extensiva discusion de este enfoque, y a McDonald (1996)en donde continua con la discusion anterior agregando variables compuestas. Encuanto a referencias en castellano, se recomienda el libro de texto de ValenciaDelfa y Dıaz-Llanos y Sainz Calleja (2003) en donde se podran incluso encontrarsencillos ejemplos introductorios.

7Consistency at large, en ingles.

Page 70: BEIO Volumen 32 - Inicio - seio

66 L. Cerno

Referencias

[1] Altman, E. I. (1968). Financial ratios, discriminant analysis and the predic-tion of corporate bankrupcy. Journal of Finance, 23, 589-609.

[2] Bagozzi, R., Yi, Y. y Philipps, L. (1991). Assessing construct validity inorganizational research. Administrative Science Quarterly, 27, 421-458.

[3] Box, G. (1966). Use and abuse of regression. Technometrics, 8 (4), 625-629.

[4] Cassel, C., Hackl, P. y Westlund, A. (1999). Robustness of partial leastsquares method for estimating latent variable quality structures. Journal ofApplied Statistics, 26, 435-446.

[5] Chin, W. (1998). The partial least squares approach to structural equa-tion modelling. En: Marcoulides, G. (Ed.), Modern Methods of BussinessResearch, 295-336, Mahwah, NJ: Lawrence Erlbaum Associates, Inc.

[6] Chin, W. y Newsted, P. (1999). Structural equation modelling analysis withsmall samples using partial least squares. En Hoyle, R. (Ed.) StatisticalStrategies for Small Sample Research, 307-341, Thousand Oaks, CA: Sage.

[7] Chin, W., Marcolin, B. y Newsted, P. (1996). A partial least squares latentvariable modelling approach for measuring interaction efffects: Results froma Monte Carlo simulation study and voice mail emotion/adoption study(mimeo). Artıculo presentado en la 17th International Conference on Infor-mation Systems, Cleveland, Ohio.

[8] Chin, W., Marcolin, B. y Newsted, P. (2003). A partial least squares latentvariable modelling approach for measuring interaction efffects: Results froma Monte Carlo simulation study and voice mail emotion/adoption study.Information System Research, 4, 189-217.

[9] Churchill, G. (1979). A paradigm for developing better measures of marke-ting constructs. Journal of Marketing Research, 16, 64-73.

[10] Diamantopoulos, A. (1994). Modelling with LISREL: A guide for the uni-nitiated. Journal of Marketing Management, 10, 105-136.

[11] Dijkstra, T. (1983). Some comments on maximum likelihood and partialleast squares methods. Journal of Econometrics, 22, 67-90.

[12] Fornell, C. y Bookstein, F. (1982). Two structural equation models: LIS-REL and PLS applied to consumer exit-voice theory. Journal of MarketingResearch, 19, 440-452.

Page 71: BEIO Volumen 32 - Inicio - seio

A Reflection regarding the Official Data Treatment in Applied Statistics 67

[13] Fornell, C. y Cha, J. (1994). Partial least squares. En Bagozzi, R. (Ed.), Ad-vanced Methods of Marketing Research, 52-78, Cambridge, England: Black-well.

[14] Garthwaite, P. (1994). An interpretation of partial least squares. Journal ofthe American Statistical Association, 89 (425), 122-127.

[15] Heeler, R. y Ray, M. (1972). Measure validation in marketing. Journal ofMarketing Research, 9, 361-370.

[16] Hofstede, G. (1983). The cultural relativity of organizational practices andtheories. Journal of International Business Studies, 14, 75-89.

[17] Jacoby, J. (1978). Consumer research: A state of the art review. Journal ofMarketing, 42, 87-96.

[18] Lohmoller, J. (1989). Latent variable path modelling with partial least squa-res, Heidelberg, Germany: Physica Verlag.

[19] McDonald, R. (1996). Path analysis with composite variables. MultivariateBehavioral Research, 31, 239-270.

[20] Nasser, F. y Wisenbaker, J. (2003). A Monte Carlo study investigating theimpact of item parceling on measures of fit in confirmatory factor analysis.Educational and Psicological Measurement, 63, 729-757.

[21] Shugan, S. (2002). Marketing science, models, monopoly models, and whywe need them. Marketing Science, 21, 223-228.

[22] Spearman, C. (1904). ’General intelligence’, objetively determined and mea-sured. American Journal of Psychology, 15, 201-293.

[23] Valencia Delfa, J.L. y Dıaz Llanos y Sainz Calleja, J. (2003). Regresion PLSen las ciencias experimentales, Lınea 300, Ed. Complutense.

[24] Wold, H. (1975). Path model with latent variables: The NIPALS approach.En: Blalock, H., Aganbegian, F., Borodkin, F., Boudon, R. y Capecchi, V.(Eds.), Quantitative Sociology: International Perspectives on Mathematicaland Statistical Modeling, 307-357, New York: Academic.

[25] Wold, H. y Lyttkens, E. (1969). Non lineal iterative partial least squares(NIPALS) Estimation procedures. Bulletin of the International StatisticalInstitute, 43, 29-51.

Page 72: BEIO Volumen 32 - Inicio - seio

68 L. Cerno

Acerca del autor

Leonel Cerno es doctor en Economıa por la Universidad Complutense de Ma-drid, y miembro del Cuerpo Superior de Estadısticos del Estado desde el ano2008. Su trayectoria profesional se podrıa dividir en dos fases. La primera deella academica, en donde se destaca su labor docente e investigadora en la Uni-versidad Europea de Madrid y en la Universidad Carlos III. La segunda comoestadıstico facultativo, en donde ha formado parte de instituciones de la Admi-nistracion tales como el INE o el Ministerio de Industria, Turismo y Comercio.Actualmente desempena su labor principal como investigador en el Instituto deEstudios Fiscales (Ministerio de Hacienda), siendo tambien profesor asociado dela Universidad Complutense de Madrid.

Page 73: BEIO Volumen 32 - Inicio - seio

Boletın de Estadıstica e Investigacion OperativaVol. 32, No. 1, Marzo 2016, pp. 69-82

Historia y Ensenanza

Effects on Labour of Transportation InfrastructureInvestment: Empirical Studies

Carolina Cosculluela-Martınez

Departamento de Economıa Aplicada IUniversidad Rey Juan Carlos

! [email protected]

Raquel Ibar-Alonso

Departamento de Matematica Aplicada y Estadıstica.Universidad San Pablo CEU

! [email protected]

Abstract

This paper summarizes the history of the empirical works studying the

effects of transportation investment infrastructures on labour. Analyses

the reasons of so many different results and studies if there can be similar

conclusions between them. Results suggest that, at a national level, capi-

tal stock seems to be much more saturated in the United States than in

the European Union Countries in terms of investments in transportation

infrastructures which are employee hiring.

Keywords: Co-integration, Transportation Investment, Stock, Labour,

Elasticity, History.

AMS Subject classifications: 91-02, 62P20, 91B40, 91B51, 91B55,

91B66, 91B70, 91B84, 62M10

1. Introduction

The analysis of how public investment policies have influenced the economicgrowth path have been largely explored in several papers since Aschauer’s (1989a,b) seminal works quantified the effect of public investment on labour, pointedout by Keynes (1937) in the third decade of the past century. Recently, Melo etal. (2013) carried out an analysis of 33 studies confirming that output elasticityto roads is higher than other types of transport investment.

Previous literature to Aschauer’s (1989 a,b) studies, such as Nelson andPlosser (1982), found out random walks in macroeconomic time series, though

c⃝ 2016 SEIO

Page 74: BEIO Volumen 32 - Inicio - seio

70 C. Cosculluela-Martınez, R. Ibar-Alonso

all the papers of transportation series considered conclude that transportationseries follow autoregressive process.

Tatom (1980) used a Cobb-Douglas production function for the business sec-tor in the united States to indicate that the estimations are consistent with thetheory when cyclical behaviour of the factor employment is taken into account.

Cosculluela and Flores (2015) demonstrated that in Cantos et al. (2005) themethodology used to estimate the elasticity of output to different capital stocktypes (roads, ports, airports and railways) do not take into account feedbackimportant effects on all the variables considered, so the estimated elasticity arenot the long run effects that an investment produces on output.

The goal of this paper is to summarize the effects of transportation investmenton labour found in the empirical literature analysing the possible reasons for somany different results and to point out the conclusions of the most recent onesusing multiequational methodologies.

The rest of the paper is organized as follows. Section II shows the selectedstudies. Section III presents the time series and the theoretical models estimatedfor each one of them together with their results. Finally, Section IV provides theconcluding remarks.

2. Effects on labour of transportation investment. MainStudies

The main studies selected are going to be classified in three groups. First,the out-breaking ones, that quantified the theoretical Keynesian economic invest-ment policy effects. Secondly, the ones focused on testing the main conclusionsof the previous empirical literature. And third, the ones providing a policyinstrument to quantify long-term investment effects in the different countries.

2.1. Out-breaking studies

Next the most representative studies of each year from 1989 onwards.

Aschauer (1989 a,b), was one of the first ones to estimate the effect of publiccapital stock on production in the United States, hereafter US. He quantified theeffect on output of public capital considering transportation capital stock as awhole. He estimated a Cobb-Douglas production function so he did not estimatethe effect on labour, that was another exogenous variable in the equation. Thus,he quantified the static effect (without dynamics) of transport capital stock onoutput.

Some authors studied the effect of public capital using cost functions, in whichat the same time they compare disaggregated capital effects (local, federal andnational) with the total aggregated effect. Lynde and Richmond (1992) use theproduction function together with the cost function to estimate the cost functionin the non-financial sector in US.

Page 75: BEIO Volumen 32 - Inicio - seio

Effects on Labour of Transportation Infrastructure Investment 71

Cullison (1993), was not only the first one to consider that labour and cap-ital could be endogenous variables, but also the first one to consider dynamicrelationships among all the variables involved. After Cullison (1993), and until1997, no advance of the empirical analysis has been found.

Pereira (1997) and Flores et al. (1998) introduced the Vector AutoregressiveModels (VAR) together with the test of co-integration equations at a nationallevel for 12 OCDE countries (Pereira, 1997) and for Spain (Flores et al., 1998), inboth papers they estimate the output and labour response function for differentperiods of time; Flores et al. (1998) considers Spanish capital stock for trans-port and communications, while Pereira (1997) uses real net investment of coreinfrastructures, residential and non residential buildings, road and highway in-frastructure, transport, airport infrastructure, gas and electricity infrastructure,sewage and water supply systems, buildings for the police, justice, administra-tion, education etc. Both of them were pioneers in estimating the elasticity oflabour to transportation investment.

Flores et al. (1998), establishes mathematically that private stock series aremuch more reactive than public capital stock, that takes, at least, one period oftime to react.

Pereira (2000) was the first one to itemize five types of public investmentthough the investment time series used do not allow considering all existentcapital. He estimated a VAR and tested the presence of co-integration equations.The breakdown in five items of the public capital is the most detailed obtaineduntil then. Before Pereira (2000), public capital was itemized in only two types.This paper makes it possible to offer a macroeconomic policy tool for US usingits results.

Cantos et al. (2005) were the first ones to estimate separately the elasticity ofeach transport infrastructure capital stock. They used an accounting approachbased on a regression of total factor productivity indices, and a single Cobb-Douglas function to estimate the elasticity of output, roads, ports airports andrailways.

Cosculluela and Flores (2015), following Pereira (2000) itemizes transporta-tion capital stock into 4 different transportation Spanish capital stock types toestimate a Vector Error Correction Models (VECM) for each type considering itscomplementary capital. The methodogical innovation is to consider separatelyrigid and faster reactive group of variables, and consider that complementarycapital is more reactive than the isolated capital, by a double step orthogonali-zation.

Marquez et. al. (2009) introduced structural vector autoregressive metho-dology for the Spanish regions. They introduced bi-regional models to estimatespillover effects in a region on the economic growth of the rest of regions of thecountry.

All the selected studies confirm that an investment in transport capital is

Page 76: BEIO Volumen 32 - Inicio - seio

72 C. Cosculluela-Martınez, R. Ibar-Alonso

productive and employee hiring at any time span considered, no matter themethodology, series used or econometric considerations.

2.2. Studies testing main conclusions

Those studies testing the main conclusions are going to be divided into: 1)the ones that estimate a static elasticity; 2) the ones that estimate cost functions;and 3) the ones that estimate a dynamic elasticity.

Static Elasticity

The following studies estimate the elasticity of output to public capital byestimating a single equation without allowing feedback relationships between thevariables:

- Munnell (1990) tested Aschauer’s results of a different time span nationaltransport capital stock series achieving the same conclusions by means of a Cobb-Douglas production function.

- Munnell and Cook (1990) conducted the same study at a state level for ashorter transport capital stock period (16 years).

- Eisner (1991), using cross-section data for the 48 states of USA, estimatesa Cobb-Douglas production function.

- Tatom (1991) at a national level also estimated a Cobb-Douglas productionfunction considering the prices of energy.

- Munnell (1992), using similar data than Eisner (1991) estimated the elas-ticity at a regional level. He points out that using stationary time-series is thereason of estimating non-significant elasticity (i.e. Tatom (1991)), and that itis necessary to test the possible presence of co-integration relations between thevariables.

- Mas et al. (1993, 1994) studied for the Spanish economy if the effects arehigher at a regional level or at a national level.

- Garcı a-Mila et al. (1994) estimated two uni-equational models: one usingstationary variables, first differences of log levels, and the other one using non-stationary variables, in log levels.

- Mas et al. (1996) examine and conclude that at national level effects arealso higher than at a provincial level. As in Mas et al. (1993), they ignoretypical time series properties. Contemporary, Mas et al. (1996), studied theeffects of public capital separating social public capital from productive publiccapital stock. They estimated two models to evaluate the differences betweenthem, when neighbouring regions capital stock is included and when it is not.

Finally, Eberts (2007), estimates a single Cobb-Douglas production functionusing transportation capital stock data for the economy in US, ignoring that theseries used were non-stationary time series.

Next studies estimating the elasticity by means of a Cost Function.

Page 77: BEIO Volumen 32 - Inicio - seio

Effects on Labour of Transportation Infrastructure Investment 73

Cost functions

Next the studies using cost functions to estimate the elasticity.

Lynde and Richmond (1993) used the same methodology as in Lynde andRichmond (1992) with data from the manufacturing sector in United Kingdomto test complementarity of public and private capital.

Bye and Katz (1995) estimated a cost function approach to test if publictransport infrastructure investments reduced private production costs in Norway.

Next studies estimating different elasticity for each period of time.

Dynamic elasticity

Elasticity varies along the time so the elasticity estimated in the previousworks only confirms the positive effect of transportation investment, in somecases taking into account that pre-existent capital is also productive. Thus,reflects that transportation capital stock it is not a saturated capital, withoutshowing an inflection point in which the elasticity of the investment should slowdown.

Pereira (1997) by means of a VAR/VEC model depending on the countryfound a mean elasticity of output to public capital of 0.04, much less than theone found in Spain by Flores et al. (1998). Both of them estimate the elasticityof labour to transportation investment. Pereira found an elasticity to labour totransport investment higher than Flores et al. (1998), 0.035 and 0.02 respec-tively.

Pereira and Roca-Sagales (2003) in Spain and Pereira and Flores (1999) in theUS adjusted a VAR/VEC model to determine much higher elasticity of outputto public investment.

Cullison (1993), was not only the first one to consider that labour and ca-pital could be endogenous variables, but also the first one to consider dynamicrelationships among all the variables involved.

Next studies estimating different elasticity for each capital stock type pro-viding a macroeconomic policy tool.

2.3. Studies providing a policy instrument

Pereira (2000) itemizes five types of public investment though the investmenttime series used do not allow considering all existent capital. It is worth to notethat the results obtained by Pereira, although he does not use capital stock series,because the breakdown in five items of the public capital is the most detailedobtained until then isolating transportation types. Before Pereira (2000), publiccapital was itemized in only two types.

Pereira (2000), for the USA economy estimates a VAR model consideringprivate investment, labour, production, and public investment in core infras-tructures itemized in five types of assets: (1) highways and streets; (2) electricand gas facilities, transit systems, airfields, etc.; (3) sewage and water supply

Page 78: BEIO Volumen 32 - Inicio - seio

74 C. Cosculluela-Martınez, R. Ibar-Alonso

systems: (4) education buildings, hospital buildings, and other buildings (indus-trial, general office, police and fire stations etc.); and (5) conservation structures,development structures, and civilian equipment. He founds that all variables areI(1) and test the possible presence of co-integration equations, without findingany, using Engel and Granger method (Granger and Engel, 1987).

Pereira (2000) was the first to itemize five types of public investment thoughthe investment time series used do not allow considering all existent capitaleffects. He used VAR and tested for the presence of co-integration equations.Before Pereira (2000), public capital was itemized in only two types. This paperoffers the first macroeconomic policy tool for US investment.

Following Pereira (2000), Cantos et al. (2005) were the first ones to estimateseparately the elasticity of each transport infrastructure capital stock. Theyused an accounting approach based on a regression of total factor productivityindices, and a single Cobb-Douglas function to estimate the elasticity of output,roads, ports, airports and railways.

Cosculluela and Flores (2015) following Pereira (2000) with Spanish capitalstock data itemizes only transportation capital stock into 4 different transporta-tion capital stock types by means of a VECM. The methodological innovationis to consider separately groups of rigid and fast reactive variables.

Marquez et. al. (2009) introduced structural vector methodology for theSpanish regions. They introduced bi-regional models to estimate spillover effectsin a region on the economic growth of the rest of regions of the country.

Duranton et al. (2011) estimated the effects of highways on growth between1983 and 2003 by means of an structural model using instrumental variables.

Hu and Liu (2009) used SVAR to test spillover effects of transportation inChina.

Ahlfeldt et al. (2014) estimated an SVAR panel applied to calculate therelationship between demand and supply of transport services.

Next a comparative of the main results obtained by the different authors

3. Effects on labour of transportation investment. Mainresults

Aschauer (1989 a,b), concludes that public capital is not only productive itselfbut increases private sector productivity. He names it crowding in effect. Thiscrowding in effect suggests that private and public capitals are complementarycapitals. However, at first, a crowding out effect is produced, accordingly to thedecrease in private investment as a substitution effect to the increase in publicinvestment. As private capital productivity increases, crowds in private capital,so an increase in public capital increases private investment. He uses NationalUnited States capital stock series for the period 1849-1985. The output elasticity

Page 79: BEIO Volumen 32 - Inicio - seio

Effects on Labour of Transportation Infrastructure Investment 75

estimated is 0.39-0.56.1

Munnell (1990) tested Aschauer’s results by means of a different time spannational transport capital stock series achieving the same conclusions. The esti-mated elasticity of a Cobb-Douglas production function for a capital stock timeperiod going from 1948 to 1987 was almost the same as in Aschauer’s works(0.34-0.41). He points out that the main fact that caused the slowdown in pro-ductivity in USA was the decrease of public investment in infrastructures andnot the decrease in the rate of technological progress.

Munnell and Cook (1990) estimating a Cobb-Douglas function found pro-duction elasticity of 0.15, half the one found with a much larger time span at anational level.

Eisner (1991), using cross-section data for the 48 states of USA, estimatesa production Cobb-Douglas function where he found an instant effect of pub-lic capital on output and proposes to include dynamics (variables in t-i for alli=1,2,. . . , n) in the equation, in order to capture any non-instantaneous effectthat could appear.

Tatom (1991) considers, transportation capital stock and energy prices in aproduction function where the estimated elasticity is 0.146.

Munnell (1992), using similar data than Eisner (1991) estimated for someregions half of the elasticity than for the whole country (0.15) as in Munnell andCook (1990), Tatom (1991). He points out that using stationary time-series isthe reason of estimating non-significant elasticity (i.e. Tatom (1991)), and that itis necessary to test the possible presence of co-integration relations between thevariables. Mas et al. (1993, 1994) studied for the Spanish economy if effects arehigher at a regional level or at a national level. They use non-stationary capitalstock panel data, using variables in log levels. In Mas et al. (1994) they usetotal private capital while in Mas et al. (1993) they only consider private capitalof the industrial sector excluding construction and energetic products. In bothof them they conclude that effects at regional level are lower than at nationallevel. Garcıa-Mila et al. (1994) they estimate two uni-equational models: oneusing stationary variables, first differences of log levels, and the other one usingnon-stationary variables, in log levels. Using stationary variables the estimatedelasticity are negative and non-significant, while estimating with non-stationaryvariables the estimated elasticity are positive and significant. They conclude thatinvestment in roads and highways results more productive than sewer systemsand water services, and both result the most productive public capital stock.Errors in dynamic model specifications could cause the absence of significanceof the elasticity.

Mas et al. (1996) examine and conclude that at national level effects are also

1As it has been demonstrated widely the estimated elasticity cannot be used as a measurefor a macroeconomic policy tool although it offers a way to compare the results found usingdifferent methodologies.

Page 80: BEIO Volumen 32 - Inicio - seio

76 C. Cosculluela-Martınez, R. Ibar-Alonso

higher than at a provincial level. As in Mas et al. (1993), they ignore typicaltime series properties.

Contemporary, Mas et al. (1996), study the capital stock effects of publiccapital separating social public capital from productive public capital. Theyestimate two models to evaluate the differences between them, when neighbou-ring regions capital stock is included and when it is not. They find out thatthe elasticity of production to public capital stock is higher when neighbouringregions capital stock is considered, so they attend the conclusion that spill-overeffects are observed. However, elasticity of production to labour or to privatecapital are very similar when neighbouring regions capital stock is included orwhen it is not. At the same time, they find out that physical capital (roadsand highways, sewer and water supply systems, etc.) are much more produc-tive than human capital stock, so they introduce the consideration that humancapital stock should be studied in a dynamic context, mainly because its highdevelopment in the recent past.

Eberts (1997), estimates a single Cobb-Douglas production function usingcapital stock data for the economy in US at a state level, for the period 1988-1992. Ignoring that the series used were non-stationary time series, concludesthat public capital has lower effects on production than labour or private capital.

Lynde and Richmond (1992) use capital stock time series in log levels of theperiod 1958-1989, to show that the marginal productivity of public capital ispositive and that there are complementary effects between private and publiccapital estimating the cost function in the non-financial sector in US. The mainconclusion is that there is a significant effect of capital stock in the cost ofproduction of the private sector. They estimate two different versions of themodel: (1) one in which public capital is aggregated; and (2) in which publiccapital is disaggregated (local, federal and national). The estimated elasticityof the study in which public capital is aggregated are ξLG = −0.45(0.07), andξKG = 0.71(0.15), representing the elasticity of labour and private capital topublic capital, respectively . Those are higher than the corresponding onesin the model in which public capital is disaggregated: ξLG = −0.49(0.07) andξKG = 0.90(0.19). Estimations obtained by Lynde and Richmond (1992) supportthe idea that private and public capital are complementary capitals, meanwhilelabour and public capital are substitutes. However, Lynde and Richmond (1993)using the same methodology as in Lynde and Richmond (1992) with data fromthe manufacturing sector in United Kingdom, find out that public and privatecapital are substitutes.

Bye and Katz (1995) estimate a cost function approach which includes pub-lic transport infrastructure capital with data for the period 1971-1991. Theyconclude that, in almost all production sectors (except oil-agriculture), the pub-lic transport infrastructure investments made in Norway over the last 20 yearssignificantly reduced private production costs and altered demand for private

Page 81: BEIO Volumen 32 - Inicio - seio

Effects on Labour of Transportation Infrastructure Investment 77

inputs. The factor’s cost share increases a 0.12 per cent per each 1 per centincrease in the price of private capital. An increase in output decreases privatecapital’s cost share. Infrastructure capital services do not affect the cost shareof private capital at the aggregate level nor technological progress.

It can be conclude that the minimum static elasticity is 0.15, so transporta-tion capital is productive.

Cullison (1993), estimates a VARMA model using data from 1961-1992 of 21government investment, classified by function, say: (1) expenditures for centralexecutive, legislative, and judicial activities; (2) international affairs; (3) space;(4) national defence; (5) civilian safety; (6) education; (7) health and hospi-tals; (8) income support, social security, and welfare; (9) veterans benefits andservices; (10) housing and community activities; (11) recreational and culturalactivities; (12) energy; (13) agriculture; (14) natural resources; (15) transporta-tion; (16) postal service; (17) economic development, regulation, and services;(18) labour training and services; (19) commercial activities; (20) net interestpaid; and (21) other. And they are classified as the investment in: govern-ment expenditures for space, national defence, civilian safety, education, healthand hospitals, income support, veterans benefits, housing, agriculture, trans-portation, economic development, labour training, and commercial activities.It is considered that variables are not stationary, while co-integration relationsare not studied. Results suggest that human capital investment (education in-vestment, labour training, and perhaps, also civilian safety) have positive andnumerically significant effects on GDP future growth in Ireland.

Results are shown in figure (1), were it can be appreciate the differencesbetween the elasticity estimated of output by several authors using differenttime series.

Pereira (2000) was the first one that itemizes five types of public investmentthough the investment time series used do not allow considering all existentcapital. He used VAR and test for presence of co-integration equations. Thebreakdown in five items of the public capital is the most detailed obtained untilthen. Before Pereira (2000), public capital was itemized in only two types. Thispaper starts a new consideration for taking into account the results to offer amacroeconomic policy tool for US.

Cantos et al.. (2005) were the first ones to estimate separately the elasticityof each transport infrastructure capital stock for the Spanish economy. Theyused an accounting approach based on a regression of total factor productivityindices, and a single Cobb-Douglas function to estimate the elasticity of output,roads, ports airports and railways.

Cosculluela and Flores (2015) following Pereira (2000) adjusted a VECM toSpanish capital stock data. They found that the most productive and hiringinvestment in transportation infrastructure in Spain are Airport infrastructures,followed by railway infrastructures and roads. Those effects vary along time so

Page 82: BEIO Volumen 32 - Inicio - seio

78 C. Cosculluela-Martınez, R. Ibar-Alonso

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

1948

1950

1952

1954

1956

1958

1960

1962

1964

1966

1968

1970

1972

1974

1976

1978

1980

1982

1984

1986

1988

1990

1992

1994

1996

Period of series used

Output elas0city

Aschauer Munnell

Munnell and Cook Eberts

Pereira and Roca-Sagales Flores and Pereira

Figure 1: Output elasticity of different time span estimations

instant effects are not always present when investing in transportation.

Duranton et al. (2011) estimated by instrumental variables (1947 plan ofthe interstate highway system, an 1898 map of rail roads and maps of the earlyexplorations of the US) an structural model to determine that the effect of a tenper cent increase in a city’s initial stock of highways is a 1.5 per cent increase inits employment over the 20 year period considered.

Ahlfeldt et al. (2014) estimated an SVAR panel finding out that supply anddemand of transportation seem to be driven more by firms than by residents.

Hu and Liu (2009) used SVAR to determine that spillover effects were presentwhen investing in transportation capital. From 1985 to 2006 transportationcontributed to 24.8 billion Yuan GDP each year (13.8 per cent), 19.6 directlyand 5.2 billion come from spillover effects.

4. Conclusions

The static elasticity estimated by the production function reflects that trans-portation capital stock is not saturated in the US or in Spain. Results seem tobe grater at a national level than at a state level.

The slowdown in the investment in transportation infrastructure has pro-duced low growth rates in output and productivity in almost all the countries

Page 83: BEIO Volumen 32 - Inicio - seio

Effects on Labour of Transportation Infrastructure Investment 79

that have been studied.

If the methodology used does not allow feedback effects the order of thetransportation capital stock using the elasticity varies considerably, no matterif it is labour elasticity or output elasticity. Instantaneous elasticity are higherand more employee hiring in road investment than Airports, railways or ports.

Feedback effects are present, capital stock should be used to considered pre-existent capital effects. Co-integration equations are found in some countriesand should be considered. Taking all into account, airport and railway mediumshort and long-run effects on labour are higher than any other transportationcapital stock per Euro invested.

As it has been said, all the selected as main studies confirm that an invest-ment in transport capital is productive and employee hiring at any time spanconsidered, no matter the methodology, series used or econometric considera-tions.

References

[1] Ahlfeldt G.M., Moeller K., and Wendland N. (2015). Chicken or egg? thePVAR econometrics of transportation. Journal of Economic Geography,15(6), 1169-1193.

[2] Aschauer D.A. (1989a). Does public capital crowd out private capital? Jour-nal of Monetary Economics, 24, 171-188.

[3] Aschauer D.A. (1989b). Is public expenditure productive? Journal of Mon-etary Economics, 23, 177-200.

[4] Bye T. and Katz A. (1995). Returns to Publicly Owned Transport Infrastruc-ture Investment. A Cost Function/Cost Share Approach Norway, 1971-1991,Statistics Norway Research Department.

[5] Cantos P., Gumbau Albert M., and Maudo, J. (2005). Transport infrastruc-tures, spillover effects and regional growth: evidence of the Spanish case.Transport reviews, 25(1), 25-50.

[6] Cosculluela-Martınez C. and Flores de Frutos, R. (2015). The macroeconomicimpact of transportation investment on the Spanish economy. EJTIR, 15(4),376-395.

[7] Cullison W.E. (1993). Public Investment and Eco-nomic Growth. Economic Quarterly, 19-34. Disponible enhttp://ideas.repec.org/a/fip/fedreq/y1993ifallp19-34.html. [Consulta 2015,15 de octubre].

Page 84: BEIO Volumen 32 - Inicio - seio

80 C. Cosculluela-Martınez, R. Ibar-Alonso

[8] Duranton G., Gobillon L., and Overman H.G. (2011). Assessing the Ef-fects of Local Taxation using Microgeographic Data. The Economic Journal,121(555), 1017-1046.

[9] Eberts R. (2007). Highway Infrastructure: Policy Issues For Re-gions, Federal Reserve Bank of Chicago, 1-16. Disponible en:http://research.upjohn.org/externalpapers/38 [Consulta 2015, 15 deoctubre]

[10] Eisner R. (1991). Infrastructure And Regional Economic Performance:Comment, New England Economic Review, 67, 297-308.

[11] Flores, R., Gracia, M., and Perez, T. (1998). Public capital stock and eco-nomic growth: an analysis of the Spanish economy, Applied Economics, 30,985-994.

[12] Garcıa-Mila T., and Mcguire T. (1994). The Contribution Of Publicity Pro-vides Inputs To States Economies, Regional Science and Urban Economics,22, 229-41.

[13] Granger, C. W. J. and Engle, R. F. (1987). Co-integration and error cor-rection: representation, estimation and testing, Econometrica, 251-276.

[14] Hu A.G., and Liu S.L. (2009). Transportation, Economic Growth andSpillover: Conclusion Based on Spatial Econometrics. China Industrial Eco-nomics, 5, 5-14.

[15] Keynes, J. M. (1937). The general theory of employment. The quarterlyjournal of economics, 209-223.

[16] Lynde C., and Richmond J. (1992). The role of public capital in production.The Review of Economics and Statistics, 37-44.

[17] Lynde C., and Richmond J. (1993). Public Capital And Total Factor Pro-ductivity, International Economic Review, 34, 401-414.

[18] Marquez A., Ramajo J., and Hewings G.J.D. (2009). Domestic and cross-border effects of public capital: a SVAR approach for the Spanish regions,REAL, 09-T-2.

[19] Mas M., Maudos J., Perez F., and Uriel E.(1993). Competitividad, pro-ductividad industrial y dotaciones de capital publico, Papeles de EconomıaEspanola, 144-160.

[20] Mas M., Maudos J., Perez F., and Uriel E.(1994). Capital publico y pro-ductividad en las regiones espanolas, Moneda y Credito, 30.7 163-206.

Page 85: BEIO Volumen 32 - Inicio - seio

Effects on Labour of Transportation Infrastructure Investment 81

[21] Mas M., Maudos J., Perez F., and Uriel E.(1996). Infrastructures and Pro-ductivity in Spanish Regions, Regional Studies, 641-649

[22] Melo P. C., Graham D. J., and Brage-Ardao R. (2013). The productivity oftransport infrastructure investment: A meta-analysis of empirical evidence,Regional Science and Urban Economics, 43(5), 695-706.

[23] Munnell A.(1990). Why Has Productivity Declined? Productivity And Pub-lic Investment, New England Economic Review, 3-22.

[24] Munnell A. (1992). Infrastructure Investment And Economic Growth, Jour-nal of Economic Perspectives, 6, 189-198.

[25] Munnell A., and Cook L. (1990). How Does Public Infrastructure AffectRegional Economic Performance?, In Is There A Shortfall In Public CapitalInvestment? New England Economic Review, 34, Federal Reserve Bank ofBoston, Boston, 11-33.

[26] Nelson, C. R., and Plosser, C. R. (1982). Trends and random walks inmacroeconomic time series: some evidence and implications. Journal of mon-etary economics, (2), 139-162.

[27] Pereira A. M. (1997). Public Investment And Private Sector Performance-International Evidence, Public Finance and Management, 2, 261-277.

[28] Pereira A. M. (2000). Is All Public Capital Created Equal?, Review of Eco-nomics and Statistics, 82, 513-518.

[29] Pereira A. M., and Flores R. (1999). Public Capital Accumulation AndPrivate Sector Performance, Journal of Urban Economics, 46, 300-322.

[30] Pereira A. M., and Roca-Sagales O. (2003). Spillover EffectsOf Public Capital Formation: Evidence From The Spanish Re-gions, Working Papers wpdea0210, Department of Applied Eco-nomics at Universitat Autonoma of Barcelona, disponible enhttp://ideas.repec.org/p/uab/wprdea/wpdea0210.html. [Consulta 2015,15 de octubre].

[31] Tatom, J. A. (1980). The “Problem” of pro cyclical real wages and produc-tivity. The Journal of Political Economy, 385-394.

[32] Tatom J. (1991). Public Capital And Private Sector Performance, Reviewof Federal Reserve Bank of St. Louis, 73, 3-15.

Page 86: BEIO Volumen 32 - Inicio - seio

82 C. Cosculluela-Martınez, R. Ibar-Alonso

Acerca de los autores

Carolina Cosculluela Martınez fue Premio Extraordinario de Doctoradoy Premio Funcas a la mejor Tesis Doctoral. Defendio la Tesis en el Departa-mento de Economıa Aplicada y Estadıstica de la UNED y obtuvo una ayuda dela Fundacion Ramon Areces para continuar una de las lıneas de investigacionpropuesta en la misma. Profesora en el Departamento de Economıa Aplicada Ide la URJC, con una estancia de investigacion en Regional Economic AppliedLaboratory (U. de Illinois, Chicago). Cuenta con mas de 15 publicaciones, 2 deellas JCR, y mas de 10 participaciones como investigadora en proyectos de lasConsejerıas de Empleo e Inmigracion. Desarrolla la investigacion en materia deSmart Cities complementando la desarrollada por la U. de Illinois a la que hasido invitada recientemente como profesor visitante.

Raquel Ibar Alonso es doctora en Ciencias Economicas y Empresariales ylicenciada en Ciencias Matematicas. Profesora en el Departamento Interfacul-tativo de Matematica Aplicada y Estadıstica de la Universidad San Pablo CEUde Madrid. Miembro del Grupo de Investigacion en Convergencia de Medios(INCIRTV) y del proyecto precompetitivo Smart Cities: Problemas de accesi-bilidad a los contenidos digitales en ciudadanos de edad avanzada. Sus lıneasde investigacion mantienen un caracter multidisciplinar, se centran en el Anali-sis Estadıstico Multivariante, la Smart City, el comportamiento social y en larecogida de informacion, tanto cualitativa como cuantitativa. El ultimo artıculoque he escrito se ha publicado en enero de 2015: Convergence and interaction inthe new media: typologies of prosumers among university students.

Page 87: BEIO Volumen 32 - Inicio - seio

Boletın de Estadıstica e Investigacion OperativaVol. 32, No. 1, Marzo 2016, pp. 83-90

Opiniones sobre la profesion

Open Science through Open Source Software, Open Dataand Open Access

Nuria Rico Castro

Departamento de Estadıstica e Investigacion OperativaUniversidad de Granada

! [email protected]

Juan Julian Merelo Guervos

Departamento de Arquitectura y Tecnologıa de ComputadoresUniversidad de Granada

! [email protected]

Angel Pablo Hinojosa

OpenXXI

! [email protected]

1. Introduccion

Si hay una actividad cientıfica que actualmente se apoya en procedimien-tos estadısticos por encima del resto, esta es la investigacion. La investigacion,entendiendola en un sentido amplio, se lleva a cabo en el seno de institucionesespecializadas pero tambien esta presente en las experiencias mas sencillas yparticulares que proporcionan pequenos descubrimientos. La metodologıa, pre-dominantemente experimental, hace que el avance cientıfico se impulse funda-mentalmente gracias al uso de estandares, muchos de los cuales responden aanalisis estadısticos mas o menos complejos que permiten una vision clara deque procesos estan ocurriendo. El resumen y la visualizacion de la informacionrecogida para la investigacion esta presente en los estandares habituales, dondeel uso de herramientas estadısticas es practicamente imposible de soslayar. Laestadıstica es, pues, una herramienta clave en el proceso investigador en practi-camente cualquier area de conocimiento y permite hacer llegar los resultados ala sociedad.

Sin embargo, en el momento actual se esta produciendo una transformaciondel paradigma en que se realiza el avance cientıfico, encaminando la produccioncientıfica hacia un punto donde sean posibles la divulgacion y transmision de

c⃝ 2016 SEIO

Page 88: BEIO Volumen 32 - Inicio - seio

84 N. Rico, J. J. Merelo, A. P. Hinojosa

conocimiento de forma completa. No basta ya con mostrar el resultado final dela investigacion en comunidades especializadas o en instituciones reconocidas.Actualmente se demanda que se establezcan cauces que propicien la autonomıaa los individuos para la adquisicion de conocimiento a traves de la posibilidadde replicar la experimentacion.

Esto no quiere decir que los resultados dirigidos a los cırculos especializadosno sean relevantes. La demanda consiste en completar el resultado final, de formaque todo el proceso investigador pueda ser compartido, desde los datos que serecogen hasta la conclusion final que de ellos se deriven. Esta es la idea subyacentede la Ciencia Abierta: hacer llegar a cualquiera que pueda estar interesado,el conjunto de datos, herramientas y conclusiones que hacen posible el avancecientıfico.

Hacer ciencia abierta requiere el uso de estandares abiertos que permitan lareplicacion, reutilizacion y colaboracion entre comunidades. La ciencia abierta,pues, entendida como ciencia a disposicion de todos, necesita de herramientassolidas al alcance de los investigadores: herramientas contrastables, revisables ycompartibles. Para hacer ciencia abierta, se hace necesario el uso de softwarelibre (open source software), la liberacin de datos de la investigacion (open data)y la publicacion de resultados en artıculos de acceso abierto (open access). Estostres pilares son los que garantizan que pueda existir esa transmision completade conocimiento.

2. El software libre

Desde los anos 80, el software libre y la filosofıa asociada a el se han mostradocomo uno de los principales impulsores de internet y las tecnologıas asociadasa esta. Se llama software libre (free software) o software de fuentes abiertas(open source software) a aquel programa que se distribuye con una licencia queautoriza expresamente su copia, distribucion, analisis, estudio, modificacion yuso sin limitaciones. Adicionalmente, este software debe ser distribuido junto conlos componentes necesarios para que los derechos permitidos por la mencionadalicencia puedan ser ejercidos efectivamente, como suele ser el caso del codigofuente del programa en cuestion.

En un principio, el desarrollo del software libre se extendio principalmenteen el ambito academico, dado que la mentalidad subyacente a este modo de dis-tribucion encaja muy bien con la filosofıa de transparencia, apertura y crıticaimplıcita en la publicacion cientıfica. A pesar de estos inicios, el mundo empre-sarial no tardo en ver el potencial comercial del software libre y a utilizarlo yproducirlo. El uso de software libre posee para las empresas ventajas como me-nores costes de produccion e implementacion, mayor adaptabilidad y facilidad desoporte, o una mayor posibilidad de estandarizacion. Ademas, en muchos casos,la distribucion del software usando licencias libres aporta ventajas estrategicas

Page 89: BEIO Volumen 32 - Inicio - seio

Open Science through Open Source Software, Open Data and Open Access 85

y competitivas, como muestra el ejemplo de Android y su dominio del mercadode los smartphones. Las instituciones publicas se han unido mas recientemente aesta filosofıa, en base a la idea de que aquello que se produce con dinero publicodebe ser de uso tambin publico.

Sin embargo esta filosofıa basada en la apertura, libertad y reutilizacion nose ha limitado al software, sino que se ha extendido a otros ambitos muy di-ferentes. Tal es el caso, por ejemplo, de la produccion en el ambito cultural eintelectual, que ha asimilado los principios del software libre para dar lugar a lallamada Cultura libre y el movimiento Copyleft, con ejemplos tan famosos comola Wikipedia o las licencias Creative Commons.

Probablemente el ultimo elemento en unirse a este ecosistema libre ha sidoel llamado Open Data: principalmente desde el ambito publico, pero tambien enempresas privadas, se publica cada vez mas informacion, mas o menos estructura-da, en las mismas condiciones de licencias abiertas y posibilidad de reutilizacionya mencionadas. El rapido crecimiento de este campo esta muy ligado al augedel llamado Gobierno Abierto, que cuenta con la Casa Blanca como su principalabanderado.

Las posibilidades de reutilizacion y estandarizacion, la interoperabilidad, losmenores costes, la existencia de comunidades de usuarios y desarrolladores ola flexibilidad de adaptacion son la principal causa de que practicamente todoslos protocolos y sistemas que permiten la misma existencia de Internet estenconstruidos sobre software libre.

2.1. El valor anadido del uso de software libre en el procesoinvestigador

En primer lugar, una de las caracterısticas que hacen mas relevante el papeldel software libre para hacer ciencia abierta, es el hecho de que el uso de softwarelibre favorece la reproducibilidad de los analisis llevados a cabo. Utilizar softwarelibre permite que cualquier usuario pueda instalar y utilizar este mismo softwaresin restricciones ni condiciones externas. El programa podra ser instalado, ejecu-tado, se vera su codigo fuente y cualquier investigador podra conocer con detallecual es el proceso que el software ha realizado. Con total exactitud. Un softwareque no sea de codigo abierto realizara ciertas tareas, mediante la ejecucion deun codigo que no puede ser examinado ni es, en general, conocido. Aun pagandouna licencia, lo cual no esta al alcance de todos, este pago solamente da derechoa utilizar el programa, no a conocer el codigo que ejecuta el mismo.

En el caso de analisis estadısticos sobre datos experimentales, el uso de pa-quetes libres garantiza que los mismos resultados puedan ser alcanzados porotros investigadores, independientemente de sus posibilidades economicas.

Por otra parte, el uso de software libre evita el falseo, consciente o no, deresultados. Garantiza que el proceso que se lleva a cabo es el que se pretende o,en su caso, garantiza que puedan descubrirse eventuales errores o mejorarse el

Page 90: BEIO Volumen 32 - Inicio - seio

86 N. Rico, J. J. Merelo, A. P. Hinojosa

procedimiento implementado. El uso de software libre permite conocer el proce-dimiento computacional que se lleva a cabo con todo detalle, de forma transpa-rente, siendo en numerosas ocasiones el propio software tanto herramienta comoproducto de investigacion.

Destacamos tambien el hecho de que un software que soluciona un problemao ayuda en la dilucidacion de una cuestion cientıfica debe ser tan accesible a lacomunidad como la conclusion a la que se llega y que se establece en el informefinal. En no pocas ocasiones se implementan programas con nuevas tecnicas,o bien con una combinacion de tecnicas conocidas, para el tratamiento de lainformacion recogida. Poder aportar a la comunidad el software que ha sidoimplementado es tanto o mas valioso que expresar la conclusion final.

Por ultimo, notamos que un software que puede ser revisado, mejorado, insta-lado y compartido sera facilmente depurado y mejorado, permitiendo un avancereal del conocimiento. Al utilizar software libre, el investigador se vale del traba-jo de otros investigadores y en muchas ocasiones mejora o amplıa este software,poniendo a su vez a disposicion de la comunidad su trabajo y aportando cono-cimiento a la comunidad de la que se sirvio. Este es un proceso de retroalimen-tacion que hace que los individuos se sirvan del conocimiento de la comunidadpara construir mas conocimiento y aportarlo a la comunidad.

3. Datos abiertos

La idea subyacente de los datos abiertos es que todos los datos que se generana causa de los procesos de automatizacion e informatizacion de la informacionesten al alcance de la comunidad en un formato accesible, que permita el analisis,de forma que puedan ser tratados y puedan ser compartidos. Esta lınea es laque recoge la Ley 19/2013, de 9 de diciembre, de transparencia, acceso a lainformacion publica y buen gobierno. En ella, se establece, fundamentalmente,que las instituciones publicas deben poner a disposicion de los ciudadanos losdatos que en ellas se generen. Con ello se persigue que el ejercicio de transparenciaprovoque en los servidores publicos una mayor eficacia, austeridad, imparcialidady responsabilidad.

La iniciativa de apertura de datos en Espana toma cuerpo con la creacion deun portal de datos abiertos (http://datos.gob.es/) en el ao 2009, donde se davisibilidad a las iniciativas de apertura de datos en el territorio nacional.

Mas alla de la informacion generada en el seno de la administracion publica,los datos abiertos abarcan cualquier tipo de informacion cuantitativa y cualitati-va susceptible de ser analizada, reutilizada y compartida. La liberacion de datosconsiste en hacer publico y accesible un conjunto de datos que pueda ser tratadoestadısticamente para establecer las conclusiones pertinentes, sin limitaciones deuso y cumpliendo unos esquemas de interoperabilidad. Esto ultimo intenta evitarla proliferacion de ingentes cantidades de conjuntos de datos que no puedan ser

Page 91: BEIO Volumen 32 - Inicio - seio

Open Science through Open Source Software, Open Data and Open Access 87

combinados en sistemas mas grandes, donde esta el verdadero interes.

En la actualidad, la Comision Europea ha lanzado un programa piloto quehace obligatorio el deposito en abierto de los datos de investigacion producidosen el marco de los proyectos. Se trata sin lugar a dudas, de un primer pasopara avanzar hacia la publicacion de forma reutilizable de todos los productosde investigacion generados.

3.1. Idoneidad de la apertura de datos de investigacion

Como parte del proceso de produccion cientıfica, los datos no deben quedarrelegados a un segundo plano, ya que es a partir de ellos que se establecen hipo-tesis, se elaboran teorıas y se extraen conclusiones. Tan importante es compartirel resultado como compartir la informacion que lleva a establecer el mismo. Losdatos experimentales son de una relevancia extrema: son la base de la investiga-cion. Sin embargo su papel en la divulgacion y en la publicacion de resultadosesta practicamente en la sombra. Como producto de investigacion que son, debe-rıan tener un papel protagonista y estar puestos a disposicion de la comunidadcientıfica bajo una licencia libre.

Al igual que el software libre, la publicacion de los datos de investigacion bajolicencia libre propicia la reproducibilidad de los analisis. Permite que cualquierinvestigador realice, con los mismos datos, tanto identicos como diferentes ana-lisis, de forma que los resultados que se deriven de estos pueden ser una fuenteexcepcional de testeo. La consistencia de una conclusion sera tanto mayor encuanto que pueda ser establecida por mas de un investigador. Por otra parte,siempre pueden compararse analisis de diferente ındole con el analisis original,propiciando el intercambio de experiencias, la apertura de debate, la discusionmetodologica, etc.

Ademas, la liberacion de los datos debe responder ante los esquemas deinteroperabilidad. De esta forma, diferentes fuentes de datos pueden combi-narse para obtener un sistema mas completo de informacion que permita unanalisis mas profundo o mas extenso y, por otra parte, se evita la replicacionde experimentaciones en identicas condiciones, ya que los datos de un expe-rimento pueden ser utilizados para diferentes analisis. Esto cobra especial re-levancia cuando la obtencion de los datos es muy costosa. En tal caso, uni-ficar la informacion de diferentes fuentes revierte en contar con conjuntos dedatos mas completos, y evitar la duplicacion de esfuerzos en la obtencion dedatos redundara en menores costes. Existen repositorios de datos de investiga-cion, siendo una de las iniciativas mas competitivas las que pueden verse enhttp://www.re3data.org/ y http://zenodo.org/. Una herramienta para lagestion de datos de investigacion en el marco de los proyectos de H2020 eshttp://www.consorciomadrono.es/pagoda/.

Excepciones a la idoneidad de publicacion de los datos en abierto son poconumerosas y responden principalmente a la proteccion de derechos de propiedad

Page 92: BEIO Volumen 32 - Inicio - seio

88 N. Rico, J. J. Merelo, A. P. Hinojosa

industrial, proteccion datos personales, razones de seguridad, que el objetivoprincipal del proyecto se vea comprometido o bien que no se generen datos.

4. Acceso abierto

Un documento de acceso abierto es aquel que permite a cualquier usuarioleer, descargar, copiar, distribuir, imprimir, buscar o enlazar su contenido demanera gratuita y sin ninguna restriccion mas alla de la que pueda suponer elmedio tecnico necesario para acceder a el. Los documentos de acceso abiertoproporcionan una vıa potencialmente rapida para el acceso y la difusion de laliteratura cientıfica. Ası, la publicacion en abierto promueve eliminar barreraseconomicas, legales y tecnologicas.

El modelo actual de publicacion cientıfica esta sujeto a polıticas de privacidadestablecidas desde entidades privadas que gestionan el contenido, velando por lacalidad del mismo, el formato y la difusion de los resultados cientıficos. Sin em-bargo este escenario esta cambiando a grandes pasos y ya es obligatorio para losbeneficiarios de H2020 depositar en abierto todas las publicaciones cientıficas quese elaboren en el marco de la investigacion financiada por este programa y, paralos beneficiarios del Plan Estatal, la obligacion de depositar en acceso abierto serecoge en el artıculo 37 de la Ley de la Ciencia, la Tecnologıa y la Innovacion(https://www.boe.es/boe/dias/2011/06/02/pdfs/BOE-A-2011-9617.pdf).

Este camino supone la ruptura con un cırculo vicioso donde los resultados dela investigacion subvencionada con fondos publicos se ceden a revistas cientıficasy bases de datos y el acceso desde la institucion publica a los resultados suponeun coste economico. Este cırculo implica que las instituciones publicas inviertanen la investigacion y a su vez deban volver a invertir, dependiendo de provee-dores privados, para poder acceder a los resultados de la investigacion que hansubvencionado. Por lo tanto, la publicacion en abierto genera un menor costepara las instituciones a la vez que promueve la salida a la luz de la llamadaliteratura gris. Esta es el conjunto de resultados que quedan recogidos en revis-tas cientıficas editadas en instituciones, tesis doctorales en papel, bases de datosinstitucionales, datos cientıficos que quedan almacenadas de forma local en losordenadores y los servidores de la institucion, ponencias, etc. Es, en resumen, elconjunto de resultados de investigacion que en principio queda inaccesible a lacomunidad y que en muchas ocasiones no son suficientemente explotados.

No son pocas las trabas con las que el investigador se encuentra a la horade depositar sus manuscritos en abierto. El principal inconveniente se deriva delhecho de que se cede el copyright de la obra a la editorial y puede encontrarsecon que es necesario que transcurra un periodo de embargo, establecido porla editorial, antes de que se permita a los autores hacer el deposito en abiertodel manuscrito final revisado por pares. Esta forma de deposito en abierto esla llamada vıa verde. Una vıa alternativa, la denominada vıa dorada consiste en

Page 93: BEIO Volumen 32 - Inicio - seio

Open Science through Open Source Software, Open Data and Open Access 89

cubrir los costes de publicacion y tener inmediatamente disponible el manuscritoen acceso abierto desde el momento de publicacion.

4.1. Beneficios derivados de la publicacion en abierto

Amen del posible beneficio economico para las instituciones que subvencionanla actividad investigadora, la publicacion en abierto propicia muchos beneficiostanto para los propios investigadores como para la sociedad en su conjunto.

La publicacion en abierto facilita la colaboracion, la interaccion y la crıticapor parte de la comunidad cientıfica, y permite una mas rapida difusion delresultado de las investigaciones.

Ademas, la publicacion en abierto revierte directamente en la sociedad, pro-porcionando una mayor accesibilidad a la literatura cientıfica y un mayor co-nocimiento de la labor investigadora, a la vez que facilita la transferencia deconocimiento y la innovacion.

La publicacion en abierto permite tambien que los conocimientos y avancescientıfico-tecnicos se distribuyan mas rapido y de la manera mas amplia posible.

Por otra parte, la publicacion en abierto da una mayor visibilidad a losautores y a su trabajo. Segun The citation advantage of open access articles,( https://dspace.lboro.ac.uk/dspace-jspui/handle/2134/4089) el prome-dio de citas a un artıculo de acceso abierto es de 9.04, frente a las 5.76 de unartıculo publicado segun el modelo tradicional.

Acerca de los autores

Nuria Rico es profesora en el Departamento deEstadıstica e Investigacion Operativa de la Uni-versidad de Granada y Subdirectora de la Oficinade Software Libre de la Universidad de Grana-da. Como responsable en el area de gestion sobresoftware libre, ha desarrollado diferentes proyec-tos, entre los que destaca la puesta en marcha delportal de transparencia y OpenData de la Uni-versidad de Granada. Su lınea de investigacion secentra en el tratamiento estadıstico de datos deforma interdisciplinar.

Page 94: BEIO Volumen 32 - Inicio - seio

90 N. Rico, J. J. Merelo, A. P. Hinojosa

Juan Julian Merelo es Catedratico adscrito alDepartamento de Arquitectura y Tecnologıa deComputadores de la Universidad de Granada asıcomo Director de la Oficina de Software Libre.Sus lıneas principales de investigacion se enfocanen computacion soft computing y estudio de me-todos metaheurısticos y redes neuronales. Mantie-ne una intensa actividad de divulgacion cientıfi-ca y produccion en abierto, participando en forosnacionales e internacionales sobre software libre,ciencia abierta, datos abiertos y temas relaciona-dos.

Angel Pablo Hinojosa es tecnico especialista,analista programador, administrador web y sociofundador de la empresa OpenXXI. Su trayecto-ria profesional esta ligada al estudio, desarrolloy divulgacion del software y la cultura libres, alos procesos de liberacion, estudio de licencias yformacion en TIC. Cuenta con una larga lista deintervenciones en seminarios, conferencias inter-nacionales, cursos, talleres y seminarios de temasrelacionados con lenguajes de programacion, for-matos abiertos, cultura libre, liberacion de pro-yectos de software, licencias de software libre, as-pectos legales del software de fuentes abiertas,ciencia abierta, marco jurıdico en social media,uso de herramientas colaborativas, redes socialeso licencias Creative Commons.

Page 95: BEIO Volumen 32 - Inicio - seio

Pagina en blanco

Page 96: BEIO Volumen 32 - Inicio - seio

http://www.seio.es/BEIO