Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

68
Universidad de los Andes Trabajo de Grado Pruebas de Bondad de Ajuste y el Problema de Dos Muestras en el Contexto de Procesos de Poisson No Homog ´ eneos Paula Liliana Mantilla Blanco Director: Prof. Adolfo Quiroz 4 de diciembre de 2015

Transcript of Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

Page 1: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

Universidad de los Andes

Trabajo de Grado

Pruebas de Bondad de Ajuste y el

Problema de Dos Muestras en el

Contexto de Procesos de Poisson No

Homogeneos

Paula Liliana Mantilla Blanco

Director:

Prof. Adolfo Quiroz

4 de diciembre de 2015

Page 2: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

Indice general

1. Conceptos basicos 41.1. Procesos de Poisson Homogeneos . . . . . . . . . . . . . . . . 41.2. Procesos de Poisson No Homogeneos . . . . . . . . . . . . . . 61.3. Pruebas de hipotesis . . . . . . . . . . . . . . . . . . . . . . . 91.4. Metodos de Monte Carlo . . . . . . . . . . . . . . . . . . . . . 101.5. Tecnica Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . 11

2. Pruebas de homogeneidad 122.1. Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.2. Test Z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.2.1. Descripcion del estimador . . . . . . . . . . . . . . . . 162.2.2. Resultados y analisis . . . . . . . . . . . . . . . . . . . 17

2.3. Test de Cramer von Mises . . . . . . . . . . . . . . . . . . . . 222.3.1. Descripcion del estimador . . . . . . . . . . . . . . . . 222.3.2. Criterios de decision . . . . . . . . . . . . . . . . . . . 242.3.3. Resultados y analisis . . . . . . . . . . . . . . . . . . . 25

2.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3. Prueba de ajuste para la intensidad 283.1. Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.1.1. Metodo de estimacion por Kernels . . . . . . . . . . . 293.1.2. Estimacion de la intensidad de un PPNH . . . . . . . 30

3.2. Test S . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323.2.1. Descripcion del estimador . . . . . . . . . . . . . . . . 323.2.2. Criterios de decision . . . . . . . . . . . . . . . . . . . 323.2.3. Resultados y analisis . . . . . . . . . . . . . . . . . . . 33

3.3. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

1

Page 3: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

INDICE GENERAL 2

4. El problema de dos muestras 404.1. Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.2. Test T . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4.2.1. Descripcion del estimador . . . . . . . . . . . . . . . . 444.2.2. Criterios de decision . . . . . . . . . . . . . . . . . . . 474.2.3. Resultados y analisis . . . . . . . . . . . . . . . . . . . 48

4.3. Test Tpool . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504.3.1. Descripcion del estimador . . . . . . . . . . . . . . . . 504.3.2. Criterios de decision . . . . . . . . . . . . . . . . . . . 514.3.3. Resultados y analisis . . . . . . . . . . . . . . . . . . . 51

4.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

A. Teorema del Lımite Central 57

B. Simulaciones 60B.1. Procesos de Poisson Homogeneos . . . . . . . . . . . . . . . . 60B.2. Procesos de Poisson No Homogeneos . . . . . . . . . . . . . . 60B.3. TestZ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61B.4. TestCVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61B.5. TestS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62B.6. Test Tgorro . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64B.7. Test Tpool . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

Page 4: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

Introduccion

Gracias a la gran cantidad de aplicaciones que tienen, los Procesos dePoisson son ampliamente utilizados para modelar situaciones reales. Masaun, debido a su versatilidad, los Procesos de Poisson no homogeneos per-miten explicar y predecir el comportamiento de numerosos experimentosaleatorios de interes, de modo que conocer las caracterısticas que definena un proceso de Poisson particular suele ser un tema de interes. En estetrabajo se propone abordar tres problemas esenciales, a saber:

1. Problema de homogeneidad : dado un conjunto de datos provenientesde un proceso de Poisson, decidir si este es homogeneo o no.

2. Problema de Bondad de Ajuste: a partir de un conjunto de datos pro-ducidos por un PPNH, evaluar la hipotesis nula de que la intensidaddel proceso es una funcion λ0(t) dada.

3. Problema de dos muestras: decidir, a partir de los datos producidospor dos PPNH independientes, si las intensidades asociadas a estosprocesos son iguales.

Con estos propositos, se hace uso de tecnicas de estadıstica no parametri-ca, tales como los Metodos de Monte Carlo y las tecnicas Bootstrap, paradecidir sobre las caracterısticas del proceso sin hacer suposiciones adiciona-les sobre los datos. Adicionalmente, para los problemas de homogeneidady de dos muestras, se comparan las ventajas y desventajas de dos pruebasdiferentes.

3

Page 5: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

Capıtulo 1

Conceptos basicos

1.1. Procesos de Poisson Homogeneos

Los procesos de Poisson simples u homogeneos son un caso especial delos llamados procesos de conteo; es decir, procesos que, para cada tiempot en un intervalo de estudio, registran el numero de eventos N(t) que hanocurrido hasta t. Se observa, entonces, que el conjunto de estados S delproceso es N. Por ejemplo, la variable aletoria N(t) puede representar elnumero de clientes que llegan a un almacen en el intervalo de tiempo (0, t],el numero de terremotos que ocurren en una cierta region hasta tiempo to el numero de reclamaciones que llegan a una companıa de seguros en (0, t].

Estos procesos deben su nombre al matematico frances Simeon Denis Pois-son (Pithiviers, 21 de junio de 1781 - Sceaux, 25 de abril de 1840) y sedefinen como sigue:

Definicion 1.1.1. Se dice que el proceso {N(t), t ≥ 0} es un proceso dePoisson homogeneo, o PPH, si:

(i) N(0) = 0

(ii) Los intervalos N(t) − N(s), para s < t son independientes y estacio-narios; es decir que si 0 ≤ t1 < · · · < tn ≤ T , entonces las variablesaletorias N(ti) − N(ti−1) con i = 1, ...n son independientes y su dis-tribucion depende unicamente del tamano del intervalo.

(iii) El numero de eventos en un intervalo de longitud t sigue una distri-bucion Poisson con media λt, donde λ ∈ R, λ > 0 es la intensidad delproceso.

4

Page 6: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 1. CONCEPTOS BASICOS 5

De la definicion del PPH se deduce que el proceso tiene la propiedadmarkoviana, es decir que el estado del proceso al tiempo t + s, dado N(u)para u ≤ t, solamente depende del valor de N(t) y no de lo ocurrido entiempos anteriores. Mas precisamente, se tiene que:

P (N(t+ s) = n|N(t) = m, (N(u), u < t)) = P (N(t+ s) = n|N(t) = m)

= P (N(s) = n|N(0) = m)

para todo m,n ∈ S ; t, s ≥ 0.

Como se demuestra en [8], la siguiente es una definicion equivalente de Pro-ceso de Poisson Homogeneo.

Definicion 1.1.2. El proceso de conteo {N(t), t ≥ 0} es un Proceso dePoisson con intensidad λ, λ > 0 si y solo si:

(i) N(0) = 0

(ii) El proceso tiene incrementos independientes y estacionarios.

(iii) P (N(h) = 1) = λh+ o(h)

(iv) P (N(h) ≥ 2) = o(h)

Aquı, una funcion f se dice o(h) si

lımh→0

f(h)

h= 0

Intuitivamente, de la definicion anterior se deduce que la probabilidad deque ocurra exactamente un evento en un intervalo de longitud h, con h ≈ 0es λh. Adicionalmente, la condicion (IV) implica que la probabilidad de queen un intervalo pequeno ocurra mas de un evento tiende a 0.

Ejemplo 1.1.1. En la figura 1.1, cada una de las cruces azules en el intervalode tiempo (0, 100) representa una ocurrencia de un evento. La homogenei-dad de este proceso puede deducirse de la distribucion de los puntos en elintervalo, que parece ser uniforme.

Este ejemplo particular corresponde a un PPH con parametro λ = 1, ypodrıa servir para modelar el numero de comensales que ingresan a un res-taurante en un intervalo de tiempo de 100 minutos. Por ejemplo, si cada cruz

Page 7: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 1. CONCEPTOS BASICOS 6

representa un cliente y su ubicacion en la lınea de tiempo corresponde a lahora en que llega, un proceso como el de la Figura 1.1 corresponderıa a unrestaurante que, en determinado lapso de 100 minutos, recibe en promedioun cliente por minuto.

Figura 1.1: PPH con λ = 1, T = 100

Ejemplo 1.1.2. El proceso de Poisson es un ejemplo de un proceso de naci-miento y muerte con parametro de nacimientos constante λ > 0 y parametrode muertes µ = 0. En este caso, el valor N(t) representa el numero de miem-bros de una poblacion a tiempo t. Asumiendo que el proceso esta definidoen el intervalo de tiempo (0, T ), la condicion µ = 0 significa que ningunmiembro de la poblacion muere en (0, T ). El parametro λ del proceso repre-senta, por su parte, la tasa de natalidad, que se asume constante. [6] ofreceun analisis mas completo de los procesos de nacimiento y muerte, ası comouna prueba de que el proceso descrito anteriormente es, efectivamente, unPPH.

1.2. Procesos de Poisson No Homogeneos

Los procesos de Poisson homogeneos suponen que la intensidad λ delproceso es constante, es decir que no cambia con respecto al tiempo. Es poresto que algunas situaciones no pueden modelarse correctamente como PPH.Por ejemplo, si se considera el caso de una estacion de servicio, es naturalasumir que llegaran mas clientes entre las 8 y las 9 de la manana que entrelas 11 y las 12 de la noche, de modo que serıa un error modelar la intensidaddel proceso como una constante. Es util, entonces, considerar procesos conpropiedades similares a los de los procesos de Poisson homogeneos, peroque reflejen dicho comportamiento no homogeneo. Tales procesos reciben elnombre de procesos de Poisson no homogeneos y se definen como sigue:

Definicion 1.2.1. Sea λ(t) una funcion medible e integrable definida sobre(0, T ). El proceso {N(t), 0 ≤ t ≤ T} es un proceso de Poisson no homogeneoo PPNH con funcion de intensidad λ(t) si:

Page 8: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 1. CONCEPTOS BASICOS 7

(i) N(0) = 0

(ii) El proceso tiene incrementos independientes.

(iii) P{N(t+ h)−N(t) ≥ 2} = o(h) uniformemente en t.

(iv) P{N(t+ h)−N(t) = 1} = λ(t)h+ o(h) uniformemente en t.

De los axiomas dados anteriormente se deduce que {N(t), t ≥ 0} es unproceso con incrementos independientes tal que, para 0 ≤ s < t, la variablealeatoria N(t)−N(s) tiene distribucion Poisson con parametro m(t)−m(s),donde

m(t)−m(s) :=

∫ t

sλ(u) du (1.1)

De hecho, esta propiedad, junto con la de incrementos independientes,constituyen una definicion equivalente de PPNH.

Definicion 1.2.2. Sea λ(t) ≥ 0 una funcion medible e integrable. Un pro-ceso de Poisson no homogeneo con funcion de intensidad λ(t) es un proceso{N(t) t ≥ 0} tal que:

(i) N(0) = 0

(ii) {N(t) t ≥ 0} tiene incrementos independientes.

(iii) Si 0 ≥ s < t, entonces la variable aleatoria N(t) − N(s) tiene distri-bucion de Poisson con parametro m(t) −m(s), donde m(t) se definecomo en 1.1.

Ejemplo 1.2.1. Muchas situaciones cotidianas son modeladas como pro-cesos de Poisson no Homogeneos. Algunos de los ejemplos mas comunesguardan relacion con la atencion de clientes en algun centro; bien sea de lla-madas a un call center, de atencion a personas en un banco o de automovilesen un centro de servicio. En cualquier caso, se trata de un proceso de con-teo en que es de interes conocer el tiempo de llegada de cada cliente, y laintensidad no puede asumirse constante.

En el caso de llamadas a un call center, por ejemplo, es natural suponerque el numero de llamadas que entran en el intervalo de tiempo de 2 a 3de la manana no sera el mismo que el numero de llamadas que entran entre3 y 4 de la tarde. En la Figura 1.2 se puede observar un ejemplo de unafuncion de intensidad que representa esta situacion. En ella, se ve que elnumero de llamadas aumenta drasticamente entre las 12 del dıa y las 6 de

Page 9: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 1. CONCEPTOS BASICOS 8

la tarde, alcanzando un maximo de 100 llamadas, mientras que el numerode llamadas disminuye en horas de la noche.

La Figura 1.3, por su parte, muestra un PPNH generado con esta inten-sidad, es decir que representa las llamadas que entran en un dıa particularal call center cuya funcion de intensidad esta dada por la Figura 1.2.

Figura 1.2: Intensidad de llamadas en funcion del tiempo

Figura 1.3: PPNH generado con esta intensidad

Page 10: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 1. CONCEPTOS BASICOS 9

1.3. Pruebas de hipotesis

Las pruebas de hipotesis son procedimientos de inferencia estadıstica am-pliamente utilizados para decidir sobre la verdad o falsedad de una hipotesis.Supongase, por ejemplo, que interesa saber si una variable aleatoria X tienefuncion de densidad f(x; θ), donde θ ∈ Θ. Si se sabe que θ ∈ Θ y existensubconjuntos disjuntos ω0 y ω1 tales que ω0 ∪ ω1 = Θ, cabe preguntarse siθ ∈ ω0 o θ ∈ ω1. Sea H0 la hipotesis nula, correspondiente a la posibilidadθ ∈ ω0, y sea H1 la hipotesis alternativa θ ∈ ω1.

Decidir si aceptar o rechazar H0 consiste en establecer algun criterio quepermita inferir informacion sobre la densidad f . Dicho criterio se basa enuna muestra X1, X2, ..., Xn de la distribucion X, por lo que es posible quese acepte una hipotesis falsa. Se denota error tipo I a rechazar H0 cuandoesta es verdadera, y error tipo II a aceptar H0 cuando esta es falsa. Por su-puesto, el caso en que interesa conocer informacion sobre un parametro dela densidad f es solo un ejemplo. En general, las hipotesis H0 y H1 puedendefinirse como posibilidades disjuntas para diversas caracterısticas de unamuestra aleatoria.

Como se discute en [5], una prueba o test de H0 versus H1 se basa en unsubconjunto del espacio de posibles resultados, llamado region crıtica. Da-da una muestra X1, X2, ..., Xn y una region crıtica C, se define una pruebacomo sigue.

Rechazar H0 si (X1, ..., Xn) ∈ CAceptar H0 si (X1, ..., Xn) ∈ Cc

Es claro que la region crıtica escogida depende de la pregunta de interes yque deberıa escogerse procurando minimizar el error. Se dice que una pruebatiene nivel de confianza α si, dada H0 verdadera, la probabilidad de cometererror tipo I es α. Una vez establecida una region crıtica C que minimice elerror tipo I, interesa minimizar el error tipo II. Para lograrlo, se introducela nocion de potencia.

Definicion 1.3.1. La potencia de una prueba se define como la probabilidadde rechazar H0. Mas formalmente, la potencia de una prueba con regioncrıtica C es

Pθ[(X1, ..., Xn) ∈ C]

Naturalmente, interesa maximizar la potencia cuando H0 es falsa.

Page 11: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 1. CONCEPTOS BASICOS 10

Una prueba de hipotesis recibe el nombre de prueba de bondad de ajustecuando esta disenada para decidir que tan bien se ajusta un modelo es-tadıstico particular a los datos observados.

1.4. Metodos de Monte Carlo

Independientemente de cuan simple sea una prueba de hipotesis, escomun encontrarse con que la distribucion exacta o lımite de los datos deinteres, bajo la hipotesis nula, es difıcil de tratar. Por esta razon, el uso demetodos de Monte Carlo ha ganado popularidad en muchas aplicaciones,en tanto que este tipo de pruebas permite simular el comportamiento desistemas fısicos o matematicos cuando encontrar una solucion analıtica esdifıcil. Ası pues, los metodos de Monte Carlo no se presentan como metodosdeterminısticos sino estocasticos y reciben su nombre gracias a la naturale-za aleatoria y repetitiva del proceso, cuyas caracterısticas lo asemejan a lasactividades que se realizan en los casinos de Monaco.

La utilidad de dichos metodos radica en que por lo general, para la im-plementacion de cierto tipo de pruebas, se requiere tener acceso a grandescantidades de datos. Los metodos de Monte Carlo permiten, entonces, si-mular numeros pseudoaleatorios; es decir, numeros aleatorios que han sidosimulados a partir de valores, generados de forma determinıstica, de una va-riable aleatoria X. De esta manera, la generacion de grandes cantidades dedatos a partir de unos parametros conocidos permite que sea posible disenaruna prueba de bondad de ajuste aun cuando no se tiene acceso a un grannumero de datos reales.

Los metodos de Monte Carlo utilizados en este trabajo consisten en labusqueda de percentiles que permitan establecer una region crıtica C. Ba-jo H0, es decir, asumiendo que la hipotesis nula es verdadera, se generanmuestras aleatorias de tamano n de la distribucion de interes. Denotandopor θ el parametro que se desea conocer y definiendo un estimador θ de θ,se calcula θ para cada una de estas muestras. Posteriormente, se define Ccomo el conjunto de valores de θ mayores al (1−α)-esimo percentil calculadobajo H0, donde 0 < α < 1). Si el estimador se ha disenado correctamente, esde esperarse que los percentiles se estabilicen a partir de cierto n suficiente-mente grande y que la prueba, ası definida, tenga una probabilidad de errortipo I igual a α.

Page 12: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 1. CONCEPTOS BASICOS 11

1.5. Tecnica Bootstrap

Segun lo expone [9], la tecnica bootstrap fue introducida alrededor de1980 y ha probado ser sumamente util en el desarrollo de metodos de in-ferencia estadıstica que requieren grandes cantidades de datos. En general,la tecnica bootstrap consiste en el desarrollo del procedimiento expuesto acontinuacion.

Supongase que una muestra s es extraıda arbitrariamente de una poblacionU . Sean θ un parametro de esta poblacion y θ un estimador de θ calculadoa partir de s.

(i) Usando los datos de la muestra conocida s, se construye una poblacionartificial U∗. Se asume que U∗ es la poblacion verdadera U .

(ii) Se generan muestras independientes, llamadas muestras bootstrap dela poblacion U∗. El procedimiento que se utilice para generar estasmuestras debe ser similar al utilizado para hallar la muestra inicial s.Para cada muestra bootstrap sb, se calcula el estimador θb de la mismamanera en que se calculo para s.

(iii) La distribucion observada de los θb se considera una estimacion de θ.

Utilizando este metodo es posible, entonces, deducir informacion impor-tante sobre el parametro de interes θ, aun en las situaciones en que es difıcilacceder a un gran numero de muestras extraıdas directamente de la pobla-cion U .

Page 13: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

Capıtulo 2

Pruebas de homogeneidad

Supongase que el dueno de una estacion de servicio desea reducir el perso-nal que trabaja en su local, por lo que ha decidido despedir a un trabajador.Si se asume que hay tres horarios de trabajo diferentes, denotados I1, I2 eI3, es esencial que el dueno de la estacion decida en cual de los intervalosde tiempo Ii esta dispuesto a reducir el personal. Como se discutio en elejemplo 1.1, el numero de automoviles que llegan a la estacion puede mode-larse como un proceso de Poisson. Si el proceso tiene intensidad constante,es decir, si en cada Ii la estacion recibe en promedio el mismo numero declientes, entonces el intervalo en que se reducira el personal puede escogersearbitrariamente. Si, por el contrario, existe un horario de trabajo en que elnumero de automoviles que llegan es mayor que en los demas, serıa un errordespedir a uno de los trabajadores que laboran en dicho horario.

Ası pues, la primera inquietud que debe abordar el dueno de la estaciones si el proceso que modela su local es un PPH o un PPNH. Es claro que lounico puede conocerse con certeza es el numero de automoviles que lleganen un dıa particular a la estacion, ası como las horas en las que llegan. Lapregunta que surge es, entonces, ¿como puede utilizarse esa informacion,aparentemente insuficiente, para responder la inquietud del dueno sobre laposible homogeneidad del proceso? Son varios los factores que hacen especialesta pregunta: en primer lugar, se pretende determinar con cierto grado deconfianza si el proceso es homogeneo o no. En segundo lugar, se espera po-der hacerlo sin hacer ningun supuesto adicional sobre el proceso. Por ultimo,teniendo en cuenta que el dueno no puede demorar demasiado en tomar unadecision, solamente se podra tener acceso a un numero fijo - posiblementepequeno - de realizaciones del proceso.

12

Page 14: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 2. PRUEBAS DE HOMOGENEIDAD 13

Si para cada automovil que llega a la estacion de servicio se registra eltiempo ti en que ingresa, al final de un dıa se tendra un vector de tiempos{t1, t2, ..., tn, 0 < ti ≤ T} que representan los tiempos de ocurrencia delevento “un automovil llego a la estacion”. En este caso, el intervalo de tiem-po en que esta definido el proceso es (0, T ]; midiendo los tiempos en horas,el valor de T es 24. Decidir si el proceso es homogeneo consiste, entonces,en construir y aplicar una prueba de hipotesis que, usando unicamente elvector de tiempos {t1, t2, ..., tn} y el valor de T , pruebe la hipotesis nula H0:“el proceso es homogeneo” contra la hipotesis alternativa H1: “el proceso esno homogeneo”.

En este capıtulo se introducen y comparan dos pruebas de bondad de ajusteque estudian estas hipotesis: el test Z y la prueba de Cramer von Mises.Las dos pruebas utilizan metodos de estadıstica no parametrica con el finde aceptar o rechazar H0 sin hacer suposiciones adicionales sobre los datos.Es decir que, en el ejemplo propuesto anteriormente, bastarıa conocer losdatos correspondientes a un solo dıa de trabajo en la estacion de serviciopara probar la hipotesis de homogeneidad.

2.1. Preliminares

Las dos pruebas que se discuten en este capıtulo estan basadas en elsiguiente resultado.

Teorema 2.1.1. Sea {N(t), t ≥ 0} un PPH con parametro λ. Bajo la con-dicion N(T ) = n, los tiempos de llegada S1, . . . , Sn tienen la misma distri-bucion que los estadısticos de orden correspondientes a n variables aleatoriasuniformemente distribuidas en el intervalo (0, T ].

Demostracion. En [5] se demuestra que si U(1), . . . , U(n) denotan los es-tadısticos de orden de una muestra aleatoria U1, . . . , Un de una distribucioncontinua con funcion de densidad f(x) y soporte1 (a, b), entonces la funcionde densidad conjunta de U(1), . . . , U(n) esta dada como sigue.

g(y1, . . . , yn) =

{n!f(y1) · · · f(yn)si a < y1 < · · · < yn < b

0 en otro caso(2.1)

1El soporte de la densidad de una variable aleatoria X es cualquier conjunto A tal queP (X ∈ A) = 1

Page 15: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 2. PRUEBAS DE HOMOGENEIDAD 14

Considerese el caso en que f1 = f2 = · · · = fn es la funcion de densidad deuna distribucion uniforme en (0, T ]. Es decir,

fi(x) =

{1T si x ∈ (0, T ]

0 en otro casoi = 1, . . . , n

Entonces la ecuacion 2.1 coincide con 2.2:

g(t1, . . . , tn) =

{n!Tn si 0 < t1 < · · · < tn ≤ T0 en otro caso

(2.2)

Basta probar, entonces, que la distribucion conjunta de los tiempos de lle-gada S1, ..., Sn bajo la condicion N(T ) = n esta dada por la ecuacion 2.2.Considerese el vector aleatorio (S1, ..., Sn) dado N(T ) = n. Escribiendo lafuncion de densidad como la derivada de la funcion de distribucion, se ob-tiene que la densidad conjunta de (S1, ..., Sn)|N(T ) esta dada por 2.3.

f(S1,...,Sn)|N(T )(t1, ..., tn|n) =∂n

∂t1 · · · ∂tnP (S1 ≤ t1, · · · , Sn ≤ tn | N(T ) = n)

(2.3)Si Si denota el i-esimo tiempo de ocurrencia de un evento, entonces el evento{Si ≤ ti} = {el i-esimo punto del proceso ocurre antes del tiempo ti} equi-vale {N(ti) ≥ i} = {en el tiempo ti han ocurrido al menos i puntos delproceso}. Por este motivo, la ecuacion 2.3 puede reescribirse como sigue.

∂n

∂t1 · · · ∂tnP (N(t1) ≥ 1, N(t2) ≥ 2, · · · , N(tn) ≥ n | N(T ) = n) (2.4)

Por definicion de procesos de conteo, se sabe que N(ti) − N(ti−1) es elnumero de eventos que ocurren en el intervalo (ti−1, ti). Haciendo los in-tervalos (ti−1, ti) suficientemente pequenos, es posible asumir que en ca-da intervalo ocurre a lo mas un evento puesto que, por la definicion 1.1.2,P{N(h) ≥ 2} = o(h). Ası, 2.4 es equivalente a:

∂n

∂t1 · · · ∂tnP (N(T )−N(tn) = 0, N(tn)−N(tn−1) = 1, ..., N(t2)−N(t1) = 1,

N(t1) = 1 | N(T ) = n)

Por definicion de PPH, los eventos N(ti) − N(ti−1) son independientes y

Page 16: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 2. PRUEBAS DE HOMOGENEIDAD 15

tienen distribucion de Poisson con parametro λ. Entonces, denotando t0 = 0,la funcion de densidad conjunta de (S1, ..., Sn)|N(T ) puede escribirse comosigue.

∂n

∂t1 · · · ∂tn

P (N(T )−N(tn) = 0)n∏i=1

(P (N(ti)−N(ti−1 = 1)))

P (N(T ) = n)

=∂n

∂t1 · · · ∂tn

e−λ(T−tn)n∏i=1

e−λ(ti−ti−1)λ(ti − ti−1)

e−λT (λT )n

n!

=∂n

∂t1 · · · ∂tn

e−λ(T−tn)n∏i=1

e−λ(ti−ti−1)λ(ti − ti−1)

e−λT (λT )n

n!

=∂n

∂t1 · · · ∂tn

e−λT eλtne−λ

n∑i=1

(ti−ti−1)λn

n∏i=1

(ti − ti−1)

e−λT λnTn

n!

=∂n

∂t1 · · · ∂tn

eλtne−λtnn∏i=1

(ti − ti−1)

Tn

n!

=∂n

∂t1 · · · ∂tn

n!n∏i=1

(ti − ti−1)

Tn

=n!

Tn

Entonces la funcion de densidad conjunta de (S1, ..., Sn)|N(T ) coincidecon 2.2 y por tanto, dado N(T ) = n, los tiempos S1, ..., Sn tienen la mis-ma distribucion que los estadısticos de orden U(1), ..., U(n) de una muestraaleatoria de distribuciones uniformes en (0, T ].

Es importante notar que en la prueba anterior se usa fuertemente el hechode que los S1, ..., Sn provienen de un proceso de Poisson homogeneo, parti-culamente al asegurar que P (N(ti)−N(ti−1) = 1) = e−λ(ti−ti−1)λ(ti− ti−1).De hecho, el resultado del Teorema 2.1.1 es falso para procesos de Poissonno homogeneos. 2

2La formula para la distribucion de los tiempos entre llegadas de un PPNH es derivadaen [10].

Page 17: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 2. PRUEBAS DE HOMOGENEIDAD 16

Por este resultado, la verificacion de que un proceso es Poisson Homogeneopuede reducirse a verificar que la distribucion condicional de los tiempos deeventos es Uniforme en el intervalo de tiempo dado. Ası, tal observacion re-sulta de interes puesto que para este ultimo problema existen varios metodosdisponibles. A continuacion se discuten dos de ellas.

2.2. Test Z

La primera prueba que se estudio en este trabajo fue propuesta en [1].En este test se prueba la hipotesis nula H0: “el proceso es un PPH” contraH1: “el proceso no es un PPH”, de modo que H1 solo puede tomarse como“el proceso es un PPNH” si se ha probado previamente que los datos aconsiderar pueden modelarse como un Proceso de Poisson.

2.2.1. Descripcion del estimador

Sea N = {t1, t2, ..., tn} un proceso de Poisson definido en el intervalo detiempo (0, T ] y supongase que t1 < t2 < · · · < tn. Bajo H0, dado que hastael instante T se han observado n sucesos, del resultado 2.1.1 se deduce quelos tiempos t1, ..., tn siguen una distribucion uniforme en (0, T ]. Sea

Sn =n∑i=1

ti

Entonces Sn es la suma de n variables aleatorias independientes unifor-mes en (0, T ]. Por propiedades de la distribucion uniforme, se tiene que siX ∼ U(0, T ), entonces E[X] = T/2 y V [X] = T 2/12. Luego la esperanza yvarianza de Sn estan dadas por 2.5 y 2.6, respectivamente.

E[Sn] =nT

2(2.5)

V [Sn] =nT 2

12(2.6)

Se define el estimador Z como sigue.

Z =Sn − nT/2√nT 2/12

(2.7)

Por el teorema del lımite central3, si n es suficientemente grande entoncespuede asumirse que Z ∼ N (0, 1). De esta manera, rechazar la hipotesis de

3Ver Apendice A

Page 18: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 2. PRUEBAS DE HOMOGENEIDAD 17

que el proceso {N(t), t ≤ T} es un PPH equivale a probar que |Z| es grandepara un cierto nivel de significancia. Mas precisamente, se rechaza H0 conun nivel de confianza de α si |Z| > zα, donde zα denota el valor crıtico denivel α de una normal estandar.

2.2.2. Resultados y analisis

Con el objetivo de estudiar cuan efectivamente este test podrıa deter-minar si un proceso de Poisson es homogeneo o no, se generaron procesoshomogeneos con diferentes valores de λ y T y se estudio la normalidad delos resultados. Mas especıficamente, para cada λ y cada T fijos, se genera-ron 10000 procesos de Poisson homogeneos con estos parametros. Para cadauno, se calculo el valor Zi, i = 1, ..., 10000 del test y dichos valores fuerontratados posteriormente como realizaciones de una variable aleatoria Z.

En cada caso se estudio cuan acertada es la caracterizacion de Z como unanormal estandar, haciendo uso de tres metodos diferentes. En primer lugarse observo graficamente el ajuste de los datos a una curva normal; posterior-mente se realizo un QQ-plot4 y finalmente se realizo un test de Anderson-Darling5, a fin de aceptar o rechazar la hipotesis nula H0 : Z ∼ N (0, 1). Acontinuacion se muestran los resultados.

Experimento 2.2.1. λ = 1, T = 8En el histograma anterior se compara la distribucion empırica de Z con

la densidad de una distribucion normal estandar. Intuitivamente, la distri-bucion de las barras del histograma sugiere que, efectivamente, Z tiene unadistribucion normal. Sin embargo, al comparar el histograma con la curvanormal estandar, se ve que la curva esta corrida hacia la izquierda. Es-to sugerirıa que los datos provienen de una distribucion normal con otros

4Un QQ-plot de Yk contra ξZ,pk es un grafico en que se comparan los cuantiles empıricosYk de un conjunto de datos con los cuantiles ξZ,pk = F−1(pk) de una distribucion teoricacon funcion de distribucion F . Si la muestra aleatoria X1, ..., Xn cuyos estadısticos deorden son los Yi proviene de una distribucion X con funcion de distribucion F , entoncesel resultado del QQ-plot sera una lınea recta. En [5] se explora mas a profundidad estetipo de graficos.

5El test de Anderson-Darling fue introducido en 1954 y se reconoce como una de lasmejores pruebas de bondad de ajuste para normalidad (ver, por ejemplo, [7]). El estadısticocorrespondiente a este test es A2

n, definido como sigue.

A2n = n

∫ ∞−∞

[F (x)− F0(x)]2(F0(x)[1− F0(x)])−1 dF0(x)

Page 19: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 2. PRUEBAS DE HOMOGENEIDAD 18

parametros, a pesar de que en la implementacion de Z los datos son nor-malizados. Del mismo modo, dado que los puntos en el grafico QQ parecenformar una lınea recta, este segundo test grafico sugiere, nuevamente, quelos datos provienen de una normal. No obstante, los analisis visuales no sonlo suficientemente concluyentes como para asegurar que Z sea normal, ha-ciendo evidente la necesidad de acudir a otras pruebas de ajuste.

Siendo reconocida como una prueba de normalidad confiable (ver [7]), seaplico el Test de Anderson-Darling para corroborar lo sugerido por las grafi-cas. No obstante, este test arrojo un p-valor de 0,00526, de modo que lahipotesis de normalidad se rechaza bajo cualquiera de los valores de signifi-cancia usuales. Segun la definicion del estimador Z, lo anterior significa queel proceso inicial no es homogeneo. Sin embargo, el proceso fue generadocomo un PPH, luego se rechaza una hipotesis verdadera.

Una posible explicacion para este error es el bajo valor de T con relaciona la intensidad λ, pues al considerar simultaneamente una intensidad y un

Page 20: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 2. PRUEBAS DE HOMOGENEIDAD 19

intervalo pequenos, es posible que el numero de datos generado n no seasuficientemente grande. Esto significarıa que el uso del Teorema del LımiteCentral en la deduccion del estimador Z bajo H0 serıa incorrecta. Con elobjetivo de estudiar la hipotesis de que un valor de T pequeno puede traercomo consecuencia un error de tipo I en el test Z, se realizo el siguienteexperimento, en que la intensidad λ se mantuvo igual a 1, pero se modificoel valor de T .

Experimento 2.2.2. λ = 1, T = 40.

Al igual que en el caso anterior, las pruebas graficas sugieren que lahipotesis de normalidad es verdadera. Adicionalmente, el p-valor obtenidopara el Test de Anderson-Darling en este caso fue de 0,3032, de forma talque H0 se acepta bajo cualquiera de los niveles de confianza usuales. Esevidente, entonces, que el bajo valor de T justifica el error obtenido en elprimer caso. Consecuentemente, es aconsejable que esta prueba no se utilicecuando T y λ sean simultaneamente pequenos.

Page 21: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 2. PRUEBAS DE HOMOGENEIDAD 20

Habiendo concluido que el test Z parece ser bueno en cuanto al error ti-po I para valores de T suficientemente grandes, se estudio su potencia paraalgunos procesos no homogeneos. Si el test se ajustara correctamente a losdatos, serıa de esperarse que cuando H0 es falsa, el porcentaje de casos enque esta se rechace sea mayor a α, dado un valor de significancia α.

Para estudiarlo, se fijaron los valores de T y λ(t) y se genearon 1000 pro-cesos de Poisson con esos parametros. Posteriormente, se calculo el valorZi, i = 1, ..., 1000 de cada proceso y se estudio el numero de ındices i talesque |Zi| > 1,96, es decir, el numero de valores de Z que estan por encimadel percentil 97,5 de una distribucion normal estandar. Para un valor designificancia α = 0,05, serıa de esperarse que el porcentaje de valores |Zi|con esta propiedad fuera de 5 % para procesos homogeneos y de mas de 5 %para procesos no homogeneos. A continuacion se presentan los resultadosobtenidos para cada uno de los procesos estudiados.

Experimento 2.2.3. PPNH con λ(t) = 3t y T = 40 Para este caso, seobtuvo que |Zi| > 1,96 en el 100 % de los casos. Esto implica que el testsiempre rechaza la hipotesis de que el proceso es homogeneo, concluyendocorrectamente.

Experimento 2.2.4. PPNH con λ(t) = 0,25 + 0,0125t y T = 40 Para esteejemplo, se obtuvo que |Zi| > 1,96 en el 24,7 % de los casos. Ası, a pesarde tratarse de una funcion de intensidad cercana a una constante, el test Zrechaza la hipotesis nula de homogeneidad. Sin embargo, serıa deseable quela potencia fuese mayor, pues en todo caso la prueba esta aceptando unahipotesis falsa en el 75,3 % de los casos.

Experimento 2.2.5. PPNH T = 40 y λ(t) definida como sigue.

λ(t) =

0 t < 0

0,92 0 ≤ t < 3

0,8 3 ≤ t < 17

1 17 ≤ t < 23

0,8 23 ≤ t < 37

0,92 37 ≤ t < 40

0 t ≥ 40

(2.8)

A continuacion se muestra la grafica de λ(t)Para este caso, se obtuvo que el porcentaje de valores tales que |Zi| >

1,96 es de 4,3 %, de modo que en el 95,7 % de los casos, el test Z esta

Page 22: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 2. PRUEBAS DE HOMOGENEIDAD 21

aceptando que el proceso es homogeneo. Es claro, sin embargo, que se tratade un proceso no homogeneo. Podrıa decirse que la razon por la que el testacepta una hipotesis falsa es que, como se puede deducir de la definiciondel estimador Z, este estimador unicamente tiene en cuenta las medidasde tendencia central de los datos. Es por esto que cuando se presenta unaintensidad como λ(t), que fue definida intencionalmente para que tuviera lamedia y varianza deseadas, el test Z ignora la no homogeneidad del proceso.Como lo muestra el ejemplo siguiente, aun para un valor de T mayor, unafuncion de este estilo genera error.

Experimento 2.2.6. PPNH con T = 100 y λ(t) definida como sigue.

λ(t) =

0 t < 0

0,8 0 ≤ t < 26

0,484 26 ≤ t < 42

1 42 ≤ t < 58

0,484 58 ≤ t < 74

0,8 74 ≤ t < 100

0 t ≥ 100

(2.9)

A continuacion se muestra la grafica de λ(t).Para este ejemplo, se obtuvo que |Zi| > 1,96 en el 1,1 % de los casos,

es decir que H0 se acepta en el 98,9 % de los casos, a pesar de tratarse deun proceso no homogeneo. Ası, al igual que en el ejemplo anterior, el test Zacepta fuertemente una hipotesis falsa cuando la media y la varianza de losdatos se acercan a T/2 y T 2/12, respectivamente.

Page 23: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 2. PRUEBAS DE HOMOGENEIDAD 22

2.3. Test de Cramer von Mises

Los ultimos dos ejemplos propuestos en la seccion 2.2. ejemplifican elmayor problema de las pruebas de bondad de ajuste que, como el test Z,se basan en el comportamiento central de los datos. De acuerdo con losresultados erroneos que se obtuvieron para este tipo de funciones, serıa masprovechoso considerar pruebas en que se observe el comportamiento de losdatos punto a punto. El objetivo de esta seccion es presentar y analizaruna prueba mas confiable de homogeneidad, cuyos resultados se basan en elcomportamiento de la funcion de distribucion empırica de los datos: el testde Cramer von Mises.

2.3.1. Descripcion del estimador

En general, el estimador de Cramer von Mises acepta o rechaza la hipote-sis nula H0: “los datos provienen de una distribucion conocida X”, mediantela comparacion de la funcion de distribucion empırica de los datos, denotadaFn, y la funcion de distribucion teorica F0. El estimador CVMn definido acontinuacion calcula la distancia entre las dos funciones, de modo que H0

debe aceptarse para valores de CVMn pequenos.

CVMn = n

∞∫−∞

[Fn(x)− F0(x)]2 dF0(x) (2.10)

donde n denota el numero datos.

De 2.10, es claro que este estimador no guarda una relacion particular con

Page 24: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 2. PRUEBAS DE HOMOGENEIDAD 23

los procesos de Poisson, siendo utilizado para cualquier circunstancia en quese quiera probar el ajuste de una distribucion conocida a un conjunto dedatos. No obstante, en el caso en que se conocen datos provenientes de unproceso de Poisson e interesa saber si el proceso es homogeneo o no, el resul-tado 2.1.1 permite utilizar el estimador CVMn para probar homogeneidad.

Mas precisamente, dado un conjunto de tiempos {t1, t2, ..., tn} donde 0 <t1 < t2 < · · · < tn ≤ T, i = 1, ..., n y cada ti representa el tiempo en queocurre el i-esimo evento del proceso, la hipotesis nula H0: “el proceso es ho-mogeneo” puede reemplazada por la hipotesis equivalente H0: “los tiemposti siguen una distribucion uniforme (0, T ]”. Con base en este resultado, elestimador CVMn para homogeneidad se deduce a continuacion.

Sea {N(t), 0 < t ≤ T} un proceso de Poisson y sea {t1, t2, ..., tn} un conjuntode n tiempos en que ocurren los eventos del proceso. Para cada i = 1, ..., n,se define vi como

vi =tiT

Bajo H0, los tiempos ti siguen una distribucion uniforme en (0, T ], luegoel conjunto de datos {v1, v2, ..., vn} se distribuye uniformemente en (0, 1].Por propiedades de la distribucion uniforme, esto implica que la funcion dedistribucion teorica de los vi es

F0(x) =

0 x < 0

x 0 ≤ x < 1

1 x ≥ 1

(2.11)

Por otra parte, dado que en total se conocen n tiempos y estan ordenados,entonces el tiempo ti corresponde al i-esimo de n datos. Consecuentemente,la funcion de distribucion empırica esta dada por 2.12.

Fn(x) =i

nsi x ∈ [vi, vi+1] (2.12)

De acuerdo con 2.10, se obtiene finalmente que el estimador CVMn para

Page 25: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 2. PRUEBAS DE HOMOGENEIDAD 24

homogeneidad esta dado por

CVMn = n

∞∫−∞

[Fn(x)− F0(x)]2 dF0(x) (2.13)

= n

T∫0

[Fn(x)− x]2 dx (2.14)

= nn∑i=1

vi+1∫vi

[i

n− x]2

dx (2.15)

donde vn+1 := 1.

2.3.2. Criterios de decision

A diferencia de lo que sucede con el test Z, en el que se conoce a prioriel valor crıtico de nivel α, para el test de Cramer von Mises no es tan clarocuando deba aceptarse o rechazarse la hipotesis nula. A fin de encontrarlos valores crıticos apropiados, se hizo uso un metodo de Monte Carlo: paradiferentes valores de n, se generaron 10000 muestras de tamano n de distri-buciones uniformes en (0, 1). Para cada una de ellas, se calculo el estimadorCVMn y, posteriormente, se extrajeron los percentiles 0,9, 0,95, 0,975, 0,99y 0,995. La siguiente tabla resume los resultados obtenidos.

Percentiles de CVMn

n Percentil0,9

Percentil0,95

Percentil0,975

Percentil0,99

Percentil0,995

15 0.3518649 0.4684375 0.5903292 0.7822311 0.883347820 0.3465428 0.4584818 0.5753957 0.7053891 0.814601925 0.3504529 0.4702532 0.5883125 0.7453699 0.879377630 0.3482421 0.4611047 0.5806804 0.7224764 0.854685250 0.3359970 0.4434854 0.5619571 0.7047575 0.8544456100 0.3482388 0.4613128 0.5739829 0.7434500 0.8829763150 0.3498517 0.4665150 0.5892059 0.7386647 0.8780107200 0.3486179 0.4707331 0.5899934 0.7626969 0.8998254500 0.3434822 0.4546323 0.5614580 0.7516881 0.88024761000 0.3491968 0.4603570 0.5734146 0.7185611 0.8326617

Page 26: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 2. PRUEBAS DE HOMOGENEIDAD 25

Como es deseable al tratar con pruebas Montecarlo, la tabla anteriormuestra que los percentiles se estabilizan. Particularmente, el percentil 0,95parece estabilizarse alrededor del valor 0,46, de modo que cα = 0,46 pue-de aceptarse como valor crıtico de nivel α = 0,05 del estimador CVMn

para cualquier n. Consecuentemente, la hipotesis nula de homogeneidad serechaza con un nivel de confianza del 5 % para valores mayores a cα.

2.3.3. Resultados y analisis

Realizando el mismo procedimiento que para el test Z, se estudio lapotencia de CVMn como sigue: una vez fijados los parametros T y λ(t),se generaron 1000 procesos con estos parametros y se calculo el estimadorCVMn para cada uno de ellos. Posteriormente, se estudio el porcentaje devalores CVMni , i = 1, ..., 1000 tales que CVMni > 0,46. Dado que se estatrabajando con un nivel de confianza α = 0,05, serıa de esperarse que si losdatos provienen de un proceso homogeneo, dicho porcentaje sea de 5 %. Acontinuacion se muestran los resultados obtenidos para diferentes procesos.

Experimento 2.3.1. PPH con λ = 1, T = 40 En este caso, se obtuvo unapotencia de 0,059 %, es decir que se acepta H0 casi en el 95 % de los casos,como serıa ideal para un proceso homogeneo.

Experimento 2.3.2. PPH con λ = 1, T = 100 Aumentando el valor de Ty manteniendo la misma intensidad λ que en el ejemplo anterior, se obtuvouna potencia de 0,043, de modo que la prueba de Cramer von Mises aceptala hipotesis nula de homogeneidad en el 95, 7 % de los casos. Ası pues, losdos ejemplos anteriores muestran que, al igual que el test Z, este test tieneun porcentaje de error Tipo I correcto, salvo por fluctuaciones aleatorias.

Experimento 2.3.3. PPNH con λ(t) = 3t y T = 40 En este caso se obtuvouna potencia de 1, es decir que este test rechaza la hipotesis de homogeneidaden el 100 % de los casos, al igual que el test Z.

Experimento 2.3.4. PPNH con λ(t) = 0,25 + 0,125t y T = 40 Para esteejemplo, se obtuvo una potencia de 0,219, de modo que se rechaza la hipotesisnula correctamente en el 21,9 % de los casos. Se trata, entonces, de unapotencia similar a la obtenida para el test Z con el mismo ejemplo.

Ası, los ultimos cuatro ejemplos no permiten reconocer diferencia algunaentre la bondad del test Z y el de Cramer von Mises. Con el objetivo dedeterminar cual de las dos pruebas es mejor, se calculo la potencia de CVMn

en los casos en que el test Z fallo.

Page 27: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 2. PRUEBAS DE HOMOGENEIDAD 26

Experimento 2.3.5. PPNH con T = 40 y λ(t) definida como en 2.8, esdecir

λ(t) =

0 t < 0

0,92 0 ≤ t < 3

0,8 3 ≤ t < 17

1 17 ≤ t < 23

0,8 23 ≤ t < 37

0,92 37 ≤ t < 40

0 t ≥ 40

En este caso se obtuvo una potencia de 0,049, de modo que al igual quecon el test Z, la prueba de Cramer von Mises falla. Sin embargo, es un errorlevemente menor que el obtenido con el test Z. Dado que de la definiciondel estimador CVMn puede deducirse que este depende del valor de T , serıade esperarse que para un T mayor la potencia mejore.

Experimento 2.3.6. T = 100 y λ(t) definida como en 2.9, es decir

λ(t) =

0 t < 0

0,8 0 ≤ t < 26

0,484 26 ≤ t < 42

1 42 ≤ t < 58

0,484 58 ≤ t < 74

0,8 74 ≤ t < 100

0 t ≥ 100

Para este ejemplo la potencia obtenida fue de 0,075, de modo que lahipotesis nula se rechaza en el 7,5 % de los casos. Debido a que se establecioun nivel de confianza de 0,05, esto significa que el test de Cramer von Misesacierta en el rechazo deH0, aunque no tan potentemente como serıa deseable.

2.4. Conclusiones

Como se pudo concluir de los experimentos realizados, ambas pruebas tie-nen un error tipo I mınimo y arrojan valores de potencia semejantes cuandose analiza un PPNH con una intensidad λ(t) creciente, pero casi constante.Sin embargo, la prueba de Cramer von Mises detecta con mayor facilidad lano homogeneidad de procesos cuya intensidad es constante a trozos y que

Page 28: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 2. PRUEBAS DE HOMOGENEIDAD 27

generan datos con medidas de tendencia similares a las de un PPH definidoen el mismo intervalo de tiempo.

Asimismo, es claro que el Teorema 2.1.1 es sumamente valioso, en tantoque la informacion que provee sobre los tiempos de un proceso de Pois-son permite distinguir a los procesos homogeneos de los no homogeneos.Adicionalmente, la prueba de Cramer von Mises propuesta anteriormenteejemplifica la importancia de la utilizacion de metodos de Montecarlo enla estadıstica no parametrica: gracias a este metodo, fue posible encontrarvalores crıticos para el estimador CVMn, sin hacer suposiciones adicionalessobre los datos.

Page 29: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

Capıtulo 3

Una prueba de ajuste para laintensidad de un PPNH

En el ejemplo introducido al inicio del capıtulo anterior, supongase queel dueno de la estacion de servicio probo que, en efecto, el numero de au-tomoviles que llegan al local depende del tiempo. Es decir, supongase quelos datos observados no provienen de un PPH, de modo que se ha aceptadola hipotesis alternativa H1. Notese que las pruebas descritas en el capıtuloanterior unicamente deciden si el proceso es o no homogeneo, sin proveerinformacion adicional sobre la forma de la funcion de intensidad: si el pro-ceso de Poisson dado tiene intensidad λ(t), las pruebas de homogeneidadunicamente abordan la pregunta sobre si λ(t) es constante.

No obstante, es natural cuestionarse acerca de la forma de la funcion deintensidad. En el caso de la estacion de servicio, para el dueno no serıa su-ficiente saber que existen horas en que el numero de clientes es mayor; esindispensable conocer tambien cuales son esas horas. Conociendo la dinami-ca de su local, el dueno podrıa conjeturar una funcion de intensidad: podrıa,por ejemplo, suponer que la intensidad se mantiene constante e igual a 1durante casi todo el dıa, que crece linealmente desde las 3 hasta las 4 dela tarde y que alcanza un maximo de 10 a las 5 de la tarde, decreciendonuevamente entre 6 y 7pm.

En un ejemplo como el anterior, la siguiente pregunta a considerar es sila suposicion del dueno es correcta. El objetivo es, entonces, tomar los datosconocidos - que son los mismos que se tenıan en las pruebas de homoge-neidad - y tratar de inferir, sin hacer suposiciones adicionales, cual es su

28

Page 30: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 3. PRUEBA DE AJUSTE PARA LA INTENSIDAD 29

funcion de intensidad. Una vez estimada λ(t), esta se compara con la inten-sidad propuesta λ0(t). Respondiendo al interes por resolver esta inquietud,en este capıtulo se introduce y discute el test S, una prueba que parte deun vector de tiempos {t1, t2, ..., tn, 0 < ti ≤ T} provenientes de un PPNHcon intensidad desconocida λ(t) y decide si aceptar o rechazar la hipotesisnula H0: “λ(t) = λ0(t)”, donde λ0(t) es una funcion fija propuesta por elinvestigador.

3.1. Preliminares

3.1.1. Metodo de estimacion por Kernels

Definicion 3.1.1. Una funcion real no negativa K es un kernel si∫ ∞−∞

K(x) dx = 1

Segun lo expone [3], el metodo de estimacion por kernels es quizas elmetodo mejor conocido y mas ampliamente utilizado para la estimacion dedensidades. Dado un vector de puntos {x1, x2, ..., xn} provenientes de unadistribucion con densidad desconocida f , se define el estimador fn(x) de fpor 3.1.

fn(x) =1

nh

n∑i=1

K

(x− xih

)(3.1)

donde K es un kernel y h > 0 es un parametro de suavidad.

Se ha demostrado1 que este estimador es consistente2 si h → 0 y nh → ∞.En el presente trabajo se escogio K como una densidad normal estandar,dada por 3.2.

K(x) =1√2πe−

12x2 (3.2)

Se ha demostrado que, para este kernel, el parametro h sugerido porBowman y Foster en 1993 y definido en 3.3 para el caso unidimensional, esoptimo en tanto que permite una mejor estimacion que otra escogencia deh.

h =

(4

3n

) 15

(3.3)

1Ver [3]2Supongase que X es una variable aleatoria con funcion de distribucion F (x, θ), θ ∈

Θ. Sea X1, ..., Xn una muestra de X y sea Tn un estadıstico. Tn se dice consistente siTn −→P θ

Page 31: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 3. PRUEBA DE AJUSTE PARA LA INTENSIDAD 30

3.1.2. Estimacion de la intensidad de un PPNH

Sea λ(t) : [0, T ] → R+ ∪ {0} y supongase que t = {t1, ..., tn} representalos tiempos en que ocurren los sucesos del proceso {N(t) 0 ≤ t ≤ T}. Sifi(t) denota la funcion de densidad de la variable aleatoria Xi: “tiempo enque ocurre el i-esimo suceso”, entonces se sabe que f puede aproximarsecomo sigue.

fi(t) ≈ P (t < Xi < t+ ∆t) (3.4)

para ∆t suficientemente pequeno.

Dado que la probabilidad de que el i-esimo suceso ocurra en el instantet es igual a la probabilidad de que entre t y t + ∆t ocurra exactamente unevento, entonces se obtiene que:

fi(t) ≈ P (N(t+ ∆t)−N(t) = 1) (3.5)

Por el tercer axioma en la definicion de PPNH, de 3.5 se deduce que

fi(t) ≈ λ(t)∆t+ o(∆t) (3.6)

Ahora bien, visto que se observaron exactamente n sucesos ti y para todoi la funcion de densidad fi(t) es la misma, entonces para n suficientementegrande podrıa tomarse ∆t = 1

n . De 3.6 se concluye, finalmente, que un buenestimador para la funcion de intensidad λ(t) es

λ(t) = nf(t) (3.7)

donde f(t) es una estimacion de la funcion de densidad de la variable alea-toria X: “tiempo en que sucede un evento del proceso”. Conociendo t, esposible estimar f por el metodo de estimacion por kernels para finalmenteencontrar λ(t).

A continuacion se muestran algunos ejemplos de estimaciones λ(t), calcula-das con este metodo, y su relacion con la intensidad real λ(t). La diferenciaque se presenta en el ejemplo 3.1.1 esta justificada en que, por la formulaelegida para la intensidad, las muestras de las que dispone el estimador porkernels son relativamente pequenas.

Page 32: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 3. PRUEBA DE AJUSTE PARA LA INTENSIDAD 31

Ejemplo 3.1.1. λ(t) = sin(t5

)+ 2 y T = 40

Figura 3.1: Diferencia entre las funciones λ(t) y λ(t)

Ejemplo 3.1.2. λ(t) = et10 y T = 100

Figura 3.2: Diferencia entre las funciones λ(t) y λ(t)

Ejemplo 3.1.3. λ(t) =(t10

)3 − t+ 20 y T = 50

Figura 3.3: Diferencia entre las funciones λ(t) y λ(t)

Las figuras 3.1, 3.2 y 3.3 muestran la precision de este metodo. Es facilnotar, sin embargo, que en general se produce error en la estimacion en elultimo trozo del intervalo.

Page 33: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 3. PRUEBA DE AJUSTE PARA LA INTENSIDAD 32

3.2. Test S

El test S que se presenta a continuacion es utilizado para determinar sila intensidad de un proceso corresponde a una conocida. Mas precisamente,dado un PPNH con intensidad λ(t) desconocida, este test provee un criteriopara determinar si λ(t) = λ0(t), donde λ0(t) es una funcion dada.

3.2.1. Descripcion del estimador

El estimador S que se define a continuacion mide la diferencia entre laintensidad λ(t) y la funcion λ0(t), dada una realizacion t = {t1, ..., tn} delPPNH cuya intensidad esta dada por λ(t). Dado el vector de tiempos t,se utiliza el metodo de estimacion por kernels descrito anteriormente paraestimar la intensidad λ(t) en el intervalo de tiempo [0, T ]. Sea

S =

∞∫−∞

[λ(x)− λ0(x)

]2dx (3.8)

=

T∫0

[λ(x)− λ0(x)

]2dx (3.9)

Entonces S es una medida de la distancia entre las funciones λ y λ0.Gracias a la precision del metodo de estimacion por kernels, este es unestimador confiable de la diferencia entre la intensidad real desconocida λy λ0. Ası pues, aceptar la hipotesis nula H0: “λ(t) = λ0(t)” equivale aencontrar un valor pequeno de S.

3.2.2. Criterios de decision

No obstante, definir que significa que S sea pequeno no es tarea facil,particularmente porque tal diferencia depende de la funcion particular conque se este trabajando: supongase, por ejemplo, que λ0 es una funcion po-sitiva con maximo igual a 1 en el intervalo (0, 1). Si el valor de S calculadoes 100, es natural asumir que H0 es falsa. Sin embargo, si se considera λ0positiva con mınimo igual a 1000 en el intervalo (0, 10000), este mismo valorde S es claramente pequeno.

Teniendo en cuenta la dificultad que representa establecer un criterio dedecision fijo, para este trabajo se utilizaron metodos de Montecarlo a fin deencontrar el valor a partir del cual se rechaza la hipotesis nula. Ası, para

Page 34: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 3. PRUEBA DE AJUSTE PARA LA INTENSIDAD 33

cada λ0 y T fijos, se estimaron los percentiles (0,9, 0,95, 0,975, 0,99, 0,995)generando n muestras de PPNH con estos parametros y calculando el valorde S para cada muestra. Variando n como en el caso del estimador CVMn,se estudio el vector en que los percentiles parecen estabilizarse y se definioel valor crıtico sα como el percentil 1 − α encontrado. Finalmente, H0 serechaza con un nivel de confianza de 100α% si S > sα.

3.2.3. Resultados y analisis

Experimento 3.2.1. PPNH con λ0(t) = 3t y T = 40Realizando un metodo de Monte Carlo para generar cuantiles del esti-

mador bajo H0, se obtuvieron los siguientes resultados.

Percentiles de S bajo H0 para λ0(t) = 3t y T = 40

n Percentil0,9

Percentil0,95

Percentil0,975

Percentil0,99

Percentil0,995

50 4845.653 4943.492 4957.374 5299.473 5463.362100 4810.662 4969.953 5142.663 5203.223 5423.530200 5013.742 5230.490 5748.320 5948.304 5957.654500 4938.568 5246.698 5469.628 5914.280 6068.8691000 5141.546 5261.439 5598.733 5667.946 5675.126

De los resultados resumidos en la tabla anterior se puede deducir que lospercentiles del estimador S se estabilizaran eventualmente. En particular,para un nivel de confianza α = 0,05, podrıa considerarse el valor de rechazosα = 5262. Con este criterio de decision, se estudio la potencia del test Spara varios ejemplos de intensidades λ(t). Mas precisamente, se generaron10000 procesos de Poisson no homogeneos con intensidad λ(t) en (0, 40) y,para cada uno de ellos, se estudio el resultado del test S con λ0(t) = 3t.La potencia del test, es decir, el porcentaje de ocasiones en que esta pruebarechaza H0, deberıa ser grande para cada uno de los ejemplos propuestos.

1. λ(t) = t

La potencia obtenida para este caso es de 1, es decir que en el 100 %de los procesos generados, la hipotesis nula se rechaza. Este resulta-do muestra que, dada una intensidad propuesta λ0 muy alejada de laverdadera, como en este caso, el test S rechaza fuertemente H0.

Page 35: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 3. PRUEBA DE AJUSTE PARA LA INTENSIDAD 34

2. λ(t) = 3t− 1

En este ejemplo, en el que se considera una intensidad λ0 similar ala intensidad real λ(t), la potencia obtenida es de 0,094. Esto implicaque la prueba acepta la hipotesis nula erroneamente en el 90,6 % delos casos. Aunque no se trata de un rechazo suficientemente potente,el hecho de obtener una potencia mayor a 0,05 sugiere que esta pruebaalcanza a reconocer la falsedad de la hipotesis nula.

Experimento 3.2.2. PPNH con λ0(t) = 4 sin(t7

)+ 10 y T = 40.

La tabla a continuacion resume los resultados obtenidos por el metodode Monte Carlo para encontrar valores crıticos.

Percentiles de S bajo H0 para λ0(t) = 3t y T = 40

n Percentil0,9

Percentil0,95

Percentil0,975

Percentil0,99

Percentil0,995

50 133.9748 155.1354 167.1714 169.3837 169.6752100 132.8220 152.0483 193.0134 211.2058 217.1263200 148.9014 167.1826 179.6649 215.5265 253.3899500 140.0511 158.0338 167.7062 194.1973 208.99391000 157.8457 167.0888 179.9171 210.3846 226.8995

Dado que el percentil 95 parece estabilizarse alrededor de 167, se definiosα = 167 como valor crıtico para un nivel de confianza de α = 0,05. Acontinuacion se presentan las potencias obtenidas al generar procesos nohomogeneos con intensidad λ(t) en (0, 40) y calcular el estimador S conλ0(t) = 4 sin

(t7

)+ 10

1. λ(t) = 10,11

Como primer experimento, se definio una funcion constante λ cuyaintegral sobre el intervalo de tiempo (0, 40) fuese aproximadamenteigual a la integral de la funcion λ0 sobre el mismo intervalo. La po-tencia obtenida para este ejemplo fue de 0,998, de modo que el testS rechaza fuertemente la hipotesis nula. Se trata de un resultado po-sitivo, por supuesto, pues significa que el hecho de que dos funcionesintegren lo mismo no implica que la prueba falle.

Page 36: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 3. PRUEBA DE AJUSTE PARA LA INTENSIDAD 35

2. λ(t) = −4 sin(t7

)+ 10

Posteriormente, se considero una funcion de intensidad λ(t) simetricaa λ0(t), como se muestra en la Figura 3.4.

Figura 3.4: Diferencia entre λ0(t) y λ(t)

La potencia obtenida en este caso fue de 1, es decir que en el 100 %de los 10000 procesos no homogeneos generados con intensidad λ(t),el test Z rechazo H0.

3. λ(t) =

{4 sin

(307

)+ 10 30 ≤ t < 40

4 sin(t7

)+ 10 en otro caso

Graficamente, la Figura 3.5 muestra la diferencia entre las funcionesλ(t) (en negro) y λ0(t) (en rojo) es solo distinguible en el intervalo(30, 40).

Figura 3.5: Diferencia entre λ0(t) y λ(t)

Claramente, la funcion λ(t), ası definida, difiere de λ0(t) unicamente entres cuartas partes del intervalo. Consecuentemente, serıa de esperarse

Page 37: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 3. PRUEBA DE AJUSTE PARA LA INTENSIDAD 36

que el test S no reconozca la diferencia. Sin embargo, para este ejemplola potencia obtenida fue de 0,292, de modo que el test rechazo H0

casi en el 30 % de los casos. Ası, aunque la diferencia entre las dosfunciones es mınima y se presenta justamente en la ultima parte delintervalo - que, como se discutio anteriormente, es donde la precisionde la estimacion de λ disminuye - esta prueba reconoce que no se tratade la misma funcion. Se podrıa decir, entonces, que se trata de un testconfiable.

Experimento 3.2.3. En este experimento, se considero una funcion deintensidad que pudiese representar las llamadas que entran a un call centerdurante un dıa. Ası pues, el objetivo de abordar una de las aplicaciones mascomunes de los procesos de Poisson, se definio la funcion λ0(t) como sigue.

λ0(t) =

10 0 ≤ t < 5

10t− 40 5 ≤ t < 8

40 8 ≤ t < 12

−152 t+ 130 12 ≤ t < 14

25 14 ≤ t < 16152 t− 95 16 ≤ t < 18

40 18 ≤ t < 21

−30t+ 679 21 ≤ t < 22

10 22 ≤ t < 24

Esta funcion representa la siguiente situacion: antes de las 5 de la mananay despues de las 11 de la noche, las llamadas entran con intensidad cons-tante igual a 10. Entre las 5 y las 8am, la intensidad aumenta linealmentehasta alcanzar un maximo de 40 llamadas, manteniendose constante hastamediodıa. Despues, entre las 12 y las 2 de la tarde, la intensidad disminuyelinealmente y alcanza un mınimo de 25, donde se mantiene constante hastalas 4pm. Entre las 4 y las 6pm vuelve a incrementar linealmente hasta al-canzar el maximo y finalmente disminuye linealmente a partir de las 9pm.La figura 3.6 muestra la grafica de λ0(t).

Al igual que en los experimentos anteriores, se estudiaron los cuantilesde S bajo H0, obteniendose los siguientes resultados:

De la tabla anterior es posible deducir que el percentil 0,95 de S bajoH0 parece estabilizarse alrededor de 20400. Ası, se establecio el valor crıticovalor crıtico sα = 20400, con α = 0,05.

Page 38: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 3. PRUEBA DE AJUSTE PARA LA INTENSIDAD 37

Figura 3.6: Funcion de intensidad λ0(t) para el ejemplo de llamadas a uncall center.

Percentiles de S bajo H0 para λ0(t) funcion de llamadas y T = 24

n Percentil0,9

Percentil0,95

Percentil0,975

Percentil0,99

Percentil0,995

50 20238.33 20483.99 20990.41 21160.27 21172.50100 20267.41 21178.91 22174.55 22857.82 23128.18200 19566.77 19931.70 20576.16 21812.72 22037.74500 19791.91 20805.70 21459.58 21803.88 22105.471000 19367.91 20486.14 20714.23 21436.44 21617.19

Cuando se trabaja con procesos de Poisson no homogeneos con este tipode funciones de intensidad, que representan situaciones como las llamadas aun call center, es de interes saber que tipo de modificaciones a λ0 son detec-tadas por la prueba y cuales no. Por esta razon, los ejemplos para los quese calculo la potencia en este experimento fueron procesos con intensidadessimilares, pero en los que parametros de la funcion de intensidad de llama-das, tales como las horas en las que incrementa o disminuye la intensidad olos maximos y mınimos alcanzados, fueron modificados.

1. Primero, se considero una funcion λ(t) semejante a λ0(t), pero en laque el maximo de llamadas es 44 y no 40. La figura 3.7.

La potencia obtenida para este ejemplo es 0,3228, es decir que H0 esrechazada en el 32,28 % de los casos. Ası, aunque no lo hace con unapotencia alta, el test S rechaza la hipotesis nula.

2. Posteriormente, se estudio la potencia para una funcion λ(t) similar a

Page 39: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 3. PRUEBA DE AJUSTE PARA LA INTENSIDAD 38

Figura 3.7: Diferencia entre λ0(t) y λ(t)

λ0(t), pero en la que la hora a la que se alcanza la intensidad maximapor primera vez no son las 8 sino las 6am. La grafica 3.8 muestra larelacion entre λ(t) y λ0(t).

Figura 3.8: Diferencia entre λ0(t) (en rojo) y λ(t) (en negro)

La potencia obtenida para este experimento es de 0,062, de modo que eltest S no reconoce la falsedad de la hipotesis nula cuando las funcionesson tan similares. En relacion con el ejemplo anterior, podrıa decirseque en el caso de funciones de intensidad de llamadas, el test S parecereconocer con mayor facilidad una modificacion pequena en el maximode la funcion que una diferencia pequena en los tiempos en que cambiaλ(t).

Page 40: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 3. PRUEBA DE AJUSTE PARA LA INTENSIDAD 39

3.3. Conclusiones

Los experimentos discutidos en esta seccion prueban que el test S es unbuen metodo para detectar diferencias muy grandes entre la intensidad de unPPNH y una intensidad λ0(t) propuesta. Mas precisamente, aun cuando supotencia no es alta cuando se sugiere una funcion λ0(t) similar a la intensi-dad real λ(t), esta prueba rechaza fuertemente la hipotesis nula λ0(t) = λ(t)cuando las funciones difieren significativamente. Esto quiere decir que, alutilizar este test en situaciones reales, es posible que se acepte una hipotesisfalsa, pero no que se acepte como funcion de intensidad una muy diferentea la real. En el ejemplo de la estacion de servicio, esto querrıa decir que esposible que se acepte la idea de que el maximo se alcanza a las 11am cuandoen realidad se alcanza a las 10am, pero es poco probable que la prueba Sacepte que se alcanza a las 5pm.

Adicionalmente, los metodos de Monte Carlo han probado ser sumamen-te utiles en la definicion de criterios de decision. Sin embargo, a diferenciade lo que sucede con el estimador CVMn, no es posible establecer un unicocriterio de decision que pueda aplicarse a cualquier experimento. De hecho,es interesante notar la gran diferencia entre los criterios de decision estable-cidos para los experimentos realizados: en el primer experimento se tomos0,05 = 5262, en el segundo s0,05 = 167 y en el tercero s0,05 = 20400.

Finalmente, a pesar de tratarse de una buena prueba de bondad de ajuste,el test S no es muy util en la practica en tanto que exige que se sugierauna funcion de intensidad. A menos de que se trate de una situacion casitrivial, el ejercicio de proponer una intensidad λ0(t) no es nada facil; masaun, si se rechaza H0, el test S no provee mayor informacion sobre como esla verdadera funcion de intensidad. Como se vera en el siguiente capıtulo, lomas valioso del desarrollo de este estimador es el metodo de estimacion porkernels, que permite estimar la intensidad λ(t) de manera confiable.

Page 41: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

Capıtulo 4

El problema de dos muestras

Como se discutio al final del capıtulo anterior, a pesar de la bondad dela prueba S, proponer una posible funcion de intensidad dado un vector detiempos del proceso no es tarea facil. No obstante, en varias circunstanciasreales no hace falta conocer una expresion algebraica de la funcion de inten-sidad, sino que basta con conocer que tanto se asemeja a otras intensidades.Por ejemplo, considerese nuevamente el caso de la estacion de servicio ysupongase que el dueno tiene tambien otra estacion, ubicada en otra zonade la misma ciudad. Suponiendo que los empleados de ambas estacionesreciben el mismo salario, despedir a un empleado de la primera estacionrepresenta la misma reduccion de costos que despedir a uno de la segundaestacion. La pregunta que interesa responder ahora es si el dueno realmentetiene total libertad para escoger el empleado que desea despedir, o si en taldecision debe tener en cuenta la estacion en que trabaja.

Claramente, para resolver esta inquietud basta con decidir si las dos es-taciones se comportan igual o no. Visto que la llegada de clientes a cadaestacion puede modelarse como un PPNH y asumiendo que los procesos sonindependientes, la inquietud anterior equivale a preguntar si las dos estacio-nes pueden modelarse como el mismo proceso. Mas precisamente, si Ni(t)denota el proceso correspondiente a la i-esima estacion, con intensidad des-conocida λi(t), i = 1, 2, la cuestion que interesa resolver es si λ1(t) ≡ λ2(t)o no.

Este problema, conocido como el problema de dos muestras, no ha sido tantratado en la literatura como los problemas de homogeneidad y ajuste. Segun[4], aunque el problema de dos muestras para procesos homogeneos ha si-

40

Page 42: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 4. EL PROBLEMA DE DOS MUESTRAS 41

do investigado previamente, muy pocos artıculos se han interesado por lacomparacion de las intensidades. En este capıtulo se introducen y comparandos pruebas para decidir sobre la hipotesis nula H0: “λ1(t) = λ2(t) ver-sus H1: “λ1(t) 6= λ2(t)”, donde las λi(t) son las intensidades de dos PPNHindependientes.

4.1. Preliminares

A continuacion se presentan los conceptos y resultados importantes parael desarrollo de las pruebas disenadas para el problema de dos muestras.

Definicion 4.1.1. Dos procesos estocasticos {X(t)} y {Y (t)} definidos so-bre el mismo conjunto t ∈ τ se dicen independientes si las familias de varia-bles {X(t)}t∈τ y {Y (t)}t∈τ son independientes. Es decir, si ∀n ∀t1 < t2 <· · · < tn, {X(t1), X(t2), ..., X(tn)} es independiente de {Y (t1), Y (t2), ..., Y (tn)}.

Definicion 4.1.2. Dados N1 = {N1(t), 0 ≤ t < T} y N2 = {N2(t), 0 ≤t < T} dos procesos de Poisson no homogeneos independientes definidossobre un mismo intervalo (0, T ), el proceso pool N = {N(t), 0 ≤ t < T} sedefine como

N(t) = N1(t) +N2(t) (4.1)

Teorema 4.1.1. Sean X ∼ P(λx) y Y ∼ P(λy) dos variables aleatoriasindependientes con distribucion de Poisson. Entonces la variable aleatoriaZ := X + Y tiene distribucion de Poisson con parametro λz = λx + λy.

Demostracion. Como siguen una distribucion de Poisson, entonces las varia-bles aleatorias X y Y toman valores en N, de donde Z tambien toma valoresen N. Sea z ∈ N. Entonces:

Page 43: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 4. EL PROBLEMA DE DOS MUESTRAS 42

P (Z = z) = P (X + Y = z)

=z∑i=0

P (X = i, Y = z − i)

=z∑i=0

P (X = i)P (Y = z − i)

=z∑i=0

e−λxλixi!e−λy

λz−iy

(z − i)!

=z∑i=0

e−(λx+λy)λixi!

λz−iy

(z − i)!

=1

z!

−(λx+λy) z∑i=0

λixλz−iy

z!

i!(z − i)!

=1

z!

−(λx+λy) z∑i=0

(z

i

)λixλ

z−iy

=1

z!

−(λx+λy)e−(λx+λy)(λx + λy)

z

Por tanto Z ∼ P(λx + λy).

Teorema 4.1.2. Sean N1 y N2 dos PPNH independientes sobre (0, T ) y seaN el proceso pool de N1 y N2. Si las intensidades de N1 y N2 son λ1(t) yλ2(t), respectivamente, entonces N es un PPNH con intensidad λpool(t) =λ1(t) + λ2(t).

Demostracion. En primer lugar, se prueba que N = {N1(t)+N2(t), 0 ≤ t <T} es, en efecto, un PPNH. Para la siguiente prueba, se utiliza la definicionalternativa de PPNH 1.2.2.

1. N(0) = 0: Por definicion, N(0) = N1(0) + N2(0). Pero N1(0) =N2(0) = 0 por ser ambos PPNH. Luego N(0) = 0.

2. N tiene incrementos independientes: Supongase que t0 < t1 < · · · < tky sean n1, ..., nk, m1, ...,mk numeros naturales. Entonces:

P ( N1(tk)−N1(tk−1) = nk, N2(tk)−N2(tk−1) = mk,

..., N1(t1)−N1(t0) = n1, N2(t1)−N2(t0) = m1)

Page 44: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 4. EL PROBLEMA DE DOS MUESTRAS 43

= P (N1(tk)−N1(tk−1) = nk, ..., N1(t1)−N1(t0) = n1,

N2(tk)−N2(tk−1) = mk, ..., N2(t1)−N2(t0) = m1)

Por tratarse de procesos independientes, esto es lo mismo que:

P (N1(tk)−N1(tk−1) = nk, ..., N1(t1)−N1(t0) = n1)

P (N2(tk)−N2(tk−1) = mk, ..., N2(t1)−N2(t0) = m1)

=k∏i=1

P (N1(ti)−N1(ti−1) = ni)P (N2(ti)−N2(ti−1) = mi)

Por tanto los vectores aleatorios (N1(ti)−N1(ti−1, N2(ti)−N2(ti−1),para i = 1, ..., k son todos independientes.

Ahora, considerense las variables aleatorias N(ti)−N(ti−1). Por defi-nicion, para i = 1, ..., k,

N(ti)−N(ti−1) = N1(ti) +N2(ti)− (N1(ti−1) +N2(ti−1))

= (N1(ti)−N1(ti−1)) + (N2(ti)−N2(ti−1))

Como la suma es una funcion medible y ya se probo que las variablesaleatorias Nj(ti) − Nj(ti−1), j = 1, 2 son independientes, entonces setiene finalmente que las variables N(ti)−N(ti−1) son independientes.Por tanto N tiene incrementos independientes.

3. Si 0 ≤ s < t, entonces la variable aleatoria N(t)−N(s) tiene distribu-cion de Poisson con parametro m(t) −m(s): Dado que por hipotesisN1 y N2 son procesos independientes, entonces ∀t ∈ (0, T ), N1(t) yN2(t) son independientes. Entonces, por el resultado 4.1.1, se sabe queN(t) se distribuye Poisson con parametro λ1(t) + λ2(t).

Ası, el proceso pool N es un PPNH con parametro λ(t) = (λ1 + λ2)(t).

4.2. Test T

El metodo que se presenta en esta seccion fue propuesto por [4] en 2013como un metodo para abordar el problema de dos muestras de manera ge-neral. En este trabajo, se interpreta la propuesta hecha en [4] para el casoreal unidimensional.

Page 45: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 4. EL PROBLEMA DE DOS MUESTRAS 44

4.2.1. Descripcion del estimador

Sean N1 y N2 dos PPNH con intensidades λ1(t) y λ2(t) desconocidas. Sedesea probar la hipotesis H0: “λ1(t) = λ2(t)” versus H1: “λ1(t) 6= λ2(t)”.

Supongase que, para i = 1, 2, se conoce una realizacion del proceso Ni,denotada ti. Entonces se tienen dos conjuntos de tiempos t1 y t2 que repre-sentan los instantes en que ocurren sucesos de los procesos 1 y 2, respecti-vamente.

Sea N el proceso pool de N1 y N2 y sea t el conjunto de tiempos corres-pondientes a N . Para cada x en t, se define la funcion de caracterizacionεx.

εx =

{1 si x ∈ t1

−1 si x ∈ t2(4.2)

εx determina, entonces, si la realizacion x del proceso pool proviene de N1

o de N2. El uso de εx da lugar a una interpretacion muy interesante deH0: si los procesos proviniesen de la misma intensidad, entonces realmenteserıan dos representaciones de un mismo PPNH y, por tanto, en el procesopool no importarıa que valor proviene de que proceso. Con base en estainterpretacion de H0, se construye el estimador T .

T =∑x 6=yx,y∈t

K(x, y) εxεy (4.3)

donde K es un kernel.Para los experimentos realizados en este trabajo, se tomo K como la densi-dad de una normal estandar.

A continuacion se presenta una interpretacion del significado de este es-timador. Supongase que N1 y N2 son PPNH con la misma intensidad λ(t).Entonces, al considerar el proceso pool, cada evento del proceso pool deberıaprovenir con igual probabilidad de N1 o de N2. Graficamente, si se consi-deran dos PPNH generados con la misma intensidad, como los que se venen las Figuras 4.1 y 4.2, los puntos deberıan tener una distribucion similar.Consecuentemente, al graficar el proceso pool, se obtiene una grafica comola que se muestra en la Figura 4.3.

Page 46: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 4. EL PROBLEMA DE DOS MUESTRAS 45

Figura 4.1: Puntos de un PPNH con intensidad λ(t)

Figura 4.2: Puntos de un PPNH con la misma intensidad λ(t)

Figura 4.3: Puntos del proceso pool

Como se ve en la grafica 4.3, si N1 y N2 tienen la misma intensidad,

Page 47: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 4. EL PROBLEMA DE DOS MUESTRAS 46

serıa de esperarse que no se presenten muchas aglomeraciones de puntos deun mismo proceso. En cambio, si se considera el proceso N3 con intensidadλ′(t) 6= λ(t), graficado en la Figura 4.4, y se grafica el proceso pool de N1 yN3, se obtendrıa un proceso como el de la figura 4.5.

Figura 4.4: Puntos de un PPNH con intensidad λ′(t) 6= λ(t)

Figura 4.5: Puntos del proceso pool

Si se comparan las figuras 4.3 y 4.5, se ve claramente que en la Figura4.5 se presentan muchas mas aglomeraciones de puntos de un mismo color;es decir, provenientes de un proceso en particular.

Si se analiza ahora el estimador T , se vera que, para cada pareja (x, y)de puntos distintos del proceso pool, este asigna un peso, correspondientea K(x, y), y suma o resta dicho valor dependiendo de la proveniencia de xy y. Si ambos vienen de un mismo proceso, suma y si vienen de procesosdiferentes, resta.

Por este motivo, si cada punto particular tiene a su alrededor tantos puntos

Page 48: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 4. EL PROBLEMA DE DOS MUESTRAS 47

de N1 como de N2, que es lo que pasara si H0 es verdadera, en el estima-dor T se sumaran y se restaran cantidades similares. Por el contrario, si sepresentan aglomeraciones de puntos provenientes de un mismo proceso, sesumaran muchos pesos que no seran restados. Es por esto que se espera queT sea pequeno cuando H0 es verdadera.

Mas formalmente, en [4] se demuestra que T es un estimador insesgado1

de εk = n2〈K ∗ (λ1 − λ2), λ1 − λ2〉. Aunque la prueba de esta afirmacionexcede los objetivos de este trabajo, es claro que εk sera 0 si y solamente siλ1(t) ≡ λ2(t), en tanto que la funcion dentro de la integral 4.4 es siemprepositiva solo se hace 0 cuando λ1 − λ2 = 0

εk = n2∞∫∞

[(K ∗ (λ1 − λ2))(t)][(λ1 − λ2)(t)] dt (4.4)

Rechazar H0 equivale, entonces, a mostrar que el valor de T es grande.

4.2.2. Criterios de decision

La pregunta que surge naturalmente es que significa que el valor calcula-do para el estimador T sea grande. Para decidir sobre esta pregunta, se haceuso de la tecnica bootstrap para obtener percentiles de T bajo H0. Ası, elvalor crıtico de nivel α, denotado mα se define como el percentil (1−α)-esimode T bajo H0. Consecuentemente, H0 se rechaza con un nivel de confianzaα si T > mα.

La tecnica propuesta por [4] consiste en la reasignacion de los valores de εxen el proceso pool. Mas precisamente, se propone generar, para cada puntox ∈ t, una realizacion de una variable aleatora Rademacher2. Teniendo encuenta que la funcion εx definida en 4.2 asigna 1 o −1 a x para distinguir siproviene de N1 o de N2, al asignar aleatoriamente 1 o −1 a cada punto delproceso pool, se esta reasignando su proveniencia de manera aleatoria. Comose discutio anteriormente, si H0 es verdadera, no deberıa haber una diferen-cia significativa entre las realizaciones t1 y t2 y estas asignaciones aleatorias.

Con esta idea en mente y sin modificar el proceso pool real, se generan

1Un estimador θ de un estadıstico θ se dice insesgado si E[θ] = θ2Se dice que una variable aleatoria X sigue una distribucion Rademacher si P (X =

1) = P (X = −1) = 0,5

Page 49: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 4. EL PROBLEMA DE DOS MUESTRAS 48

suficientes reasignaciones aleatorias de la proveniencia de los tiempos obser-vados. Para cada una de estas reasignaciones, se calcula el estimador T , demodo que se tienen suficientes valores de T bajo H0. Finalmente, se toma elpercentil (1− α)-esimo de los T bajo H0 como el valor crıtico mα.

4.2.3. Resultados y analisis

Se realizaron varios experimentos para estudiar la potencia del test T .Sus resultados se presentan a continuacion. En cada caso, se tomo α = 0,05para un nivel de confianza del 95 %.

Experimento 4.2.1. En primer lugar, para estudiar la potencia de estaprueba, se considero el caso λ1(t) = λ2(t) = t en el intervalo de tiempo(0, 10). Tras 500 realizaciones de este experimento, se encontro que la prue-ba rechazo H0 erradamente en el 32 % de los casos. Se trata, por supuesto,de una potencia significativamente mas alta de lo esperado. Con la intencionde estudiar si un error tan alto era consecuencia del tamano del intervalo, serealizo el mismo experimento en el intervalo (0, 20), obteniendose exactamen-te la misma potencia. Sin embargo, debido al altısimo tiempo de computoque exige esta prueba y la manera como crece al aumentarse el tamano delintervalo (paso de aproximadamente 24 segundos con T = 10 a casi 27 mi-nutos con T = 20), no fue posible calcular la potencia para intervalos masgrandes. Otra posible explicacion para tan baja potencia es que el kernelescogido no sea el mas apropiado para esta situacion.

Experimento 4.2.2. Tomando nuevamente T = 10, se definieron λ1(t) =20f(t) y λ2(t) = 25f(t), donde la funcion f(t), definida en 4.5, correspondeal kernel de Epanechnikov evaluado en t/T .

f(t) =3

4

[1−

(t

T

)2]I|t/T |≤1 (4.5)

La diferencia entre las funciones λ1(t) y λ2(t) se muestran en la Figura4.6.

Con 100 realizaciones de este experimento, se obtuvo que el test T re-chaza H0 en el 73 % de los casos. Se trata de un resultado muy favorable,pues se esta tratando con funciones bastante similares en un intervalo pe-queno, y aun ası el test T detecta que los procesos no provienen de la mismaintensidad.

Experimento 4.2.3. Se definieron las intensidades λ1(t) y λ2(t) como enel Experimento 3.2.3., modificando unicamente el maximo de la funcion

Page 50: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 4. EL PROBLEMA DE DOS MUESTRAS 49

Figura 4.6: Diferencia entre λ1(t) (en negro) y λ2(t) (en rojo)

de intensidad. La grafica 4.7 muestra la diferencia entre las funciones deintensidad.

Figura 4.7: Diferencia entre λ1(t) (en negro) y λ2(t) (en rojo)

Para este experimento, se obtuvo que H0 fue rechazada en el 81 % de loscasos. Nuevamente, se obtiene un resultado satisfactorio para esta prueba,en tanto que se reconoce la falsedad de H0. Si se analiza este ejemplo desdesu interterpretacion practica, este resultado significa que, dados dos centrosde atencion de llamadas diferentes, la prueba T reconocerıa que no tienenel mismo comportamiento aun cuando la unica diferencia entre ellos es que,entre las 8 y las 12m y entre las 4 y las 9pm, el primero recibe llamadas con

Page 51: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 4. EL PROBLEMA DE DOS MUESTRAS 50

una intensidad constante e igual a 40, mientras que el segundo lo hace conuna intensidad igual a 44.

De los experimentos realizados se puede concluir que, al menos con elkernel escogido para este trabajo y en intervalos pequenos, T tiene una altaprobabilidad de cometer error tipo I. No obstante, reconoce con facilidad loscasos en que H0 es falsa.

4.3. Test Tpool

En este trabajo se introduce el test Tpool, basado en el resultado delTeorema 4.1.2, como una alternativa para la solucion del problema de dosmuestras. En esta seccion se define y se discuten los resultados obtenidospara varias simulaciones, en comparacion con los del test T descrito ante-riormente.

4.3.1. Descripcion del estimador

Sean N1 y N2 dos PPNH independientes definidos en el intervalo de tiem-po (0, T ) cuyas intensidades correspondientes, denotadas λ1(t) y λ2(t), sondesconocidas. Al igual que en el test T , se propone contrastar la hipotesisnula H0: “λ1(t) = λ2(t)

′′ contra H1: “λ1(t) 6= λ2(t)′′. Con base en la prueba

S, cuya bondad fue discutida en el capıtulo anterior, serıa razonable sugerirun estadıstico que estime las funciones de intensidad, calcule la distanciaentre λ1(t) y λ2(t) y, si resulta demasiado grande, rechace H0.

El metodo de estimacion por kernels se presenta, nuevamente, como un ex-celente metodo para calcular las intensidades estimadas λ1 y λ2. Siguiendoel mismo razonamiento que en el capıtulo anterior, el estimador Ds que sepresenta a continuacion parece ser una buena eleccion:

Ds(N1, N2) =

∞∫−∞

[λ1(t)− λ2(t)

]2dt (4.6)

Visto que las intensidades de los procesos N1 y N2 estan definidas en elmismo intervalo (0, T ), basta definir Ds como sigue.

Ds =

T∫0

[λ1(t)− λ2(t)

]2dt (4.7)

Page 52: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 4. EL PROBLEMA DE DOS MUESTRAS 51

Es claro que Ds sera pequeno cuando las intensidades λ1(t) y λ2(t)sean muy cercanas; es decir, cuando H0 sea verdadera. El problema que sepresenta es, entonces, decidir cuando el valor de Ds calculado es pequeno.

4.3.2. Criterios de decision

Supongase que H0 es verdadera y considerese el proceso pool N . Por elTeorema 4.1.2, N sera un PPNH con intensidad λpool(t) = (λ1+λ2)(t). BajoH0, esto es:

λpool(t) = 2λ1(t) (4.8)

Con el objetivo de determinar criterios de decision, se construye el pro-ceso pool N y se utiliza el metodo de estimacion por kernels para calcular

µ(t) =1

2λpool(t) (4.9)

Bajo H0, esta sera una estimacion de las intensidades λ1 y λ2.

Se propone, ahora, hacer uso del metodo Bootstrap para decidir siDs(N1, N2)es suficientemente pequeno. El procedimiento sugerido es el siguiente:

1. Calcular µ(t) haciendo uso del metodo de estimacion por kernels, conlo que se obtiene un vector de pares ordenados (x, µ(x)) con x ∈ (0, T ).

2. Interpolar para encontrar una expresion algebraica de µ(t).

3. Generar 1000 pares de procesos de Poisson N(b)1 , N

(b)2 , donde µ(t) es

la intensidad de N(b)i , i = 1, 2, b = 1, ..., 1000.

4. Para b = 1, ..., 1000, calcularDs(b) := Ds(N(b)1 , N

(b)2 ). Se denotaDbootstrap

a la muestra de 1000 valores de Ds generada.

5. Definir el valor crıtico de nivel α, denotado dα, como el (1− α)-esimopercentil de Dbootstrap.

6. Si Ds(N1, N2) > dα, se rechaza H0 con un nivel de confianza α.

4.3.3. Resultados y analisis

Con el interes de comparar el test Tpool con el test T , se realizaron losmismos experimentos que se describieron en la seccion anterior. En cadacaso se tomo α = 0,05 para un nivel de confianza del 95 %.

Page 53: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 4. EL PROBLEMA DE DOS MUESTRAS 52

Experimento 4.3.1. Tomando λ1(t) = λ2(t) = t en el intervalo de tiempo(0, 10), se obtuvo una potencia de 0,074, bastante cercana a la potenciadeseada de 0,05, y significativamente mejor que la obtenida para el mismoexperimento con el test T . Aumentando el tamano del intervalo, se obtieneque, para T = 20, la potencia obtenida en este mismo experimento es de0,06.

Experimento 4.3.2. Para λ1(t) = 20f(t), λ2(t) = 25f(t) y T = 10, conf(t) el kernel de Epanechnikov evaluado en t/T , se obtuvo una potencia de0,34. Comparando este resultado con el obtenido para el test T en el mismoejemplo, se ve que la prueba Tpool comete un error mucho mayor. Teniendoen cuenta que esta prueba se basa en la distancia entre las estimacionesde las dos funciones, se ve que en el caso en que se tienen funciones muyparecidas, un tamano de intervalo muy pequeno puede generar error.

Experimento 4.3.3. Para el ejemplo representado en la Figura 4.7, enque se comparan las intensidades de dos call centers, se obtuvo que H0 fuerechazada en el 82 % de los casos. Ası, los resultados obtenidos con esteejemplo para el test T y para el test Tpool fueron igualmente buenos.

4.4. Conclusiones

En primer lugar, es importante notar que las pruebas T y Tpool sonesencialmente diferentes, en tanto que interpretan la hipotesis nula H0 demaneras equivalentes pero distintas: mientras que la prueba Tpool se interesa

por las funciones de intensidad en sı y la distania entre ellas, el test T sepreocupa por la aletoriedad de la proveniencia de los elementos del procesopool. En este sentido, la busqueda de regiones crıticas que se sugiere en eltest T no solo es interesante, sino que es muy valiosa en terminos compu-tacionales: generar 1000 variables Rademacher es mucho mas eficiente quegenerar 1000 procesos de Poisson nuevos.

Sin embargo, a pesar de que ambas pruebas tienen un tiempo de computoalto, el del test T fue mayor en cada uno de los experimentos realizados.Dado que la tecnica bootstrap utilizada por el test T es mas eficiente, esnatural pensar que el alto tiempo de computo esta justificado en la esco-gencia del kernel. Este hecho resulta especialmente positivo si se tiene encuenta que en [4] se define el estimador T para cualquier kernel K. Conesto, un interrogante valioso y que queda abierto en este trabajo es: ¿cual esla escogencia de K que optimiza el metodo, al tiempo que mejora su bondad?

Page 54: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 4. EL PROBLEMA DE DOS MUESTRAS 53

Por otra parte, la prueba Tpool probo ser un buen metodo para decidir anteel problema de dos muestras, aunque su uso no es aconsejable cuando setrate de funciones cuyo rango y dominio sean pequenos simultaneamente.Adicionalmente, al compararse con el test T , este test demuestra ser muchomas eficiente, especialmente cuando se trata de funciones de intensidad conmaximos muy altos. Esto porque, a diferencia de lo que sucede con el testTpool, el numero de operaciones que debe hacer el test T para decidir aumen-ta a medida que aumenta el numero de puntos observados. Por este motivo,si se considera una intensidad λ(t) demasiado grande, una realizacion delPPNH con intensidad λ(t) sera un vector de tiempos t de dimension muyalta y, por tanto, el test T no sera eficiente.

Page 55: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

Conclusiones

En cuanto al problema de homogeneidad, es posible concluir que el testCVM es mejor que el test Z, independientemente de la situacion particularque se este modelando. Adicionalmente, los tests de homogeneidad discu-tidos tienen una ventaja especial sobre las demas pruebas desarrolladas eneste trabajo: para las pruebas de homogeneidad es posible establecer cri-terios de decision generales, mientras que las demas pruebas exigen que seencuentre un valor crıtico para cada experimento particular. Asimismo, eltest Z tiene la ventaja de tener valores crıticos conocidos a priori, mientrasque la eleccion de tales valores en el test CVM depende de un trabajo desimulacion.

Por su parte, el test S es una buena prueba de bondad de ajuste cuyamayor desventaja es que requiere que se sea capaz de suponer, con algunaprecision, cual es la funcion de intensidad de un PPNH dado. Como se dis-cutio en el capıtulo 3, este es un requerimiento ideal que no siempre puedecumplirse en circunstancias reales. Sin embargo, el mayor beneficio que seobtuvo del desarrollo del test S fue la verificacion de la bondad del metodode estimacion por kernels. Como se vio en la definicion del test Tpool, teneracceso a un buen metodo de estimacion de intensidades permite idear prue-bas de hipotesis nuevas para problemas mas complejos.

Finalmente, gracias al poder de las tecnicas bootstrap, en el ultimo capıtulofue posible definir dos pruebas para el problema de dos muestras sin necesi-dad de introducir informacion que no proveniese directamente de los datos.Sin embargo, la no parametrizacion de las pruebas exige un poder de compu-tacion mayor, por lo que se hace necesario optimizar los metodos, al tiempoque su eficiencia se convierte en un criterio de comparacion importante. Des-de el punto de vista practico, el poder de decidir ante el problema de dosmuestras es fundamental: dada una situacion repetitiva cuyas realizacionespuedan modelarse como un PPNH, tales como los clientes que llegan a un

54

Page 56: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

CAPITULO 4. EL PROBLEMA DE DOS MUESTRAS 55

almacen durante un dıa o los terremotos que ocurren en una region duran-te un ano, probar que los PPNH correspondientes a cada realizacion tienenla misma intensidad permitirıa hacer predicciones sobre futuras repeticiones.

En ambos casos, tanto en el problema de homogeneidad como en el de dosmuestras, solo se requieren unos pocos resultados teoricos sobre los proce-sos de Poisson y sus caracterısticas para disenar metodos de decision. Porultimo, cabe considerar que los metodos utilizados en este trabajo no usanpropiedades que sean exclusivas de los PPNH unidimensionales, de modoque en principio podrıan generalizarse a procesos de Poisson multidimensio-nales. La inquietud sobre como hacerlo y cuan efectivo serıa es una preguntainteresante que puede ser abordada en trabajos futuros.

Page 57: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

Bibliografıa

[1] Bhat, U.N. (1984). Elements of Applied Stochastic Processes. 2nd.ed. Wiley.

[2] Blanco, L. (2010). Probabilidad. 2da. ed. Universidad Nacional deColombia, Bogota.

[3] Devroye, L. (1986). Non-Uniform Random Variate Generation.Springer-Verlag, New York.

[4] Fromont, M., Laurent, B. & Reynaud-Bouret, P. (2013).The Two-Sample Problem for Poisson Processes: Adaptive Tests.Annals of Statistics, 41, 3, 1431-1461.

[5] Hogg, R.V., McKean, J.W. & Craig, A.T. (2013). Introductionto Mathematical Statistics. 7th ed. Pearson, Boston.

[6] Lawler, G (1996). Introduction to Stochastic Processes. Chapman& Hall, Londres.

[7] Lehmann, E.L. & Romano, J.P. (2005). Testing Statistical Hy-potheses. 3rd ed. Springer.

[8] Ross, S. (1996). Stochastic Processes. 2nd ed. Wiley, Nueva York.

[9] Sarndal, C.E., Swensson, B. & Wretman, J. (2003). ModelAssisted Survey Sampling. Springer-Verlag, Nueva York.

[10] Yakovlev,G., Rundle, J.B., Shcherbakov, R. & Turcot-te, D.L. (2005). Inter-arrival time distribution for the non-homogeneous Poisson process. [cond-mat.stat-mech].

56

Page 58: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

Apendice A

Teorema del Lımite Central

Teorema A.0.1. Sea X1, X2, ... una sucesion de variables aleatorias inde-pendientes e igualmente distribuidas. Supongase que E[X1] = µ y V [X1] =σ2 <∞. Para n = 1, 2, ..., se definen las variables aleatorias Sn y Yn comosigue.

Sn =

n∑i=1

Xi

Yn =Sn− nµσ√n

Entonces la sucesion Y1, Y2, ... converge en distribucion a una variable alea-toria Z ∼ N (0, 1)

Demostracion. Sin perdida de generalidad, supongase que µ = 0. Sea ϕX lafuncion caracterıstica de las variables aleatorias X1, X2, ..., es decir

ϕ(t) = E[eitX1 ]

Denotando por f a la funcion de densidad de las variables aleatorias Xi y

57

Page 59: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

APENDICE A. TEOREMA DEL LIMITE CENTRAL 58

desarrollando ϕ en serie de Taylor alrededor de 0, se obtiene que:

ϕ(t) =∞∑n=0

ϕ(n)(0)

n!tn

=

∞∑n=0

inE[Xn1 ]tn

n!Por propiedades de la funcion caracterıstica.

= E[X01 ] + iE[X1]− E[X2

1 ]t2

2+∞∑n=3

ϕ(n)(0)

n!tn

= 1 + iµ− (V [x1] + µ2)t2

2+∞∑n=3

ϕ(n)(0)

n!tn

= 1 + 0− σ2t2

2+ t2

∞∑n=3

ϕ(n)(0)

n!tn−2

Como t(n−2)

n! → 0 cuando n→∞ y ϕ(n) esta acotada para todo n, entoncesfinalmente ϕ(t) puede escribirse como sigue.

ϕ(t) = 1− σ2t2

2+ t2o(t) (A.1)

Page 60: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

APENDICE A. TEOREMA DEL LIMITE CENTRAL 59

Por otra parte, denotando por ϕYn la funcion caracterıstica de Yn, se obtiene:

ϕYn(t) = E[eitYn ]

= E

e itn∑i=1

Xi

σ√n

= E

[n∏i=1

eitXiσ√n

]

=n∏i=1

E

[eitXiσ√n

]Por independencia

=n∏i=1

ϕ

(t

σ√n

)Por definicion de ϕ

=

(t

σ√n

)]n=

[1− σ2

2

(t

σ√n

)2

+

(t

σ√n

)2

o(t)

]nPor A.1.

= e

[n ln

(1−σ

2

2

(t

σ√n

)2+(

tσ√n

)2o(t)

)]

Entonces:

lımn→∞

ϕYn(t) = lımn→∞

exp

[n ln

(1− σ2

2

(t

σ√n

)2

+

(t

σ√n

)2

o(t)

)]= e−

t2

2

Se obtiene, entonces, que ϕYn(t) coincide con la funcion caracterıstica deuna distribucion normal estandar. Por unicidad de la funcion caracterıstica,se concluye que Yn → Z, donde Z ∼ N (0, 1).

Page 61: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

Apendice B

Simulaciones

B.1. Procesos de Poisson Homogeneos

# Esta funcion genera un Proceso de Poisson Homogeneo.

# Parametros: "lambda" (intensidad del proceso),

"T" (tiempo maximo del proceso).

# Salida: Vector "proceso" de las realizaciones del PPH.

pph <- function(lambda,T){

N = rpois(1, (lambda*T))

# Se genera un dato de una distribucion Poisson con parametro lambda*T.

proceso = runif(N, min = 0, max = T)

# Se generan N realizaciones de una uniforme entre 0 y T.

proceso = sort(proceso)

# Se ordenan los tiempos del proceso generado.

return (proceso)

}

B.2. Procesos de Poisson No Homogeneos

# Esta funcion genera un Proceso de Poisson No Homogeneo.

# Parametros: "lambda" (funcion que representa la intensidad del proceso)

y "T" (tiempo maximo del

proceso).

# Salida: Vector "proceso" de las realizaciones del PPNH.

ppnh <- function(lambda,T)

{

60

Page 62: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

APENDICE B. SIMULACIONES 61

lambda0vec = optimize(lambda, interval = c(0,T), maximum = TRUE)

# La funcion optimize encuentra el maximo de la funcion y el punto donde lo toma.

lambda0 = unname(unlist(lambda0vec[2]))

# lambda0 es el maximo de la funcion lambda entre 0 y T.

N = rpois(1, lambda0*T)

# Se genera un dato de una distribucion Poisson con parametro lambda0*T.

proceso = runif(N, min = 0, max = T) # Se generan N realizaciones de una uniforme

entre 0 y T.

n = length(proceso) # n es el numero de datos del PPH.

lambda_proceso = lambda(proceso) # Se calcula el vector de lambda(ti) para cada

ti del PPH.

u = runif(n, max = lambda0) # u es un vector de n uniformes.

indica = 1:n # Se crea un vector de ındices.

ind_seleccionado = indica[u < lambda_proceso] # Se seleccionan los ındices i tales

que ui esta por debajo de la curva de lambda.

proceso = proceso[ind_seleccionado] # Se guardan los tiempos seleccionados.

proceso = sort(proceso) # Se ordenan los tiempos del proceso generado.

return (proceso)

}

B.3. TestZ

# Esta funcion calcula y devuelve el valor de Z utilizado para testnormal.

testZ <- function(proceso,T){

n = length(proceso)

# n es el numero de eventos que se han observado hasta tiempo T.

Sn = 0 # Se inicializa el valor de la suma Sn en 0.

for (i in 1:n) {

Sn = Sn+proceso[i]

} # Finalmente Sn es la suma de todos los tiempos del proceso.

Z = (Sn - n*(T/2))/(sqrt(n*((T^2)/12)))

return(Z)

}

B.4. TestCVM

# Esta funcion calcula el estimador de Cramer von Mises para uniformidad.

Page 63: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

APENDICE B. SIMULACIONES 62

# Parametros: "tiempos", vector de tiempos de los que se va a estudiar si

son uniformes.

# Salida: "CV", estimador de Cramer von Mises.

cvmunif <- function(tiempos, T){

muestra = sort(tiempos) # muestra de tiempos ordenados.

n = length(tiempos) # n es el numero total de eventos.

muestra = muestra/T # estandarizacion de la muestra.

muestra = c(muestra,1) # se agrega muestra[n+1]=1

CV = 0.333*(muestra[1]^3)

for(i in 1:n){

v = muestra[i]; w = muestra[i+1] # lımites de la integral

CV = CV + integrate("mif",a=i/n,lower=v,upper=w,subdivisions=20)$value

} # fin del for i

return(n*CV)

}

mif=function(x,a){

return((x-a)^2)}

B.5. TestS

# Esta funcion calcula el valor S para saber si la densidad de un proceso

dado corresponde a una conocida o no.

# Parametros: proceso (proceso cuya intensidad no se conoce),

lambda0 (funcion que se cree podrıa ser la intensidad buscada),

T (tiempo maximo).

# Salida: S (valor del test).

testS <- function(proceso, lambda0, T){

n=10000

deltax = T/n

puntos = seq(from=0, to=T, by=deltax)

# Primero, se estima la intensidad del proceso que entra por parametro

en los puntos deseados.

Page 64: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

APENDICE B. SIMULACIONES 63

ftil = cftilda(puntos, proceso) # ftil corresponde a ftilda calculada

para este proceso en el vector de puntos dado.

lmbdtil = ftil*length(proceso) # lmbdtil es la estimacion de la intensidad

del proceso.

# A continuacion se estima la integral de (lmbdtil(t)-lambda0(t))^2

entre 0 y T, usando el metodo de Simpson.

S = (lmbdtil[1]-lambda0(puntos[1]))^2 + (lmbdtil[n+1]-lambda0(puntos[n+1]))^2

+4*sum((lmbdtil[seq(2,n,by=2)]-lambda0(puntos[seq(2,n,by=2)]))^2) +

2*sum((lmbdtil[seq(3,n-1,by=2)]-lambda0(puntos[seq(3,n-1,by=2)]))^2)

S <- (deltax/3)*S

return(S)

}

# Esta funcion calcula la funcion ftilda.

# Parametros: x (vector de puntos donde se desea calcular ftilda), datos

(vector de datos cuya densidad se desea estimar).

# Salida: r (vector de ftilda calculada en cada punto de x).

cftilda <- function(x, datos){

m = length(x) # Cantidad de puntos.

n = length(datos) # Cantidad de datos.

# A continuacion se estima el parametro h de Bowman y Foster:

h = ((4/(3*n))^(1/5))

# Para ajustar la escala

h = h*sqrt(var(datos))

r = rep(0,m) # Se inicializa un vector r de longitud m que correspondera a

ftilda calculada en cada punto de x.

for(i in 1:m){

# La i-esima componente de r es la media de una densidad normal con media el

i-esimo dato y desviacion estandar h.

# r[i] = mean((1/h)*dnorm(x[i], mean=datos, sd=h))

vector = dnorm(x[i],mean=datos,sd=h)

r[i] = mean(vector)

}

return(r)

}

Page 65: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

APENDICE B. SIMULACIONES 64

# Esta funcion calcula el estimador DS.

# Parametros: proceso1, proceso2: dos PPNH de los que se desea saber si tienen

la misma intensidad, T: tiempo maximo comun a ambos procesos.

Ds <- function(proceso1, proceso2, T){

puntos = seq(from=0, to=T, by=0.01)

n = T/0.01

# Se estima la intensidad de cada proceso en los puntos deseados.

ftil1 = cftilda(puntos, proceso1)

ltil1 = ftil1*length(proceso1)

ftil2 = cftilda(puntos, proceso2)

ltil2 = ftil2*length(proceso2)

# A continuacion se estima la integral de (ltil1(t)-ltil2(t))^2 entre 0 y T,

usando el metodo de Simpson.

Ds = (ltil1[1]-ltil2[1])^2 + (ltil1[n+1]-ltil2[n+1])^2 +

4*sum((ltil1[seq(2,n,by=2)]-ltil2[seq(2,n,by=2)])^2)

+ 2*sum((ltil1[seq(3,n-1,by=2)]-ltil2[seq(3,n-1,by=2)])^2)

Ds <- (0.01/3)*Ds

return(Ds)

}

B.6. Test Tgorro

# Esta funcion calcula el estimador Tgorro.

# Parametros: proceso1 y proceso2, dos PPNH en (0, T).

Tgorro <- function(proceso1, proceso2){

# Pi es una matriz con dos columnas: en la primera columna estan los

# tiempos de procesoi y en la segunda columna 1 si i=1 y -1 si i=2.

P1 = cbind(proceso1,rep(1,length(proceso1)), deparse.level = 0)

P2 = cbind(proceso2,rep(-1,length(proceso2)), deparse.level = 0)

# P es una matriz con P1 y P2 concatenados.

P = rbind(P1, P2, deparse.level = 0)

# Se ordena P por la primera columna.

P = P[order(P[,1],decreasing=FALSE),]

# Ahora la primera columna de P es el proceso conjunto pool

y la segunda es un indicador.

Page 66: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

APENDICE B. SIMULACIONES 65

n = length(P[,1]) # n es el tama~no del proceso pool.

h = ((4/(3*n))^(1/5)) # h es el bandwidth de Bowman y Foster.

h = h*sqrt(var(P[,1])) # Se ajusta la escala multuplicando por l

a desviacion estandar el proceso conjunto.

Pl = lapply(seq_len(nrow(P)),function(i) P[i,])

vectorK = sapply(Pl,K2,P,h,simplify=TRUE)

Tg = sum(unlist(vectorK))

q = CuantilesTgBoot(P[,1])

r = 0

if(Tg > q[2]){

r = 1

}

print(r)

return (r)

}

# K corresponde al Kernel Gaussiano por el producto de los epsilon.

Se retorna 0 si son iguales.

# Parametros: x, y (parejas con el punto en la primera componente y

epsilon en la segunda), h (bandwidth).

K <- function(x,y,h){

if(x[1]==y[1]){

# Si x=y devuelve 0.

Kxy = 0

}

else{

# Kxy es 1/h por la densidad de una normal calculada en (x-y)/h

Kxy = (1/h)*((1/sqrt(2*pi))*exp(-(1/2)*((x[1]-y[1])/h)^2))

}

return(Kxy*x[2]*y[2])

}

K2 <- function(vectorFijo,matriz,h){

return(sapply(lapply(seq_len(nrow(matriz)),function(i) matriz[i,]),

K,vectorFijo,h,simplify = TRUE))

}

Page 67: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

APENDICE B. SIMULACIONES 66

El siguiente es el metodo utilizado para encontrar el valor de rechazo delestimador T .

TgBoot <- function(x,procesoPool){

n = length(procesoPool)

vectorRademacher = 2*rbinom(n,1,0.5)-1

PBoot = cbind(procesoPool,vectorRademacher)

h = ((4/(3*n))^(1/5))

h = h*sqrt(procesoPool)

Pl = lapply(seq_len(nrow(PBoot)),function(i) PBoot[i,])

vectorK = sapply(Pl,K2,PBoot,h,simplify=TRUE)

TgB = sum(unlist(vectorK))

return(TgB)

}

CuantilesTgBoot <- function(procesoPool){

vectorTBoot = rep(0,1000)

sapply(vectorTBoot,TgBoot,procesoPool,simplify=TRUE)

q = quantile(vectorTBoot,probs=c(0.9,0.95,0.975,0.99,0.995))

return(q)

}

B.7. Test Tpool

# Esta funcion calcula el estimador Tpool.

# Parametros: T, proceso1 y proceso2, dos PPNH en (0, T).

# Salida: Valor r. r = 0 si se acepta H0, r = 1 si se acepta H1.

creacionProceso=function(x,lambda,T)

{

procesoi1 = ppnh(lambda,T)

procesoi2 = ppnh(lambda,T)

return(Ds(procesoi1,procesoi2,T))

}

Tpool <- function(proceso1, proceso2,T){

# normaP1P2 es el estimador Ds de los dos procesos que entran por

Page 68: Pruebas de Bondad de Ajuste y el Problema de Dos Muestras ...

APENDICE B. SIMULACIONES 67

parametro.

normaP1P2 = Ds(proceso1,proceso2,T)

# Valores necesarios para estimar las intensidades.

puntos = seq(from=0, to=T, by=0.01)

# procesoPool es el proceso conjunto de proceso1 y proceso2.

procesoPool = c(proceso1, proceso2)

procesoPool = sort(procesoPool)

# Del mismo modo, se estima la intensidad de procesoPool.

ftilPool = cftilda(puntos,procesoPool)

lambdaPool = ftilPool*length(procesoPool)

# Se guarda en lambdaPool 1/2 de la intensidad estimada para lambdaPool.

lambdaPool = 0.5*lambdaPool

# Se convierte lambdaPool en una funci??n.

lambdaPool = splinefun(puntos,lambdaPool)

# A continuacion se generan 10000 pares de PPNH(lambdaPool,T).

# vectorDs es el vector de estimadores Ds calculados para cada caso.

puntos = seq(from=0, to=T, by=0.01)

m=rep(0,1000)

# Bootstrap

vectorDs=sapply(m,creacionProceso,lambdaPool,T,simplify = TRUE)

# q es el vector de percentiles (0.9,0.95,0.975,0.99,0.995) del bootstrap.

q = quantile(vectorDs,probs=c(0.9,0.95,0.975,0.99,0.995))

# A continuacion se acepta o rechaza H0: "proceso1 y proceso2 tienen

la misma intensidad"

if(normaP1P2 > q[2]){

r = 1 # En este caso se rechaza con un nivel de confianza de 5%.

}

else{

r = 0

}

return(r)

}