¶Indice general - trajano.us.estrajano.us.es/~rafa/REDES/apuntes/apuntes1.pdf · Probabilidad...

31
´ Indice general 1. Estad´ ıstica y Procesos Estoc´ asticos 7 1.1. Introducci´on a la estad´ ıstica ..................... 7 1.1.1. Axiomas de la probabilidad ................. 7 1.1.2. Probabilidad condicional e independencia ......... 8 1.1.3. Ley de la probabilidad total y el teorema de Bayes .... 9 1.2. Las variables aleatorias y sus momentos .............. 9 1.2.1. Introducci´on a las variables aleatorias ........... 9 1.2.2. Variables aleatorias discretas ................ 10 1.2.3. Variables aleatorias continuas ................ 15 1.3. Funciones de variables aleatorias .................. 20 1.3.1. ultiples variables aleatorias ................ 20 1.3.2. Covarianza y Correlaci´on .................. 22 1.3.3. Combinaci´ on lineal de variables aleatorias ......... 23 1.3.4. Mixtura de variables aleatorias ............... 24 1.4. ımites y desigualdades ....................... 24 1.4.1. Desigualdad de Markov ................... 24 1.4.2. Desigualdad de Chebyshev ................. 25 1.4.3. ımite de Chernoff ...................... 25 1.4.4. Ley de los grandes n´ umeros ................. 25 1.5. Introducci´on a los procesos estoc´asticos .............. 25 1.5.1. Cadenas de Markov de tiempo discreto: DTMC ...... 27 1.5.2. Introducci´on a las cadenas de Markov en tiempo continuo 30 1

Transcript of ¶Indice general - trajano.us.estrajano.us.es/~rafa/REDES/apuntes/apuntes1.pdf · Probabilidad...

Indice general

1. Estadıstica y Procesos Estocasticos 71.1. Introduccion a la estadıstica . . . . . . . . . . . . . . . . . . . . . 7

1.1.1. Axiomas de la probabilidad . . . . . . . . . . . . . . . . . 71.1.2. Probabilidad condicional e independencia . . . . . . . . . 81.1.3. Ley de la probabilidad total y el teorema de Bayes . . . . 9

1.2. Las variables aleatorias y sus momentos . . . . . . . . . . . . . . 91.2.1. Introduccion a las variables aleatorias . . . . . . . . . . . 91.2.2. Variables aleatorias discretas . . . . . . . . . . . . . . . . 101.2.3. Variables aleatorias continuas . . . . . . . . . . . . . . . . 15

1.3. Funciones de variables aleatorias . . . . . . . . . . . . . . . . . . 201.3.1. Multiples variables aleatorias . . . . . . . . . . . . . . . . 201.3.2. Covarianza y Correlacion . . . . . . . . . . . . . . . . . . 221.3.3. Combinacion lineal de variables aleatorias . . . . . . . . . 231.3.4. Mixtura de variables aleatorias . . . . . . . . . . . . . . . 24

1.4. Lımites y desigualdades . . . . . . . . . . . . . . . . . . . . . . . 241.4.1. Desigualdad de Markov . . . . . . . . . . . . . . . . . . . 241.4.2. Desigualdad de Chebyshev . . . . . . . . . . . . . . . . . 251.4.3. Lımite de Chernoff . . . . . . . . . . . . . . . . . . . . . . 251.4.4. Ley de los grandes numeros . . . . . . . . . . . . . . . . . 25

1.5. Introduccion a los procesos estocasticos . . . . . . . . . . . . . . 251.5.1. Cadenas de Markov de tiempo discreto: DTMC . . . . . . 271.5.2. Introduccion a las cadenas de Markov en tiempo continuo 30

1

2 INDICE GENERAL

Indice de figuras

1.1. Operaciones basicas: complemento, union e interseccion . . . . . 71.2. Variable aleatoria X . . . . . . . . . . . . . . . . . . . . . . . . . 10

3

4 INDICE DE FIGURAS

Indice de cuadros

1.1. Media y varianza de las v.a. . . . . . . . . . . . . . . . . . . . . . 20

5

6 INDICE DE CUADROS

Capıtulo 1

Estadıstica y Procesos

Estocasticos

1.1. Introduccion a la estadıstica

1.1.1. Axiomas de la probabilidad

La caracterizacion estocastica de un proceso resulta de interes cuando noexiste un modelo fısico que permita describir lo que esta ocurriendo.

Definimos: S ≡ espacio de estados (conjunto de resultados posibles en unexperimento).

Sean A y B subconjuntos de S: A ⊂ S , B ⊂ S. Las operaciones Complemento(Ac),union (A ∪B), e interseccion (A ∩B) se definen graficamente como:

������������������������

������������������������

���������������������������������������������������������������

���������������������������������������������������������������

������������

S S S

A A

B

A

B

Ac

complementario union interseccion

Figura 1.1: Operaciones basicas: complemento, union e interseccion

Dos conjuntos de eventos A y B son disjuntos si A ∩B = 0.

Ejemplo 1.1: Transmision de 1 bit en una lınea. S = {0, 1}, donde 0 implicarecepcion correcta y 1 lo contrario.

Debemos atribuir probabilidades al conjunto de resultados posibles que es:∅, {0}, {1}, S. Para ello, existen determinadas reglas basicas conocidas comoaxiomas de la probabilidad:

7

8 CAPITULO 1. ESTADISTICA Y PROCESOS ESTOCASTICOS

Axioma 1 : P (S) = 1

Axioma 2 : P (Ac) = 1− P (A)

Axioma 3 : Sean Am conjuntos de eventos disjuntos: P (⋃

m Am) =∑

m P (Am)

Este ultimo axioma se puede generalizar para el caso de conjuntos de eventosno disjuntos de la siguiente manera:

P (m⋃

k=1

Ak) =m∑

k=1

P (Ak)−∑

k 6=j

P (Aj∩Ak)+∑

k 6=j 6=l

P (Ak∩Aj∩Al) . . .+(−1)m−1P (A1∩A2 . . .∩Am)

(1.1)De dichos axiomas es posible derivar las siguientes propiedades:

1. ∀A, su probabilidad se encuentra acotada: 0 ≤ P (A) ≤ 1

2. P (Ai ∪Aj) = P (Ai) + P (Aj)− P (Ai ∩Aj)

3. Si A ⊆ B ⇒ P (A) ≤ P (B)

1.1.2. Probabilidad condicional e independencia

Definimos la probabilidad condicional de que ocurra el suceso A condi-cionado a que ocurriera el evento B como:

P (A|B) =P (A ∩B)

P (B)(1.2)

Siempre que P (B) ≥ 0 se puede demostrar que P (A|B) satisface los axiomasde las probabilidades. La probabilidad condicionada permite calcular probabil-idades sobre el resultado de un experimento A cuando dispongo de informacionparcial sobre el mismo. Es util en experimentos que se pueden descomponer envarias partes.

Ejemplo:Suponga que lanza una moneda al aire dos veces.¿que probabilidadexiste de obtener 2 caras?. A priori (sin informacion previa) serıa P (cc) = 1/4,pero si la primera moneda sale cara serıa P (cc|c) = 1/2.

Dos eventos A y B se dicen independientes1 (A q B) cuando no se en-cuentran relacionados; esto es, cuando la ocurrencia de B no aporta informacionsobre la ocurrencia de A. En tal caso:

AqB ⇔ P (A ∩B) = P (A) · P (B) ⇔ P (A) = P (A|B) (1.3)1No confundir eventos mutuamente excluyentes (no pueden ocurrir a la vez, P (A ∪ B) =

P (A) + P (B)) con eventos independientes (P (A ∩B) = P (A) · P (B))

1.2. LAS VARIABLES ALEATORIAS Y SUS MOMENTOS 9

Cuando existen mas de dos acontecimientos la independencia se define dela siguiente manera: (Am) son independientes si ∀k ≤ m ∧ ∀A1, A2, . . . Ak secumple que:

P (k⋃

j=1

Aj) =k∏

j=1

P (Aj)

1.1.3. Ley de la probabilidad total y el teorema de Bayes

Sea {Bk} una particion del espacio de estados S (⋃

Bk = S, y Bi ∩Bj = ∅para i 6= j). En tal caso la ley de la probabilidad total nos indica que:

P (A) =∑

k

P (A ∩Bk) =∑

k

P (Bk) · P (A|Bk) (1.4)

, ya que A = S ∩ A = (∪Bk) ∩ A y como Bk ∩ A son conjuntos disjuntos esposible aplicar el tercer axioma de las probabilidades para obtener el resultadoanterior.

El teorema de Bayes es una aplicacion directa de la ley de la probabilidadtotal, puesto que resulta de aplicarlo a la definicion de probabilidad condicional.

P (Bi|A) =P (Bi ∩A)∑k P (Bk ∩A)

=P (Bi) · P (A|Bi)∑k P (Bk) · P (A|Bk)

(1.5)

El teorema de Bayes permite obtener la probabilidad del evento de causa, Bi,dada la observacion del evento de interes, A. Nos permite, por ejemplo, inferirla probabilidad de que un coductor que haya sufrido un accidente estuvieraembriagado.

1.2. Las variables aleatorias y sus momentos

1.2.1. Introduccion a las variables aleatorias

En ocasiones, cuando realizamos un experimento solo estamos interesadosen el valor de algunas cantidades determinadas por el resultado, como el valorobtenido por dos dados, o si el numero de paquetes por segundo supera cier-to umbral. Estas cantidades de interes se conocen como variables aleatorias yvienen determinadas por el resultado de un experimento ⇒ podemos asignarprobabilidades a sus posibles valores.

Las variables aleatorias nos permiten trasladar los eventos que resultan deun experimento a numeros. Las variables aleatorias se representan en mayusula(ejemplo: X) y los valores que asumen en minuscula (ejemplo: x).

10 CAPITULO 1. ESTADISTICA Y PROCESOS ESTOCASTICOS

S

R

X

Figura 1.2: Variable aleatoria X

Gracias al uso de las variables aleatorias, las probabilidades asociadas a cadapunto de S se asocian ahora a un valor de un numero real.

Ejemplo:Defino X como el numero de accesos a un servidor Web en un dıa.¿cual sera P (X = 50000)?

La forma mas comun de especificar la probabilidad asociada a cada puntoes mediante la funcion de distribucion de X, que se define como:

FX(u) = P{w ∈ S : X(w) ≤ u} = P (X ≤ u),∀u ∈ R

Las funciones de distribucion permiten caracterizar R de forma independi-entes del espacio de estados S. La funcion de supervivencia, de gran aplicacionen el area de la fiabilidad, es la complementaria a la funcion de distribucion:

FX(u) = P (X > u), ∀u ∈ R

Partiendo de los axiomas basicos de la probabilidad es posible demostrarque: F (−∞) = 0, F (∞) = 1 y FX(x1) ≤ FX(x2) para x1 ≤ x2. Ası mismo sepueden calcular las probabilidades en un intervalo como: P (x1 ≤ X ≤ x2) =FX(x2)− FX(x1).

1.2.2. Variables aleatorias discretas

Son aquellas que tienen la cardinalidad de los numeros naturales. Diremosque X es una variable aleatoria discreta si ∃ un conjunto D numerable queverifique: P (X ∈ D) = 1. En tal caso, se define la funcion de probabilidad deX como:

pX(i) ≡ P (X = i), i ∈ D

1.2. LAS VARIABLES ALEATORIAS Y SUS MOMENTOS 11

La relacion entre la funcion de probabilidad de una v.a. discreta y su funcionde distribucion es la siguiente: FX(x) =

∑∞i=0 P (X = xi) · U(x − xi), donde

U(x) = 1 si x ≥ 0 y 0 en otro caso.

Algunas de las variables discretas mas utilizadas son:

Bernouilli: X ∼ Bernouilli(p), 0 ≤ p ≤ 1 . Su funcion de probabilidades:

pX(x) =

p, x = 1;1− p, x = 0;0, x 6= 0, 1.

(1.6)

Se utiliza para modelar el exito o fracaso de un experimento aleatoriocomo lanzar una moneda al aire, la transmision correcta de un bit, ... siX = 1 se considera un exito en el experimento.

Binomial: X ∼ Binomial(n, p), 0 ≤ p ≤ 1, n > 0. Su funcion de proba-bilidad es:

pX(x) =

(n

x

)· px · (1− p)n−x, x = 0, 1, 2, . . . n (1.7)

Si realizamos n experimentos de Bernouilli (Xi) independientes con la mis-ma probabilidad de exito p, entonces la variable aleatoria X =

∑ni=1 Xi,

de distribucion binomial, nos indicara el numero de exitos obtenidos enlas pruebas. Para valores altos de n resulta complicado el calculo de (nx)

Poisson: X ∼ Poisson(λ) λ > 0. Su funcion de probabilidad es:

pX(x) = e−λ · λx

x!, x = 0, 1, . . . (1.8)

Esta variable aleatoria se asocia a resultados de acontecimientos muypoco probables pero con una poblacion muy grande. Se puede considerarel lımite de la Binomial cuando n ·p → constante e igual a λ, con n →∞.Debido a su gran aplicacion en telecomunicaciones conviene detenernosen posibles caso de uso de esta variables. Supongamos que partimos enn trozos una barra con imperfecciones aleatoriamente distribuidas. Pode-mos modelar el numero de imperfecciones en un trozo mediante una v.a.binomial. Si cada trozo es lo suficientemente pequeno, la probabilidad deque tenga un defecto p es muy pequena. Si incremento el numero de trozosn entonces p se disminuye en la misma proporcion, de forma que p · n esconstante. Para n tendiendo a infinito la v.a. serıa Poisson.

12 CAPITULO 1. ESTADISTICA Y PROCESOS ESTOCASTICOS

Este mismo razonamiento se puede aplicar a cualquier intervalo que sedivida en trozos (incluyendo un intervalo de tiempo). De forma generalpodemos afirmar que si un intervalo sobre el cual pueden ocurrir eventosaleatoriamente distribuidos (en el tiempo o en el espacio) puede ser divi-dido en intervalos suficientemente pequenos, en tal caso, el experimentoaleatorio se llama proceso (observacion de un sistema en el tiempo) dePoisson.

Supongamos que N(t) es una variable que indica el numero de eventosaleatorios que ocurren en un intervalo de tiempo [0, t]. Dichos eventosconstituyen un proceso de poisson con tasa λ, λ > 0 si

a) N(0) = 0

b) El numero de eventos que ocurren en un subintervalo es independi-ente de los que ocurren en otros subintervalos disjuntos.

c) La probabilidad de que ocurra un evento en un subintervalo es lamisma para todos los subintervalos y proporcional a su longitud, noa su localizacion.

d) lımh→0P (N(h)=1)

h = λ

e) lımh→0P (N(h)≥2)

h = 0

Para obtener la expresion de P (N(t) = k), dividiremos el intervalo [0, t]en n subintervalos de longitud t

n . Entonces, para n → ∞ tendremos queP (N(t) = k) = P (k de los n subintervalos tienen 1 evento y n-k tienen0 eventos), donde para cada subintervalo la probabilidad de exito (tenerun evento) sera p ≈ λ·t

n . Por tanto P (N(t) = k) ∼ Binomial(n, p). Comon →∞ y n · p = λt = constante N(t) tendra una distribucion de Poissonde tasa λt.

Geometrica: X ∼ Geometrica(p), 0 ≤ p ≤ 1. Su funcion de probabili-dad es:

pX(x) = (1− p)x−1 · p, x = 1, 2, . . . (1.9)

La variable aleatorıa Geometrica X representa el numero de pruebas deBernouilli necesarias para obtener el primer exito; esto es, siendo Xi:variables aleatorias de Bernouilli de parametro p, entonces X = ınf{m ≥1 : Xm = 1}.

Hipergeometrica: X ∼ Hipergeometrica(N,n, k), k ≤ N, n ≤ N . Sufuncion de probabilidad es:

1.2. LAS VARIABLES ALEATORIAS Y SUS MOMENTOS 13

pX(x) =

(k

n

)·(

N − k

n− x

)

(N

n

) , x = max{0, n + k −N}, . . . mın{k, n}

(1.10)

Sea un conjunto de N objetos compuestos por k objetos clasificados co-mo exito y N − k como fracaso. Si tomamos una muestra de n objetosaleatoriamente (sin reposicion), la variable aleatoria X, con distribucionhipergeometrica, medira el numero de exitos en la muestra elegida. Eneste caso los experimentos de Bernouilli no son independientes, pues laprobabilidad de exito varıa a medida que se realizan extracciones. Cuan-do la poblacion es muy grande (N À n, tıpicamente n

N < 0, 1) se puedeutilizar la binomial.

Binomial Negativa:X ∼ BinNeg(n, p), 0 ≤ p ≤ 1, n ≥ 1. Su funcionde probabilidad es:

pX(x) =

(x− 1n− 1

)· pn · (1− p)x−n, x = n, n + 1, n + 2, . . . (1.11)

La binomial negativa es una generalizacion de la geometrica en la cualla variable aleatoria representa el numero de experimentos de Bernouillique debo realizar para obtener n exitos. Siendo Yi variables aleatoriascon distribucion geometrica, podemos afirmar que X =

∑mi=1 Yi tiene una

distribucion binomial negativa.

Esperanza y momentos de una variable aleatoria discreta

En ocasiones se utilizan ciertos valores (media, momentos, ...) que permitenofrecer informacion sobre la funcion de distribucion de una v.a.

La media o valor esperado de una variable aleatoria X es una mediaponderada de los posibles valores de X y se define:

E[X] = µ =∑

i

i · pX(i) (1.12)

La media representa el centro de gravedad de la funcion de probabilidad.Supongamos que X1, X2, X3, . . . Xn son variables aleatorias independientes e

14 CAPITULO 1. ESTADISTICA Y PROCESOS ESTOCASTICOS

identicamente distribuidas Xid= X (i.i.d.). Entonces la ley de los grandes

numeros nos indica que:

1n

n∑

k=1

Xk −→ E[X] (1.13)

Si la tendencia es con probabilidad 1 se denomina ley fuerte de los grandesnumeros.

Sea Y = f(X), entonces la esperanza de Y sera:

E[Y ] = E[f(X)] =∑

i

f(i) · pX(i) (1.14)

Es facil demostrar que: E[aX + b] = aE[x] + b y que E[∑

i Xi] =∑

i E[Xi].

Para caracterizar el comportamiento de una distribucion se emplean losmomentos. Se define el momento de orden k de una variable aleatoria como:

E[Xk] =∑

i

ik · pX(i) (1.15)

En muchas ocasiones es necesario conocer si la distribucion esta concentradaen torno a su media o por el contrario se encuentra dispersa, en tales casosresulta mas util utilizar momentos centrados (en la media) de orden k, que sedefinen como:

E[(X −E[X])k] =∑

i

(i−E[X])k · pX(i) (1.16)

Junto con la media, uno de los parametros mas utilizados en la caracteri-zacion de una v.a. es la varianza, que se define como el momento centrado deorden dos; esto es:

V ar(X) = σ2 = E[(X − E[X])2] =∑

i

(i−E[X])2 · pX(i) = E[X2]− (E[X])2.

(1.17)

Se puede demostrar que V ar(aX+b) = a2V ar(X). A la cantidad√

V ar(X) =σ se le denomina desviacion estandard, y tiene las mismas unidades que lamedia. Tambien podemos emplear el coeficiente de variacion de una variablealeatoria X, definido como CX = σ

E[X] . Por ultimo, definimos los cuantiles deprobabilidad p como:

χp = ınf{u : FX(u) ≥ p} (1.18)

1.2. LAS VARIABLES ALEATORIAS Y SUS MOMENTOS 15

1.2.3. Variables aleatorias continuas

En ellas es posible definir la funcion densidad de probabilidad fX(x)como:

FX(u) = P (X ≤ u) =∫ u

−∞fX(y)dy , fX(y) ≥ 0, ∀y (1.19)

Logicamente,∫∞−∞ fX(y)dy = 1. En las v.a. continuas, P (X = x) = 0.

Todas las expresiones vistas hasta ahora para la esperanza y los momentoscontinuan siendo validas cambiando los sumatorios por integrales y la funcionde probabilidad pX(x) por la funcion densidad de probabilidad fX(x). Ası , porejemplo tendremos que:

E[X] =∫ ∞

−∞u · fX(u)du

V ar(X) =∫ ∞

−∞(u−E[X])2 · fX(u)du (1.20)

Las principales variables aleatorias continuas son:

Uniforme: X ∼ Uniforme(a, b). Su funcion densidad de probabilidades:

fX(x) =

{1

b−a , a ≤ x ≤ b;0, e.o.c.

(1.21)

Normal: X ∼ Normal(µ, σ2). Su funcion densidad de probabilidad vienedada por:

fX(x) =1√

2π · σ · e− (x−µ)2

2σ2 −∞ ≤ x ≤ ∞ (1.22)

Esta funcion tiene forma de campana simetrica respecto al centro, deter-minado por µ, su media. La anchura vendra fijada por σ2, su varianza.Esta distribucion es ampliamente utilizada debido al teorema del lımitecentral que nos indica que cuando un experimento aleatorio se repitemuchas veces, la variable aleatoria del valor medio tiende a una distribu-cion normal; esto es:

{Xk} i.i.d.∼ X

E[X] = µ

V ar[X] = σ2 < ∞

⇒ Xn =

1n

n∑

i=1

Xin→∞−→ Normal(µ,

σ2

n) (1.23)

Dado que las transformaciones lineales de una variable aleatoria normalcontinuan siendo normales, y siendo X ∼ Normal(µ, σ2), si definimosZ = X−µ

σ , entonces Z ∼ Normal(0, 1). La funcion de distribucion de

16 CAPITULO 1. ESTADISTICA Y PROCESOS ESTOCASTICOS

N(0, 1) se denomina Φ(z) o normal estandar y se encuentra tabulada.Los percentiles de la normal senalan que χ0,0027 = µ ± 3σ por lo quela mayorıa de los valores estaran recogidos en este rango, denominadoancho de la campana. En el caso de la normal estandar, los percentilesson: χ0,05 = 1,645, χ0,025 = 1,96, χ0,01 = 2,33.

Un resultado importante de la normal es que la suma de normales Xi demedia µi y varianza σ2

i es tambien una normal de media∑n

i µi y varianza∑ni σ2

i .

Relacionadas con la normal se encuentran otra serie de distribuciones deinteres, como son:

• Chi Cuadrado: X ∼ χ2n, n ≥ 1, donde n son los grados de libertad.

Esta variable representa la suma de n variables aleatorias normalesestandard al cuadrado.

{Zk}k=1,2,...,ni.i.d.∼ N(0, 1) ⇒

n∑

i=1

Z2i ∼ χ2

n (1.24)

• T-Student : X ∼ Tn, n ≥ 1. Si Z es una variable aleatoria normalestandard, y χ2

n es una variable independiente Chi cuadrado de n

grados de libertad, entonces la variable aleatoria X, definida como:

X ∼ Z√χ2

nn

i.i.d.∼ Tn (1.25)

tiene una distribucion T-Student con n grados de libertad. Esta dis-tribucion es ampliamente utilizada para el calculo de la media par-tiendo de resultados empıricos, ya que segun hemos visto en el teore-ma del lımite central Xn−µ

σ/√

n∼ N(0, 1). Si sustituimos σ por su valor

empırico S (el valor empırico de la varianza puede ser calculado comoS2 = 1

n−1

∑ni=1(Xi −Xn)2), entonces

√nXn−µ

S ∼ Tn−1. La distribu-cion Tn tiende a N(0, 1) para n →∞, aunque para valores pequenosde n tiene una mayor variabilidad.

La variable aleatoria normal se utiliza tambien para aproximar otras dis-tribuciones como la binomial o la Poisson bajo ciertas condiciones.

• Aproximacion de la Binomial : Sea X = Binomial(n, p), entoncesZ = X−np√

np(1−p)es aproximadamente una variable aleatoria normal

estandard. Esta aproximacion es buena para np > 5 y n(1− p) > 5

• Aproximacion de la Poisson: Sea X = Poisson(λ), entonces Z =X−λ√

λes aproximadamente una variable aleatoria normal estandard.

Esta aproximacion es valida para λ > 5.

1.2. LAS VARIABLES ALEATORIAS Y SUS MOMENTOS 17

Exponencial:X ∼ Exponencial(λ). Su funcion densidad de probabilidadviene dada por:

fX(x) = λ · e−λ·x, 0 ≤ x < ∞ (1.26)

Su funcion de distribucion sera, por tanto, FX(x) = 1− e−λ·x. Es una delas distribuciones mas utilizadas en el campo de las telecomunicacionesdebido a su propiedad sin memoria, que formalmente se expresa P (X <

t1 + t2|X > t1) = P (X < t2); esto es, el conocimiento de acontecimientospasados no afecta al futuro. Esta propiedad solo se da en la variableexponencial para el caso continuo y la geometrica en el caso discreto.2.Un ejemplo de aplicacion de esta propiedad serıa el siguiente: supongamosque X ∼ Exp(λ) indica la duracion de una conversacion telefonica quecomienza en t = 0. Si en t = τ comprobamos que la conversacion continuaactiva, la vida residual(lo que le falta para terminar) de la duracion dedicha conversacion podrıa modelarse con una variable aleatoria R = X−τ ,dado X > τ . Puede demostrarse que R ∼ Exp(λ) ∼ X: la vida residualno se ve afectada por el instante de tiempo τ en se examine el fenomeno.

La variable aleatoria X de distribucion exponencial con media 1λ indica la

distancia (en espacio o en tiempo) entre sucesivos eventos de un proceso dePoisson con media λ. Sea N(t) un Proceso de Poisson de tasa λ. Entonces:

P (N(t) = k) = e−λt · (λt)k

k!, k = 0, 1, . . . (1.27)

Sea Xi una variable aleatoria que indica el tiempo que transcurre hastala ocurrencia del (i-1)-esimo evento hasta el i-esimo evento (tiempo entreeventos). Entonces:

P (X1 > t) = P (N(t) = 0) = e−λt (1.28)

esto es, X1 ∼ Exp(λ). Para X2 tenemos que P (X2 > t|X1 = s) =P (0 eventos en (s, s + t]|X1 = s) = P (0 eventos en (s, s + t]) = e−λt. Deforma general el tiempo entre llegadas Xi ∼ Exponencial(λ)

Otra propiedad muy utilizada de la variable aleatoria exponencial es quesi X1, X2, . . . , Xn son variables aleatorias exponenciales de parametrosλ1, λ2, . . . , λn respectivamente, entonces Y = mın(X1, X2, . . . Xn) tienedistribucion exponencial de parametro

∑ni=1 λi. Esto significa que la suma

de procesos de Poisson, continua siendo un proceso de Poisson.2Es logico pues en un proceso de Poisson asumimos que un intervalo puede ser dividido

en n subintervalos independientes que resultan en pruebas independientes de Bernoilli. Si en

una prueba se tiene exito o fracaso, esto no condiciona las probabilidades de exito o fracaso

de cualquier otra prueba

18 CAPITULO 1. ESTADISTICA Y PROCESOS ESTOCASTICOS

Como consecuencia de lo anterior se puede demostrar que si X1, X2, . . . , Xn

son variables aleatorias exponenciales i.i.d. de parametro λ, entonces E[max(X1, X2, . . . , Xn)] =∑ni=1

1iλ ≈ ln(n)

λ . Esto ultimo tiene aplicacion en el calculo del tiempo devida de un sistema en paralelo.

Erlang: X ∼ Erlang(λ, r), λ > 0, r = 1, 2, . . .. Su funcion densidad deprobabilidad es:

fX(x) =λr · xr−1 · e−λx

(r − 1)!, x > 0 (1.29)

En este caso X representa el intervalo de tiempo en el que ocurren r

eventos en un proceso de Poisson de media λ (o la longitud de un intervalocon r defectos). Si r = 1 entonces X ∼ Exp(1/λ). Es el equivalente entiempo continuo a la binomial negativa.

Si X1, . . . Xn ∼ X ∼ Exponencial(λ), entonces Y =∑n

i=1 Xi tendra unadistribucion: Y ∼ Erlang(λ, n).

Gamma: X ∼ Gamma(λ, r), λ > 0, r > 0. Su funcion densidad deprobabilidad sera:

fX(x) =λr · xr−1 · e−λx

Γ(r), x > 0 (1.30)

Donde la funcion Γ(r) =∫∞0 xr−1e−xdx es una generalizacion de la fun-

cion factorial para valores no enteros de r, ya que se puede demostrar queΓ(r) = Γ(r − 1) · (r − 1), con Γ(1) = 0! y Γ(1/2) = π2, por lo que cuandor es un entero Γ(r) = (r− 1)!. Logicamente Gamma(λ, r) ≡ Erlang(λ, r)para r = 0, 1, 2, . . ..

Hiperexponencial-n: X ∼ HiperExp(α1, α2, . . . , αn, λ1, λ2, . . . , λn), 0 ≤αi ≤ 1, λi ≥ 0,

∑ni=1 αi = 1. Su funcion de distribucion es:

fX(x) =n∑

i=1

αiλie−λi·x, x ≥ 0 (1.31)

Esta variable aleatoria permite modelar mixturas de variables exponen-ciales con diferentes parametros (λi) y distintas probabilidades de ocur-rencia para cada una (αi). En el caso de n = 2 se puede interpretarcomo realizar un experimento de Bernouilli con probabilidad de exito α1

para elegir cual de las dos exponenciales voy a utilizar (si λ1 o λ2). Lacorrespondiente funcion de distribucion es: FX(x) = 1−∑n

i=1 α1e−λi·x.

1.2. LAS VARIABLES ALEATORIAS Y SUS MOMENTOS 19

Weibull: X ∼ Weibull(δ, β), β ≥ 0, δ ≥ 0. Su funcion de distribuciones:

fX(x) =β

δ(x

δ)β−1 · e−(x

δ)β

, x > 0 (1.32)

Esta variable aleatoria es utilizada para modelar el tiempo entre llegadasen un sistema en que la tasa de llegadas se incrementa (o decrementa)con el tiempo. Al δ se le denomina parametro de escala mientras quea β representa el parametro de forma. Logicamente si β = 1 implicaque la tasa de llegadas permanece constante y tendremos la distribucionexponencial. La funcion de distribucion de la Weibull es FX(x) = 1 −e−(x/δ)β.

Pareto: X ∼ Pareto(γ, k), γ > 0, k > 0. Su funcion densidad de proba-bilidad es:

fX(x) =γkγ

xγ+1=

γ

k(k

x)γ+1, k ≤ x ≤ ∞. (1.33)

y su funcion de distribucion es: FX(x) = 1 − (k/x)γ , k ≤ x. Es unadistribucion muy utilizada en telecomunicacion, debido a que su funciondensidad de probabilidad decae lentamente (distribucion de cola pesada),lo que permite modelar trafico con una varianza elevada en diferentesescalas de tiempo. Este tipo de trafico, denominado autosimilar, se empleapara modelar muchos aspectos de las redes de datos como el trafico en lasredes de area local, la duracion de las sesiones en Internet, . . . .

En general, una variable aleatoria se denomina de cola pesada si: P (X >

(x)) ∝ x−α, 0 < α ≤ 2 es decir, cuando fX(x) ∝ αx−(α+1). Se puededemostrar que en tal caso, su media no converge para α ≤ 1 y la E[X2]tampoco converge para α ≤ 2, por lo que ambas seran ∞. En el caso de ladistribucion Pareto se puede verificar que es de cola pesada si 0 < γ ≤ 2,donde su valor medio para γ > 1 es: E[Xi] = γki

γ−i y su varianza E[(X−µ)2]

para γ > 2 es: σ2 = γk2

(γ−1)2(γ−2).

En el cuadro siguiente se resumen las principales caracterısitcas de las v.a.vistas: Otros parametros como el coeficiente de variacion (CX) o el momento nocentrado de orden 2 (E[X2]) pueden obtenerse mediante manipulacion simplede los valores anteriores

20 CAPITULO 1. ESTADISTICA Y PROCESOS ESTOCASTICOS

Distribucion E[X] = µ E[(X − µ)2] = σ2

Bernouilli(p) p -Binomial(n,p) np np · (1− p)Poisson(λ) λ λ

Geometrica(p) 1p

(1−p)p2

HiperGeo(N,n,k) np np(1− p)(N−nN−1 )

BinNeg(n,p) np

n(1−p)p2

Uniforme(a,b) a+b2

(b−a)2

2

Normal(µ, σ2) µ σ2

χ2n n 2n

Tn 0, n > 1 nn−2 , n > 2

Exponencial(λ) 1λ

1λ2

Erlang(λ, r) rλ

rλ2

Gamma(λ, r) rλ

rλ2

HiperExpn(αi, λi)∑n

i=1αiλi

2 ·∑ni=1

αi

λ2i− (

∑ni=1

αiλi

)2

Weibull(δ, β) δΓ(1 + 1β ) δ2Γ(1 + 2

β )− δ2[Γ(1 + 1β )]2

Pareto(γ, k) γkγ−1

γk2

(γ−1)2(γ−2), γ > 2

Cuadro 1.1: Media y varianza de las v.a.

1.3. Funciones de variables aleatorias

1.3.1. Multiples variables aleatorias

En el caso discreto, podremos definir la funcion de probabilidad conjuntade p variables aleatorias como:

fX1,X2,...,Xp(x1, x2, . . . , xp) = P (X1 = x1, X2 = x2, . . . , Xp = xp) (1.34)

, donde la funcion marginal de probabilidad de una de ellas, Xi, vendra dadapor la expresion:

fXi(xi) = P (Xi = xi) =∑

Rxi

fX1,X2,...,Xp(x1, x2, . . . , xp) (1.35)

, siendo Rxi el conjunto de puntos del rango de (X1, X2, . . . , Xp) para loscuales Xi = xi. La esperanza y la varianza de la variable Xi vendran dadas por:

E[Xi] =∑

R

xi · fX1,X2,...,Xp(x1, x2, . . . , xp) = µXi

σ2Xi

=∑

R

(xi − µXi)2 · fX1,X2,...,Xp(x1, x2, . . . , xp) (1.36)

1.3. FUNCIONES DE VARIABLES ALEATORIAS 21

Donde R es el conjunto de todos los puntos del rango (X1, X2, . . . , Xp). Enocasiones resulta de utilidad hallar la funcion de probabilidad de un conjuntode k, (k < p) variables aleatorias:

fX1,X2,...,Xk(x1, x2, . . . , xk) = P (X1 = x1, X2 = x2, . . . , Xk = xk)

=∑

Rx1,x2,...,xk

fX1,X2,...,Xp(x1, x2, . . . , xp)(1.37)

,siendo Rx1,x2,...,xkel conjunto de todos los puntos de X1, X2, . . . Xp para

lod cuales X1 = x1, X2 = x2, . . . , Xk = xk.Podremos afirmar que las variables X1, X2, . . . , Xp son independientes si y

solo si:

fX1,X2,...,Xp(x1, x2, . . . , xp) = fX1(x1) · fX2(x2) . . . · fXp(xp), ∀x1, x2, . . . xp

(1.38)Distribucion multinomial : Es una extension de la binomial. Se supone un

experimento aleatorio consistente en una serie de n intentos o repeticiones,donde se asume que:

El resultado de cada intento es clasificado en una entre k clases

La probabilidad de que un intento genere resultado de las clases 1, 2, . . . , k

es constante sobre los intentos e igual a p1, p2, . . . , pk respectivamente,donde

∑ki=1 pi = 1.

Los intentos son independientes

Las variables aleatorias X1, X2, . . . , Xk , que representan el numero de inten-tos que resultan de cada clase, tienen una funcion de distribucion multinomial,con una funcion de probabilidad conjunta igual a:

fX1,X2,...,Xk(x1, x2, . . . , xk) =

n!x1!, x2!, . . . , xk!

px11 ·px2

2 . . . pxkk , x1+x2+. . .+xk = n

(1.39), donde la funcion marginal de probabilidad de Xi sera una binomial con

E[Xi] = n · pi y σ2Xi

= n · pi(1− pi).

En el caso de las variables aleatorias continuas 3, definimos las funciondensidad de probabilidad conjunta de las variables aleatorias X1, X2, . . . Xp co-mo fX1,X2,...,Xp(x1, x2, . . . , xp) ≥ 0 que cumple, para ∀ region B del espaciop-dimensional:

3Un caso de facil aplicacion puede ser las dimensiones de una pieza fabricada

22 CAPITULO 1. ESTADISTICA Y PROCESOS ESTOCASTICOS

∫ ∫

B. . .

∫fX1,X2,...,Xp(x1, x2, . . . , xp) = P ([X1, x2, . . . , Xp]εB) (1.40)

, donde∫∞−∞

∫∞−∞ . . .

∫∞−∞ fX1,X2,...,Xp(x1, x2, . . . , xp) = 1.

La funcion marginal de probabilidad de una de ellas, Xi, vendra dada porla expresion:

fXi(xi) = P (Xi = xi) =∫ ∫

Rxi

. . .

∫fX1,X2,...,Xp(x1, x2, . . . , xp)dx1dx2 . . . dxp

(1.41), siendo Rxi la region del rango de (X1, X2, . . . , Xp) para los cuales Xi = xi.

La esperanza y la varianza de la variable Xi vendran dadas por:

E[Xi] =∫ ∞

−∞. . .

∫ ∞

−∞xi · fX1,X2,...,Xp(x1, x2, . . . , xp)dx1dx2 . . . dxp = µXi

σ2Xi

=∫ ∞

−∞. . .

∫ ∞

−∞(xi − µXi)

2 · fX1,X2,...,Xp(x1, x2, . . . , xp)dx1dx2 . . . dxp

, donde R es el conjunto de todos los puntos del rango X1, X2, . . . , Xp. Lafuncion de probabilidad de un conjunto de k, (k < p) variables aleatorias dedefine de forma similar al caso de variables discretas pasando los sumatorios alcaso continuo. La independencia se define igual que en el caso discreto.

Distribucion Normal bivariada: Es la extension de la distribucion normalpara dos variables aleatorias.

fXY (x, y;σX , σY , µX , µY , ρ) =1

2πσXσY

√1− ρ2

e−1

2(1−ρ2)[(x−µX )2

σ2X

− 2ρ(x−µX )(y−µY )

σXσY+

(y−µY )2

σ2Y

]

(1.42)

1.3.2. Covarianza y Correlacion

Mide la relacion entre dos o mas variables aleatorias definidas en un espacioprobabilıstico. Se define la covarianza de dos variables aleatorias de la siguientemanera:

Cov(X, Y ) = σXY = E[(X−E[X])(Y −E[Y ])] = E[XY ]−E[X] ·E[Y ]. (1.43)

La convarianza es una medida de la asociacion lineal entre dos variablesaleatorias. Si la relacion no es lineal, la covarianza puede no ser sensible a estarelacion entre variables.

1.3. FUNCIONES DE VARIABLES ALEATORIAS 23

Si dos variables aleatorias X e Y son independientes, entonces Cov(X, Y ) =0 y V ar(X +Y ) = V ar(X)+V ar(Y ). En general, puede observarse que cuandola Cov(X,Y ) > 0, entonces Y tiende a incrementar su valor cuando X tambienlo hace. Un valor Cov(X, Y ) < 0 implica generalmente que Y tiende a decrecercuando X crece. Para ver la relacion entre dos variables X e Y se suele emplearla funcion de correlacion, ya que es una cantidad adimensional que oscila entre+1 y -1 definida como:

Corr(X, Y ) = ρXY =Cov(X, Y )√

V ar(X) · V ar(Y )(1.44)

Si ρXY > 0, las variables estaran correladas, y si ρXY = 1, la relacion entreellas sera lineal. En caso de variables independientes, ρXY = σXY = 0.

1.3.3. Combinacion lineal de variables aleatorias

Dadas las variables aleatorias X1, X2, . . . , Xn y las constantes c1, c2, . . . , cn,definimos la siguiente combinacion lineal: Y = c1X1 + c2X2 + . . . cnXn.

Entonces tenemos que:

E[Y ] = E[n∑

i=1

ciXi] =n∑

i=1

ciE[Xi] (1.45)

El calculo de σ2Y es mas complejo. De la definicion de convarianza, es facil

verificar que esta cumple con las siguientes propiedades:

Cov(X, X) = V ar(X)

Cov(aX, Y ) = a · Cov(X,Y )

Cov(∑n

i=1 Xi,∑m

j=1 Yi) =∑n

i=1

∑mj=1 Cov(Yj , Xi)

De lo que se desprende como corolario que:

σ2Y = V ar

(n∑

i=1

ciXi

)=

n∑

i=1

c2i V ar(Xi) +

n∑

i=1

n∑

j 6=i j=1

c2i c

2jCov(Xj , Xi) (1.46)

En el caso de que X1X2, . . . , Xn sean independientes se cumplira que σ2Y =∑n

i=1 ciσ2Xi

.El caso de querer encontrar la distribucion de la combinacion lineal de vari-

ables aleatorias tendremos que emplear la convolucion. Sean X1, X2 dos vari-ables aleatorias discretas, y sea Y = X1 + X2. En tal caso,

P (Y = y) =y∑

i=0

P (X1 = i)P (X2 = y − i) (1.47)

24 CAPITULO 1. ESTADISTICA Y PROCESOS ESTOCASTICOS

Ejemplo:demuestre que la suma de dos variables independientes de Poissonde media λ1t y λ2t respectivamente es una variable de Poisson de media (λ1 +λ2)t. (sugerencia: utilice la expansion binomial (x+y)n =

∑ni=0 (n

i )xiyn−i; n ≥0.)

En el caso de variables continuas, tendrıamos

fY (y) =∫ ∞

−∞fX1(z)fX2(z − y)dz (1.48)

1.3.4. Mixtura de variables aleatorias

La mixtura de variables aleatorias resulta mas sencilla que la combinacionlineal de las mismas. Supongamos que tenemos X1, X2, . . . , Xn variables aleato-rias independientes, y que la probabilidad de elegir una aleatoriamente es c1, c2, . . . cn

para X1, X2, . . . , Xn respectivamente, donde∑n

i=1 ci = 1. Entonces podemosdefinir la mixtura de todas ellas como

Y = c1X1 ⊕ c2X2 ⊕ c3X3 . . .⊕ cnXn (1.49)

, donde fY (y) =∑n

i=1 cifXi(y).

Es facil demostrar que en las mixturas de variables aleatorias, el momentono centrado de orden i cumple:

E[Y i] =n∑

j=1

cjE[Xij ] (1.50)

Para el caso de dos variables aleatorias independientes X1 y X2 se puedeinterpretar como un experimento de Bernouilli con probabilidad c1 de tomar elvalor ofrecido por X1 y 1− c1 de tomar el valor ofrecido por X2.

1.4. Lımites y desigualdades

1.4.1. Desigualdad de Markov

Sea h(x) una funcion positiva no decreciente 4, y sea X una variable aleatoriacon funcion densidad de probabilidad fX(x). Entonces,

E[h(x)] =∫ ∞

−∞h(x)fX(x)dx ≥

∫ ∞

−∞h(x)fX(x)dx ≥ h(t)P (X ≥ t) (1.51)

lo que puede reescribirse como la desigualdad de Markov:

4Por ejemplo: h(x) = x, o h(x) = eαx

1.5. INTRODUCCION A LOS PROCESOS ESTOCASTICOS 25

P (X ≥ t) ≤ E[h(t)]h(t)

(1.52)

Para el caso de h(x) = xU(x), siendo X una variable aleatoria no negativa yU(x) la funcion escalon, tendremos la expresion simple P (X ≥ t) ≤ E[X]

t ; t ≥ 0.

1.4.2. Desigualdad de Chebyshev

Se deduce de la desigualdad de Markov y nos permite inferir valores para lasprobabilidades de una variable aleatoria dado sus momentos. Esta desigualdadestable que:

P (|X − E[X]| ≥ ε) ≤ σ2X

ε(1.53)

1.4.3. Lımite de Chernoff

Este lımite se deriva tambien de la desigualdad de Markov para h(t) =e−αt, α ≥ 0, ofreciendo el siguiente resultado:

P (X ≥ d) ≤ e−αdE[eαX ] = e−αdX(−α); α ≥ 0 (1.54)

,donde X(−α) es la transformada de Laplace 5 de la funcion densidad deprobabilidad evaluada en −α.

1.4.4. Ley de los grandes numeros

Tambien resulta como aplicacion de la desigualdad de Chebychev. Si con-sideramos n variables aleatorias independientes e identicamente distribuidas(iid), X1, X2, . . . Xn, con media µ y varianza σ2, la variable aleatoria mediaX = (1/n)

∑ni=1 Xi tendra media µ y varianza σ2/n. Sustituyendo en la de-

sigualdad de Chebychev tendremos que:

lımn→∞P (|X − µ| ≥ ε) ≤ lım

n→∞σ2

nε2; ε ≥ 0 (1.55)

1.5. Introduccion a los procesos estocasticos

Un proceso estocastico es un modelo probabilıstico de un sistema que evolu-ciona de forma aleatoria. Si el sistema se observa en instantes de tiempos dis-cretos n = 0, 1, 2, . . . y Xn es el estado del sistema en el instante n, entonces{Xn, n ≥ 0} es un proceso estocastico de tiempo discreto. Ejemplos de este

5E[X] =R∞0

fX(x)e−sxdx

26 CAPITULO 1. ESTADISTICA Y PROCESOS ESTOCASTICOS

caso pueden ser el ındice Down-Jones al final de la n-esima semana, numerode paquetes perdidos en un router al final de n-esimo dıa, ... Si el sistema esobservado de manera continua en el tiempo t, entonces {X(t), t ≥ 0} es unproceso estocastico de tiempo continuo. Por ejemplo el numero de ordenadoresaveriados en un instante determinado del dıa t o la posicion de un huracan enun momento dado.

De manera mas formal, podemos definir un proceso estocastico como unacoleccion de variables aleatorias {X(α), α ∈ T} indexadas por el parametro α

que toma valores en el conjunto T . Las variables aleatorias toman valores enel espacio de estados S. En una gran cantidad de aplicaciones el parametro α

representa el tiempo. Es posible distinguir dos casos: cuando T = 0, 1, 2, . . .

escribiremos {Xn, n ≥ 0} en lugar de {X(α), α ∈ T} y cuando T = [0,∞)utilizaremos la notacion {X(t), t ≥ 0} en lugar de {X(α), α ∈ T}.

Cualquier posible evolucion o trayectoria del proceso estocastico se denom-inan caminos muestrales y, en general, existen infinitos. Como los procesos es-tocasticos siguen uno de los caminos muestrales de forma aleatoria, en ocasionesse les denomina funcion aleatoria. Uno de los objetivos del estudio de los pro-cesos estocasticos es comprender el comportamiento de los caminos muestralesa fin de predecir y controlar el futuro del sistema.

Para caracterizar completamente a un proceso estocastico cuyo conjuntode parametros T sea finito, bastara con la funcion de distribucion conjunta detodas las variables aleatorias. En el caso de que T = 0, 1, 2, . . . , sea infinitonecesitaremos una familia consistente de funciones de distribucion conjunta,que es aquella que cumple que Fn(x0, x1, . . . , xn) = Fn+1(x0, x1, . . . , xn,∞).Para el caso continuo, y supuesto que todas las trayectorias son continuas porla derecha, el proceso quedara descrito por una familia consistente de funcionesde distribucion conjunta de dimension finita:

Ft1,t2,...,tn(x1, x2, . . . , xn) = P (X(t1) ≤ x1, X(t2) ≤ x2, . . . X(tn) ≤ xn) (1.56)

El proceso estocastico mas simple serıa el formado por {Xn, n ≥ 1} dondeXn es una secuencia de variables aleatorias independientes y identicamentedistribuidas (i.i.d.) con una funcion de distribucion comun. en tal caso:

Fn(x1, x2, . . . , xn) =n∏

i=1

F (xi), −∞ < xi < ∞ (1.57)

Ejemplo: Supongamos ahora un proceso {Xn, n ≥ 1} como el anterior, ydefinimos el proceso estocastico {Sn, n ≥ 0} de la siguiente manera:

S0 = 0, Sn = X1 + X2 + . . . + Xn, n ≥ 1 (1.58)

1.5. INTRODUCCION A LOS PROCESOS ESTOCASTICOS 27

Este proceso se conoce como random walk, y tambien se encuentra completa-mente caracterizado por la funcion de distribucion conjunta de X.

¿Que es posible realizar con un proceso estocastico? en primer lugar debe-mos definirlo; esto es, identificar la estructura basica del proceso, conjuntode distribuciones y parametros que permiten caracterizarlo. Es posible tam-bien estudiar el comportamiento transitorio, es decir, la funcion de distribucionmarginal de Xn o X(t) para un valor determinado de n o de t, aunque debidoa la complejidad de esta tarea 6 en ocasiones tendremos que conformarnos tansolo con los momentos. En tercer lugar tambien podremos estudiar el compor-tamiento lımite del proceso cuando n o t tiende a infinito. Para ello debemosen primer lugar analizar la convergencia del proceso: identificar las condicionesbajo las cuales ocurre y desarrollar metodos para computar las distribucioneslımites (para ello emplearemos herramientas matematicas como algebra ma-tricial, sistemas de ecuaciones diferenciales y metodos numericos). En cuartolugar sera posible calcular el tiempo de primera estancia; esto es, cuanto tardael sistema en alcanzar un conjunto particular de estados. Concretamente estosupone estudiar la variable aleatoria T = min{n ≥ 0 : Xn ∈ B} para el tiempodiscreto o T = min{t ≥ 0 : X(t) ∈ B} para el tiempo continuo. Por ultimo,si somos capaces de asociar costes y beneficios de los diversos estados podemosevaluar comparativas de diferentes polıticas que influyen en la evolucion delproceso.

1.5.1. Cadenas de Markov de tiempo discreto: DTMC

En el caso de tiempo discreto, tendremos una coleccion de variables aleato-rias X0, X1, X2, . . . con valores discretos 7. Un proceso estocastico Xn, n ≥ 0 sedenomina DTMC con espacio de estados S si:

para todo n ≥ 0, Xn ∈ S con probabilidad 1

para todo n ≥ 0, x ∈ S, A ⊂ S, B ⊂ Sn, se cumple que P (Xn+1 ∈ A|Xn =x, (X0, X1, . . . , Xn−1) ∈ B) = P (Xn+1 ∈ A|Xn = x)

Esta ultima propiedad, en virtud de la cual el estado futuro del sistema tansolo depende del estado presente, y no del pasado, se denomina propiedad deMarkov8

6Muy pocos procesos, por ejemplo el proceso de Poisson, tienen expresiones simples para

las distribuciones en el transitorio7Finito o con la cardinalidad de los numeros naturales8Si la dependencia con el tiempo se disipa en mas de un paso puedo considerar pares o

ternas de valores (Xn, Xn−1) y utilizar DTMC. Esta tecnica debe aplicarse con precaucion

pues multiplica el numero de estados SxS por lo tanto no se puede utilizar para mas de 2 o 3

28 CAPITULO 1. ESTADISTICA Y PROCESOS ESTOCASTICOS

Para el caso de que S sea contable, utilizaremos la siguiente notacion:

pij(n) = P (Xn+1 = j|Xn = i) (1.59)

A partir de este momento supondremos que S es contable y que la DTMCes homogenea en el tiempo (pij(n) = pij ∀n). En general, las DTMC se aplicancuando tenemos series temporales de la forma Xn+1 = f(Xn, Yn+1), donde f esuna funcion, e Yn+1 es un ruido que solo depende del valor presente y no de lahistoria del proceso (Yn+1

∐X0X1X2 . . . Xn−1).

Ejemplo:suponer un buffer con b posiciones al que llegan paquetes segun unproceso. Yn indica el numero de paquetes que llegan en el instante n. El bufferprocesa un paquete por unidad de tiempo. Sea Xn la ocupacion del buffer enel instante n. Entonces la dinamica del proceso quedarıa descrita por Xn+1 =min((Xn − 1)+ + Yn+1, b), y las probabilidades de transicion serıan:

pij = P (Xn+1 = j|Xn = i) =

P (Yn+1 = j), i = 0, j < b

P (Yn+1 ≥ j), i = 0, j = b

P (Yn+1 = j − i + 1), i > 0, j < b

P (Yn+1 ≥ b− i + 1 =), i > 0, j = b

(1.60)

La matriz P = [pij ] con las probabilidades condicionales para el salto deestado se denomina matriz de transicion de probabilidades a un paso es unamatriz estocastica pues satisface que pij ≥ 0∀i, j ∈ S, ası como

∑j∈S pij =

1∀i ∈ S.

En general, una DTMC X = {Xn, n ≥ 0} con espacio de estados S quedacompletamente caracterizada por la matriz de probabilidades de transicion P yel vector ~a = (ai)i∈S con la distribucion inicial (ai = P (X0 = i)). Normalmente~a solo influira en el calculo de las distribuciones marginales. En tal caso,definimos:

a(n)j = P (Xn = j) =

i∈S

P (Xn = j|X0 = i)ai (1.61)

Para el calculo de P (Xn = j|X0 = i) = p(n)ij tendremos en cuenta la

propiedad Markoviana, por lo que:

pasos. En el caso de dependencias temporales mayores es posible emplear series autoregresivas

para determinar previsiones de medias y varianzas en el futuro

1.5. INTRODUCCION A LOS PROCESOS ESTOCASTICOS 29

P (Xn+m = k|X0 = i) =∑

j∈S

P (Xn = j|X0 = i)P (Xn+m = k|Xn = j)

=∑

j∈S

P (Xn = j|X0 = i)P (Xm = k|X0 = j) (1.62)

Lo que da lugar a la ecuacion de Chapman-Kolmogorov : p(n+m)ik =

∑j∈S p

(n)ij p

(m)jk ,

que tambien se expresa de forma matricial como: P (n+m) = P (n)P (m), dondeP (n) = Pn.

Ejemplo:determine P (X1 = 1, X3 = 2, X7 = 3). Solucion: P (X1 = 1) ·p(2)12 ·

p(4)23

Para el calculo de probabilidades a largo plazo en un DTMC, definimos

frecuencia de ocupacion de estados a largo plazo como:

pi = lımn−>∞

1n + 1

n∑

k=0

1{Xk=i} (1.63)

frecuencia esperada a largo plazo

lımn−>∞

1n + 1

n∑

k=0

P (Xk = i) (1.64)

probabilidad estacionaria de ocupacion del estado i: si existe una distribu-cion de probabilidad (πi)i∈S , que cumple con πi =

∑j∈S πjpji (en forma

vectorıa serıa ~π = ~π · P ), donde P es la matriz de transicion a un pa-so, entonces ~π = (πi)i∈S es un vector con las distribuciones en regimenestacionario (estado de equilibrio). Caso de existir, para el calculo de lasprobabilidades en estado estable πi tendrıamos que resolver el siguientesistema de ecuaciones:

πi =∑

j∈S

πj · pji (1.65)

j∈S

πj = 1 (1.66)

No siempre existe la probabilidad estacionaria: supongamos que la cadenaoscila entre dos estados alternativamente o que la cadena queda atrapada enun subconjunto de estados y tenemos que descomponer la solucion para cadaregion. Por ello debemos, en primer lugar, determinar bajo que condiciones es

30 CAPITULO 1. ESTADISTICA Y PROCESOS ESTOCASTICOS

posible encontrar la probabilidad estacionaria. Para ello definimos el conceptode accesibilidad: diremos que el estado j es accesible desde el estado i si: i →j ⇐⇒ ∃n : p

(n)ij > 0. Dos estados son comunicantes si son accesibles en ambos

sentidos. Cuando tenemos un conjunto de estados que son comunicantes entresi, podemos denominarlo clase comunicante. Definimos una clase comunicanteAi como cerrada siempre que si i ∈ Ai y j /∈ Ai implica que j no es accesibledesde i. Una vez que una cadena visita una clase cerrada comunicante ya nopuede salir de ella. Una DTMC se denomina irreductible si todos sus estadospertenecen a una sola clase cerrada comunicante, y en ella todos los estados sepueden comunicar con el resto de estados.

Podemos pues descomponer el espacio de estados S = T∪A1∪A2∪. . ., dondeel subconjunto T contiene todos los estados transitorios (un estado i : P (Xn =i para algunn ≥ 1|X0 = i) < 1), esto es, un estado que es posible que no vuelvaa ser visitado). Y los subconjuntos Ai contienen clases comunicantes con estadosrecurrentes (lo opuesto de transitorio), que a su vez pueden ser recurrentes nulos(si E [ınfn≥1:Xn=i |X0 = i] = ∞, el retorno al estado sucede con probabilidad 1pero en tiempo ∞) y en recurrente positivo (si E [ınfn≥1:Xn=i |X0 = i] < ∞, elretorno al estado sucede con probabilidad 1 pero en tiempo finito).

Si una DTMC es irreductible y recurrente positiva 9, con numero finito deestados, podemos afirmar que solo existe un solucion para πi que coincide conla frecuencia de ocupacion de estados.

pi = πi = lımn−>∞

1n + 1

n∑

k=0

P (Xk = i) (1.67)

, luego lımn−>∞ P (Xn = i) = πi.

1.5.2. Introduccion a las cadenas de Markov en tiempo continuo

En ellas las probabilidades de transicion se sustituyen por tasas de transi-cion. Definimos rij como la tasa de transicion del estado i para el estado j.

Es posible imaginar conceptualmente las cadenas en tiempo continuo comouna competicion entre transiciones, la primera que expira provoca un cambiode estado tras el cual se comienza de nuevo.

Si definimos ri =∑

j∈S,j 6=i rij como la tasa de salida del estado i, entoncespij = rij

riserıa la probabilidad de transicion del estado j cuando partimos del

estado i10.

En el caso de cadenas de tiempo continuo aparece el concepto de matriz

9para comprobarlo basta con hacer un test a un solo estado10el tiempo de permanencia en los estados se supone exponencial

1.5. INTRODUCCION A LOS PROCESOS ESTOCASTICOS 31

generadora inifinitesimal ϕ = (qij), donde:

qij =

{rij , i 6= j

−ri, i = j(1.68)

La matriz de transicion en el tiempo P (t) = (pij(t)) = P (X(t) = j|X(0) =i) de una cadena de Markov de tiempo contınuo que cumple:

d

dtP (t) = ϕP (t) (1.69)

por lo que la solucion viene dada por

P (t) = eϕ·t =∞∑

k=0

ϕktk

k!(1.70)

Para el computo de estas probabilidades tendremos, normalmente, proble-mas numericos, por lo que una solucion muy utilizada es la uniformizacion delproceso que consiste en discretizar las observaciones por una cadena embebidade Markov de tiempo discreto. Este metodo permite tratar el caso continuocomo si fuera un caso discreto, donde el proceso de Poisson uniformizador debetener una tasa q ≥ maxj∈S rj , lo que nos lleva a matrices de transicion delproceso uniformizado P = I + ϕ

q .Los procesos en tiempo continuo que utilizaremos a lo largo del presente

ano seran los de nacimiento y muerte, desarrollados en el proximo tema.