Ataurima-Arellano M. (2016) Repaso de Probabilidades y Estadística

download Ataurima-Arellano M. (2016) Repaso de Probabilidades y Estadística

of 9

Transcript of Ataurima-Arellano M. (2016) Repaso de Probabilidades y Estadística

  • 7/26/2019 Ataurima-Arellano M. (2016) Repaso de Probabilidades y Estadstica

    1/9

  • 7/26/2019 Ataurima-Arellano M. (2016) Repaso de Probabilidades y Estadstica

    2/9

    1. Densidades y Distribuciones

    Una variable estocstica o aleatoria X se dice que es de valor discreto si sta puede tomar slo unode los Kvalores particulares; llmese x1; x2; : : : ; xK. Su distribucin de probabilidad es un conjunto denumeros que otorgan la probabilidad de cada resultado.

    Pr [X=xk] probabilidad que X tome el valor xk, k= 1; : : : ; K Las probabilidades suman uno

    KXk=1

    Pr [X=xk] = 1

    Asumiendo que los posibles resultados estn ordenados x1 < x2

  • 7/26/2019 Ataurima-Arellano M. (2016) Repaso de Probabilidades y Estadstica

    3/9

    dondefX(x) dxes la densidad deX. Por ejemplo, el momento rsimo poblacional deXes la esperanzade Xr.

    Considere la variable aleatoria a +bX cona y b constantes. La esperanza es

    E[a+bX] =

    Z 11

    (a+bx) fX(x) dx

    = aZ 11

    fX(x) dx+bZ 11

    x fX(x) dx= a+bE[X]

    La varianza de a +bX es

    var [a+bX] =

    Z 11

    [(a+bx) (a+b)]2 fX(x) dx

    = b2 Z 11

    (x )2 fX(x) dx

    = b2 var [X]

    Otro resultado importante es E

    X2

    = var [X] + (E[x])2

    4. Momentos muestrales

    Un momento muestral es una estimacin particular de un momento poblacional basado en un conjuntode datos observados, digamos,fx1; x2; : : : ; xTg. El primer momento muestral es la media muestral

    x 1T

    TXt=1

    xt

    el cual es un estimador natural de la media poblacional . La varianza muestral,

    s2 1T

    TXt=1

    (xt x)2

    da un estimado de la varianza poblacional 2. De forma mas general, el momento rsimo muestral estdado por

    1

    T

    TXt=1

    xrt

    dondexrt denota xt elevado a la potencia r .

    5. Sesgo y Eciencia

    Sea un estimador muestral de un vector de parmetros poblacionales . Por ejemplo, puede serla media x y la media poblacional . Ele stimador se dice que es insesgado siE[] = .

    Suponga que es un estimador insesgado de . El estimador se dice que es eciente si este es el

    caso en el que para cualquier otro estimador insesgado

    , la siguiente matriz es semidenida positiva

    P E[( )( 0)] E[( )( 0)]

    6. Distribuciones Conjuntas

    Para dos variables aleatorias XeYcon densidad conjuntafX;Y (x; y), calculamos la probabilidad delevento conjunto en el que X

    a y Y

    ba partir de

    Pr [X a; Y b] =Z a1

    Z b1

    fX;Y (x; y) dy dx

    3

  • 7/26/2019 Ataurima-Arellano M. (2016) Repaso de Probabilidades y Estadstica

    4/9

    Esta puede ser representada en terminos de la funcin de distribucin acumulada conjunta:

    FX;Y (a; b) = Pr [X a; Y b]La probabilidad de que X a por s sola puede ser calculada a partir de

    Pr [X a; cualquier Y] = Z a

    1Z

    1

    1 fX;Y (x; y) dy dx (4)La comparacin de (4) con (2) revela que la densidad marginalfX(x)es obtenida mediante la integracinde la densidad conjunta fX;Y (x; y)con respecto a y :

    fX(x) =

    Z 11

    fX;Y (x; y) dy

    (5)

    7. Distribuciones Condicionales

    La densidad condicionl de Y dado Xesta dado por

    fYjX(yjx) 8 0

    0 en otro caso(6)

    Observe que sta satisface el requerimiento de una densidad (1)Z 11

    fYjX(yjx) dy =Z 11

    fX;Y (x; y)

    fX(x) dy

    = 1

    fX(x)

    Z 11

    fX;Y (x; y) dy| {z }fX(x)

    = 1

    Una mayor implicacin obvia de la denicin en (6) es que una densidad conjunta puede ser escritacomo el producto de una densidad condicional y la densidad marginal

    fX;Y (x; y) = fYjX(yjx) fX(x) (7)Laesperanza condicional de Y dado que la variable aleatoria X toma un valor particular x es

    E[YjX=x] =Z 11

    y fYjX(yjx) dy (8)

    8. Ley de Esperanzas Iteradas

    Observe que la esperanza condicional es una funcin del valor de la variable aleatoriaX. Para diferentesrealizaciones deX, la esperanza condicional ser un numero diferente. Suponga que vemos a E[YjX]comouna variable aleatoria y tomemos su esperanza con respecto a la distribucin de X:

    EX

    EYjX[YjX]

    =

    Z 11

    Z 11

    y fYjX(yjx) dy

    fX(x) dx

    Podemos usar los resultados (7) y (5) para expresar esta esperanza comoZ 11

    Z 11

    y fYjX(yjx) dy

    fX(x) dx =

    Z 11

    Z 11

    y fYjX(yjx) fX(x) dy dx

    =

    Z 11

    Z 11

    y fX;Y (x; y) dy dx

    =

    Z 11

    y Z 1

    1

    fX;Y (x; y) dx

    dy

    = Z 11

    y fY (y) dy= EY [Y]

    4

  • 7/26/2019 Ataurima-Arellano M. (2016) Repaso de Probabilidades y Estadstica

    5/9

    As,EX

    EYjX[YjX]

    = EY [Y] (9)

    En palabras, la variable aleatoria E[YjX] tiene la misma esperanza que una variable aleatoria Y. Estoes conocido como la ley de esperanzas iteradas.

    9. IndependenciaLas variables X e Y se dicen que son independientes si

    fX;Y (x; y) = fX(x) fY (y) (10)Comparando(10) con (7), si Y y Xson independientes, entonces

    fYjX(yjx) = fY (y) (11)

    10. Covarianza

    DenotemosX a E[X] y Y a E[Y]. La covarianza poblacional entreX y Y est dada por

    cov [x; y] Z 11

    Z 11

    (x X) (y Y) fX;Y (x; y) dy dx (12)

    11. Correlacin

    La correlacin poblacional entre X eY est dada por

    corr [X; Y] cov [X; Y]pvar[X]

    pvar [Y]

    Si la covarianza (o correlacin) entreXe Yes cero, entoncesXe Yse dicen queno estan correlacionados.

    12. Relacin entre Correlacin e IndependenciaObserve que si X y Y son independientes, entonces ellos no estan correlacionados

    cov [X; Y] =

    Z 11

    Z 11

    (x X) (y Y) fX(x) fY (y) dy dx

    =

    Z 11

    (x X) Z 1

    1

    (y Y) fY (y) dy fX(x) dx

    =

    Z 11

    (x X)

    26664

    0z }| {Z 11

    y fY (y) dy

    | {z }Y Y

    Z 11

    fY (y) dy

    | {z }1

    37775 fX(x) dx= 0

    As, si X e Y son independientes, entonces

    cov [X; Y] = 0

    La proposicin contraria, sin embargo, no es verdad el hecho que X e Y no esten correlacionadasno es suciente para deducir que ellas son independientes. Para constuir un contraejemplo, suponga queZe Y son variables aleatorias independientes cada una con media 0, y sea X Z Y. Entonces

    cov[X; Y] = E[(X X) (Y Y)]= E[(ZY E[ZY]) (Y 0)]= E[(ZY E[Z] E[Y]) Y]= E[(ZY) Y]

    = E[Z] EY2= 0y asX e Y no estn correlacionados. Ellos no son, sin embargo, independientes el valor de Z Y, o seade X, depende de Y.

    5

  • 7/26/2019 Ataurima-Arellano M. (2016) Repaso de Probabilidades y Estadstica

    6/9

    13. Ortogonalidad

    Considere una muestra de tamao T de dos variables aleatoriasfxtgTt=1 yfytgTt=1. Las dos variablesse dicen que son ortogonales si

    T

    Xt=1xtyt = 0

    As, la ortogonalidad es el anlogo de la muestra de ausencia de correlacin.Por ejemplo, denotemos xt = 1 a una secuencia de constantes y sea yt = wt w, donde w

    (1=T)PT

    t=1wt es la media muestral de la variable w . Entonces x e y son ortogonales:

    TXt=1

    1 (wt w) =TXt=1

    wt T w= 0

    14. Momentos poblacionales de Sumas

    Considere la variable aleatoria aX+bY. Su media esta dada por

    E[aX+bY] =aE[X] +bE[Y] (13)

    y la varianza esvar [aX+ bY] =a2var [X] +b2var [Y] + 2ab cov[X; Y] (14)

    CuandoX eY no estan correlacionados

    var [aX+ bY] =a2var [X] +b2var[Y]

    Generalizando el resultado (13) (14). Si fX1; X2; : : : ; X ng denotan una coleccin denvariables aleato-rias, entonces

    E[a1X1+a2X2+ +anXn] =a1E[X1] +a2E[X2] + +anE[Xn] (15)

    var[a1X1+a2X2+ +anXn] = a21var [X1] +a22var [X2] + +a2nvar[Xn]+2a1a2 cov [X1; X2] + 2a1a3 cov [X1; X3] + + 2a1an cov [X1; Xn]+2a2a3 cov [X2; X3] + 2a2a4 cov [X2; X4] + + 2a2an cov [X2; Xn]+ ++2an2an1 cov [Xn2; Xn1] + 2an2an cov[Xn2; Xn]+2an1an cov[Xn1; Xn] (16)

    var

    " nXi=1

    aiXi

    #=

    nXi=1

    a2i var[Xi] + 2n1Xi=1

    nXj=i+1

    aiajcov [Xi; Xj ]

    Si los X0sno estan correlacionados, esto es cov [Xi; Xj ] = 0 para todo i6=j , entonces

    var

    " nXi=1

    aiXi

    # =

    nXi=1

    a2i var[Xi]

    var [a1X1+a2X2+ +anXn] = a21var [X1] +a22var[X2] + +a2nvar [Xn] (17)

    15. La Distribucin Normal

    La variable Yt tiene una distribucin Normal o Gaussiana con media y varianza 2 si

    fYt(yt) = 1p

    2exp

    " (yt )

    2

    22

    # (18)

    EscribimosYt N

    ; 2

    6

  • 7/26/2019 Ataurima-Arellano M. (2016) Repaso de Probabilidades y Estadstica

    7/9

    para indicar que la densidad de Yt est dada por (18).Los momentos poblacionales de orden impar centrados de una variable Gaussiana son cero:

    E[(Yt )r] = 0 para r = 1; 3; 5; : : :

    El cuarto momento centrado es

    Eh(Yt )4i= 3416. Skew y Kurtosis

    El skewness (asimetra) de una variableYt con media es representada por

    Eh

    (Yt )3i

    [var (Yt)]3=2

    Una variable con un skewness negativo es mas probable a estar muy por debajo de la media que estarpor encima de la media. La kurtosis es

    Eh(Yt )4i

    [var (Yt)]2

    Una distribucin cuya kurtosis excede de 3 tiene mas masa en las colas que una distribucin Gaussianacon la misma varianza.

    17. Otras Distribuciones Univariadas

    Sea(X1; X2; : : : ; X n)variablesN(0; 1)independientes e identicamente distribuidas (i:i:d:), y considerela suma de sus cuadrados

    Y =X21 +X22 + +X2n

    Entonces Yse dice que tiene una distribucin chi-cuadrado conn grados de libertad, denotado por

    Y 2(n)

    SeaX N(0; 1)y Y 2(n) con X eY independientes. Entonces

    Z= Xp

    Y =n

    se dice que tienen una distribucin t conn grados de libertad, denotado por

    Z t (n)

    SeaY1 2 (n1) y Y2 2 (n2) con Y1 y Y2 independientes. Entonces

    Z= Y1=n1Y2=n2

    se dice que tienen una distribucin F con n1 grados de libertad del numerador y n2 grados de libertaddel denominador, denotado por

    Z F(n1; n2)Observe que si Z t (n), entoncesZ2 F(1; n).

    18. Funcin de verosimilitud

    Suponga que tiene una muestra de tamao T sobre alguna variable aleatoria Yt. Denotemos a

    fY1;Y2;:::;YT(y1; y2; : : : ; yT; )

    como la densidad conjunta de Y1; Y2; : : : ; Y T.

    7

  • 7/26/2019 Ataurima-Arellano M. (2016) Repaso de Probabilidades y Estadstica

    8/9

    La notacin hace incapi en que la densidad conjunta se presume depender de un vector poblacional de parmetros. Si observamos a esta densidad conjunta como una funcin de (dados los datos en Y),el resultado es llamado la funcin de verosimilitud muestral.

    Por ejemplo, considere una muestra deT variablesi:i:d:extraidas de una distribucinN

    ; 2

    . Para

    esta distribucin, =

    ; 2

    0, y a partir de (10) la densidad conjunta es el producto de los terminos

    individuales como en (18):

    fY1;Y2;:::;YT

    y1; y2; : : : ; yT; ; 2

    = fY1

    y1; ; 2 fY2 y2; ; 2 fYT yT; ; 2

    =TYt=1

    fYt

    yt; ; 2

    El logaritmo de la densidad conjunta es la suma de los logaritmos de estos trminos

    log fY1;Y2;:::;YT

    y1; y2; : : : ; yT; ; 2

    =

    TXt=1

    log fYt

    yt; ; 2

    = T2

    log (2) T2

    log

    2

    T

    Xt=1(yt )2

    22

    As, para una muestra de Tvariables aleatorias Gaussianas con media y varianza 2 la funcin deverosimilitud logartmica muestral, denotada porL ; 2; y1; y2; : : : ; yT, esta dada por

    L ; 2; y1; y2; : : : ; yT= k T2

    log

    2 TX

    t=1

    (yt )222

    (19)

    En el clculo de la funcin de verosimilitud logaritmica muestral, cualquier trmino constante que noinvolucra a los parmetros o 2 puede ser ignorado para la mayora de los propsitos. En (19), estetermino constante es

    k T2

    log2

    19. Estimacin por Mxima VerosimilitudPara una muestra dada de observaciones (y1; y2; : : : ; yT), el valor de que hace la verosimilitud

    muestral lo mas grande posible es llamado el estimador de mxima verosimilitud (MLE, por sus siglasen ingls) de . Por ejemplo, el estimador de mxima verosimilitud de la media poblacional para unamuestra i:i:d:de tamaoTproveniente de una distribucin N

    ; 2

    es encontrada tomando la derivada

    de (19) con respecto a e igualando a cero:

    @L@

    =

    TXt=1

    yt 2

    = 0

    o

    |{z}MLE de

    = 1

    T

    T

    Xt=1

    yt| {z }media muestral

    (20)

    El M LEde2 es caracterizado por

    @L@2

    = T22

    +

    TXt=1

    (yt )224

    = 0 (21)

    Sustituyendo (20) en (21) y resolviendo para un 2 obtenemos

    2

    |{z}MLE de 2

    = 1

    T

    TXt=1

    (yt )2

    | {z }varianza muestral(22)

    Asi, la media muestral es el M LEde la media poblacional y la varianza muestral es el M LE de lavarianza poblacional para una muestra i:i:d: de variables Gaussianas.

    8

  • 7/26/2019 Ataurima-Arellano M. (2016) Repaso de Probabilidades y Estadstica

    9/9

    20. Probabilidad Lmite

    Denotemos fX1; X2; : : : ; X Tg a una secuencia de variables aleatorias. A menudo estamos interesadosen saber que sucede con esta secuencia conforme T se hace grande. Por ejemplo, XT puede denotar lamedia muestral de T observaciones

    XT = 1

    T (Y1+Y2+ +YT) (23)en cuyo caso podemos querer saber las propiedades de una media muestral conforme el tamao T de lamuestra aumenta de tamao.

    La secuenciafX1; X2; : : : ; X Tg se dice que converge en probabilidad a c si para todo > 0 y > 0existe un valorNtal que, para todo T N,

    Pr [jXT cj > ]< (24)

    Cuando (24) es satisfecha, el numero c es llamado la probabilidad lmite, o plim, de la secuenciafX1; X2; : : : ; X Tg. Esto es a veces indicado como

    XTp

    !c

    21. Ley de los Grandes Nmeros

    En virtud de las condiciones generales descritas en el Captulo 7 del libro de Hamilton, la mediamuestral (23) converge en probabilidada la media poblacional

    1

    T

    TXt=1

    Yt| {z }media muestral

    p! E[Yt]| {z }media p oblacional

    (25)

    Cuando(25) se mantiene, decimos que la media muestral brinda una estimador consistentede la media

    poblacional.

    22. Convergencia en Media Cuadrtica

    Una condicin mas fuerte que la convergencia en probabilidad es la convergencia en media cuadrtica.La secuenciafX1; X2; : : : ; X Tg se dice que converge en media cuadrtica si para todo > 0 existe unvalorNtal que, para todo T N

    Eh

    (XT c)2i

    < (26)

    Indicamos que la secuencia converge ac en media cuadrtica tal como sigue

    XTm:s:! c

    La convergencia en media cuadrtica implica convergencia en probabilidad pero la convergencia enprobabilidad no implica convergencia en media cuadrtica.

    9