Tema 2: Muestreo aleatorioverso.mat.uam.es/~amparo.baillo/MatEstI/Tema2.pdfESTAD ISTICA I Tema 2:...

32
ESTAD ´ ISTICA I Tema 2: Algunas ideas b´ asicas sobre inferencia estad´ ıstica. Muestreo aleatorio I Conceptos probabil´ ısticos b´ asicos I Muestra aleatoria I El problema de inferencia I Estad´ ısticos. Media y varianza muestrales. Estad´ ısticos de orden I Ley de los grandes n´ umeros I Funci´ on de distribuci´ on emp´ ırica. Teorema de Glivenko-Cantelli I Histogramas y estimadores kernel. Moda muestral Estad´ ıstica I (Mat/DG). Profesora: Amparo Ba´ ıllo Tema 2: Muestreo aleatorio 1

Transcript of Tema 2: Muestreo aleatorioverso.mat.uam.es/~amparo.baillo/MatEstI/Tema2.pdfESTAD ISTICA I Tema 2:...

ESTADISTICA ITema 2: Algunas ideas basicas sobre

inferencia estadıstica. Muestreo aleatorio

I Conceptos probabilısticos basicos

I Muestra aleatoria

I El problema de inferencia

I Estadısticos. Media y varianza muestrales. Estadısticos de orden

I Ley de los grandes numeros

I Funcion de distribucion empırica. Teorema de Glivenko-Cantelli

I Histogramas y estimadores kernel. Moda muestral

Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 1

Conceptos probabilısticos basicos

Un espacio de probabilidad es un triplete (Ω,A,P) donde

• Ω es un conjunto no vacıo

• A ⊆ P(Ω) es una σ-algebra, es decir,

I Ω ∈ A.I Si A ∈ A, entonces Ac ∈ A.I Si Ai∞i=1 ⊂ A, entonces ∪∞i=1Ai ∈ A.

• P es una medida de probabilidad sobre A, es decir,

P : A → [0, 1]A 7→ P(A)

satisfaciendo

I P(Ω) = 1I Si Ai∞i=1 ⊂ A con Ai ∩ Aj para i 6= j , entonces

P (∪∞i=1Ai ) =∑∞

i=1 P(Ai ).

Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 2

La σ-algebra mas habitual en R es la de Borel B, que se puedegenerar con los intervalos.

Una variable aleatoria es una aplicacion medible

X : (Ω,A,P) → (R,B)ω 7→ X (ω)

es decir, para cualquier B ∈ B, se cumple que

X−1(B) = ω ∈ Ω : X (ω) ∈ B = X ∈ B ∈ A.

Entonces P y X inducen una medida de probabilidad PX en (R,B)llamada distribucion de probabilidad de la v.a. X

PX (B) = PX ∈ B.

Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 3

El espacio muestral de X es el subconjunto de R que contienetodos los posibles valores de X .

La funcion de distribucion de la v.a. X es la aplicacion

F : R → [0, 1]x 7→ F (x) = PX ≤ x = PX (−∞, x ].

Es una funcion no decreciente y continua por la derecha.

La funcion caracterıstica de la v.a. X es

φ(t) = E(e itX ) =

∫Re itxdPX (x).

Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 4

Una v.a. X es discreta cuando existe un conjunto finito onumerable S = ai ⊂ R tal que

1 = P(S) =∑i

PX = ai =∑i

(F (ai )− F (ai−)).

La distribucion de X es (absolutamente) continua cuando existeuna funcion de densidad f tal que

PX ∈ B =

∫Bf (t)dt, ∀B ∈ B,

o, de manera equivalente,

F (x) =

∫ x

−∞f (t)dt, ∀x ∈ R.

Entonces, F ′(t) = f (t).

La densidad f debe satisfacer

I f (t) ≥ 0 para todo t;

I∫R f (t)dt = 1.

Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 5

Definimos la media poblacional o esperanza de X como

µ = E(X ) =

∫ΩXdP =

∫Rx dPX (x) =

∫RxdF (x),

supuesto que esta integral es finita.

Teorema de cambio de espacio de integracion: Si g es una funcionreal medible tal que E(g(X )) es finita, entonces

E(g(X )) =

∫Rg(x) dPX (x).

En particular,

σ2 = V(X ) =

∫R

(x − µ)2dPX (x).

Si E|g(X )| =∞, entonces decimos que Eg(X ) no existe.

Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 6

El momento de orden k de la v.a. X respecto al origen es E(X k).

El momento de orden k de X respecto a la media es E((X − µ)k

).

Principales distribuciones discretas y continuas:Ver enlace en la web de la asignatura.

Desigualdades basicas:

Desigualdad de Markov: Sea X v.a. no negativa. Entonces, para

todo ε > 0, PX > ε ≤ µ

ε.

Desigualdad de Chebyshev: P|X − µ| > ε ≤ σ2

ε2.

Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 7

Convergencias estocasticas

Sean X ,Xn : (Ω,A,P) −→ (R,BR) v.a., n ∈ N.

¿Que significa Xn −−−→n→∞

X?

• Convergencia en probabilidad

Decimos que Xnn∈N converge a X en probabilidad y lo

denotamos XnP−−−→

n→∞X si, para todo ε > 0,

limn→∞

P|Xn − X | ≥ ε = 0

o equivalentemente

limn→∞

P|Xn − X | < ε = 1.

En Analisis este tipo de convergencia se llama convergencia enmedida.

Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 8

• Convergencia casi segura

Decimos que Xnn∈N converge a X casi seguro (o conprobabilidad uno o en casi todo punto) y lo denotamosXn

c.s.−−−→n→∞

X si

Pω ∈ Ω : Xn(ω) 6−−−→n→∞

X (ω) = 0

o equivalentemente si, para todo ε > 0,

P limn→∞

|Xn − X | < ε = 1.

Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 9

Ejemplo de convergencia en probabilidad pero no c.s.

Consideramos una sucesion de v.a. construidas del siguiente modo.Primero definimos una v.a. U uniforme en el intervalo [0,1] y luegole aplicamos ciertas funciones indicatrices 1Ai

n, siendo

Ain =

[i−1n , i

n

], i = 1, . . . , n, n ≥ 1:

(Ω,A,P)U−→ (R,B)

1Ain−→ (R,B).

Para un ω ∈ Ω fijo, U(ω) es una observacion concreta extraıda dela distribucion uniforme en [0,1].

La sucesion de v.a.

X 11 = 1A1

1(U), X 1

2 = 1A12(U), X 2

2 = 1A22(U),

X 13 = 1A1

3(U), X 2

3 = 1A23(U), X 3

3 = 1A33(U), . . .

converge a 0 en probabilidad pero no c.s.

Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 10

• Convergencia debil o en distribucion

Sean F y Fn las funciones de distribucion de X y Xn

respectivamente. Decimos que Xnn∈N converge a X debilmente

o en distribucion y lo denotamos Xnd−−−→

n→∞X si

limn→∞

Fn(x) = F (x)

para todo x ∈ R en el que F sea continua.

Sean φ y φn las funciones caracterısticas de X y Xn

respectivamente. Se cumple que

Xnd−−−→

n→∞X ⇔ φn(t) −−−→

n→∞φ(t), ∀t ∈ R.

Tambien se cumple que

Xnd−−−→

n→∞X ⇔ E(g(Xn)) −−−→

n→∞E(g(X ))

para toda g : R→ R continua y acotada.Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 11

Se satisfacen las siguientes implicaciones:

Xnc.s.−−−→

n→∞X ⇒ Xn

P−−−→n→∞

X

XnP−−−→

n→∞X ⇒ Xn

d−−−→n→∞

X

XnP−−−→

n→∞c, con c constante ⇔ Xn

d−−−→n→∞

c

Teorema de Slutsky: Sean Xnn e Ynn sucesiones de v.a. y X

una v.a. Si Xnd−−−→

n→∞X e Yn

P−−−→n→∞

c , siendo c ∈ R una

constante, entonces

(i) Xn + Ynd−−−→

n→∞X + c

(ii) Xn Ynd−−−→

n→∞c X

(iii) XnYn

d−−−→n→∞

Xc siempre que c 6= 0.

Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 12

Muestra

Se supone que los datos x1, . . . , xn se obtienen medianteobservaciones reiteradas e independientes de una cierta v.a. X . Sedice entonces que los datos constituyen una muestra (observada)de X .

La muestra observada es una “realizacion” de una muestraaleatoria X1, . . . ,Xn de X .

Desde el punto de vista probabilıstico, la muestra esta constituidapor n variables aleatorias X1, . . . ,Xn independientes eidenticamente distribuidas (i.i.d.).

Se dice a veces, en terminologıa estadıstica informal (pero muyhabitual) que la muestra se extrae de una poblacion, descrita porla v.a. X , y se llaman poblacionales a las caracterısticas de interesde X (por ejemplo, los momentos de X ).

Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 13

Estadısticos

Cuando extraemos una muestra X1, . . . ,Xn de X se suelen calcularalgunas medidas resumen. Cualquiera de ellas se puede expresarmatematicamente como una funcion T = T (x1, . . . , xn) de lamuestra X1, . . . ,Xn.

Dada una funcion T , la v.a. T = T (X1, . . . ,Xn) se denominaestadıstico. La definicion de estadıstico es muy amplia. La unicarestriccion es que un estadıstico no puede ser funcion de unparametro.

Como la distribucion de T se calcula a partir de la distribucion delas variables Xi que constituyen la muestra, la denominaremosdistribucion de T en el muestreo (sampling distribution).Obviamente la distribucion de T (X1, . . . ,Xn) depende de ladistribucion de X y de la expresion matematica de la funcionT = T (x1, . . . , xn).

Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 14

El error estandar o error tıpico de un estadıstico T es la desviaciontıpica de su distribucion en el muestreo:√

V(T (X1, . . . ,Xn)). (1)

Como a menudo (1) depende de alguna cantidad desconocida,tambien se denomina error tıpico a una estimacion de (1).

Ejemplo: Si X1 . . . ,Xn es una muestra de X ∼ N(µ, σ), entonces

X ∼ N

(µ,

σ√n

)⇒ Error tıpico de X =

A veces sucede que

T

error tıpico (estimado) de T∼ t de Student

y conocer T y su error tıpico para unos datos nos permite construirintervalos de confianza para parametros desconocidos. Por esoalgunos programas de ordenador lo proporcionan como output.

Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 15

Planteamiento general del problema de inferencia

Las caracterısticas de la v.a. X que genera los datos (por ejemplo,los momentos, los cuantiles, la distribucion, etc.) se denominanmomentos, cuantiles, etc. poblacionales.

En general, uno de los objetivos principales de la inferenciaestadıstica es estimar o “aproximar” las caracterısticaspoblacionales a partir de la informacion proporcionada por lamuestra.

Otras tecnicas estadısticas no van orientadas directamente aaproximar el valor de una caracterıstica de interes (como porejemplo la media), sino mas bien a decidir entre dos posiblesopciones acerca de ella (por ejemplo, si es mayor o menor que 1).La correspondiente metodologıa se denomina contraste dehipotesis.

Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 16

Interpretacion estadıstica de la ley de los grandesnumeros (LGN)

Teorema.- Sea Xk una sucesion de v.a.i.i.d. con media finitaµ. Se satisface entonces

X :=

∑ni=1 Xi

nc.s.−→ µ, cuando n→∞. (2)

Este teorema, denominado a veces “ley fuerte de Kolmogorov”, esuno de los resultados mas importantes de la teorıa clasica de laprobabilidad.Utilizando la desigualdad de Chebyshev se puede demostrar unaversion mas debil de (2) (con convergencia en probabilidad, enlugar de convergencia casi segura e imponiendo V(Xi ) = σ2 <∞),llamada “ley debil de los grandes numeros”.

En terminos estadısticos, la LGN establece que “la media muestrales un estimador consistente de la media poblacional”.

Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 17

La funcion de distribucion empırica

La funcion de distribucion empırica asociada a la muestraX1, . . . ,Xn se define mediante

Fn(t) =1

n

n∑i=1

1(−∞,t](Xi )

Esta es la funcion de distribucion que corresponde a una medida deprobabilidad discreta que asigna masa 1/n a cada uno de losvalores X1, . . . ,Xn.

Observese que, para valores prefijados de la muestra, Fn es unafuncion de distribucion discreta y que para cada t fijo Fn(t) es unav.a. (porque depende de los valores muestrales X1, . . . ,Xn).

Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 18

# Extraccion de una muestra (n=10) de una N(3,1)

x = rnorm(10,mean=3,sd=2)

# Representacion de la distribucion empirica:

plot(ecdf(x),main="n=10",do.points=F)

o tambien

plot.ecdf(x,main="n=10",do.points=F)

En el grafico se muestran dos funciones de distribucion empıricaobtenidas de este modo, para n = 10 y n = 100:

1 2 3 4 5 6 7

0.0

0.2

0.4

0.6

0.8

1.0

n=10

x

Fn

(x)

-2 0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

n=100

x

Fn

(x)

Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 19

El estadıstico de Kolmogorov-Smirnov

‖Fn − F‖∞ := supt|Fn(t)− F (t)|

es una manera de medir la “distancia” entre la funcion dedistribucion empırica Fn y la funcion de distribucion real F .

Teorema de Glivenko-Cantelli.- Sean X1, . . . ,Xn v.a.i.i.dcon funcion de distribucion F . Se cumple que ‖Fn − F‖∞ → 0c.s., cuando n→∞.

La demostracion de este resultado se hara en clase.

Se puede demostrar ademas que, cuando la muestra X1, . . . ,Xn

procede de una funcion de distribucion F continua, entonces ladistribucion de ‖Fn − F‖∞ es conocida y no depende de F . Estose utiliza para comprobar si es plausible que un cierto modeloparametrico F haya generado la muestra observada X1, . . . ,Xn

(test de bondad de ajuste).

Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 20

Comprobacion empırica del teorema de Glivenko-Cantelli:

plot(ecdf(rnorm(100)),do.points=F,

main="Comparacion entre Fn y F")

x = seq(-3.2,3.2,0.01)

lines(x,pnorm(x),col="red")

-2 -1 0 1 2

0.0

0.2

0.4

0.6

0.8

1.0

Comparación entre F_n y F

x

Fn

(x)

Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 21

La media muestral y la media poblacional

Observemos que la media muestral

X =

∑ni=1 Xi

n

puede expresarse en la forma

X =

∫Rx dFn(x).

Esto pone de relieve la analogıa entre la media muestral y la mediapoblacional

µ =

∫Rx dF (x)

Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 22

Otras relaciones, muy importantes, entre X y µ son

1. X es estimador insesgado o centrado de µ:

E(X ) = µ.

2.

V(X ) =σ2

n.

La cantidad σ/√n se denomina error tıpico de la media

muestral.

3. Ley fuerte de los grandes numeros:

limn→∞

X = µ c.s.

Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 23

4. Teorema Central del Lımite:

√n(X − µ)

d−→ N(0, σ),

donde el sımbolod−→ denota convergencia en distribucion (o

debil) cuando n→∞

Es decir,limn→∞

P√n(X − µ) ≤ σt = Φ(t),

donde Φ denota la funcion de distribucion de la N(0, 1).

Por tanto, para n “grande” se tiene P√n(X − µ) ≤ x ≈ Φ

(xσ

),

aunque las Xi no tengan distribucion normal.

Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 24

La varianza muestral y la varianza poblacional

La medida de dispersion habitual para una v.a. X es la varianza

V(X ) = σ2 =

∫R

(x − µ)2dF (x).

El analogo muestral de σ2 es la varianza muestral

σ2n =

∫R

(x − X )2dFn(x) =1

n

n∑i=1

(Xi − X )2.

Puede comprobarse que

E(σ2n) =

n − 1

nσ2 y σ2

nc.s.−→ σ2.

Frecuentemente, en lugar de σ2n se utiliza la cuasivarianza muestral

S2 =n

n − 1σ2n.

Se tiene que E(S2) = σ2 y S2 c.s.−−−→n→∞

σ2.

Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 25

Distribucion empırica y estimadores kernel

Observese que

fn(t) =1

nh

n∑i=1

K

(t − Xi

h

)=

1

n

n∑i=1

Kh (t − Xi )

=

∫RKh(t − x)dFn(x),

es decir, que el estimador kernel fn(t) puede considerarse como laconvolucion del nucleo re-escalado Kh(z) = 1

hK(zh

)con la medida

de probabilidad empırica Fn.

Intuitivamente esto significa que la distribucion correspondiente ala funcion de densidad fn puede considerarse como una “versionsuavizada” de la distribucion empırica.

Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 26

Teorema.- Sean X1,X2, . . . , v.a.i.i.d. con distribucion comunabsolutamente continua de densidad f .Supongamos que

(a) el nucleo K es una funcion de densidad acotada con|x |K (x)→ 0 cuando |x | → ∞;

(b) h = hn → 0 y que nhn →∞;

(c) la densidad f es acotada y continua en un punto t.

Entoncesfn(t)

P−→ f (t).

La demostracion se hara en clase.

Este resultado indica que los estimadores kernel pueden utilizarsepara estimar la funcion de densidad de las v.a. Xi . Hay versionesmucho mas generales de este resultado. Aquı se ha elegido estapor la sencillez de su demostracion.

Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 27

Aplicacion de los estimadores kernel para definir lamoda muestral

Sea X una v.a. con densidad f . Supongamos que f es continua yque tiene un unico maximo. Se define entonces la moda de fcomo el valor θ que verifica

f (θ) = maxx

f (x).

Sea fn una sucesion de estimadores kernel basados en una funcionnucleo K que es una densidad tal que limz→±∞ K (z) = 0. Sedefine una moda muestral como un valor θn que verifica

f (θn) = maxx

fn(x).

Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 28

Teorema(Consistencia de la moda muestral).- Supongamos que

(a) la densidad f es uniformemente continua en R y alcanza ununico maximo (moda) en θ.

(b) fn una sucesion de estimadores kernel cuya funcion nucleo Kes una densidad tal que limz→±∞ K (z) = 0.

(c) supt |fn(t)− f (t)| c.s.−→ 0, cuando n→∞.

Entoncesθn

c.s.−→ θ, (3)

siendo θn cualquier sucesion de modas muestrales. Si en lahipotesis (c) se reemplaza la convergencia c.s. por convergencia enprobabilidad, la consistencia (3) se obtiene tambien enprobabilidad.

Puede probarse que h→ 0 y nh/ log n→∞ son condiciones suficientes

para que (c) se cumpla (bajo ciertas condiciones sobre K que se verifican

para el nucleo gaussiano y otros nucleos usuales).

Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 29

Estadısticos de orden

Dada una muestra X1, . . . ,Xn se denotan por

X(1) ≤ . . . ≤ X(n)

las observaciones de la muestra ordenadas de menor a mayor, esdecir, X(1) es la observacion mas pequena, X(2) la siguiente maspequena y X(n) la mayor.Cuando la funcion de distribucion de las v.a. Xi es continua, laprobabilidad de coincidencias en los valores de la muestra es 0 y setiene que, con probabilidad 1,

X(1) < . . . < X(n)

Los estadısticos de orden X(k) pueden utilizarse para definir lamediana o los cuartiles. Sin embargo, la funcion cuantılicaproporciona una manera mas directa de definir estos conceptos.

Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 30

La funcion cuantılica

Sea F la funcion de distribucion de una v.a. X . Se define lafuncion cuantılica correspondiente a F , como la funcion F−1,definida en el intervalo (0, 1) mediante

F−1(p) = infx : F (x) ≥ p.

Se llama cuantil poblacional de orden p al valor F−1(p) de lafuncion cuantılica en p.El estimador natural del cuantil poblacional de orden p es elanalogo cuantil muestral de orden p definido a partir de ladistribucion empırica, es decir,

F−1n (p)

Bajo condiciones muy generales se cumple que

F−1n (p)

c.s.−→ F−1(p).

Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 31

Referencias

Casella, G., Berger, R.L. (2002). Statistical Inference. Duxbury/Thomson Learning.Capıtulos 1 al 5.

Gentle, J.E. (2013). Theory of Statistics. George Mason University.https://mason.gmu.edu/~jgentle/books/MathStat.pdf

Knight, K. (2000). Mathematical Statistics. Chapman & Hall CRC. Capıtulos 1 al 3.

Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 32