Ciencias de Datos con R: Fundamentos Estad sticos

Ciencias de Datos con R:Fundamentos Estadısticos

Daniela Rodriguez ([email protected])Mariela Sued ([email protected])

Clase 12: Estimacion

Muestra - Datos (Observaciones)

Muestra X1, . . . , Xn: Variables aleatorias.

Datos - Observaciones x1, . . . , xn: Numeros.

Datos-Observaciones: son realizaciones de las variablesaleatorias

Datos-Observaciones: son los resultados obtenidos al realizarel ”experimento”

¿Cuanto mide la mesa?

¿Cuanto mide la mesa?

Estas son las n = 7 primeras observaciones realizadas por Juan:

1.17, 1.36, 0.15, 2.52, 0.21, 1.78, 2.67

Juan cada vez con mas datos. θn = 2Xn

Juan y Andrea, cada vez con mas datos. θn = 2Xn

Varios, cada vez con mas datos. θn = 2Xn

Cada uno con lo suyo. θn = 2Xn

Nombre n=5 n=30 n=50

1 Juan 1.08 3.2 2.962 Andrea 2.87 2.95 2.883 Flor 3.47 3.2 3.184 Gonzalo 3.88 3.23 3.185 Paula 3.79 2.93 2.816 Agustin 3.01 2.9 2.597 Julieta 3.55 3.03 3.018 Marina 2.09 2.79 3.19 Pablo 4.14 3.41 3.01

10 Enrique 2.65 3.29 3.11· · · · ·· · · · ·· · · · ·· · · · ·

Histogramas de θn = 2Xn

(empirical) Sampling Distribution of θn

Estimacion

Point estimation refers to providing a single “best guess” of somequantity of interest.

All of statistics. Wasserman

Estimacion

Point estimation refers to providing a single “best guess” of somequantity of interest.

All of statistics. Wasserman

translate(some quantity of interest)= Objeto de interes.

some quantity of interest: largo de la mesa (θ)

best guess: Estimador:cuenta hecha con la muestra

best guess: Estimador: Funcion de la muestra

θn ≡ θn(X1, . . . , Xn)

Estimacion: Valor del estimador en un conjunto de datos:

θn(x1, . . . , xn)

Notemos que el estimador ...

θn ≡ θn(X1, . . . , Xn)

θn es una variable aleatoria.

θn tiene distribucion (siempre).

Sampling distribution of θn: fθn

θn tiene (en general) esperanza: E(θn)

=∫uf

θn(u)du

θn tiene (en general) varianza: V(θn)

θn tiene (en general) desvıo estandar.

se = se(θn) =

√V(θn) Standard error of θn.

Notemos que el estimador ...

θn ≡ θn(X1, . . . , Xn)


θn tiene distribucion (siempre).

Sampling distribution of θn: fθn

θn tiene (en general) esperanza: E(θn) =∫uf

θn(u)du


θn tiene (en general) desvıo estandar.

se = se(θn) =

√V(θn) Standard error of θn.

Consistencia

A medida que aumenta el tamano n de la muestra, el estimador seaproxima al objeto de interes.

θn −→ θ , cuando n→∞

Error cuadratico medio (ECM)

ECM : E{

(θn − θ)2}.

Lema: Si el ECM de un estimador converge a cero entonces valela consistencia:

E{

(θn − θ)2}−→ 0 implica que θn −→ θ .

Sesgo - Bias

Sesgo : E(θn)− θ.

Insesgado: El estimador θn se dice insesgado si su sesgo vale cero

Insesgado : E(θn)− θ = 0

En otras palabras, el estimador θn se dice insesgado si su esperanzacoincide con el valor de interes que queremos estimar:

Insesgado : E(θn) = θ

Propidades

Lema: El error cuadratico medio de un estimador se descomponede la siguiente manera:

ECM(θn) = V(θn) +{E(θn)− θ

}2

En particular... Si

V(θn)→ 0 y E(θn)→ θ

tenemos que ECM converge a cero, y por lo tanto el estimador esconsistente:

θn −→ θ

Miremos todo en el ejemplo: θn = 2Xn

(Xi)i≥1 i.i.d., Xi ∼ U [0, θ]

Objeto de interes: θ

Estimador: θn = 2Xn

Distribucion de θn?

E(θn) = θ: Es insesgado

V(θn) = V(2Xn) = 4V(Xn) = 4V(X1)n = 4 θ

2/12n

ECM(θn) = 02 + 4 θ2/12n

Sesgo - Varianza (revised)

Histogramas de θn = max{X1, . . . , Xn}(empirical) Sampling Distribution of θn

Miremos todo ahora para θn = max{X1, . . . , Xn}

(Xi)i≥1 i.i.d., Xi ∼ U [0, θ]

Objeto de interes: θ

Estimador: θn = max{X1, . . . , Xn}Distribucion de θn?

E(θn)?

V(θn)?

ECM (θn)

Histogramas de θn = 2Xn y de θn = max{X1, . . . , Xn}

Vamos guia.

Estadıstico: Cuenta hecha con la muestra

h(X1, . . . , Xn)

Estadıstica

POBLACION ↔ F MUESTRA X1, . . . Xn i.i.d. Xi ∼ FParametro: Valor asociado de F Estimador:estadıstico para estimar θ

θ = θ(F ) θn = θn(X1, . . . , Xn)

θ: valor poblacional θn NUEVA VARIABLE ALEATORIA

Enfaticemos en que el estimador ... (si, ya la vimos!)

θn ≡ θn(X1, . . . , Xn)


θn tiene distribucion (siempre)

θn tiene (en general) esperanza: E(θn)


Consistencia

(Xi)i≥1 i.i.d., Xi ∼ F , F ∈ FF : modelo estadıstico.

θ(F ) objeto de interes definido para cada posible F ∈ Festimador θn = θn(X1, . . . , Xn).

Consistencia:θn(X1, . . . , Xn) −→ θ(F )

cuando n→∞, Xi ∼ F , cualquiera sea F ∈ F

A medida que aumenta el tamano n de la muestra, el estimador seaproxima al objeto de interes.

θn −→ θ , cuando n→∞

Estimacion: ejemplo

X1, . . . , Xn i.i.d. Xi ∼ X.

Parametro de interes; σ2 = E{(X − µ)2} = V(X)

¿Estimador?

σn =

∑ni=1(Xi −X)2

n

E(σn) = (n− 1)n−1σ2

Estimador (insesgado) de la varianza: S2 = S2n

S2 = S2n =

∑ni=1(Xi −X)2

n− 1.

E[S2] = σ2 (insesgado)

S2 → σ2 en probabilidad (consistencia)

Propiedades - si, de nuevo!, pero todas juntas.

Consistencia

θn(X1, . . . , Xn)→ θ(F ) en probabilidad, cuando Xi ∼ F

abreviado: θ → θ

Error cuadratico medio: ECM=E{(θn − θ)2}Lema: Si E{(θn − θ)2} → 0, entonces θn → θ

Sesgo: E(θn)− θ.

Estimador insesgado: Sesgo=0: E(θn)− θ

Lema: E{

(θn − θ)2}

= V(θn) +{E(θn)− θ

}2

Si V(θn)→ 0 y E(θn)→ θ, entonces

E{(θn − θ)2} → 0

Ciencias de Datos con R: Fundamentos Estad sticos

Documents

Transcript of Ciencias de Datos con R: Fundamentos Estad sticos