Ciencias de Datos con R: Fundamentos Estad sticos

36
Ciencias de Datos con R: Fundamentos Estad´ ısticos Daniela Rodriguez ([email protected]) Mariela Sued ([email protected]) Clase 12: Estimaci´ on

Transcript of Ciencias de Datos con R: Fundamentos Estad sticos

Page 1: Ciencias de Datos con R: Fundamentos Estad sticos

Ciencias de Datos con R:Fundamentos Estadısticos

Daniela Rodriguez ([email protected])Mariela Sued ([email protected])

Clase 12: Estimacion

Page 2: Ciencias de Datos con R: Fundamentos Estad sticos

Muestra - Datos (Observaciones)

Muestra X1, . . . , Xn: Variables aleatorias.

Datos - Observaciones x1, . . . , xn: Numeros.

Datos-Observaciones: son realizaciones de las variablesaleatorias

Datos-Observaciones: son los resultados obtenidos al realizarel ”experimento”

Page 3: Ciencias de Datos con R: Fundamentos Estad sticos

¿Cuanto mide la mesa?

Page 4: Ciencias de Datos con R: Fundamentos Estad sticos

¿Cuanto mide la mesa?

Estas son las n = 7 primeras observaciones realizadas por Juan:

1.17, 1.36, 0.15, 2.52, 0.21, 1.78, 2.67

Page 5: Ciencias de Datos con R: Fundamentos Estad sticos

Juan cada vez con mas datos. θn = 2Xn

Page 6: Ciencias de Datos con R: Fundamentos Estad sticos

Juan y Andrea, cada vez con mas datos. θn = 2Xn

Page 7: Ciencias de Datos con R: Fundamentos Estad sticos

Varios, cada vez con mas datos. θn = 2Xn

Page 8: Ciencias de Datos con R: Fundamentos Estad sticos

Cada uno con lo suyo. θn = 2Xn

Nombre n=5 n=30 n=50

1 Juan 1.08 3.2 2.962 Andrea 2.87 2.95 2.883 Flor 3.47 3.2 3.184 Gonzalo 3.88 3.23 3.185 Paula 3.79 2.93 2.816 Agustin 3.01 2.9 2.597 Julieta 3.55 3.03 3.018 Marina 2.09 2.79 3.19 Pablo 4.14 3.41 3.01

10 Enrique 2.65 3.29 3.11· · · · ·· · · · ·· · · · ·· · · · ·

Page 9: Ciencias de Datos con R: Fundamentos Estad sticos

Histogramas de θn = 2Xn

(empirical) Sampling Distribution of θn

Page 10: Ciencias de Datos con R: Fundamentos Estad sticos

Histogramas de θn = 2Xn

(empirical) Sampling Distribution of θn

Page 11: Ciencias de Datos con R: Fundamentos Estad sticos

Histogramas de θn = 2Xn

(empirical) Sampling Distribution of θn

Page 12: Ciencias de Datos con R: Fundamentos Estad sticos

Estimacion

Point estimation refers to providing a single “best guess” of somequantity of interest.

All of statistics. Wasserman

Page 13: Ciencias de Datos con R: Fundamentos Estad sticos

Estimacion

Point estimation refers to providing a single “best guess” of somequantity of interest.

All of statistics. Wasserman

translate(some quantity of interest)= Objeto de interes.

some quantity of interest: largo de la mesa (θ)

best guess: Estimador:cuenta hecha con la muestra

best guess: Estimador: Funcion de la muestra

θn ≡ θn(X1, . . . , Xn)

Estimacion: Valor del estimador en un conjunto de datos:

θn(x1, . . . , xn)

Page 14: Ciencias de Datos con R: Fundamentos Estad sticos

Estimacion

Point estimation refers to providing a single “best guess” of somequantity of interest.

All of statistics. Wasserman

translate(some quantity of interest)= Objeto de interes.

some quantity of interest: largo de la mesa (θ)

best guess: Estimador:cuenta hecha con la muestra

best guess: Estimador: Funcion de la muestra

θn ≡ θn(X1, . . . , Xn)

Estimacion: Valor del estimador en un conjunto de datos:

θn(x1, . . . , xn)

Page 15: Ciencias de Datos con R: Fundamentos Estad sticos

Notemos que el estimador ...

θn ≡ θn(X1, . . . , Xn)

θn es una variable aleatoria.

θn tiene distribucion (siempre).

Sampling distribution of θn: fθn

θn tiene (en general) esperanza: E(θn)

=∫uf

θn(u)du

θn tiene (en general) varianza: V(θn)

θn tiene (en general) desvıo estandar.

se = se(θn) =

√V(θn) Standard error of θn.

Page 16: Ciencias de Datos con R: Fundamentos Estad sticos

Notemos que el estimador ...

θn ≡ θn(X1, . . . , Xn)

θn es una variable aleatoria.

θn tiene distribucion (siempre).

Sampling distribution of θn: fθn

θn tiene (en general) esperanza: E(θn) =∫uf

θn(u)du

θn tiene (en general) varianza: V(θn)

θn tiene (en general) desvıo estandar.

se = se(θn) =

√V(θn) Standard error of θn.

Page 17: Ciencias de Datos con R: Fundamentos Estad sticos

Consistencia

A medida que aumenta el tamano n de la muestra, el estimador seaproxima al objeto de interes.

θn −→ θ , cuando n→∞

Page 18: Ciencias de Datos con R: Fundamentos Estad sticos

Error cuadratico medio (ECM)

ECM : E{

(θn − θ)2}.

Lema: Si el ECM de un estimador converge a cero entonces valela consistencia:

E{

(θn − θ)2}−→ 0 implica que θn −→ θ .

Page 19: Ciencias de Datos con R: Fundamentos Estad sticos

Sesgo - Bias

Sesgo : E(θn)− θ.

Insesgado: El estimador θn se dice insesgado si su sesgo vale cero

Insesgado : E(θn)− θ = 0

En otras palabras, el estimador θn se dice insesgado si su esperanzacoincide con el valor de interes que queremos estimar:

Insesgado : E(θn) = θ

Page 20: Ciencias de Datos con R: Fundamentos Estad sticos

Propidades

Lema: El error cuadratico medio de un estimador se descomponede la siguiente manera:

ECM(θn) = V(θn) +{E(θn)− θ

}2

En particular... Si

V(θn)→ 0 y E(θn)→ θ

tenemos que ECM converge a cero, y por lo tanto el estimador esconsistente:

θn −→ θ

Page 21: Ciencias de Datos con R: Fundamentos Estad sticos

Miremos todo en el ejemplo: θn = 2Xn

(Xi)i≥1 i.i.d., Xi ∼ U [0, θ]

Objeto de interes: θ

Estimador: θn = 2Xn

Distribucion de θn?

E(θn) = θ: Es insesgado

V(θn) = V(2Xn) = 4V(Xn) = 4V(X1)n = 4 θ

2/12n

ECM(θn) = 02 + 4 θ2/12n

Page 22: Ciencias de Datos con R: Fundamentos Estad sticos

Sesgo - Varianza (revised)

Page 23: Ciencias de Datos con R: Fundamentos Estad sticos

Histogramas de θn = max{X1, . . . , Xn}(empirical) Sampling Distribution of θn

Page 24: Ciencias de Datos con R: Fundamentos Estad sticos

Histogramas de θn = max{X1, . . . , Xn}(empirical) Sampling Distribution of θn

Page 25: Ciencias de Datos con R: Fundamentos Estad sticos

Histogramas de θn = max{X1, . . . , Xn}(empirical) Sampling Distribution of θn

Page 26: Ciencias de Datos con R: Fundamentos Estad sticos

Miremos todo ahora para θn = max{X1, . . . , Xn}

(Xi)i≥1 i.i.d., Xi ∼ U [0, θ]

Objeto de interes: θ

Estimador: θn = max{X1, . . . , Xn}Distribucion de θn?

E(θn)?

V(θn)?

ECM (θn)

Page 27: Ciencias de Datos con R: Fundamentos Estad sticos

Histogramas de θn = 2Xn y de θn = max{X1, . . . , Xn}

Page 28: Ciencias de Datos con R: Fundamentos Estad sticos

Vamos guia.

Page 29: Ciencias de Datos con R: Fundamentos Estad sticos

Estadıstico: Cuenta hecha con la muestra

h(X1, . . . , Xn)

Page 30: Ciencias de Datos con R: Fundamentos Estad sticos

Estadıstica

POBLACION ↔ F MUESTRA X1, . . . Xn i.i.d. Xi ∼ FParametro: Valor asociado de F Estimador:estadıstico para estimar θ

θ = θ(F ) θn = θn(X1, . . . , Xn)

θ: valor poblacional θn NUEVA VARIABLE ALEATORIA

Page 31: Ciencias de Datos con R: Fundamentos Estad sticos

Enfaticemos en que el estimador ... (si, ya la vimos!)

θn ≡ θn(X1, . . . , Xn)

θn es una variable aleatoria.

θn tiene distribucion (siempre)

θn tiene (en general) esperanza: E(θn)

θn tiene (en general) varianza: V(θn)

Page 32: Ciencias de Datos con R: Fundamentos Estad sticos

Consistencia

(Xi)i≥1 i.i.d., Xi ∼ F , F ∈ FF : modelo estadıstico.

θ(F ) objeto de interes definido para cada posible F ∈ Festimador θn = θn(X1, . . . , Xn).

Consistencia:θn(X1, . . . , Xn) −→ θ(F )

cuando n→∞, Xi ∼ F , cualquiera sea F ∈ F

A medida que aumenta el tamano n de la muestra, el estimador seaproxima al objeto de interes.

θn −→ θ , cuando n→∞

Page 33: Ciencias de Datos con R: Fundamentos Estad sticos

Estimacion: ejemplo

X1, . . . , Xn i.i.d. Xi ∼ X.

Parametro de interes; σ2 = E{(X − µ)2} = V(X)

¿Estimador?

σn =

∑ni=1(Xi −X)2

n

E(σn) = (n− 1)n−1σ2

Estimador (insesgado) de la varianza: S2 = S2n

S2 = S2n =

∑ni=1(Xi −X)2

n− 1.

E[S2] = σ2 (insesgado)

S2 → σ2 en probabilidad (consistencia)

Page 34: Ciencias de Datos con R: Fundamentos Estad sticos

Estimacion: ejemplo

X1, . . . , Xn i.i.d. Xi ∼ X.

Parametro de interes; σ2 = E{(X − µ)2} = V(X)

¿Estimador?

σn =

∑ni=1(Xi −X)2

n

E(σn) = (n− 1)n−1σ2

Estimador (insesgado) de la varianza: S2 = S2n

S2 = S2n =

∑ni=1(Xi −X)2

n− 1.

E[S2] = σ2 (insesgado)

S2 → σ2 en probabilidad (consistencia)

Page 35: Ciencias de Datos con R: Fundamentos Estad sticos

Estimacion: ejemplo

X1, . . . , Xn i.i.d. Xi ∼ X.

Parametro de interes; σ2 = E{(X − µ)2} = V(X)

¿Estimador?

σn =

∑ni=1(Xi −X)2

n

E(σn) = (n− 1)n−1σ2

Estimador (insesgado) de la varianza: S2 = S2n

S2 = S2n =

∑ni=1(Xi −X)2

n− 1.

E[S2] = σ2 (insesgado)

S2 → σ2 en probabilidad (consistencia)

Page 36: Ciencias de Datos con R: Fundamentos Estad sticos

Propiedades - si, de nuevo!, pero todas juntas.

Consistencia

θn(X1, . . . , Xn)→ θ(F ) en probabilidad, cuando Xi ∼ F

abreviado: θ → θ

Error cuadratico medio: ECM=E{(θn − θ)2}Lema: Si E{(θn − θ)2} → 0, entonces θn → θ

Sesgo: E(θn)− θ.

Estimador insesgado: Sesgo=0: E(θn)− θ

Lema: E{

(θn − θ)2}

= V(θn) +{E(θn)− θ

}2

Si V(θn)→ 0 y E(θn)→ θ, entonces

E{(θn − θ)2} → 0