Ciencias de Datos con R: Fundamentos Estad sticos
Transcript of Ciencias de Datos con R: Fundamentos Estad sticos
Ciencias de Datos con R:Fundamentos Estadısticos
Daniela Rodriguez ([email protected])Mariela Sued ([email protected])
Clase 12: Estimacion
Muestra - Datos (Observaciones)
Muestra X1, . . . , Xn: Variables aleatorias.
Datos - Observaciones x1, . . . , xn: Numeros.
Datos-Observaciones: son realizaciones de las variablesaleatorias
Datos-Observaciones: son los resultados obtenidos al realizarel ”experimento”
¿Cuanto mide la mesa?
¿Cuanto mide la mesa?
Estas son las n = 7 primeras observaciones realizadas por Juan:
1.17, 1.36, 0.15, 2.52, 0.21, 1.78, 2.67
Juan cada vez con mas datos. θn = 2Xn
Juan y Andrea, cada vez con mas datos. θn = 2Xn
Varios, cada vez con mas datos. θn = 2Xn
Cada uno con lo suyo. θn = 2Xn
Nombre n=5 n=30 n=50
1 Juan 1.08 3.2 2.962 Andrea 2.87 2.95 2.883 Flor 3.47 3.2 3.184 Gonzalo 3.88 3.23 3.185 Paula 3.79 2.93 2.816 Agustin 3.01 2.9 2.597 Julieta 3.55 3.03 3.018 Marina 2.09 2.79 3.19 Pablo 4.14 3.41 3.01
10 Enrique 2.65 3.29 3.11· · · · ·· · · · ·· · · · ·· · · · ·
Histogramas de θn = 2Xn
(empirical) Sampling Distribution of θn
Histogramas de θn = 2Xn
(empirical) Sampling Distribution of θn
Histogramas de θn = 2Xn
(empirical) Sampling Distribution of θn
Estimacion
Point estimation refers to providing a single “best guess” of somequantity of interest.
All of statistics. Wasserman
Estimacion
Point estimation refers to providing a single “best guess” of somequantity of interest.
All of statistics. Wasserman
translate(some quantity of interest)= Objeto de interes.
some quantity of interest: largo de la mesa (θ)
best guess: Estimador:cuenta hecha con la muestra
best guess: Estimador: Funcion de la muestra
θn ≡ θn(X1, . . . , Xn)
Estimacion: Valor del estimador en un conjunto de datos:
θn(x1, . . . , xn)
Estimacion
Point estimation refers to providing a single “best guess” of somequantity of interest.
All of statistics. Wasserman
translate(some quantity of interest)= Objeto de interes.
some quantity of interest: largo de la mesa (θ)
best guess: Estimador:cuenta hecha con la muestra
best guess: Estimador: Funcion de la muestra
θn ≡ θn(X1, . . . , Xn)
Estimacion: Valor del estimador en un conjunto de datos:
θn(x1, . . . , xn)
Notemos que el estimador ...
θn ≡ θn(X1, . . . , Xn)
θn es una variable aleatoria.
θn tiene distribucion (siempre).
Sampling distribution of θn: fθn
θn tiene (en general) esperanza: E(θn)
=∫uf
θn(u)du
θn tiene (en general) varianza: V(θn)
θn tiene (en general) desvıo estandar.
se = se(θn) =
√V(θn) Standard error of θn.
Notemos que el estimador ...
θn ≡ θn(X1, . . . , Xn)
θn es una variable aleatoria.
θn tiene distribucion (siempre).
Sampling distribution of θn: fθn
θn tiene (en general) esperanza: E(θn) =∫uf
θn(u)du
θn tiene (en general) varianza: V(θn)
θn tiene (en general) desvıo estandar.
se = se(θn) =
√V(θn) Standard error of θn.
Consistencia
A medida que aumenta el tamano n de la muestra, el estimador seaproxima al objeto de interes.
θn −→ θ , cuando n→∞
Error cuadratico medio (ECM)
ECM : E{
(θn − θ)2}.
Lema: Si el ECM de un estimador converge a cero entonces valela consistencia:
E{
(θn − θ)2}−→ 0 implica que θn −→ θ .
Sesgo - Bias
Sesgo : E(θn)− θ.
Insesgado: El estimador θn se dice insesgado si su sesgo vale cero
Insesgado : E(θn)− θ = 0
En otras palabras, el estimador θn se dice insesgado si su esperanzacoincide con el valor de interes que queremos estimar:
Insesgado : E(θn) = θ
Propidades
Lema: El error cuadratico medio de un estimador se descomponede la siguiente manera:
ECM(θn) = V(θn) +{E(θn)− θ
}2
En particular... Si
V(θn)→ 0 y E(θn)→ θ
tenemos que ECM converge a cero, y por lo tanto el estimador esconsistente:
θn −→ θ
Miremos todo en el ejemplo: θn = 2Xn
(Xi)i≥1 i.i.d., Xi ∼ U [0, θ]
Objeto de interes: θ
Estimador: θn = 2Xn
Distribucion de θn?
E(θn) = θ: Es insesgado
V(θn) = V(2Xn) = 4V(Xn) = 4V(X1)n = 4 θ
2/12n
ECM(θn) = 02 + 4 θ2/12n
Sesgo - Varianza (revised)
Histogramas de θn = max{X1, . . . , Xn}(empirical) Sampling Distribution of θn
Histogramas de θn = max{X1, . . . , Xn}(empirical) Sampling Distribution of θn
Histogramas de θn = max{X1, . . . , Xn}(empirical) Sampling Distribution of θn
Miremos todo ahora para θn = max{X1, . . . , Xn}
(Xi)i≥1 i.i.d., Xi ∼ U [0, θ]
Objeto de interes: θ
Estimador: θn = max{X1, . . . , Xn}Distribucion de θn?
E(θn)?
V(θn)?
ECM (θn)
Histogramas de θn = 2Xn y de θn = max{X1, . . . , Xn}
Vamos guia.
Estadıstico: Cuenta hecha con la muestra
h(X1, . . . , Xn)
Estadıstica
POBLACION ↔ F MUESTRA X1, . . . Xn i.i.d. Xi ∼ FParametro: Valor asociado de F Estimador:estadıstico para estimar θ
θ = θ(F ) θn = θn(X1, . . . , Xn)
θ: valor poblacional θn NUEVA VARIABLE ALEATORIA
Enfaticemos en que el estimador ... (si, ya la vimos!)
θn ≡ θn(X1, . . . , Xn)
θn es una variable aleatoria.
θn tiene distribucion (siempre)
θn tiene (en general) esperanza: E(θn)
θn tiene (en general) varianza: V(θn)
Consistencia
(Xi)i≥1 i.i.d., Xi ∼ F , F ∈ FF : modelo estadıstico.
θ(F ) objeto de interes definido para cada posible F ∈ Festimador θn = θn(X1, . . . , Xn).
Consistencia:θn(X1, . . . , Xn) −→ θ(F )
cuando n→∞, Xi ∼ F , cualquiera sea F ∈ F
A medida que aumenta el tamano n de la muestra, el estimador seaproxima al objeto de interes.
θn −→ θ , cuando n→∞
Estimacion: ejemplo
X1, . . . , Xn i.i.d. Xi ∼ X.
Parametro de interes; σ2 = E{(X − µ)2} = V(X)
¿Estimador?
σn =
∑ni=1(Xi −X)2
n
E(σn) = (n− 1)n−1σ2
Estimador (insesgado) de la varianza: S2 = S2n
S2 = S2n =
∑ni=1(Xi −X)2
n− 1.
E[S2] = σ2 (insesgado)
S2 → σ2 en probabilidad (consistencia)
Estimacion: ejemplo
X1, . . . , Xn i.i.d. Xi ∼ X.
Parametro de interes; σ2 = E{(X − µ)2} = V(X)
¿Estimador?
σn =
∑ni=1(Xi −X)2
n
E(σn) = (n− 1)n−1σ2
Estimador (insesgado) de la varianza: S2 = S2n
S2 = S2n =
∑ni=1(Xi −X)2
n− 1.
E[S2] = σ2 (insesgado)
S2 → σ2 en probabilidad (consistencia)
Estimacion: ejemplo
X1, . . . , Xn i.i.d. Xi ∼ X.
Parametro de interes; σ2 = E{(X − µ)2} = V(X)
¿Estimador?
σn =
∑ni=1(Xi −X)2
n
E(σn) = (n− 1)n−1σ2
Estimador (insesgado) de la varianza: S2 = S2n
S2 = S2n =
∑ni=1(Xi −X)2
n− 1.
E[S2] = σ2 (insesgado)
S2 → σ2 en probabilidad (consistencia)
Propiedades - si, de nuevo!, pero todas juntas.
Consistencia
θn(X1, . . . , Xn)→ θ(F ) en probabilidad, cuando Xi ∼ F
abreviado: θ → θ
Error cuadratico medio: ECM=E{(θn − θ)2}Lema: Si E{(θn − θ)2} → 0, entonces θn → θ
Sesgo: E(θn)− θ.
Estimador insesgado: Sesgo=0: E(θn)− θ
Lema: E{
(θn − θ)2}
= V(θn) +{E(θn)− θ
}2
Si V(θn)→ 0 y E(θn)→ θ, entonces
E{(θn − θ)2} → 0