Estadistica

0.5setgray0

0.5setgray1 Fundamentos de Estadística

Introducción a la Estadística

Prof. Dr. Eduardo Valenzuela Dom ınguez

[email protected]

Universidad Tecnica Federico Santa Marıa

Dr. Eduardo Valenzuela D.; MEE 2005 – p. 1/61

Introducción

Modelación

Realidad versus Modelo


Introducción

Modelación


• Modelos Deterministicos


Introducción

Modelación


• Modelos Deterministicos• Modelos no-Deterministicos


Introducción

Modelación


• Modelos Deterministicos• Modelos no-Deterministicos

Toma de decisiones bajo Incertidumbre


Definición

Estadistica: Mezcla entre ciencia y arte queentrega herramientas para modelar fenómenosno-deterministicosAlgunas aplicaciones:


Definición


• Ingeniería


Definición


• Ingeniería• Compañías de Seguros


Definición


• Ingeniería• Compañías de Seguros• Estudios de Mercado


Definición


• Ingeniería• Compañías de Seguros• Estudios de Mercado• Control de Calidad


Definición


• Ingeniería• Compañías de Seguros• Estudios de Mercado• Control de Calidad• Instrumentos Financieros


Definición


• Ingeniería• Compañías de Seguros• Estudios de Mercado• Control de Calidad• Instrumentos Financieros• Medicina


Algunos Términos

• Población: Colección completa de todas losindividuos de interes para el investigador.

• Parámetro: Valor que caracteriza un aspectode la población.

• Muestra: Subconjunto de la población y quees representativa de esta.

• Estadistico: Medida descriptiva de la muestraque se utiliza para estimar al respectivoparámetro poblacional.

• Variable: Caracteristica de la población quese analiza en el estudio estadistico. Dr. Eduardo Valenzuela D.; MEE 2005 – p. 4/61

Técnicas de Muestreo

• Muestreo Aleatorio simple: Procedimientomediante el cuál todas las muestras de undeterminado tamaño, poseen la misma"chance" de ser extraidas.

• Muestreo Aleatorio Estratificado: Esquemade muestreo que primero particiona a lapoblación en diversos "estratos" yposteriormente extrae una mustra aleatoriasimple en cada uno de ellos.


Muestreo

• Error muestral: Diferencia entre el valor delparámetro poblacional y el producido por elestadistico o estadigrafo basado en unamuestra.

• Sesgo muestral: Tendencia a favorecer laselección de determinados individuos de lapoblación.


Muestreo• Población vs Muestra• Muestreo implica Error muestral• Acotar la probabilidad de cometer errores

Estadistica• Descriptiva• Inferencial


Tipos de Variables

• Variables cualitativas: Caracteristica querepresenta una cualidad de los individuospoblacionales.

• Variables cuantitativas: Caracteristica quecorresponde a una magnitud asociada a losindividuos de la población.


Escalas de Medición

• Escala nominal: Nombres o clases que seutilizan para organizar los datos encategorias separadas y distintas.

• Escala ordinal: Mediciones que jerarquizanlos datos en categorias, ordenadas en virtudde un determinado criterio.


Escalas de Medición

• Escala de intervalos: Mediciones respecto deuna escala numerica en la cual la diferenciaentre valores tiene interpretación y laubicación del cero es arbitrario.

• Escala de proporciones: Mediciones respectode una escala numerica en la cual tanto ladiferencia como los cuocientes tieneninterpretación y la ubicación del cero esabsoluto.


Estadistica Descriptiva

Proporciona procedimientos que permitenorganizar, procesar y presentar los datosmuestrales con el fin de extraer informaciónrelevante que este contenida en ellos.

Datos Muestrales

Clasificación

A1, A2, . . . , Ak : clases


Número de clases

Si se dispone de n datos muestrales, se sueleusar la regla de “Sturges”:

k = [3, 3 · log n] + 1

Ejemplo: Para n = 1000, usar:

k = [3, 3 · log 1000] + 1 = [3, 3 · 3] + 1 = 9 + 1 = 10

clases


Observaciones y Preguntas

• Las clases deben ser excluyentes y todoelemento muestral debe pertenecer a una deellas.

• ¿Existen clases que concentren mas datos?.• ¿Se presenta un comportamiento uniforme?.• ¿Se visualiza mas de un punto de

concentración?.


Construcción de clases

Si los datos muestrales estan medidos por lomenos al nivel de intervalos y si losrepresentamos por:

x1, x2, . . . , xn

entonces la amplitud de las clases es de:

c =max xi − min xi

k


Construcción de clases

con esto se determinan los limites superior einferior de cada clase:

clase limites relacin

A1 [a1 → b1] b1 = a1 + c

A2 ]a2 → b2] b2 = a2 + c... ... ...

Ak ]ak → bk] bk = ak + c

en donde a1 = min xi y ak+1 = bk


Ejemplo

Consideremos una muestra de n = 50 datos:68 72 50 70 65 83 77 78 80 9371 74 60 84 72 84 73 81 84 9277 57 70 59 85 74 78 79 91 10283 67 66 75 79 82 93 90 101 8079 69 76 94 71 97 95 83 86 69

numero de clases: k = [3, 3 log 50] + 1 = 6


Continuación Ejemplo

min xi = 50 y max xi = 102, por lo quec = 102−50

6 = 8, 7 redondeando, tomaremos c = 9,con lo que las clases quedan:

clase limites marca de clase

A1 [50 → 59] 54, 5

A2 ]59 → 68] 63, 5

A3 ]68 → 77] 72, 5

A4 ]77 → 86] 81, 5

A5 ]86 → 95] 90, 5

A6 ]95 → 104] 99, 5Dr. Eduardo Valenzuela D.; MEE 2005 – p. 17/61

Gráfico de Tallo y Hoja

Una forma alternativa de visualizar los datos, esmediante el gráfico de tallo y hoja:La coma decimal esta un digito ala derecha de los dos puntos:

5 : 0796 : 05678997 : 0011223445677889998 : 0012333444569 : 01233457

10 : 12


Distribuciones de Frecuencias

Para descubrir como se “reparten” los datosentre las clases, consideraremos las frecuencias

• Frecuencia absoluta: Es el número deobservaciones muestrales que caen en cadaclase: ni, para i = 1, . . . , k.

• Frecuencia relativa: Es la proporción dedatos con respecto a toda la muestra quepertenecen a cada clase: fi, para i = 1, . . . , k.

• Se tiene que: fi = ni

n


Distribuciones de Frecuencias

• Frecuencia absoluta acumulada: Es la sumaacumulada de las frecuencias absolutashasta cada clase: Ni, para i = 1, . . . , k. conNi =

∑ij=1 nj, para i = 1, . . . , k

• Frecuencia relativa acumulada: Es la sumaacumulada de las fercuencias relativas hastacada clase: Fi, para i = 1, . . . , k. conFi =

∑ij=1 fj, para i = 1, . . . , k

• Se tiene que: Fi = Ni

n


Ejemplo

clase limites ni Ni fi Fi

A1 [50 → 59] 3 3 0, 06 0, 06

A2 ]59 → 68] 5 8 0, 10 0, 16

A3 ]68 → 77] 15 23 0, 30 0, 46

A4 ]77 → 86] 17 40 0, 34 0, 80

A5 ]86 → 95] 7 47 0, 14 0, 94

A6 ]95 → 104] 3 50 0, 06 1, 00

total 50 1, 00


Representaciones Gráficas

Otra forma de representar la informaciónmuestral, es mediante gráficos

• Histograma: Se grafican las frecuencias conrespecto a las diversas clases.

• Poligono de frecuencias: Representa lasfrecuencias en las marcas de clases unidaspor segmentos de rectas.

• Distribucion de frecuencias acumuladas: Aquise representan las frecuencias acumuladashasta cada clase.


Representaciones Gráficas

• Ojiva: Poligonal que une las frecuenciasacumulativas en cada clase.

• Gráfico de barras: Las frecuencias serepresentan por barras proporcionales aellas.

• Gráficos circulares: Las frecuencias semuestran como sectores circulares.


Histograma

50 60 70 80 90 100 110

0.0

0.01

0.02

0.03

x

Histograma de x


Ojiva

x

Fre

c

50 60 70 80 90 100

0.0

0.2

0.4

0.6

0.8

1.0

Ojiva de x


Pastel

Grafico circular de x


Estadistica descriptiva bivariada

Analisis descriptivo conjunto de dos o masvariables. Si (x1, y1), (x2, y2), . . . , (xn, yn) es unamuestra bivariada de las variables X e Y . Si kes el número de clases para X y l, para Y , sedefinen:

• Frecuencia absoluta conjunta: El número deobservaciones muestrales que caen en laclase Ai segun X y en la clase Bj segun Y .

ni,j , i = 1, . . . , k, j = 1, . . . , l

• Frecuencia relativa conjunta: Proporciónmuestral de ni,j. Dr. Eduardo Valenzuela D.; MEE 2005 – p. 27/61

Tablas de contingencia

Se definen las frecuencias marginales de X e Yrespectivamente por:

ni,. =l

∑

j=1

ni,j , n.,j =k

∑

i=1

ni,j

y las respectivas frecuencias relativas conjuntasy marginales por:

fi,j =ni,j

n, fi,. =

ni,.

n, f.,j =

n.,j

n


Ejemplo

[10;30] ]30;50] ]50;70] ni,.

[1000;2000] 15 8 4]2000;3000] 5 12 9]3000;4000] 2 13 10]4000;5000] 1 16 18

n.,j 113


Ejemplo

[10;30] ]30;50] ]50;70] ni,.

[1000;2000] 15 8 4 27]2000;3000] 5 12 9 26]3000;4000] 2 13 10 25]4000;5000] 1 16 18 35

n.,j 113


Ejemplo

[10;30] ]30;50] ]50;70] ni,.

[1000;2000] 15 8 4]2000;3000] 5 12 9]3000;4000] 2 13 10]4000;5000] 1 16 18

n.,j 23 49 41 113


Ejemplo

[10;30] ]30;50] ]50;70] ni,.

[1000;2000] 15 8 4 27]2000;3000] 5 12 9 26]3000;4000] 2 13 10 25]4000;5000] 1 16 18 35

n.,j 23 49 41 113


Medidas de tendencia central

Son estadisticos que proporcionan valoresrepresentativos de la muestra, de tal manera quetodos los datos muestrales caen en torno a estosvalores.

• Moda• Mediana• Media ( geométrica )• Media ( aritmética )


Si los datos muestrales han sido agrupados enclases y estas marcas de clase son x1, . . . , xk

con frecuencias relativas fi. Se define la mediade x por

x =k

∑

i=1

fixi =1

n

k∑

i=1

nixi


Medidas de variabilidad

Las medidas de variabilidad o de dispersión,pretenden cuantificar el grado de homogeneidadpresente en la muestra; determinan que tanconcentrados o dispersos estan los datos.Algunas medidad de dispersión son:

• Rango• Desviación media• Rango intercuartílico• Varianza y Desviación estandar


La varianza se define por:

S2x =

k∑

i=1

fi(xi − x)2 =1

n

k∑

i=1

ni(xi − x)2

y la desviación estandar por:

Sx = +√

S2x


Observación

Cabe hacer notar que cuando la varianzamuestral se usa como un estimador de lavarianza poblacional, su definición se modificalevemente en la forma:

S2 =1

n − 1

k∑

i=1

ni(xi − x)2

Esta varianza modificada es preferible comoestimador, pues posee mejores propiedades queS2

x.


Desigualdad de Tschebyscheff

Una interpretación interesante de la desviacionestandar es la proporcionada por la“Desigualdad de Tschebyscheff”, que planteaintuitivamente que:En todo conjunto de observaciones y para todonumero real r > 1, se tiene que al menos 1 − 1

r2

de ellas caen en el intervalo:

[x − rSx; x + rSx]


Gráficamente:

•

•

•

•

•


Resumen

Las principales medidas descriptivas de lamuestra son:

•Resumen de $x$

Min. 1st Q. Med. Mean 3rd Q. Max.50.00 71.00 78.50 78.36 84.00 102.00

N = 50 Median = 78.5Quartiles = 71; 84

Que pueden representarse gráficamente por:Dr. Eduardo Valenzuela D.; MEE 2005 – p. 37/61

Gráfico de Cajón

-1.0

-0.5

0.0

0.5

1.0


Elementos de Inferencia Estadística

Al modelar un fenómeno en la vida real, lasvariables que nos interesan generalmente son denaturaleza no-deterministica y en consecuenciapueden representarse por variables aleatorias.Para poder obtener probabilidades asociadas aestas variables aleatorias X, podemos ocupar sufuncion de distribucion FX :

FX(x) = P [X ≤ x]


Problema

Pero en la mayoria de los casos, esta función,dependerá de parámetros desconocidos θ, esdecir tenemos:

FX(x; θ) = P [X ≤ x]

y para que estos modelos sean de algunautilidad, se requiere previamente estimar estosparametros a partir de informacion empíricarecopilada a partir de una muestra aleatoria deX.


Problemas

Esto nos lleva a los principales problemas de lainferencia estadistica:


Problemas


• Estimacion puntual.


Problemas


• Estimacion puntual.• Estimacion por intervalos de confianza.


Problemas


• Estimacion puntual.• Estimacion por intervalos de confianza.• Prueba de hipotesis.


Estimacion puntual

En el ámbito de la estimacion puntual se handesarrollado diversos metodos para “construir”estimadores puntuales, entre ellos:

Lo que hace necesario definir cualidades de losestimadores, para asi poder seleccionar el“mejor” entre varios posibles.


Estimacion puntual


• Método de momentos.



Estimacion puntual


• Método de momentos.• Método de minimos cuadrados.



Estimacion puntual


• Método de momentos.• Método de minimos cuadrados.• Método de máxima verosimilitud.



Propiedades

Entre las principales propiedades de losestimadores se cuentan:


Propiedades


• Insesgamiento


Propiedades


• Insesgamiento• Varianza minima


Propiedades


• Insesgamiento• Varianza minima• Error cuadratico minimo


Propiedades


• Insesgamiento• Varianza minima• Error cuadratico minimo• Eficiencia


Propiedades


• Insesgamiento• Varianza minima• Error cuadratico minimo• Eficiencia• Consistencia


Ejemplo

Supongamos que la variable aleatoria X estadistribuida normalmente:

X ∼ N (µ, σ2)

Se dice que X1, . . . , Xn es una Muestra aleatoriade X, si:

• Los X1, . . . , Xn son independientes• Cada Xi posee la misma ditribucion que X


Ejemplo

Usando estos “datos” se pueden obtenerestimadores puntuales de los parametros µ y σ2,los cuales poseen varias de las propiedadesanteriores; ellos son:

Xn =1

n

n∑

i=1

Xi

S2n =

1

n − 1

n∑

i=1

(Xi − Xn)2

que son la media y varianza muestral.Dr. Eduardo Valenzuela D.; MEE 2005 – p. 45/61

Ejemplo

Notemos que los valores que estos estimadoresproducen, dependen de los valores muestrales yen consecuencia cambiaran de una a otramuestra.Esto nos lleva a considerar las distribucionesmuestrales de estos estimadores.


Distribuciones muestrales

Bajo la suposicion de que:

X ∼ N (µ, σ2)

se puede verificar que la distribucion empirica dela media muestral a partir de una muestraaleatoria de tamaño n es:

Xn ∼ N (µ,σ2

n)

que es nuevamente una normal.


Distribuciones muestrales

Analogamente la distribucion empirica de lavarianza muestral es:

(n − 1)S2n

σ2∼ χ2(n − 1)

que se denomina Chi cuadrado con n − 1 grados delibertad y que para usarla al igual que la normal,hay que recurrir a tablas estadisticas


Otras distribuciones

Ademas de estas distribuciones, es necesarioconsiderar otras mas que aparecen en losprocesos de estimacion y prueba de hipotesis,ellas son:

• La distribucion t de student con k grados delibertad, que se simboliza por t(k).

• La distribucion Fisher con k y l grados de libertad,que se representa por F (k, l).


Otras distribuciones

Analogamente a la distribucion normal ychi-cuadrado, para evaluar probabilidadesasociadas a ellas, es necesario obtener losvalores usando una tabla estadistica, unacalculadora que las tenga implementadas o unprograma computacional adecuado.


Observación

Cabe hacer notar que si bien es cierto estosestimadores puntuales, al evaluarlos en losdatos muestrales, nos proporcionan unaestimacion puntual, que sirve para aproximar elvalor desconocido del parametro en estudio;ellos no entregan idea alguna sobre el error quese produce en este proceso de estimacion.


Observación

Para poder cuantificar este error, se requeririaestimar los parametros por medio de un intervalode confianza, que nos indique una region quepudiera contener al parametro buscado, mas unaevaluacion de la proporcion de veces quetomaremos una decision correcta al usar esteprocedimiento, para estimar los parametros; estose conoce como el coeficiente de confianza


Estimacion por intervalos de confianza

Llamaremos un intervalo de confianza para elparametro θ con coeficiente de confianza γ, a unintervalo del tipo:

[T1(X1, . . . , Xn);T2(X1, . . . , Xn)]

que cumpla:

P [T1 ≤ θ ≤ T2] ≥ γ


Estimacion por intervalos de confianza

Se puede ver que si X ∼ N (µ, σ2), entonces elintervalo de confianza para µ con coeficiente deconfianza γ esta dado por:

[Xn −Sn√n· t(1+γ)/2(n− 1); Xn +

Sn√n· t(1+γ)/2(n− 1)]


Observación

Existen algunas situaciones en las cuales lavarianza σ2 se conoce y por lo tanto no serequiere previamente estimarla.Tambien en aquellos casos en que el tamañomuestral n crece tendiendo a infinito n → ∞, sepuede verificar que la distribucion t de student seaproxima en un cierto sentido a la distribucionnormal.


Observación

Para estas situaciones, que se denominanmuestras grandes, el intervalo de confianza parala media muestral Xn se transforma en:

[Xn −σ√n· z(1+γ)/2; Xn +

σ√n· z(1+γ)/2]


Continuación

Analogamente se puede obtener el intervalo deconfianza para σ2 con coeficiente de confianzaγ, resultando:

[

(n − 1) · S2n

χ(1+γ)/2(n − 1);

(n − 1) · S2n

χ(1−γ)/2(n − 1)

]

El uso de estos intervalos de confianza nospermite estimar los parametros de interes,indicando la “precision” que permiten obtener losdatos disponibles.


Prueba de Hipótesis

Existen situaciones en las cuales se tiene algunconocimiento previo sobre los parametros deuna distribución ( Hipotesis ) y se desea analizarsi este supuesto es consecuente con los datosmuestrales. Esto lleva a una Prueba deHipótesis, para lo que se necesita:



• Una hipotesis nula H0.



• Una hipotesis nula H0.• Una hipotesis alternativa H1.



• Una hipotesis nula H0.• Una hipotesis alternativa H1.• Una funcion de los datos T (X1, . . . , Xn), cuya

distribución bajo H0 se conozca.




distribución bajo H0 se conozca.• Un nivel de significancia 0 < α < 1.




distribución bajo H0 se conozca.• Un nivel de significancia 0 < α < 1.• Una región de rechazo.


Acciones

Al tomar la decisión de rechazar o no la hipótesisnula sobre la base de los datos muestrales, seproducen las siguientes posibilidades:

acción ; realidad H0 verdadera H0 falsa

rechazar H0 Error I Correcto

no rechazar H0 Correcto Error IILa idea es limitar a valores pequeños lasprobabilidades de estos errores. Dr. Eduardo Valenzuela D.; MEE 2005 – p. 60/61

•

•

•

•

•


Estadistica

Documents

Transcript of Estadistica