CL_02_ESTADISTICA INFERENCIAL

42
ESTADISTICA INFERENCIAL La Estadística es una disciplina que utiliza recursos matemáticos para organizar y resumir una gran cantidad de datos obtenidos de la realidad, e inferir conclusiones respecto de ellos.

Transcript of CL_02_ESTADISTICA INFERENCIAL

Page 1: CL_02_ESTADISTICA INFERENCIAL

ESTADISTICA INFERENCIAL

La Estadística es una disciplina que utiliza recursos matemáticos para organizar y resumir

una gran cantidad de datos obtenidos de la realidad, e inferir conclusiones respecto de ellos.

Page 2: CL_02_ESTADISTICA INFERENCIAL

UTILIDAD DE ESTASISTICA

• Descripción de datos,

• Elección y análisis de muestras,

• Contraste de hipótesis,

• Medición de relaciones entre variables,

• Predicción,

• Decisión.

Page 3: CL_02_ESTADISTICA INFERENCIAL

FASES DEL ANALISIS ESTADISTICO

• Planteamiento del problema,

• Construcción del modelo,

• Recolección de la información muestral,

• Depuración de la muestra,

• Estimación de los parámetros del modelo,

• Hipótesis de simplificación,

• Critica y diagnosis del modelo.

Page 4: CL_02_ESTADISTICA INFERENCIAL

Datos• Variables cualitativas: indican cualidades del

objeto de estudio: sexo, nivel socioeconómico, región, etc.

• Variables numéricas discretas: generalmente indican cuántas veces ha sucedido un determinado fenómeno: número de autos vendidos, cantidad de estudiantes que aprueban un curso, número de buses que pasan por una avenida en hora pico, etc.

• Variables numéricas continuas: en la mayoría dce los casos se obtienen a partir de mediciones.

Page 5: CL_02_ESTADISTICA INFERENCIAL

Variables Discretas y Contínuas• Las variables medibles en el nivel cuantitativo pueden

ser discretas o continuas. • Una variable discreta es aquella en la cual, dados dos

valores consecutivos, no puede adoptar ningún valor intermedio (por ejemplo entre 32 y 33 dientes, no puede hablarse de 32.5 dientes).

• En cambio, una variable es continua cuando, dados dos valores consecutivos, la variable puede adoptar muchos valores intermedios (por ejemplo entre 1 y 2 metros, puede haber muchas longitudes posibles).

Page 6: CL_02_ESTADISTICA INFERENCIAL

Clasificaciones de la

estadística

Page 7: CL_02_ESTADISTICA INFERENCIAL

DIVISIÓN DE LA ESTADÍSTICA• Estadística Descriptiva: se encarga de la recolección,

clasificación y descripción de datos muestrales o poblacionales, para su interpretación y análisis.

• Presenta datos en forma de tablas y gráficos. • Comprende cualquier actividad relacionada con los datos y

está diseñada para resumir o describir los mismos sin factores pertinentes adicionales; esto es, sin intentar inferir nada que vaya más allá de los datos, como tales.

• Estadística Inferencial: desarrolla modelos teóricos que se ajusten a una determinada realidad con cierto grado de confianza.

• Se deriva de muestras, de observaciones hechas sólo acerca de una parte de un conjunto numeroso de elementos y esto implica que su análisis requiere de generalizaciones que van más allá de los datos.

• Investiga o analiza una población partiendo de una muestra tomada.

Page 8: CL_02_ESTADISTICA INFERENCIAL

División de la Estadística• Estas dos ramas no son independientes; por el

contrario, son complementarias y entre ambas dan la suficiente ilustración sobre una posible realidad futura, con el fin de que quien tenga poder de decisión, tome las medidas necesarias para transformar ese futuro o para mantener las condiciones existentes.

Page 9: CL_02_ESTADISTICA INFERENCIAL

Según el tiempo considerado

• Dentro de la estadística descriptiva se distingue la estadística estática o estructural, que describe la población en un momento dado (por ejemplo la tasa de nacimientos en determinado censo), y

• la estadística dinámica o evolutiva, que describe como va cambiando la población en el tiempo (por ejemplo el aumento anual en la tasa de nacimientos).

Page 10: CL_02_ESTADISTICA INFERENCIAL

Según la cantidad de variables estudiada

• Estadística univariada (estudia una sola variable, como por ejemplo la inteligencia, en una muestra),

• Estadística bivariada (estudia como están relacionadas dos variables, como por ejemplo inteligencia y alimentación), y

• Estadística multivariada (que estudia tres o más variables, como por ejemplo como están relacionados el sexo, la edad y la alimentación con la inteligencia).

Page 11: CL_02_ESTADISTICA INFERENCIAL

Distribución Normal• Esta distribución es una de las de mayor

importancia ya que se utiliza en la teoría de muchas de las técnicas estadísticas para realizar estimaciones y predicciones. Estadísticamente su importancia radica en:

i. Varios fenómenos continuos parecen seguir esta distribución o pueden ser aproximados a ella.

ii. Sirve para aproximar varias distribuciones discretas de probabilidad y así evitar molestos cálculos matemáticos.

iii. Proporciona la base para la Inferencia Estadística Clásica por su relación con el Teorema del Límite Central.

Page 12: CL_02_ESTADISTICA INFERENCIAL

• Además, esta distribución posee varias propiedades que son interesantes de destacar:

i. Su forma es de campana y, además, es simétrica.

ii. Las medidas de tendencia central son idénticas.

iii. La variable aleatoria asociada no está acotada, es decir, tiene un rango infinito por lo que su recorrido varía entre −∞ < x < ∞.

• El modelo matemático de esta distribución que corresponde a su función de densidad, está dado por:

Distribución Normal

Page 13: CL_02_ESTADISTICA INFERENCIAL

• Como podemos deducir entonces, las probabilidades de una variable aleatoria distribuida Normal sólo dependen de los dos parámetros de la distribución, la media de la población μ y la desviación estándar de la población σ.

• Notación: x ~ N(μ ,σ )• La esperanza matemática y varianza son las siguientes:• E(x) = μ• Var(x) = σ 2

• Para efectos de simplificar los cálculos de la distribución Normal, se han tabulado los valores de sus probabilidades, pero solamente para la llamada distribución Normal Estándar, la que posee media igual a cero y varianza igual a uno.

Distribución Normal

Page 14: CL_02_ESTADISTICA INFERENCIAL

• Matemáticamente, el proceso de estandarización de la Distribución

• Normal es el siguiente:

• z x ~ N(0,1)

• σ

• − μ =

• En este caso su densidad está dada por la siguiente expresión:

Distribución Normal

Page 15: CL_02_ESTADISTICA INFERENCIAL

• a) Aproximación a la distribución Normal a partir de una distribución Binomial.

• Si tenemos una distribución Normal a partir de una distribución Binomial con parámetros n y p, en donde existen las condiciones tal que n → ∞ (>30) ó p → 0 ó 1, entonces tenemos:

• Si X ~ B(n,p) → E(X) = np; Var(x) = np(1-p)• Si Y ~ N(μ,σ2) → E(Y) = μ; Var(Y) = σ2• Entonces, X ~ N(np,np(1-p)) que corresponde a una distribución

Normal aproximada desde una distribución Binomial.• b. Aproximación a la distribución Normal a partir de una distribución

Poisson:• Si tenemos una distribución Poisson con parámetro λ, en donde

existen las condiciones tal que n → ∞ (>10), entonces tenemos:• Si X ~ P(λ) → E(X) = λ; Var(x) = λ• Si Y ~ N(μ,σ2) → E(Y) = μ; Var(Y) = σ2• Entonces, X ~ N(λ,λ) que corresponde a una distribución Normal

aproximada desde una distribución Poisson.

Distribución Normal

Page 16: CL_02_ESTADISTICA INFERENCIAL

Coeficiente de correlación muestra la asociación lineal

Page 17: CL_02_ESTADISTICA INFERENCIAL

Coeficiente de correlación muestra la asociación lineal

Page 18: CL_02_ESTADISTICA INFERENCIAL

Correlación

• CORRELACIÓN VALOR O RANGO

• 1) Perfecta 1) R = 1

• 2) Excelente 2) R = 0.9 < = R < 1

• 3) Buena 3) R = 0.8 < = R < 0.9

• 4) Regular 4) R = 0.5 < = R < 0.8

• 5) Mala 5) R < 0.5

Page 19: CL_02_ESTADISTICA INFERENCIAL

Población vs Muestra

• La población en sentido demográfico es un conjunto de individuos (todos los habitantes de un país), mientras que una población en sentido estadístico es un conjunto de datos referidos a determinada característica o atributo de los individuos (las edades de todos los individuos de un país).

• Los datos de la totalidad de una población pueden obtenerse a través de un censo.

• En la mayoría de los casos no es posible obtenerlos por razones de esfuerzo, tiempo y dinero, razón por la cual se extrae, de la población, una muestra, mediante un procedimiento llamado muestreo.

• Se llama muestra a un subconjunto de la población, preferiblemente representativo de la misma.

Page 20: CL_02_ESTADISTICA INFERENCIAL

Datos

• Los datos estadísticos que describen una muestra suelen llamarse estadísticos (por ejemplo, el promedio de ingresos mensuales de las personas de una muestra), mientras que los datos estadísticos descriptores de una población suelen llamarse parámetros (por ejemplo, el promedio de ingresos mensuales de las personas de una población).

• Un dato estadístico nada dice respecto de los individuos, porque solamente describe la muestra o población.

Page 21: CL_02_ESTADISTICA INFERENCIAL

Estructura del dato

• Los datos son la materia prima con que trabaja la estadística.

• De una manera general, puede definirse técnicamente dato como una categoría asignada a una variable de una unidad de análisis.

• Por ejemplo, "Luis tiene 1.70 metros de estatura" es un dato, donde ‘Luis’ es la unidad de análisis, ‘estatura’ es la variable, y ‘1.70 metros’ es la categoría asignada.

Page 22: CL_02_ESTADISTICA INFERENCIAL

Valor

• Cuando la variable se mide cuantitativamente, es decir cuando se expresa numéricamente, a la categoría suele llamársela valor.

• En estos casos, el dato incluye también una unidad de medida, como por ejemplo años, cantidad de hijos, grados de temperatura, cantidad de piezas dentarias, centímetros, etc.

• El valor es, entonces, cada una de las posibles variaciones de una variable cuantitativa.

Page 23: CL_02_ESTADISTICA INFERENCIAL
Page 24: CL_02_ESTADISTICA INFERENCIAL

Para estudiar una variable• Individuo: es cada uno de los elementos de la población. Cualquier

elemento que porte información sobre el fenómeno que se estudia. Si estudiamos la altura de los niños de una clase, cada alumno es un individuo; si estudiamos el precio de la vivienda, cada vivienda es un individuo.

• Población: es conjunto bien definido sobre el que puede observarse una cierta característica. Puede ser finita o infinita.

• Si la población es muy grande se hace muy costoso y en algunos casos imposible considerar cada individuo y se realiza una selección denominada muestra.

• Universo: Conjunto infinito de elementos o unidades generado por un modelo teórico. Conjunto real de todos los elementos que comparten unas condiciones de admisión en el conjunto.

• Muestra: es un subconjunto de individuos de una población que refleja las características de ésta lo mejor posible. Si las características quedan bien reflejadas, se dice que la muestra es representativa. El tamaño de una muestra es el número de individuos que tiene, lo denotamos por n. Por ejemplo si se estudia el precio de la vivienda de una ciudad, lo normal será recoger información sobre un subconjunto (muestra) que se entienda que es suficientemente representativo.

Page 25: CL_02_ESTADISTICA INFERENCIAL
Page 26: CL_02_ESTADISTICA INFERENCIAL

FUNCIONES PROBABILÍSTICASCONTÍNUAS

• En el siglo XVIII a los jugadores profesionales les interesaba conocer a priori, las probabilidades de éxito en los distintos juegos de azar, para ello acudieron a los matemáticos en busca de ayuda.

• En respuesta Abraham D’Moavre (1667-1754) es quien obtiene por primera vez la ecuación matemática de la curva normal.

• La distribución normal nos permite el cálculo de probabilidades de variables aleatorias continuas y discretas de cualquier problema de: Ingeniería, Medicina, Ciencias Sociales, Agricultura, Psicología, etc.

• Otros grandes matemáticos contribuyeron dándole impulso: Friedrich Gauss (1777-1855) perfeccionó y la utilizó ampliamente en su teoría de errores de las mediciones físicas. Laplace la usó en el cálculo de lo errores de las observaciones astronómicas. El matemático Ruso Chebyshev estableció varios teoremas relacionados con la curva de la distribución normal.

• Los experimentos realizados pro muchos científicos, permiten determinar que la mayor parte de las variables aleatorias se pueden estudiar considerando que tiene una función de densidad normal.

Page 27: CL_02_ESTADISTICA INFERENCIAL

Normalización

• El proceso de transformación de un polígono de frecuencias a una curva normal, se llama normalización y para ello se hace un cambio de escala mediante la normalización o tipificación de las puntuaciones, es decir, los valores ( x ) se transforman en valores Z mediante la ecuación de transformación.

• Z = Xi - μ . . . ( 1 ) σ

• Z = Puntuación normalizada o tipificada• Xi = Cada una de las puntuaciones de la población• μ = Media de las puntuaciones de la población• σ = Desviación estándar de la población

Page 28: CL_02_ESTADISTICA INFERENCIAL

Normalización

• La curva normal estándar o campana de Gauss es la misma curva normalizada solamente que mediante una traslación se lleva la curva hasta el origen . En este caso usamos μ = 0 y σ = 1.

• La siguiente gráfica muestra la curva normalizada con μ = 30 y σ = 10

Page 29: CL_02_ESTADISTICA INFERENCIAL

Curva normalizada y estandarizada

• A = Curva normalizada• B = Curva normalizada y estandarizada• Al trasladar la gráfica anterior al origen, hemos

transformado los parámetros μ y σ en : μ = 0 y σ = 1• Con estos valores reducidos, la curva normal estándar

se obtiene mediante la gráfica de la función:

• Y la ecuación de tipificación es la ya conocida:• x = μ + σ Z Z = ∴ x − μ

σ

Page 30: CL_02_ESTADISTICA INFERENCIAL

• Para normalizar el polígono de frecuencias y transformarlo en una campana de Gauss, se tipifican las observaciones ( xi ) del problema cambiándolos a una escala (Z).

• Esta curva normal es necesaria estandarizarla para poder calcular la probabilidad mediante una misma tabla ya elaborada para toda curva normal estandarizada, que se obtiene trasladando la media al origen.

Page 31: CL_02_ESTADISTICA INFERENCIAL

Características de la curva normal estandarizada

• a) La altura alcanza su valor máximo como μ = 0 y su valor es 0.4, es decir; el punto máximo es Pm(0,0.4)

• b) La curva normal estándar es simétrica con respecto a la media por lo tanto los parámetros de tendencia central son iguales, es decir: μ = Mo = Md = 0

• c) La desviación estándar es σ = 1• d) El área bajo la curva es A = 1• El área sombreada vale 1 y como la curva es simétrica cada

región a los lados del eje y vale 0.5.• e) El eje Z es una asíntota horizontal de la curva ya que:

Lim (z) = 0, z ∞• f) El área más importante donde se distribuye la probabilidad

de un suceso, se encuentra comprendida entre + - 3σ.• g) De acuerdo con el teorema de Chebishev relacionado con

la desviación estándar y el área bajo la curva, podemos establecer los siguientes porcentajes de la misma:

Page 32: CL_02_ESTADISTICA INFERENCIAL

Curva normal estándar

• De esta gráfica podemos ver que el área antes y después de + y - 3σ corresponde al 1%, es decir el 0.5% para cada lado de la gráfica.

• Por la simetría que tiene la curva normal estándar, existen tablas correspondientes al área bajo al curva que únicamente contemplan la parte positiva de la gráfica y estos mismos valores se usan para el lado negativo.

Page 33: CL_02_ESTADISTICA INFERENCIAL

EL TEOREMA CENTRAL DEL LÍMITE

• Este teorema es fundamental en la estadística, ya que justifica el uso de los métodos de la curva normal en la solución de una amplia gama de problemas.

• Se aplica a poblaciones infinitas y a poblaciones donde n es una parte de la población. Es difícil especificar con exactitud cuan grande debe ser (n) para poder aplicar el teorema central del límite. Sin embargo para n=20 ya se puede obtener un polígono de frecuencias simétricas y en forma de campana; para n=30, ya podemos considerar a (n) suficientemente grande.

• Si la población que muestreamos tiene un polígono de frecuencias simétrico y en forma de campanas, entonces podemos aplicar el teorema del límite central sin importar el tamaño de (n).

Page 34: CL_02_ESTADISTICA INFERENCIAL

DISTRIBUCIÓN t – DE STUDENT

• En la inferencia estadística se hacen generalizaciones con base en muestras, mediante estimaciones y pruebas de hipótesis.

• La estimación consiste en asignar un valor numérico a un parámetro de una población sobre la base de datos de muestras; y la prueba de hipótesis está basada en la aceptación o rechazo de suposiciones concernientes a los parámetros de una población.

• Cuando la muestra es pequeña es muy probable que la desviación típica muestral S sea bastante distinta de la desviación típica de la población σ; en consecuencia en estos casos no se puede utilizar el teorema central del límite para estimar la media de una población a través de la media de una muestra. En estos casos se utiliza la distribución t de Student.

• Fue descubierta por el inglés William Gosset en 1908 con el seudónimo de Student.

Page 35: CL_02_ESTADISTICA INFERENCIAL

• La distribución t de Student se representa mediante la expresión:

• donde:• X = media de la muestra• μ = media de la población• s = desviación típica de la muestra• n = tamaño de la muestra

Page 36: CL_02_ESTADISTICA INFERENCIAL

Propiedades de la distribución T - Student

• Comparando la variable normal estandarizada: • y la variable “t de student”:

• se observa que son similares.• Como la distribución normal estándar Z, la distribución t también

es continua, en forma de campana y perfectamente simétrica. La única diferencia entre las dos distribuciones, es que la distribución t tiene mayor variabilidad; la curva t está más extendida en la parte de las clases y es más achatada en la zona del centro.

Page 37: CL_02_ESTADISTICA INFERENCIAL

Características de la distrib. t de Student• 1. Es simétrica con respecto a la media• 2. Tiene media μ = 0 y σ > 1• 3. La desviación típica σ < 1, cuando n tiende a infinito.• 4. Z tiene una distribución con media μ=0 y desviación típica

σ=1; mientras que la distribución t tiene una familia de distribuciones.

• 5. La distribución t no se tabula según el tamaño de la muestra, sino en términos del número de grados de libertad.

• 6. La distribución t es continua, en forma de campana.• 7. La distribución t se basa en la consideración de que la

población a partir de la cual se obtiene la muestra tiene una distribución normal o aproximadamente normal.

• 8. La variabilidad de t, depende de dos variables aleatorias (SyX)• 9. La dist. t se utiliza para estimar parámetros poblacionales a

través de los valores de las muestras, para muestras pequeñas (n<30) y cuando la desviación típica S es conocida.

• 10. El número de grados de libertad es el único parámetro de la distribución t: la forma de la curva t está totalmente definida cuando se conoce el número de grados de libertad (g.l=n-1).

Page 38: CL_02_ESTADISTICA INFERENCIAL

Características de la distrib. t de Student• EJEMPLO:• Z0.05, significa que estamos dispuestos a tolerar un 5% de

error.• Hallando este nivel de confianza en una gráfica, se tiene:

• En las tablas del área bajo la curva normal se obtiene Z2=1.96; y como la curva es simétrica, Z1=-1.96.

• Esto significa que el 95% de las diferencias maestrales cae entre -1.96 y 1.96 desviaciones estándares.

Page 39: CL_02_ESTADISTICA INFERENCIAL

HIPÓTESIS ESTADÍSTICA• Es una afirmación o conjetura acerca del parámetro o• parámetros de una población.• La siguiente gráfica muestra el valor crítico, la región de

rechazo y la región de aceptación.

Page 40: CL_02_ESTADISTICA INFERENCIAL
Page 41: CL_02_ESTADISTICA INFERENCIAL
Page 42: CL_02_ESTADISTICA INFERENCIAL