ESTADÍSTICA INFERENCIAL

81
Unidad 1 Estimación Objetivo: El alumno encontrará intervalos de confianza para la media poblacional, a partir de muestras grandes o pequeñas, estimará la diferencia entre las medias de dos poblaciones. La estadística inferencial se define como la rama de la estadística que proporciona técnicas o procedimientos para analizar, interpretar y tomar decisiones sobre una población, con base en la información que se obtiene de una muestra. La estimación es un procedimiento de la estadística inferencial mediante el cual se realizan cálculos con los datos de una muestra para obtener valores o resultados que describan las características de la población. El objetivo de la estimación es obtener estadísticos(formulas, estadístico o estimador), para conocer de manera resumida las características más relevantes de una población. Ejemplos de la estimación de la media poblacional m. Promedio de accidentes en la empresa para establecer planes y

Transcript of ESTADÍSTICA INFERENCIAL

Page 1: ESTADÍSTICA INFERENCIAL

Unidad 1 Estimación

Objetivo: El alumno encontrará intervalos de confianza para la media poblacional, a partir de muestras grandes o pequeñas, estimará la diferencia entre las medias de dos poblaciones.

La estadística inferencial se define como la rama de la estadística que proporciona técnicas o procedimientos para analizar, interpretar y tomar decisiones sobre una población, con base en la información que se obtiene de una muestra.

La estimación es un procedimiento de la estadística inferencial mediante el cual se realizan cálculos con los datos de una muestra para obtener valores o resultados que describan las características de la población.

El objetivo de la estimación es obtener estadísticos(formulas, estadístico o estimador), para conocer de manera resumida las características más relevantes de una población.

Ejemplos de la estimación de la media poblacional .m

Promedio de accidentes en la empresa para establecer planes y métodos para prevenir.Departamento de cuentas de autoservicio-promedio de ingresos-abrir una nueva tienda.Aseguradora promedio de accidentes- para introducir un nuevo seguro y costo.

Page 2: ESTADÍSTICA INFERENCIAL

El estimado es el resultado que se obtiene al emplear datos de una muestra.

Estimación: puntual y por intervalos.

La estimación puntual es un procedimiento de la estadística inferencial mediante el cual se realizan cálculos con los datos de una muestra cuyo resultado es un valor numérico único empleado para estimar el valor de un parámetro poblacional. Se utiliza en casos prácticos:Talla exacta de pantalones, peso de algún producto, etc.

Desventajas: si la muestra no es representativa, el resultado de la estimación será equivocado, su resultado varia de muestra en muestra, no proporcionan una medida de referencia o un nivel de confianza en cuanto al resultado.

Estimación por intervalos es un procedimiento de la estadística inferencial mediante el cual se realizan cálculos con los datos de una muestra cuyo resultado son los valores numéricos que definen un rango, intervalo o conjunto numérico que servirá para estimar el parámetro poblacional.

De la muestra se obtienen los valores numéricos que definen un rango donde se encuentra la media poblacional.

Se utiliza en predicción de climas, tipo de cambio, etc.

Page 3: ESTADÍSTICA INFERENCIAL

Ventajas: No ofrece un valor único, sino un rango; más probabilidad de acertar al verdadero valor; ofrece el resultado un verdadero nivel de confianza que permite conocer en cuanto le podemos creer o tenerle confianza(intervalo de confianza); el nivel de confianza señala que tanta confianza le podemos tener o creer al resultado. Sed mide en % de confianza.

Estimación de la media(muestras grandes)

*Se utiliza en muestras compuestas por 30 o más datos*Si se conoce la desviación estándar poblacional*Se basa en el teorema del límite central*Se puede utilizar para muestras chicas solo si, la distribución es normal y se conozca el valor de la varianza o desviación estándar poblacional.

Page 4: ESTADÍSTICA INFERENCIAL

Si no se conoce la desviación estándar poblacional, pero se conoce la muestral

error estándar de la media muestral

valor de Z situado bajo la curva normal estándar

media de la muestra

nivel de significancia

Page 5: ESTADÍSTICA INFERENCIAL

nivel de confianza en %

90% 1.64595% 1.9698% 2.32699% 2.576

Page 6: ESTADÍSTICA INFERENCIAL

Estimación para muestras pequeñas

Para n<30

Se desconoce la sSe considera una distribución normalSe deben considerar los grados de libertad para calcular el estadístico “t”, los cuales se calculan con :

gl = n-1

El intervalo se determina:

Para calcular el valor de “t” se debe utilizar la tabla de t de student

Page 7: ESTADÍSTICA INFERENCIAL

Estimación de la diferencia entre dos medias poblacionales

Para casos en que se estima la diferencia entre dos medias , con la finalidad de comparar dos poblaciones .

Si ambas cotas son negativas se dice que el promedio de la población dos es mayor, si son positivas el promedio de la población uno es mayor..

También se consideran muestras grandes y pequeñas y las formulas para su cálculo son:

Para grandes:

Page 8: ESTADÍSTICA INFERENCIAL

Para pequeñas:

Page 9: ESTADÍSTICA INFERENCIAL

Prueba de Hipótesis

Afirmación relativa a un parámetro de la población sujeta a verificación.

Es un procedimiento basado en evidencia de la muestra y la teoría de la probabilidad para determinar si la hipótesis es una afirmación razonable.

Este procedimiento consta de cinco pasos:

Paso 1: Se establece la

hipótesis nula (Ho) y la

alterna(Ha)

Paso 2: Se selecciona un

nivel de significancia

Paso 3: Se identifica el

estadístico de la prueba

Paso 4: Se formulo una

regla para tomar

decisiones.

Page 10: ESTADÍSTICA INFERENCIAL

Paso 5: Se toma una muestra; se

llega a una decisión

Se acepta Ho o

Se rechaza Ho

t

Page 11: ESTADÍSTICA INFERENCIAL

Valor crítico Valor crítico

-1.96 1.96

RegiónDe

Rechazo0.025

RegiónDe

Rechazo0.025

No se rechaza Ho

o

Zona de Aceptación

0Escala de Zo “t”

Prueba de dos colas o extremos

Ho: μ=xH1: μ≠x

Page 12: ESTADÍSTICA INFERENCIAL

Prueba de una cola o extremo:

Valor crítico

Z

RegiónDe

Rechazo

a=0.05

No se rechaza Ho

o

Zona de Aceptación

0Escala de Zo “t”

Ho: μ≤xH1: μ>x

Page 13: ESTADÍSTICA INFERENCIAL

Prueba de una cola o extremo:

Valor crítico Z

RegiónDe

Rechazo

a=0.05

No se rechaza Ho

o

Zona de Aceptación

0Escala de Zo “t”

Ho: μ≥xH1: μ<x

Page 14: ESTADÍSTICA INFERENCIAL

Ejemplo:

El gerente de control de calidad desea saber si el último lote fabricado cumple la especificación que dice que el peso promedio (μ) de las cajas de cereal es de 300g; se sabe por experiencia que la desviación estándar poblacional es de 15g. Para esto se toma una muestra aleatoria de 9 cajas de cereal, con los siguientes pesos: 295, 299, 301, 305, 298, 300, 301, 305 y 300g.

Paso 1:Se establece la hipótesis nula Ho: μ = 300g H1: μ ≠ 300g

Paso 2:Se le da el valor de 0.05 al nivel de significancia α

Paso 3:Se define el estadístico de prueba, para este caso que se conoce σ se utiliza el estadístico “Z”.

Page 15: ESTADÍSTICA INFERENCIAL

Se obtiene primero la media muestral con los datos presentados:

=

Calculamos el estadístico:

Page 16: ESTADÍSTICA INFERENCIAL

Paso 4:La regla para tomar la decisión se basa en obtener el valor crítico, el cual se obtiene con el valor de α y tomando en cuenta que es una prueba de dos colas o extremos. De tablas se tiene que “z” tiene un valor de ± 1.96.

Valor crítico Valor crítico

-1.96 1.96

RegiónDe

Rechazo0.025

RegiónDe

Rechazo0.025

No se rechaza Ho

o

Zona de Aceptación

0Escala de Z

μ = 300

0.08

Page 17: ESTADÍSTICA INFERENCIAL

Paso 5:Se comparan los puntos críticos y se toma la decisión de rechazar o aceptar la hipótesis nula, como el valor de la “Z” calculada esta dentro de la zona de aceptación, es decir, dentro de los puntos críticos encontrados en tabla, se concluye que no existe evidencia que indique que el promedio del peso de las cajas de cereal sea diferente de 300g.

Ejemplo:

El gerente de desarrollo de nuevos productos esta interesado en saber si el contenido de shampoo en una nueva presentación individual, es menor o igual a lo indicado en el marbete (5ml) , ya que si el contenido es menor que lo indicado, se considera como fraude al consumidor y la empresa puede ser demandada.

Al realizar un muestreo de 9 sobres de shampoo, se observan los siguientes datos:4.5, 5.0, 6.0, 5.5, 4.7, 5.8, 5.3, 5.9, y 5.2.

Page 18: ESTADÍSTICA INFERENCIAL

Paso 1: Establecer la hipótesis nula y alterna

Paso 2: Definir el nivel de error

Paso 3: Modelo probabilístico

Como no se conoce la desviación estándar poblacional y se desea inferir sobre el promedio, la distribución usada será la t-studentY se calcula el estadístico

Page 19: ESTADÍSTICA INFERENCIAL

Paso 4: Se establece las regiones de rechazo

Page 20: ESTADÍSTICA INFERENCIAL

Prueba de una cola o extremo:

Valor crítico

Z

RegiónDe

Rechazo

a=0.05

No se rechaza Ho

o

Zona de Aceptación

0Escala de Zo “t”

Ho: μ≤xH1: μ>x

Page 21: ESTADÍSTICA INFERENCIAL

Paso 5: se toma una decisión

Como el valor de tc esta dentro de la zona de aceptación, se concluye que la empresa puede ser demandada.

Prueba de Hipótesis para comparar dos poblaciones independientes.

El objetivo de la prueba consiste en determinar si las medias μ1 y μ2 son estadísticamente diferentes .

Cuando se conoce la σ en ambas poblaciones y bajo el supuesto de Homoscedasticidad se utilizara como estadístico de prueba Zc.

Para comparar dos poblaciones generalmente se considera que ambas tienen la misma variabilidad; es decir, la amplitud de las distribuciones normales son semejantes; a esta propiedad se le conoce como Homoscedasticidad.

Page 22: ESTADÍSTICA INFERENCIAL

m1 m2

Page 23: ESTADÍSTICA INFERENCIAL
Page 24: ESTADÍSTICA INFERENCIAL

Análisis de varianza (ANOVA o ANADEVA)

*Analiza la varianza de una respuesta en dos o mas conjuntos de datos*Método matemático creado para probar la hipótesis de que las medias aritméticas de dos o mas grupos son iguales.*Su objetivo es identificar variables independientes importantes en un estudio estadístico y determinar como interactúan y afectan la respuesta.*A las variables se les conoce también como vías o factores.* No obstante que el análisis de varianza permite obtener una conclusión que se refiere a la población, este procedimiento se lleva a cabo a partir de la información contenida en una muestra.

Page 25: ESTADÍSTICA INFERENCIAL

Muestra de 30 personas

La población

Grupo I 10 personas

Grupo II10 personas

Grupo III10 personas

Page 26: ESTADÍSTICA INFERENCIAL

*Se dice que la media muestral es un estimador de la media poblacional.*Un estimador es una formula o procedimiento estadístico que permite calcular un valor (aproximado) de un parámetro o característica poblacional.m1=m2=m3 c1 =c2= c3

Análisis de varianza

De una Vía

De dos Vías

Page 27: ESTADÍSTICA INFERENCIAL

De una Vía

Análisis de experimentos, se trata de optimizar recursos para obtener la mayor información útil.

Se utiliza:Desarrollo de nuevos productosEvaluación de proveedoresOptimización del proceso de producción.

Al diseño más sencillo se le conoce como Análisis de varianza de una vía o factor.

La variabilidad es analizada:

Variación total

Variación entre grupos

Variación intra grupos+

Page 28: ESTADÍSTICA INFERENCIAL

Se deben cumplir los siguientes supuestos:

Aleatoriedad: Los elementos se asignan en forma aleatoria

Independencia : No interfieren los resultados de un grupo en los de otro grupo.

Normalidad: La variable de interés se distribuye conforme al modelo normal.

Homoscedasticidad: Se refiere a que las varianzas de los grupos son semejantes

Page 29: ESTADÍSTICA INFERENCIAL

Se realiza una prueba de hipótesis:

Para la evaluación de la prueba de hipótesis se utilizara la distribución “F” de Fisher, al igual que en la prueba de hipótesis se compara un estadístico con un valor de tablas.

La regla de decisión:

Page 30: ESTADÍSTICA INFERENCIAL

TABLA DE ANOVA UNA VÍA

VARIACIÓNGRADOS DE

LIBERTADSUMA DE

CUADRADOSVALORES MEDIOS

FC

VARIACIÓN ENTRE LOS

TRATAMIENTOS

C-1= VET= VET/ C-1=

VET/ C-1SCDDT

n1+n2+n3-C

VARIACIÓN DENTRO DE LOS TRATAMIENTOS

n1+n2+n3-c= SCDDT= SCDDTn1+n2+n3-C

SUMAn-1 SCD=

Page 31: ESTADÍSTICA INFERENCIAL

SCD Suma de cuadrados de las desviacionesVET Variabilidad entre tratamientosSCDDT Suma de los cuadrados dentro de los tratamientosG Media globalXi Media de los tratamientosn Número de datosc Número de columnas

Page 32: ESTADÍSTICA INFERENCIAL
Page 33: ESTADÍSTICA INFERENCIAL

Un analista financiero desea comparar el rendimiento mensual promedio de tres carteras de inversión , mismas que están conformadas por instrumentos financieros provenientes de distintos sectores de la economía.Para tal propósito obtiene una muestra de cada una de las tres opciones: la muestra de la primera cartera consta de cinco instrumentos distintos procedentes de bancos comerciales; la segunda muestra de cartera esta constituida por cinco instrumentos de renta variable que provienen de tiendas al mayoreo; finalmente, la muestra de la tercera cartera de inversión esta formada por cinco acciones que proceden de empresas que pertenecen a la industria de la construcción:

Cartera 1 Cartera 2 Cartera 3

5.4 4.60 6.35

3.40 4.55 5.50

7.20 5.50 3.50

5.50 6.35 4.50

6.50 5.55 6.30

Page 34: ESTADÍSTICA INFERENCIAL

Cartera 1 Cartera 2 Cartera 3

1 5.4 4.60 6.35

2 3.40 4.55 5.50

3 7.20 5.50 3.50

4 5.50 6.35 4.50

5 6.50 5.55 6.30

Suma

Media

Page 35: ESTADÍSTICA INFERENCIAL

TABLA DE ANOVA UNA VÍA

VARIACIÓNGRADOS DE

LIBERTADSUMA DE

CUADRADOSVALORES MEDIOS

FC

VARIACIÓN ENTRE LOS

TRATAMIENTOS

C-1=3-1=2

VET=0.33633333

VET/ C-1=0.16816667

VET/ C-1SCDDT

n1+n2+n3-C

0.12347794

VARIACIÓN DENTRO DE LOS TRATAMIENTOS

n1+n2+n3-c=

5+5+5-3=12

SCDDT=16.343

SCDDTn1+n2+n3-C

1.36191667

SUMAn1-1

15-1=14

SCD=16.6793333

Page 36: ESTADÍSTICA INFERENCIAL

De dos vías

En el análisis de varianza de dos vías o factores se considera para el estudio la presencia de dos variables independientes cualitativas: por un lado se tienen las distintas columnas (o tratamientos) y por el otro los distintos renglones (o bloques ) de la tabla.

Tomando el ejemplo anterior, se tomara una segunda variable que esta relacionada con las filas o renglones. La variable que se tomará será el riesgo.

El riesgo tomara diferentes valores para cada cartera.

Como los riesgos son diferentes se les asigna un valor o calificación.

Dicha calificación será de 1 a 5 siendo el valor de 1 el de mayor riesgo y el 5 el de menor riesgo.

De lo anterior se concluye que la suma de los cuadrados de las desviaciones (SCD) será:

Page 37: ESTADÍSTICA INFERENCIAL

Siendo el VEB la variación entre bloques, el cual se calcula como:

m es el número de elementos de cada bloqueb el número de renglones

Page 38: ESTADÍSTICA INFERENCIAL

BLOQUE Cartera 1 Cartera 2 Cartera 3 Media Xj

1 5.4 4.60 6.35 5.45

2 3.40 4.55 5.50 4.4833

3 7.20 5.50 3.50 5.4

4 5.50 6.35 4.50 5.45

5 6.50 5.55 6.30 6.1167

Suma

Media Xi 5.6 5.31 5.23 5.38

Page 39: ESTADÍSTICA INFERENCIAL

TABLA DE ANOVA DOS VÍAS

VARIACIÓNGRADOS DE

LIBERTAD

SUMA DE CUADRADO

S

VALORES MEDIOS

FC

VARIACIÓN ENTRE LOS

TRATAMIENTOS

b-1=5-1=4

VEB=3.926

VEB/ b-1=0.9815

VEB/ b-1SCDDTn-b-C+1

0.63235886

VARIACIÓN DENTRO DE

LOS TRATAMIENTOS

n-b-c+1=15-5-3+1=8

SCDDT=12.417

SCDDTN-b-C+10.9815

SUMAn-C

15-3=12SCD=

16.6793333

Page 40: ESTADÍSTICA INFERENCIAL

El valor de la F de tablas para 4 grados de libertad en el numerador, 8 grados de libertad en el denominador y con un nivel de significancia de 0.05 es igual a 3.84.Como 0.6543 < 3.84, se acepta la Ho. Significa que el rendimiento mensual promedio de las acciones delos distintos bloques es el mismo, independientemente que éstos tengan una calificación de riesgo diferente para cada caso.

Page 41: ESTADÍSTICA INFERENCIAL

Análisis de Correlación

Es el estudio de la relación entre variables. Grupo de técnicas para medir la asociación entre variables. Es dar a conocer el grado de asociación entre variables (x,y). El objetivo es analizar el comportamiento lineal entre dos variables para observar si existe relación entre ellas.

Se crea un modelo que puede ser usado en diferentes procesos, para predicción, control u optimización.

El primer paso a seguir es trazar un diagrama de dispersión, el cual es una representación grafica de dos variables, dónde se define la variable independiente (x) y la variable dependiente(y); los datos se representan en forma de puntos.

Estos diagramas son particularmente valiosos para descubrir la presencia de relaciones no lineales, que no se detectan cuando se calculan las medias numéricas de la correlación lineal.

En seguida se muestran los patrones de comportamiento importantes que deben conocerse para examinar una relación:

Page 42: ESTADÍSTICA INFERENCIAL

Recta con pendiente positiva

r = + 1.00

r = - 1.00

Correlación positiva perfectaCorrelación negativa perfecta

Recta con pendiente negativa

Coeficiente de correlación “r”

Describe la fuerza de la relación entre dos conjuntos de variables y sus características son:1) Muestra la dirección y fuerza de relación lineal entre dos variables.2) Varía de -1 a +13) Un valor 0 indica que no existe relación4) Un valor cercano a +1 indica una asociación directa o positiva entre las variables5) Un valor cercano a -1 indica una asociación inversa o negativa entre las variables

Page 43: ESTADÍSTICA INFERENCIAL

Correlación negativa perfecta

Correlación negativa

fuerteCorrelación

negativa moderada

Correlación negativa

débil

Correlación positiva fuerte

Correlación positiva

moderada

Correlación positiva

débil

Correlación positiva perfecta

No hay Correlación

- 1.00 - 0.50 0 + 0.50 + 1.00

Correlación negativa

Correlación positiva

Page 44: ESTADÍSTICA INFERENCIAL
Page 45: ESTADÍSTICA INFERENCIAL

Ejemplo:

Se seleccionan al azar cinco automóviles de un sitio de alquiler. Cada auto se pesa y después se conduce durante 100 km para determinar el rendimiento del kilometraje recorrido por litro. Los resultados son:

Automóvil Peso (kg) Km/lt

1 750 10.0

2 420 17.2

3 550 15.0

4 1000 9.0

5 680 8.0

Se desarrolla el diagrama de dispersión:

Page 46: ESTADÍSTICA INFERENCIAL

Y(km/lt)

X (peso)0

5

10

15

20

200 400 600 800 1000

Se deben calcular las medias de X y Y, las desviaciones estándar Sx y Sy.

Page 47: ESTADÍSTICA INFERENCIAL

Automóvil Peso (kg)

Km/ lt X-X Y-Y (X-X)(Y-Y)

1 750 10.0

2 420 17.2

3 550 15.0

4 1000 9.0

5 680 8.0

S

Media

Page 48: ESTADÍSTICA INFERENCIAL

El Coeficiente de Determinación

Proporción de la variación total en la variable dependiente Y que se explica o contabiliza, por la variación en la variable dependiente X.

r2

Prueba de la Importancia del Coeficiente de Correlación

Otro estadístico importante es el valor t de student, que se usa para probar la hipótesis nula de que la pendiente de la ecuación de regresión para la población es cero.

tc = t calculada

Page 49: ESTADÍSTICA INFERENCIAL

Rho representa la correlación en la población

Con n-2 grados de libertad y por la forma en que se formula la conjetura (hipótesis) se sabe que la prueba es de dos extremos o dos colas.Cabe mencionar que en esta prueba también se pueden tener pruebas de un extremo o una cola.

Page 50: ESTADÍSTICA INFERENCIAL

Método de mínimos cuadrados para ajustar una línea de regresión

Este es un procedimiento matemático para encontrar la ecuación de la línea recta que minimiza la suma de los cuadrados de las distancias entre la línea y los puntos, medidas en la dirección vertical(y).La curva de aproximación a una serie de datos puntuales que “mejor “ ajusta es la de mínimos cuadrados. Se encuentran estimaciones de estos parámetros a partir de datos muestrales y se determina la línea recta que “mejor ajusta” a este conjunto de puntos, llamada recta de regresión muestral.

y = a + b x Donde:

a = valor estimado de la ordenada al origen “y “de la poblaciónb = valor estimado de la pendiente de la recta poblacionaly = valor pronosticado de la variable dependiente (Y prima)x = variable independiente

Page 51: ESTADÍSTICA INFERENCIAL

**

**

* y = a + b x

x

y

Los estadísticos a y b se calculan con las siguientes formulas:

Pendiente de la recta de regresión Intersección con el eje Yb= r Sy a = Y - bX

Sx

r es el coeficiente de correlaciónSy es la desviación estándar de Y (la variable dependiente) Sx es la desviación estándar de X (la variable independiente)Y es la media de YX es la media de X

Page 52: ESTADÍSTICA INFERENCIAL

x 5 3 6 3 4 4 6 8y 13 15 7 12 13 11 9 5

2 3 4 5 6 7 8 90

2

4

6

8

10

12

14

16

Datos

y

x

y

Ejercicio de la pagina 475, No. 14

Page 53: ESTADÍSTICA INFERENCIAL

x y x-x y-y (x-x)2 (y-y)2 (x-x)(y-y)

5 13 0.125 2.375 0.016 5.641 0.296875

3 15 -1.88 4.375 3.516 19.14 -8.20313

6 7 1.125 -3.63 1.266 13.14 -4.07813

3 12 -1.88 1.375 3.516 1.891 -2.57813

4 13 -0.88 2.375 0.766 5.641 -2.07813

4 11 -0.88 0.375 0.766 0.141 -0.32813

6 9 1.125 -1.63 1.266 2.641 -1.82813

8 5 3.125 -5.63 9.766 31.64 -17.5781

Promedio 4.875 10.63 ∑ 20.88 79.88 -36.375

Desv. Std 1.727 3.378

r= -0.891 Correlación negativa fuerte r2= 0.794

Prueba de Hipótesis

1 Ho : r = 0 4tt= 2.447

Ho : r ≠ 0 Regla de decisión Ho se acepta si -2.447 < tc < 2.447

2 α = 0.05

5 Se rechaza la Ho por lo tanto si existe una correlación entre las variables.

3 tc= -4.8

Page 54: ESTADÍSTICA INFERENCIAL

Valor crítico Valor crítico

-2.447 2.447

RegiónDe

Rechazo0.025

RegiónDe

Rechazo0.025

No se rechaza Ho

o

Zona de Aceptación

0Escala de t

-4.8

Page 55: ESTADÍSTICA INFERENCIAL

Se obtiene la ecuación y = a + b x

Prueba de Hipótesis1 Ho : r = 0 4 tt= 2.447

Ho : r ≠ 0Regla de decisión Ho se acepta si -2.447 < tc < 2.447

2 α = 0.05

5 Se rechaza la Ho por lo tanto si existe una correlación entre las variables.

3 tc= -4.8

Calculando a y b b= -1.74 a=

19.11976

Ŷ = 19.119 - 1.74 x

Page 56: ESTADÍSTICA INFERENCIAL

2 3 4 5 6 7 8 90

2

4

6

8

10

12

14

16

f(x) = − 1.74251497005988 x + 19.1197604790419R² = 0.793539681200978

y

yLinear (y)

Axis Title

Axis Title

Page 57: ESTADÍSTICA INFERENCIAL

El residual es la desviación vertical de la y observada a partir de la recta de regresión muestral que es conocida. Un residual es la diferencia entre un valor real y y el valor y pronosticado por la ecuación de regresión muestral.

La siguiente ecuación se usa para calcular un residual;

e= y- y

Donde:

e= residualy= valor real de y y= valor estimado de la variable dependiente al usar la ecuación de regresión muestral.

El residual es diferente al término de error del modelo e, que es la desviación vertical de y a partir de la recta de regresión poblacional, por tanto, este error

e se desconoce.

Page 58: ESTADÍSTICA INFERENCIAL

ERROR ESTÁNDAR DE ESTIMACIÓN

El error estándar estimación simple es la medida de la variabilidad o dispersión de los valores de y observados en la muestra, alrededor de la recta de regresión.

Se mide la diferencia entre los valores pronosticados por la ecuación de regresión y los valores de y reales. Esto se puede visualizar en la fórmula:

Syx = S( Y – Ŷ )2

n - 2

Donde:Syx= error estándar de estimación Y= valores muestrales de yŶ= valores de y calculados con la ecuación de regresiónn= tamaño de la muestra

Page 59: ESTADÍSTICA INFERENCIAL

Pruebas no paramétricas

En los temas anteriores se presentaron pruebas de hipótesis. Se realizaron pruebas para medias poblacionales, los tamaños de las muestras se clasificaron en pequeñas y grandes, se analizaron pruebas para una sola población y las pruebas que comparaban dos poblaciones o más.

Todas estas pruebas presentaron una característica común: necesitaban de ciertos supuestos respecto a la población. t y F requerían de que la población estuviese distribuida normalmente. (Llamadas pruebas paramétricas).

Se tienen otras pruebas que no dependen de un solo tipo de distribución o de valores de parámetros específicos. Estas pruebas se denominan pruebas no paramétricas(libres de distribución).

Las pruebas no paramétricas son procedimientos estadísticos que pueden utilizarse para contrastar hipótesis cuando no son posibles los supuestos con respecto a los parámetros o a las distribuciones normales.

Page 60: ESTADÍSTICA INFERENCIAL

Prueba de Bondad de Ajuste

Medidas sobre que tan cerca se ajustan los datos muestrales observados a una forma de distribución particular planteada como hipótesis.Si el ajuste es razonablemente cercano, puede concluirse que existe la forma de distribución planteada como hipótesis.De la misma manera que con todas las pruebas estadísticas de esta naturaleza, los datos muestrales se toman de la población y estos constituyen la base de los hallazgos.La prueba chi-cuadrado determina si las observaciones muestrales “se ajustan” a las expectativas.

Prueba chi-cuadrado 2= [(c S fo-fe)2 / fe]

La sumatoria va desde i=1 hasta K

Distribución chi-cuadrado 2c

2 c es toda una familia de distribuciones. Existe una distribución chi-cuadrado para cada grado de libertad. En la medida que se incrementa el numero de grados de libertad, la distribución chi-cuadrado se vuelve menos sesgada.

Page 61: ESTADÍSTICA INFERENCIAL

La prueba tiene K-1 grados de libertad.

El numerador mide la diferencia entre las frecuencias de los eventos observados y las frecuencias de los eventos esperados al cuadrado. Cuando estas diferencias son grandes, haciendo que chi-cuadrado se incremente, debería rechazarse la hipótesis nula.

En dondefo = es la frecuencia de los eventos observados en los datos

muestralesfe = es la frecuencia de los eventos esperados si la hipótesis nula es

correctaK = es el numero de categorías o clases

Page 62: ESTADÍSTICA INFERENCIAL

Ejemplo

El director de mercadeo de una empresa tiene la responsabilidad de controlar el nivel de existencias para cuatro tipos de botes vendidos por su firma . En el pasado ha ordenado nuevos botes bajo la premisa de que los cuatro tipos de botes son igualmente populares y la demanda de cada uno es la misma. Sin embargo, recientemente las existencias se han vuelto mas difíciles de controlar y el director considera que debería probar su hipótesis respecto a una demanda uniforme. Sus hipótesis son:

Ho: La demanda es uniforme para los cuatro tipos de botesHa: La demanda no es uniforme para los cuatro tipos de botes

Se selecciona una muestra de n=48 botes vendidos durante los últimos meses.

Tipo de bote Ventas observadas Ventas esperadas

Pirates`revenge 15 12

Jolly roger 11 12

Bluebieard´s treasure

10 12

Ahab`s quest 12 12

48 48

Considere un nivel de significancia del 5%.

Page 63: ESTADÍSTICA INFERENCIAL

Se calcula chi-cuadrado

2= c (15-12)2 /12+ (11-12)2/12 + (10-12)2/12 + (12-12)2/12=1.17

K-1= 3 grados de libertad, con estos datos obtenemos chi-cuadrado de tablas

2=7.815c

Graficando se tiene:

1.17 7.815 2c

F( 2c )

Zona de rechazoZona de no rechazo

0.05

Page 64: ESTADÍSTICA INFERENCIAL

Estadística no paramétrica

Se encarga de obtener inferencias en poblaciones donde los parámetros no son conocidos, y/o no se sabe el comportamiento que presenta la distribución.La inferencia consiste en plantear hipótesis con respecto a la medida de tendencia central (la mediana Md).La ventaja es la simplicidad en el calculo de las misma,

Prueba de Signo

Se aplica a una o dos muestra.Se aplica cuando no se puede inferir o suponer acerca de la media poblacional.Se desconoce la desviación estándar.Se llama así por el uso de signos “+” y “-”.Las puntuaciones individuales o pares de datos no necesariamente tienen que venir de la misma población.

Se plantean la hipótesis nula y la alterna

Ho: Md0=Md Ha: Md0=Md

Md: es el valor de la mediana poblacional conocida o supuestaMd0 :es el valor de la mediana hipotética, igual o diferente de la mediana poblacional conocida.

Page 65: ESTADÍSTICA INFERENCIAL

Pasos:1. Asignar un signo ”+” a las puntuaciones que se encuentra por encima de la

mediana hipotética.2. Asignar un signo ”-” a las puntuaciones que se encuentren por debajo de la

mediana hipotética.3. Si el valor de la puntuación es igual al de la mediana hipotética se coloca un

cero, y este valor se elimina del tamaño de la muestra.4. Como existe la misma probabilidad de que se presente un signo “+” o un

signo “-” y los ensayos son independientes, se utiliza la distribución de probabilidad binomial para decidir si se acepta o se rechaza la hipótesis nula.

Para aplicar la distribución de probabilidad binomial:

La probabilidad de éxito y fracaso (p y q) son iguales, es decir, 0.5.

El número de ensayos (n) es igual al tamaño de la muestra disminuida por las puntuaciones que fueron igual a cero

Distribución de probabilidad binomial

P(x)=(nCx)( px )( q n-x)

Page 66: ESTADÍSTICA INFERENCIAL

H0 se acepta si:

P(x)≥ αH0 se rechaza si

P(x)< α

Ejemplo 1

La siguiente tabla indica la distribución de una muestra aleatoria acerca del contenido neto en gramos de 15 botes de cera para automóvil.

198 204.6 199.6 201 199.4 192.4 198.5 205 206.6 194.8 200.8 197.8 196.6 196 203.2

Con la prueba del signo probar la hipótesis nula Md=196 gramos contra la hipótesis alterna de Md>196 gramos, con un nivel de significancia α=0.01

198 204.6 199.6 201 199.4 192.4 198.5 205 206.6 194.8 200.8 197.8 196.6 196 203.2

+ + + + + - + + + - + + + 0 +

Page 67: ESTADÍSTICA INFERENCIAL

Aplicación de la distribución de probabilidad binomial:

Datos:

Se elimina el valor que resultó igual a Md; n=15-1=14n=14p=0.5q=0.5

El signo + es el que aparece mayor número de veces:12

P(x)=12,13,14P(12)=(14C12) (0.512)(0.52)=0.0056P(13)=(14C13)(0.513)(0.51)=0.00085P(14)=(14C14)(0.514)(0.50)=0.000061

∑P(12,13,14)=0.006511

Como P(0.006511)<0.01 se rechaza la hipótesis nula, por lo que se acepta Md>196

Page 68: ESTADÍSTICA INFERENCIAL

Prueba del signo para dos muestras

Se utiliza para establecer diferencias entre dos tratamientos, o determinar si uno es mejor que otro.

Se plantea la hipótesis:

Ho: Md1=Md2 Ha: Md1=Md2

Las comparaciones se hacen en relación con los datos de la muestra 1 (x1)

Pasos:

1. Si x1 es mayor a x2 se coloca un signo +2. Si x1 es menor a x2 se coloca un signo –3. Si los valores x1 y x2 son iguales, se coloca un cero y ese par de puntuaciones se

desaparece del tamaño de la muestra.4. Se utiliza la distribución de probabilidad binomial

H0 se acepta si:

2P(x)≥ αH0 se rechaza si

2P(x)< α

Page 69: ESTADÍSTICA INFERENCIAL

Ejemplo:

La siguiente tabla se refiere a los defectos en las unidades producidas por 10 trabadores, empleando un sistema antiguo de producción y un sistema de producción innovador. Utilizando una prueba del signo para dos muestras y un nivel de

significancia α=0.05 probar H0: Md1=Md2 contra H1: Md1 > Md2

Trab. 1 2 3 4 5 6 7 8 9 10

Ant. 4.5 7.3 4.6 12.4 3.3 5.7 8.3 3.4 2.6 1.7

Nvo. 3.6 6.0 4.4 11.9 3.5 5.1 7.7 2.9 2.4 1.1

SOLUCIÓN

. x1 4.5 7.3 4.6 12.4 3.3 5.7 8.3 3.4 2.6 1.7

x2 3.6 6.0 4.4 11.9 3.5 5.1 7.7 2.9 2.4 1.1

x1-x2

Page 70: ESTADÍSTICA INFERENCIAL

Datos:

n=10p=0.5q=0.5

P(x)=9,10P(9)=(10C x9) (0.59) (0.51)= 0.0098P(10)=(10C10) (O.510) (0.50)= 0.0010

2[∑P(9,10)]= 2( 0.0108)= 0.0216

Como P(0.0216)<0.05 se rechaza H0: por lo tanto se acepta que el

número de defectos en las unidades producidas es menor con el sistema nuevo.

Page 71: ESTADÍSTICA INFERENCIAL

PRUEBA H DE KRUSKAL - WALLIS

En la prueba de Kruskal – Wallis las muestras son independientes, es decir, los grupos, tratamientos o muestras no están relacionados entre sí.

La prueba H se puede aplicar a tres o más muestras ; es la prueba del análisis de varianza no paramétrico, que nos permite decidir si k muestras independientes vienen de poblaciones distintas.El tamaño de las muestras puede ser distinto o igual.

Pasos:

1. La hipótesis nula, H0, establece que las muestras proceden de la misma

población, o de poblaciones con medias iguales. H0: m1=m2=m3=….=mn.

2. La hipótesis alterna H1, las diferencias entre las muestras se debe a que no proceden de la misma población o de poblaciones con medias iguales. H1:m1≠m2≠m3≠….≠mn

3. Considerando todas las muestras como un solo grupo, se asigna el rango al lado de cada una de las puntuaciones, comenzando con un valor de 1 para la más pequeña.

4. Señalar con un asterisco, a rangos empatados.5. Obtener la sumatoria de los rangos correspondientes a cada muestra. Utilizar

las siguientes fórmulas y decidir si se acepta o rechaza la hipótesis nula.

Page 72: ESTADÍSTICA INFERENCIAL

Con esta fórmula obtenemos la variación entre los tratamientos.

jH= 12 ∑ Ri --3(N+1) N(N+1) i=1 ni

Donde:

N=es el número total de observaciones.Ri=suma del rango de la muestra i

ni=número de observaciones de la muestra i

El valor que se obtiene de H es contrastado con el valor de X2a,gl (ji-cuadrado)

grado de libertad gl=k-1; donde k representa el número de tratamientos o muestras.

Si existen rangos empatados:

El valor que se obtiene de HC es contrastado con el valor de X2a,gl (ji-cuadrado)

Page 73: ESTADÍSTICA INFERENCIAL

HC= H. .

j∑ (t3

i - ti) i=1 .

1 - (N3-N)

En donde:

ti= número de rangos empatados en la muestra i

N=número total de observacionesH=resultado de la fórmula 1

Si H O HC ≤ X2 a, gl se acepta H0

si H o HC > X2 a, gl se rechaza H0

FÓRMULA 2

Page 74: ESTADÍSTICA INFERENCIAL

Se tomaron muestras del precio de las acciones de 4 de las empresas más importantes del país. Los precios están cotizados en dólares. Utilizando la prueba de Kruskal-Wallis y un nivel de significancia de 5%, probar que estas pruebas proceden de poblaciones con medianas idénticas.

A Rango A B Rango B C Rango C D Rango D

1.19 1.08 0.98 1.12

1.05 1.23 1.19 1.14

1.14 1.26 1.08 1.31

1.25 1.10 0.93 1.12

1.29 1.18 1.23 1.19

1.14 1.18

Page 75: ESTADÍSTICA INFERENCIAL

A Rango A B Rango B C Rango C D Rango D

1.19 15* 1.08 4.5* 0.98 2 1.12 7.5*

1.05 3 1.23 17.5* 1.19 15* 1.14 10*

1.14 10* 1.26 20 1.08 4.5* 1.31 22

1.25 19 1.10 6 0.93 1 1.12 7.5*

1.29 21 1.18 12.5* 1.23 16.5* 1.19 15*

1.14 10* 1.18 12.5*

∑=68 ∑=70.5 ∑=51.1 ∑=62

SOLUCIÓN

Datos:

RA=68 nA =5 tA =2RB=70.5 nB =6 tA =4 RC=51.5 nc =6 tA =4RD=62 nD =5 tA =4N=22 k =4 gl =k-1=4-1=3

Page 76: ESTADÍSTICA INFERENCIAL

12 . 22(22+1)

682 + 70.52 + 51.12 + 622

5 6 6 5H= -3(22+1)=1.2929

Como existen rangos empatados se calcula HC

1.2929 . (23-2)+(43-4)+(43-4)+(43-4) (223-22)

1-H= =1.3159

HC < X2 0.05,3 se acepta H0 1.3159 < 7.81 se acepta HO, a un nivel e significancia de 5% los precios de las acciones de las 4 empresas tienen medianas idénticas. Es decir, no existe variación en el precio mediano de las acciones de las 4 empresas.

Page 77: ESTADÍSTICA INFERENCIAL
Page 78: ESTADÍSTICA INFERENCIAL

t

Page 79: ESTADÍSTICA INFERENCIAL
Page 80: ESTADÍSTICA INFERENCIAL

TABLA DE ANOVA DOS VÍAS

VARIACIÓNGRADOS DE

LIBERTAD

SUMA DE CUADRADO

S

VALORES MEDIOS

FC

VARIACIÓN ENTRE LOS

TRATAMIENTOS

b-1= VEB= VEB/ b-1=

VEB/ b-1SCDDTn-b-C+1

VARIACIÓN DENTRO DE

LOS TRATAMIENTOS

n-b-c+1= SCDDT= SCDDTN-b-C+1

SUMAn-C SCD=

Page 81: ESTADÍSTICA INFERENCIAL

TABLA DE ANOVA UNA VÍA

VARIACIÓNGRADOS DE

LIBERTADSUMA DE

CUADRADOSVALORES MEDIOS

FC

VARIACIÓN ENTRE LOS

TRATAMIENTOS

C-1= VET= VET/ C-1=

VET/ C-1SCDDT

n1+n2+n3-C

VARIACIÓN DENTRO DE LOS TRATAMIENTOS

n1+n2+n3-c= SCDDT= SCDDTn1+n2+n3-C

SUMAn-1 SCD=