Distribucion T

25
Introducción Esta distribución fue investigada originalmente por Willian S. Gosset (1908) quien publico sus escritos con el seudónimo “Student” (Estudiante) y en su memoria suele llamarse “Distribución t de Student” Para obtener la función de esta distribución, Gosset supuso que las muestras eran tomadas de una población normal. Luego, pudo demostrarse que aún cuando la población no sea normal, si su distribución tiene forma de campana, sigue proporcionando valores que se aproxima bastante a la t de Student. El principal campo de aplicación de la distribución t se refiere a la inferencia acerca de una media y dos medias poblacionales cuando el tamaño de la muestra es pequeño, se desconoce la desviación estándar de la población y al aplicarla, se supone que la población de donde se selecciona la muestra es normal o aproximación normal. En este capítulo se estudian los procedimientos de inferencia acerca de una media y dos medias poblacionales cuando e tienen esas condiciones. A continuación se va a introducir el concepto de grados de libertad, que se necesita `para comprender la definición de la variable alectoria t. CONCEPTO DE GRADOS DE LIBERTAD Recuérdese que la varianza de una muestra de una muestra requiere del cálculo de : i=1 n ( X i X ) 2 Por lo tanto, para calcular S 2 se necesita conocer primero el valor de la media muestral ( X). Por consiguiente se puede

Transcript of Distribucion T

Introducción

Esta distribución fue investigada originalmente por Willian S. Gosset (1908) quien publico sus escritos con el seudónimo “Student” (Estudiante) y en su memoria suele llamarse “Distribución t de Student”

Para obtener la función de esta distribución, Gosset supuso que las muestras eran tomadas de una población normal. Luego, pudo demostrarse que aún cuando la población no sea normal, si su distribución tiene forma de campana, sigue proporcionando valores que se aproxima bastante a la t de Student.

El principal campo de aplicación de la distribución t se refiere a la inferencia acerca de una media y dos medias poblacionales cuando el tamaño de la muestra es pequeño, se desconoce la desviación estándar de la población y al aplicarla, se supone que la población de donde se selecciona la muestra es normal o aproximación normal. En este capítulo se estudian los procedimientos de inferencia acerca de una media y dos medias poblacionales cuando e tienen esas condiciones.

A continuación se va a introducir el concepto de grados de libertad, que se necesita `para comprender la definición de la variable alectoria t.

CONCEPTO DE GRADOS DE LIBERTAD

Recuérdese que la varianza de una muestra de una muestra requiere del cálculo

de :∑i=1

n

( X i−X )2

Por lo tanto, para calcular S2 se necesita conocer primero el valor de la media muestral (X ). Por consiguiente se puede decir que solo n-1 de los valores de la muestra están libres ara variar, es decir hay n-1 grados de libertad.

Los grados de libertad se denotan por la letra griega ʋ (nu) y se determinan por e número de comparaciones linealmente independientes que se pueden hacer entre las n observaciones.

Definiciones:

La distrbuciones t de student , surgen como el cociente de dos variables alectorias independientes: una normal estadantarizada en el numerador (Z) y la raíz cuadrada de una JI- cuadrada(χ2) entre sus grados de libertad (ʋ) en el denominador. Es decir

a. La variable alectorizada Z, definida por:

Z= X−μσ

√n

Tiene distribución N(0,1)

b. La variable alectoria U, definida por:

U=∑i=1

n ( X i−X

σ )Tiene distribución Ji – cuadrado (χ2) con ʋ (un) grados de libertad.

Las variables Z y χ2 definidas anteriormente son variables alectorias independientes.

Tomando en cuenta consideraciones, matemáticamente, la variable alectorias:

t= Z

√ X2

v

Tiene distribución t de student con ʋ grados de libertad.

Una variable alectoria continua X se distribuye según una t con ʋ grados de libertad si su función de densidad está dada por:

f ( x )=Γ [ ʋ+1

2 ]Γ ( ʋ2 )√ πʋ

(1+ χ 2ʋ )

−( ʋ+1) /2

−∞< x<∞

Donde el parámetro ʋ es un entero positivo.

Características:

1. Parámetro: una distribución t queda completamente descrita por su único parámetro, el número de grados de libertad (ʋ).

2. Es una variable alectoria continua.3. Forma: es una distribución unimodal y simétrica con respecto a su media.4. Rango: el campo de variación de esta variable es (−∞<x<∞ ¿.

5. La media de la distribución t es: E(T)=0

Varianza de la distribución t , cuando ʋ≥3 es:

V (t )= vv−2

6. La familia de distribución: Existe una distribución t diferente, para cada grado de libertad, cada una de las cuales tiene la misma media (0) pero una desviación típica diferente, dependiendo de los grados de libertad.

7. Aproximación a la normal: A medida que aumenta el número de grados de libertad, la distribución T se aproxima en forma gradual a la distribución normal hasta que las dos son prácticamente iguales

Comparación entre la distribución normal estandarizada y la distribución t

La distribución t es similar a la distribución normal estandarizada (Z) en los siguientes procesos:

Son distribución continuas, unimodales y simétricas con respecto a su media.

Tiene forma de campana. El recorrido abarca dese menos infinito hasta mas infinito. El valor esperado de una variable t coincide con el valor esperado de una

variable Z, es decir E(t)=0 y E(z)=0.

La distribución t se diferencia de la distribución Z en los siguientes aspectos.

Cuando los grados de libertad son pequeños, la distribución t tienen mayor

variabilidad que la distribución Z, debido a que V ( t )= vv−2

>1 y Var(Z)=1

independientemente del tamaño de la muestra por lo tanto la curva t está más extendida en la parte de las colas y más aplanada en la zona del centro.

Existen muchas distribuciones t, mientras que sólo hay una distribución normal estándarizada.

Mientras que la forma de la distribución normal general depende del valor de la media (µ) y de la desviación típica (σ), la forma de la t depende únicamente de los grados de libertad.

Uso de la Tabla

La tabla estadística da la información concerniente a la distribución t de student. En la tabla 1.1 se muestra una reproducción parcial de la tabla.

Tabla 1,1 reproducción parcial de la tabla 9 de las tablas estadísticas.

En la primera fila de esta tabla (Q) se presenta las probabilidades que se sitúan en la cola superior (o inferior) de la distribución.

En la segunda fila (2Q) se especifican las probabilidades ubicadas en los dos extremos de la distribución. Cada una de las probabilidades presentadas en las filas 2Q es igual a la suma de ambas áreas, la de la cola superior y la de la cola inferior de la distribución.

En la primera columna de esta tabla se enuncian los valores de los grados de libertad, que van de (1,2,……,30,40,60,120,∞).

Los valores de la variables t se dan ene l cuerpo de la tabla, estos valores indican el valor de t tal que a su derecha (o su izquierda), o en los dos extremos se encuentran un área especificada, según se muestra en la figura

Se observa que en la tabla solamente aparecen los valores positivos de la t, los valores negativos quedan debido al hecho de que la distribución t es simétrica con respecto a su media que es igual a cero, por lo tanto, el valor t que deja a su derecha un área α es igual al valor de t que deja a su izquierda un área α; pero con signo cambiado.

Ejemplos relacionados con el uso de la tabla T

Dada una variable alectoria t de student con 12 grados de libertad, hallar el valor t que deja un área de 0,05 a su derecha.

Solución: En la tabla 9 se ubica en la primera columna el Nº de grados de libertad que en este caso es 12, en la primera fila se localizan el valor de Q=0,05 y se halla que el valor de t es igual a 1,782.

Dada una variable alectoria t de student con 12 grados de libertad, hallar el valor t que deja un área de 0,05 a su izquierda.

Solución: debido a la simetría de la distribución se tiene que el valor es el mismo que en el ejemplo anterior, pero con signo cambiado, es decir t=-1,782.

Dada una variable alectoria t de student con 12 grados de libertad, hallar el valor t que deja un área total es de 5% en ambos lados extremos de su valor.

Solución: En la tabla 9 se ubica en la primera columna el Nº de grados de libertad ʋ=12, en la segunda fila se localizan el valor 2Q=0,05 y se halla que el valor t para la cola derecha es igual a 2,179, debido a la simetría de la distribución el valor t para la cola izquierda es el mismo, pero con signo cambiado, es decir t=-2.179

Nota:

Observando la tabla, puede verse que la distribución t cuando los grados de libertad son grandes se acerca a la distribución Z. por ejemplo, el valor Z que corta el 5% superior de la distribución es 1.645 y los valores t que cortan el 5%superior de la distribución para v =10,20,30 y 60 son 1,812; 1,725;1,697 y 1,671, respectivamente. El valor t se vuelve cada vez ms cercano a 1,645 conforme el valor de los grados de libertad se vuelve cada vez más grande. Cuando ʋ tienden a infinito, el valor t que corta el 5% superior de la distribución es igual que coinciden con el valor Z.

APLICACIONES

En este capítulo se va a utilizar la distribución t para hacer inferencia acerca de una y dos medias poblacionales en los siguientes casos:

Estimación y prueba de hipótesis acerca de una media poblacional (cuando el tamaño de la muestra es pequeño, seleccionada de una población normal y aproximación normal y la varianza poblacional desconocida).

Estimación y prueba de hipótesis acerca de dos medias poblacionales cuando:

Las muestras son independientes, varianzas poblacionales desconocidas y las muestras de tamaño pequeño, seleccionadas de poblaciones normales o aproximadamente normales.

Las muestras son dependientes, varianzas poblacionales desconocidas y las muestras de tamaño pequeño, seleccionadas de poblaciones normales o aproximadamente normales.

INFERENCIA ESTADÍSTICA CON RESPECTO A UNA MEDIA POBLACIONAL

Se puede realizarla inferencia estadística con respecto a una media poblacional, utilizando la estimación o la prueba de hipótesis.

Recuérdese que la estimación es el proceso mediante el cual utiliza los resultados de una muestra representativa para estimar el valor del parámetro poblacional desconocido, y la prueba de hipótesis los utiliza para tomar decisiones acera de poblaciones o sus para metros.

En la asignatura se estudiaron los procedimientos a seguir para hacer inferencia acerca de una media poblacional, en los siguientes casos:

Cuando se conoce la desviación estándar poblacional(σ) sin importar que el tamaño de la muestra sea grande o pequeño y la población de donde se extrae la muestra es normal, el estadístico apropiado es:

Z= X−μσ x

= X−μσ

√n

El cual tiene distribución N(0,1).

Cuando no se conoce la desviación estándar poblacional (σ) pero el tamaño de la muestra es grande (n≥30), entonces, la desviación estándar muestral (S) es una buna estimación de la desviación estándar poblacional (σ); es decir: S ≈ σ, y el estadístico apropiado es:

Z= X−μσ x

= X−μσ

√n

El cual tiene distribución N(0,1).

Sin embargo, la distribución normal no es apropiado, cuando no se conocen la desviación estándar de la población (σ), el tamaño de la muestra es pequeño (n<30) y la población de donde se selecciona la muestra es normal o aproximadamente normal. Cuando se tienen estas condiciones la distribución apropiada es la distribución t.

Se demuestran que la desviación estándar muestral es tanto más pequeña que la desviación estándar poblacional, cuanto menor sea el tamaño de la muestra.

S≈ σ si n ≥ 30 (muestra grande)

S≈ σ si n < 30 (muestra pequeña)

Cuando (σ) es desconocida y n< 30, se puede sustituir a σ por S en la estandarización, es decir:

X−μS

√n

Ahora bien, al sustituir σ por S, la distribución resultante ya no es normal, ya que

en la razón X−μS

√n se le ha añadido un elemento más de incertidumbre (el

estimador S). Se demuestra que el cociente X−μS

√n sigue una distribución t y su

variable alectoria se denota de la siguiente manera:

t= X−μS

√n

= X−μSx

El cual tiene distribución t con ʋ= n-1

ESTIMACIÓN PARA LA MEDIA DE UNA POBLACIÓN (µ)

Estimación puntual: El mejor estimador puntual de la media poblacional (µ) está dado por la media muestral (X ¿¿

Estimación por intervalo: Se utiliza para obtener los limite del intervalo de confianza para la media de una población en los siguientes casos:

Cuando se conoce la desviación estandar poblacional (σ), sin importar que el tamaño de la muestra sea grande o pequeña y la población de donde se extrae la muestra es normal. Bajo estas condiciones, los límites del intervalo de confianza para la media de una población son:

X ±Z α2

σ x=X ±Z α2

σ

√n

Cuando no se conoce la desviación estándar poblacional (σ) pero el tamaño de la muestra es grande (n≥30), entonces, la desviación estándar de la muestra (S) es un buen estimador de la desviación estándar poblacional (σ). Bajo estas condiciones, los límites del intervalo de confianza para la media de la población son:

X ±Z α2

σ̂ x=X ±Z α2

σ̂

√n

Sin embargo, existen situaciones en la vida real en las cuales se desea estimar una media poblacional (µ) cuando se desconoce la desviación estándar poblacional (σ) y el tamaño de la muestra es pequeño (n < 30), debido a que existen limitaciones operativas que frecuentemente limitan el tamaño de la muestra. En este caso, se pueden calcular los límites del intervalo de confianza utilizando la distribución t, cuando la población de donde se selecciona la muestra tiene distribución normal o aproximadamente normal.

Como la distribución t, al igual que la distribución normal estándar, es simétrica con respecto a su media µ=0, se puede utilizar para calcular un intervalo de confianza de (1- α)% para la media poblacional, usando la distribución t, el mismo procedimiento que se siguió con la distribución normal, la única diferencia es que t α/2 toma el lugar de Z α/2 y S el lugar de σ, por lo tanto, los límites del intervalo de confianza para la media poblacional (µ) son:

X ± tn−1 ;

α2

S

√n

Dónde:

X : Es la media de la muestra y se utiliza como el estimador puntual de la media poblacional. Se calcula mediante la siguientes formula.

X=∑ X i

nó X=

∑ X i f i

n

tn−1; α

2 :Es un valor que se busca en la tabla estadística con n-1 grados e libertad y

una probabilidad de α/2 , si se utilizan la primera fila de la tabla (Q) o una probabilidad de α, si se utilizan directamente la segunda fila de la tabla (Q2) porque en ella se recoge el α total del problema.

S: Es la desviación estándar de la muestra y se calcula mediante una de la siguientes formulas.

S=√∑ (X i−X )2

n−1=√∑ X i

2−n X2

n−1

( para datos agrupados)

Ejemplo:

El gerente de un supermercado esta interesado en estimar el tiempo promedio de espera de los clientes en una caja en las horas piso. Para ello, se toma una muestra aleatoria de 18 clientes y se anota sus tiempos de espera, obteniéndose un tiempo promedio de espera de 6 minutos, con una desviación estándar de 2 minutos. En base a esta información encuentre:

a. La mejor estimación puntual para el verdadero tiempo promedio de espera de los clientes.

b. Un intervalo de confianza del 95% para estimar el verdadero tiempo promedio de espera de los clientes.

c. Interprete el intervalo de confianza obtenido en la parte (b).d. ¿Cuáles supuestos son necesarios para realizar la estimación de la parte (b)?

Solución:N=18

X=6 Minutos media muestral

S= 2 minutos desviación estándar de la muestra.

a. La mejor estimación puntual para el verdadero tiempo promedio de espera de los clientes es X=6 minutos.

b. En este ejercicio se utilza la distribución t, porque el tamaño de la muestra es pequeño (n< 30), la desviación estándar poblacional desconocida y se supone que el tiempo de espera de los clientes se distribuye normalmente. Por lo tanto, los límites del intervalo de confianza para la media poblacional (µ) son:

X ± tn−1 ;

α2

S

√n

El primer paso para calcular el intervalo es obtener la estimación puntual del parámetro de interés, que en este ejercicio es la media muestral (X ¿= 6 minutos ( estimación puntual).

El segundo paso es buscar en la tabla el valor t n−1; α2 que en este ejercicio seria:

t18−1 ; o ,o5

2

=t 17 ;o , o25=2,110

El tercer paso es calcular el error estándar de la media muestral.

Sx=S

√n= 2

√18= 24,24

=0,47

Los límites serian: X ± tn−1 ;

α2

S

√n

6 ± 2,110(0,47)

6 ± 0,99

Por lo tanto, el intervalo de confianza seria:

(5,01 < µ <6,99)

c. Interpretación del intervalo de confianza: El gerente puede establecer que el verdadero tiempo promedio de espera de todos los clientes entre (5,01 y 6,99) minutos con un 95% de confianza.

d. Se supone que el tiempo de espera de los clientes es normal o aproximadamente normal.

Ejemplo: Se selecciona una muestra aleatoria de 8 restaurantes en la cuidad de Mérida y se obtiene que las ventas mensuales han sido de:170,160,140,180,140,200,150, y 250 (en miles de bolívares). Usando esta información se pide:

a. Calcular la media muestral ( X ) y la desviación estándar muestral (S).

b. Calcule el error estándar de la media muestral (Sx ).c. Construya un intervalo de confianza del 90% para estimar las ventas

mensuales promedio en todos los restaurantes del mismo tipo en la Cuidad de Merida.

Solución:

Xi ( ventas miles de bolívares)

Xi2

140 19.600140 19.600150 22.500160 25.600170 28.900180 32.400200 40.000250 62.500

1.390 251.100

X=∑ X i

n=1.390

8=173,75miles de bolivares

Como la media muestral no es un numero entero, la desviación estándar muestral de los valores dados se calcula por medio de la formulas:

S=√∑ X i2−n X2

n−1=√ 251.100−8(173.75)28−1

=√ 251.100−241.512,507 =37,01

b.Error estándar de la media muestral (Sx ).

Sx=S

√n=37,01

√8=13.09

c. Como el tamaño de la muestra es pequeño, la desviación estándar

Poblacional desconocida y se supone que la población de donde se seleccionó la muestra es normal o aproximación normal, los limtes del intervalo de confianza para las ventas mensuales promedio en todos los restaurantes del mismo tipo de ciudad de Mérida son:

X ± tn−1 ;

α2

S

√n

El estimador puntual esta dado la media muestral, es decir X=173,75miles debolivares (estimación puntual)

Los valores críticos ± tn−1 ; α

2 se obtiene en la tabla estadística usando n-1=8-

1=7 grados de libertad y Q= 0,05 y se halla que ± tn−1 ; α

2

=1,895

El error estándar de la media muestral Sx=13,90 (valor calculado en la parte (b)).

Sustituyendo estos valores en la expresión X ± tn−1 ;

α2

S

√n se obtiene:

173,75±1,895(13,09)

Límite inferior 173,75 – 24,81=148,94

173,75±24,81

Límite superior 173,75 + 24,81=198,56

Por lo tanto, el intervalo de confianza del 90% para las ventas mensuales promedio de todos los restaurantes sería:

(148,94 < µ < 198,56) miles de bolívares.

d. Se espera con una confianza del 90% que las ventas mensuales promedio en todos los restaurantes del mismo tipo en la cuidad de Mérida se encuentran en el intervalo hallado.

PRUEBA DE HIPÓTESIS PARA MEDIA DE UNA POBLACIÓN (µ)

Cuando se desconoce la desviación estándar poblacional(σ), el de la tamaño de la muestra es pequeña (n<30) y la población es normal o aproximación normal, se utiliza la distribución t para probar hipótesis con respecto a la media de una población utilizando el siguiente el procedimiento:

Paso 1: Se plantea la hipótesis nula y la alternativa. Se debe escoger una de las siguientes opciones.

(a) (b) (c)Ho:µ=µo ó µ≤ µo Ho:µ=µo ó µ≥ µo Ho:µ=µo

H1=µ > µo H1=µ< µo H1=µ≠ µo

Paso 2 : Se escoge el nivel de significación α

Paso 3: Se determina el estadístico de prueba apropiado. La distribución t de student, es la distribución a utilizar en este caso, y el estadístico apropiado bajo la hipótesis nula Ho:µ=µo es el siguiente.

t=X−μo

S√n

Que tiene distribución t con n-1 grado de libertad.

Paso 4: Se determinan la región crítica y el valor crítico.

Cuando la H1 es unilateral derecha (H1=µ > µo ), entonces la región critica se localiza en la cola superior de la distribución t y el valor critico se localiza en la tabla con v=n-1 y α=Q.

Cuando la H1 es unilateral izquierda (H1=µ <µo ), entonces la región critica se localiza en la cola inferior de la distribución t y el valor critico se localiza en la tabla con v=n-1 y α=Q, teniendo presente de cambiarle el signo, porque en la tabla solamente aparecen los valores positivos de la t, ya que la distribución t es simétrica con respecto a su media.

Cuando la H1 es unilateral izquierda (H1=µ≠ µo), las región critica se localiza en los extremos superiores e inferiores de la distribución t y los valor critico se localiza en la tabla con v=n-1 y α=2Q.

Paso 5: Se calcula el valor del estadístico de prueba.

Paso 6:

Decisión e interpretación: Si el valor calculado del estadístico de prueba cae en la región de rechazo, entonces se decide ta o se rechazar la hipótesis nula y aceptar lo planteado en la hipótesis alternativa al nivel de significación α. Cuando el valor calculado cae en la región de aceptación se decide no rechazar Ho al nivel de significación α, Se interpreta o se concluye de acuerdo a lo planteado en el problema.

Ejemplo: En una planta de armado, el gerente sospecha que el tiempo promedio que tarda el operador para realizar una operación es mayor que 5 minutos. Seleccionan una muestra aleatoria de 10 tiempo de operaciones y obtiene los siguientes resultados ( en minutos). 5,8; 5,6; 5,3 ; 5,2; 4,9; 4,7; 5,7; 4.9; 5,7; 6,0. Se supone que el tiempo de operación se aproxima a una distribución normal se pide:

a. ¿Se encuentran la sospecha del gerente apoyada por la evidencia en la muestra con α=0,01.

b. Obtenga un intervalo de confianza del 99% para estimar el verdadero tiempo promedio de operación. Interprete el resultado.

Datos:

µ> 5 Sospecha del gerente: el tiempo promedio que tarda el operador para realizar una operación específica es mayor de cinco minutos.

n=10 tamaño de la muestra.

Xi (tiempo de operaciones en minutos): 5,8; 5,6; 5,3 ; 5,2; 4,9; 4,7 ; 5,7 ; 4.9; 5,7; 6,0.

Solución: parte (a)

1. Ho:µ=5 (los datos muestrales no apoyan la sospecha del gerente)

H1=µ > 5 (los datos muestrales no apoyan la sospecha del gerente).

2. Nivel de significación: α= 0,01

3. Estadistico de prueba apropiado: Como n< 30, la desviación estándar poblacional se desconoce y se supone que el tiempo de operación se

aproxima a la distribución normal, el estadístico apropiado será: t=

X−μo

S√n

4. Región crítico y valor crítico:

5. Calcular el valor del estadístico de prueba: para calcular el valor del estadístico de prueba es necesario obtener los valores de xy S

xi Xi2

4,7 22,094,9 24,014,9 24,01

5,2 27,045,3 28,095,6 31,365,7 32,495,7 32,49

5,8 33,646,0 36,0053,8 291,22

La media muestral de los valore dados es:

X=∑ X i

n=153,810

=5,38minutos

La desviación estándar muestral de los valores dados es:

¿√∑ X i2−n X2

n−1=√ 291,22−10(5,38)210−1

=√ 291,22−289,449=0,44

Y el valor del estadístico seria:

t=X−μo

S√n

=5,38−50,44√10

=2,714

6. Región crítica y valor critico

7. Decisión o interpretación: Como el valor calculado t =2,714 cae en al región de aceptación, se decide no rechazo Ho l nivel de significación de 0,01. Se concluye que los datos muestrales no apoyan la sospecha del gerente.

Parte (b):

1-α=0,99 α= 0,01

Los límites del intervalo de confianza para µ son:

X ± tn−1 ;

α2

S

√n

X=5,38 minutos

tn−1; α

2

=t10−1 ; 0,01

2=¿t 9;0,005=3,25¿

S

√n=0,44

√10=0,14

Sustituyen estos valores en los límites del intervalo nos queda:

5,38 ± 3,25(0,14)

5,38±0,46

Interpretación:

Se espera con un 99% de confianza de que el verdadero tiempo promedio que tarda el operador en realizar una operación especifica se encuentran entre 4,92 y 5,84 minutos.