Prueba de Hipótesis

17
1. Qué es una prueba de hipótesis Es un procedimiento estadístico basado en la evidencia muestral y la teoría de la probabilidad, con el que se juzga si una propiedad que se supone en una población es compatible con lo observado, produciendo aceptación o rechazo del parámetro estudiado y permitiendo tomar decisiones. 2. Cuáles son los aspectos a tener en cuenta En la distribución normal al realizar la prueba de hipótesis se debe tener en cuenta los siguientes aspectos: 1. Se parte de los supuestos: (a) la distribución es normal; (b) la muestra es aleatoria; (c) la desviación típica es conocida. 2. Se formula la hipótesis: la prueba puede ser unilateral derecha donde se emplean términos como mayor, superior, mejor, más; unilateral izquierda con términos como menor, inferior, exagerar, etcétera y bilateral con la palabra diferente. 3. Por otra parte, la hipótesis nula, donde se prueba la media simbolizada en Ho y la hipótesis alternativa por Ha o H 1 . Ejemplo: H0 : u =450 H0 : u =450 H0 : u =450 H1 : u =450 H1 : u >450 H1 : u <450 Bilateral Unilateral derecha Unilateral izquierda

description

Es un procedimiento estadístico basado en la evidencia muestral y la teoría de la probabilidad, con el que se juzga si una propiedad que se supone en una población es compatible con lo observado, produciendo aceptación o rechazo del parámetro estudiado y permitiendo tomar decisiones.

Transcript of Prueba de Hipótesis

1. Qué es una prueba de hipótesis

Es un procedimiento estadístico basado en la evidencia muestral y la teoría de la

probabilidad, con el que se juzga si una propiedad que se supone en una población es

compatible con lo observado, produciendo aceptación o rechazo del parámetro

estudiado y permitiendo tomar decisiones.

2. Cuáles son los aspectos a tener en cuenta

En la distribución normal al realizar la prueba de hipótesis se debe tener en cuenta los

siguientes aspectos:

1. Se parte de los supuestos: (a) la distribución es normal; (b) la muestra es aleatoria;

(c) la desviación típica es conocida.

2. Se formula la hipótesis: la prueba puede ser unilateral derecha donde se emplean

términos como mayor, superior, mejor, más; unilateral izquierda con términos como

menor, inferior, exagerar, etcétera y bilateral con la palabra diferente.

3. Por otra parte, la hipótesis nula, donde se prueba la media simbolizada en Ho y la

hipótesis alternativa por Ha o H1.

Ejemplo:

H0 : u = 450 H0 : u = 450 H0 : u = 450H1 : u = 450 H1 : u > 450 H1 : u < 450Bilateral Unilateral derecha Unilateral izquierda

4. Se estable el nivel de significación. Se utiliza el nivel 5% como resultado

significativo, el 1% poco significativo y 10% altamente significativo.

El nivel de significancia se simboliza por y será = 0,05, cuando sea

unilateral a la izquierda o la derecha, y de =0,025 si es bilateral.

5. Se le da valor a la variante estadística Z o t.

3. Qué pasos se deben tener en cuenta para realizar una prueba de hipótesis.

deben tener en cuenta muestras grandes y muestras pequeñas.

Para realizar una Prueba de Hipótesis se debe tener en cuenta los siguientes pasos:

a) Plantear la hipótesis tanto la nula como la alterna: La hipótesis nula (H0)

es el valor hipotético del parámetro que se compra con el resultado muestral

resulta muy poco probable cuando la hipótesis es cierta.

b) Determinar el nivel de significancia y el tamaño de la muestra: El nivel de

significancia del 5%, entonces se rechaza la hipótesis nula solamente si el

resultado muestral es tan diferente del valor hipotético que una diferencia de

esa magnitud o mayor, pudiera ocurrir aleatoria mente con una probabilidad

de 1.05 o menos.

c) Elegir el estadístico o prueba y la distribución muestral apropiados: La

estadística de prueba puede ser una versión transformada de esa estadística

muestral. Por ejemplo, para probar el valor hipotético de una media

poblacional, se toma la media de una muestra aleatoria de esa distribución

normal, entonces es común que se transforme la media en un valor z el cual, a

su vez, sirve como estadística de prueba.

d) Determinar los valores críticos: Habiendo especificado la hipótesis nula, el

nivel de significancia y la estadística de prueba que se van a utilizar, se

produce a establecer los valores críticos de estadística de prueba

e) Recopilar los datos y calcular del valor estadístico de la prueba: Por

ejemplo, al probar un valor hipotético de la media poblacional, se toma una

muestra aleatoria y se determina el valor de la media muestral. Si el valor

crítico que se establece es un valor de z, entonces se transforma la media

muestral en un valor de z.

f) Tomar la decisión estadística y establecer la conclusión administrativa. Si el

estadístico de prueba queda en la región de aceptación, no se rechaza la

hipótesis nula. Si el estadístico de prueba en la región crítica o de rechazo, se

rechaza la hipótesis nula.

MUESTRAS GRANDES

A continuación se relaciona un ejemplo de muestra grande:

El gerente de una fábrica de llantas quiere demostrar que la calidad de llantas

producidas, logran tener una duración de 4.900 horas, con una desviación tipita de 336

horas. Selecciona una muestra de 36 llantas y encuentra que el promedio de duración

es de 4.700 horas. ¿Al nivel del 5% se podrá afirmar que las llantas tienen una duración

superior a lo señalado por el gerente?

a. Hipótesis: La hipótesis nula dice que la duración de las llantas es de 4.900 horas

y la alterna es opuesta a la nula, pero en este caso se pide validar si se exagera en

la duración de las llantas, lo que indica que la prueba es Unilateral.

Por tanto: Ho: μ = 4.900

H1: μ < 4.900

b. Nivel de significancia y tamaño de la muestra: La muestra que se ha seleccionado es

de 36 llantas y el nivel de significancia es de 5%.

Por tanto: n= 36 y = 0,05

c. Puesto que se conoce la desviación estándar de la población = 336, se utiliza la

distribución normal y el estadístico de la prueba Z.

Z=x̄−μo

σ /√n

d. Valores Críticos: como = 5% = 0,05.

0,5 – 0,05= 0,45

Z= 1,64 o 1,65

Teniendo en cuenta que la hipótesis alterna de la región crítica está dada por Z < -1,645.

Grafica de Prueba Unilateral

e. Recopilar datos y calcular el estadístico:

X= 4.700 μ= 4.900 = 336 n= 36

Formula:

Z=x̄−μo

σ /√n = =

f. Como Z= -3,58 cae en la zona de rechazo, por ser un valor mayor que 1,645, se

concluye que al nivel 5%, si se puede afirmar que las llantas tienen una duración

superior al señalado por el gerente.

MUESTRAS PEQUEÑAS

Se continuará el desarrollo del tema con base en el ejemplo anterior, introduciendo

algunas pequeñas modificaciones que permitan explicar pequeñas modificaciones que

permitan explicar el procedimiento que se sigue, en aquellos casos que las muestra sea

pequeña y haya necesidad de trabajar con su desviación típica.

Ahora se presentan las formulas indicadas para muestras pequeñas:

El gerente de una fábrica de llantas quiere demostrar que la calidad de llantas

producidas, logran tener una duración de 4.900 horas, con una desviación tipita de 336

horas. Selecciona una muestra de 36 llantas y encuentra que el promedio de duración

es de 4.700 horas. ¿Al nivel del 5% se podrá afirmar que las llantas tienen una duración

superior a lo señalado por el gerente?

a. Hipótesis: La hipótesis nula dice que la duración de las llantas es de 4.900 horas

y la alterna es opuesta a la nula, pero en este caso no se está diciendo que la

duración sea mayor ni menor, es decir, la prueba es bilateral.

Por lo tanto:

Ho: μ = 4.900

b. Nivel de significancia y tamaño de la muestra: La muestra que se ha seleccionado es

de 36 llantas y el nivel de significancia es de 5%.

Por tanto: n= 36 y = 0,05

c. No se conoce la desviación estándar de la población y el tamaño de la muestra bes

pequeño; se utiliza la distribución t de estudent y el estadístico de la prueba t.

d. Valores Críticos: como = 5% = 0,05.

t= 2.064

Teniendo en cuenta que la hipótesis alterna de la región crítica o de rechazo está dada por t <-

2.064 y t > 2.064.

e. Recopilar datos y calcular el estadístico:

X= 4.700 μ= 4.900 s= 336 n= 36

Sustituyendo estos valores en la fórmula elegida, se obtiene:

t=

f. Como t= -3.354, cae en la zona de aceptación, se acepta la hipotesis nula; por tanto, a

un nivel del 5% se puede concluir que el producto cumple las especificaciones

establecidas por el gerente.

4. Cuáles son las aplicaciones.

Aplicación de intervalos o límites de confianza

Esta aplicación se utiliza para muestras grandes y pequeñas simultáneamente, las cuales

deben ser menores o iguales a 30.

El intervalo de confianza se aplica a un par o varios pares de números entre los cuales se

estima que estará cierto valor desconocido con una determinada probabilidad de acierto.

Formalmente, estos números determinan un intervalo, que se calcula a partir de datos de

una muestra, y el valor desconocido es un parámetro poblacional. La probabilidad de

éxito en la estimación se representa con 1 - α y se denomina nivel de confianza. En estas

circunstancias, α es el llamado error aleatorio o nivel de significación, esto es, una

medida de las posibilidades de fallar en la estimación mediante tal intervalo.

Un intervalo de confianza al 1 - α por ciento para la estimación de un parámetro

poblacional θ que sigue una determinada distribución de probabilidad, es una expresión

del tipo [θ1, θ2] tal que P[θ1 ≤ θ ≤ θ2] = 1 - α, donde P es la función de distribución de

probabilidad de θ.

Aplicación en pruebas de regresión y correlación

Series de tiempo o cronológicas:

Una serie temporal o cronológica hacen referencia a una secuencia de datos,

observaciones o valores, medidos en determinados momentos y ordenados

cronológicamente. Los datos pueden estar espaciados a intervalos iguales (como la

temperatura en un observatorio meteorológico en días sucesivos al mediodía) o

desiguales (como el peso de una persona en sucesivas mediciones en el consultorio

médico, la farmacia, etc.).

Para el análisis de las series temporales se usan métodos que ayudan a interpretarlas y

que permiten extraer información representativa sobre las relaciones subyacentes entre

los datos de la serie o de diversas series y que permiten en diferente medida y con

distinta confianza extrapolar o interpolar los datos y así predecir el comportamiento de

la serie en momentos no observados, sean en el futuro (extrapolación pronostica), en el

pasado (extrapolación retrógrada) o en momentos intermedios (interpolación)..

1. Componentes

El análisis más clásico de las series temporales se basa en que los valores que toma la

variable de observación es la consecuencia de cuatro componentes, cuya actuación

conjunta da como resultado los valores medidos, estos componentes son:

a. Tendencia secular o regular, indica la marcha general y persistente del

fenómeno observado, es una componente de la serie que refleja la evolución a

largo plazo. Por ejemplo, la tendencia creciente del índice de reciclado de basuras

en los países desarrollados, o el uso creciente de Internet en la sociedad,

independientemente de que en un mes concreto en un país, por determinadas

causas, haya una baja en la utilización de Internet.

b. Variación estacional o Variación cíclica regular. Es el movimiento periódico

de corto plazo. Se trata de una componente causal debida a la influencia de

ciertos fenómenos que se repiten de manera periódica en un año (las estaciones),

una semana (los fines de semana) o un día (las horas puntas) o cualquier otro

periodo. Recoge las oscilaciones que se producen en esos períodos de repetición.

c. Variación cíclica. Es el componente de la serie que recoge las oscilaciones

periódicas de amplitud superior a un año. movimientos normalmente irregulares

alrededor de la tendencia, en las que a diferencia de las variaciones estacionales,

tiene un período y amplitud variables, pudiendo clasificarse como cíclicos,

cuasicíclicos o recurrentes.

d. Variación aleatoria o ruido, accidental, de carácter errático, también

denominada residuo, no muestran ninguna regularidad (salvo las regularidades

estadísticas), debidos a fenómenos de carácter ocasional como pueden ser

tormentas, terremotos, inundaciones, huelgas, guerras, avances tecnológicos, etc.

e. Variación trasciende, accidental, de carácter errático debido a fenómenos

aislados que son capaces de modificar el comportamiento de la serie (tendencia,

estacionalidad variaciones cíclicas y aleatorias).

2. Tipos de series temporales

Aditivas, se componen sumando la Tendencia, estacionalidad, variación cíclica

regular, variación cíclica irregular, ruido: 

Multiplicativas, se componen multiplicando la Tendencia, estacionalidad, variación

cíclica regular, variación cíclica irregular, ruido: 

Mixtas, se componen sumando y multiplicando la Tendencia, estacionalidad,

variación cíclica regular, variación cíclica irregular, ruido. Existen varias

alternativas, entre otras:

Prueba del coeficiente de Regresión

Es necesario utilizar la ecuación de la recta, mediante el método de los mínimos

cuadrados, para hallar el valor correspondiente a b denominado, como ya se anotó,

Coeficiente Angular o Pendiente. En la población este parámetro se simboliza por B1 y

en la calculadora se simboliza con una B.

Hallar el valor de b.

Ejemplo del libro guía:

Este valor cae en la región crítica.

Al nivel del 5% se puede concluir que si hay relación entre las dos variables, por tanto

la estimación de una en función de la otra es posible.

Correlación

Esta determina la relación o dependencia que existe entre las dos variables que

intervienen en una distribución bidimensional.

Es decir, determinar si los cambios en una de las variables influyen en los cambios de la

otra. Si esto sucede, quiere decir que hay correlación entre ellas.

Coeficiente de correlación:

El coeficiente de correlación lineal se expresa mediante la letra r.

Propiedades

1. El coeficiente de correlación no varía al hacerlo la escala de medición.

Es decir, si expresamos la altura en metros o en centímetros el coeficiente de

correlación no varía.

2. El signo del coeficiente de correlación es el mismo que el de la covarianza.

Si la covarianza es positiva, la correlación es directa.

Si la covarianza es negativa, la correlación es inversa.

Si la covarianza es nula, no existe correlación.

3.  El coeficiente de correlación lineal es un número real comprendido entre

menos −1 y 1.

−1 ≤ r ≤ 1

4. Si el coeficiente de correlación lineal toma valores cercanos a −1 la correlación

es fuerte e inversa, y será tanto más fuerte cuanto más se aproxime r a −1.

5. Si el coeficiente de correlación lineal toma valores cercanos a 1 la correlación

es fuerte y directa, y será tanto más fuerte cuanto más se aproxime r a 1.

6. Si el coeficiente de correlación lineal toma valores cercanos a 0, la correlación

es débil.

7. Si r = 1 ó −1, los puntos de la nube están sobre la recta creciente o decreciente.

Entre ambas variables hay dependencia funcional.

5. Qué es el coeficiente de correlación de spearman

Se define como termino estadístico el coeficiente de correlación de spearman a la

medida efectuada cuando una o ambas escalas de medidas de variables son

proporcionales a sus misma longitud permitiendo identificar si dos variables se

relacionan en una fusión es decir que cuando un número aumenta el otro también o en

viceversa, dicha medida se rige por las reglas de correlación simple de person, y las

mediciones de este índice corresponden a +1 a -1, la ecuación utilizada Cuando en el

ordenamiento de los rangos de las observaciones no hay datos empatados o ligados, es

la siguiente:

Donde:

rs = coeficiente de correlación de Spearman.

d2 = diferencias existentes entre los rangos de las dos variables, elevadas al cuadrado.

N = tamaño de la muestra expresada en parejas de rangos de las variables.

Con ello se efectúa un proceso de investigación y desarrollo con determinados pasos

como:

Clasificar en rangos cada medición de las observaciones.

Obtener las diferencias de las parejas de rangos de las variables estudiadas y

elevadas al cuadrado.

Efectuar la sumatoria de todas las diferencias al cuadrado.

Aplicar la ecuación.

Calcular los grados de libertad (gl). gl = número de parejas. (Solo se utilizará

cuando la muestra sea mayor a 10).

Comparar el valor r calculado con respecto a los valores críticos de la tabla de

valores críticos de t de Kendall en función de probabilidad.

Decisión de la hipótesis.

6. Qué es la prueba del signo

Según el autor Ciro Martínez, es una prueba no paramétrica la cual es utilizada

frecuentemente en casos cuando se tiene poca seguridad de que los datos

provengan de una distribución que tenga un comportamiento similar o anormal.

Para aplicar esta prueba se toma solamente el signo de las diferencias en cada par de

observaciones, se realiza la suma de signos positivos y signos negativos y los valores la

diferencia entre ellos es igual a cero, partiendo del hecho de que una distribución tenga

igual número de signos positivos y negativos se dirá que p=0.5 (corresponde al signo

positivo).

µ=np y ó=√npq

X= Nro de signos positivos más 0.5 si el valor es menor que µ si es mayor se le

restara0.5