Prueba de Hipótesis
-
Upload
angelrodriguez -
Category
Documents
-
view
224 -
download
0
description
Transcript of Prueba de Hipótesis
1. Qué es una prueba de hipótesis
Es un procedimiento estadístico basado en la evidencia muestral y la teoría de la
probabilidad, con el que se juzga si una propiedad que se supone en una población es
compatible con lo observado, produciendo aceptación o rechazo del parámetro
estudiado y permitiendo tomar decisiones.
2. Cuáles son los aspectos a tener en cuenta
En la distribución normal al realizar la prueba de hipótesis se debe tener en cuenta los
siguientes aspectos:
1. Se parte de los supuestos: (a) la distribución es normal; (b) la muestra es aleatoria;
(c) la desviación típica es conocida.
2. Se formula la hipótesis: la prueba puede ser unilateral derecha donde se emplean
términos como mayor, superior, mejor, más; unilateral izquierda con términos como
menor, inferior, exagerar, etcétera y bilateral con la palabra diferente.
3. Por otra parte, la hipótesis nula, donde se prueba la media simbolizada en Ho y la
hipótesis alternativa por Ha o H1.
Ejemplo:
H0 : u = 450 H0 : u = 450 H0 : u = 450H1 : u = 450 H1 : u > 450 H1 : u < 450Bilateral Unilateral derecha Unilateral izquierda
4. Se estable el nivel de significación. Se utiliza el nivel 5% como resultado
significativo, el 1% poco significativo y 10% altamente significativo.
El nivel de significancia se simboliza por y será = 0,05, cuando sea
unilateral a la izquierda o la derecha, y de =0,025 si es bilateral.
5. Se le da valor a la variante estadística Z o t.
3. Qué pasos se deben tener en cuenta para realizar una prueba de hipótesis.
deben tener en cuenta muestras grandes y muestras pequeñas.
Para realizar una Prueba de Hipótesis se debe tener en cuenta los siguientes pasos:
a) Plantear la hipótesis tanto la nula como la alterna: La hipótesis nula (H0)
es el valor hipotético del parámetro que se compra con el resultado muestral
resulta muy poco probable cuando la hipótesis es cierta.
b) Determinar el nivel de significancia y el tamaño de la muestra: El nivel de
significancia del 5%, entonces se rechaza la hipótesis nula solamente si el
resultado muestral es tan diferente del valor hipotético que una diferencia de
esa magnitud o mayor, pudiera ocurrir aleatoria mente con una probabilidad
de 1.05 o menos.
c) Elegir el estadístico o prueba y la distribución muestral apropiados: La
estadística de prueba puede ser una versión transformada de esa estadística
muestral. Por ejemplo, para probar el valor hipotético de una media
poblacional, se toma la media de una muestra aleatoria de esa distribución
normal, entonces es común que se transforme la media en un valor z el cual, a
su vez, sirve como estadística de prueba.
d) Determinar los valores críticos: Habiendo especificado la hipótesis nula, el
nivel de significancia y la estadística de prueba que se van a utilizar, se
produce a establecer los valores críticos de estadística de prueba
e) Recopilar los datos y calcular del valor estadístico de la prueba: Por
ejemplo, al probar un valor hipotético de la media poblacional, se toma una
muestra aleatoria y se determina el valor de la media muestral. Si el valor
crítico que se establece es un valor de z, entonces se transforma la media
muestral en un valor de z.
f) Tomar la decisión estadística y establecer la conclusión administrativa. Si el
estadístico de prueba queda en la región de aceptación, no se rechaza la
hipótesis nula. Si el estadístico de prueba en la región crítica o de rechazo, se
rechaza la hipótesis nula.
MUESTRAS GRANDES
A continuación se relaciona un ejemplo de muestra grande:
El gerente de una fábrica de llantas quiere demostrar que la calidad de llantas
producidas, logran tener una duración de 4.900 horas, con una desviación tipita de 336
horas. Selecciona una muestra de 36 llantas y encuentra que el promedio de duración
es de 4.700 horas. ¿Al nivel del 5% se podrá afirmar que las llantas tienen una duración
superior a lo señalado por el gerente?
a. Hipótesis: La hipótesis nula dice que la duración de las llantas es de 4.900 horas
y la alterna es opuesta a la nula, pero en este caso se pide validar si se exagera en
la duración de las llantas, lo que indica que la prueba es Unilateral.
Por tanto: Ho: μ = 4.900
H1: μ < 4.900
b. Nivel de significancia y tamaño de la muestra: La muestra que se ha seleccionado es
de 36 llantas y el nivel de significancia es de 5%.
Por tanto: n= 36 y = 0,05
c. Puesto que se conoce la desviación estándar de la población = 336, se utiliza la
distribución normal y el estadístico de la prueba Z.
Z=x̄−μo
σ /√n
d. Valores Críticos: como = 5% = 0,05.
0,5 – 0,05= 0,45
Z= 1,64 o 1,65
Teniendo en cuenta que la hipótesis alterna de la región crítica está dada por Z < -1,645.
Grafica de Prueba Unilateral
e. Recopilar datos y calcular el estadístico:
X= 4.700 μ= 4.900 = 336 n= 36
Z=x̄−μo
σ /√n = =
f. Como Z= -3,58 cae en la zona de rechazo, por ser un valor mayor que 1,645, se
concluye que al nivel 5%, si se puede afirmar que las llantas tienen una duración
superior al señalado por el gerente.
MUESTRAS PEQUEÑAS
Se continuará el desarrollo del tema con base en el ejemplo anterior, introduciendo
algunas pequeñas modificaciones que permitan explicar pequeñas modificaciones que
permitan explicar el procedimiento que se sigue, en aquellos casos que las muestra sea
pequeña y haya necesidad de trabajar con su desviación típica.
Ahora se presentan las formulas indicadas para muestras pequeñas:
El gerente de una fábrica de llantas quiere demostrar que la calidad de llantas
producidas, logran tener una duración de 4.900 horas, con una desviación tipita de 336
horas. Selecciona una muestra de 36 llantas y encuentra que el promedio de duración
es de 4.700 horas. ¿Al nivel del 5% se podrá afirmar que las llantas tienen una duración
superior a lo señalado por el gerente?
a. Hipótesis: La hipótesis nula dice que la duración de las llantas es de 4.900 horas
y la alterna es opuesta a la nula, pero en este caso no se está diciendo que la
duración sea mayor ni menor, es decir, la prueba es bilateral.
Por lo tanto:
Ho: μ = 4.900
b. Nivel de significancia y tamaño de la muestra: La muestra que se ha seleccionado es
de 36 llantas y el nivel de significancia es de 5%.
Por tanto: n= 36 y = 0,05
c. No se conoce la desviación estándar de la población y el tamaño de la muestra bes
pequeño; se utiliza la distribución t de estudent y el estadístico de la prueba t.
d. Valores Críticos: como = 5% = 0,05.
t= 2.064
Teniendo en cuenta que la hipótesis alterna de la región crítica o de rechazo está dada por t <-
2.064 y t > 2.064.
e. Recopilar datos y calcular el estadístico:
X= 4.700 μ= 4.900 s= 336 n= 36
Sustituyendo estos valores en la fórmula elegida, se obtiene:
t=
f. Como t= -3.354, cae en la zona de aceptación, se acepta la hipotesis nula; por tanto, a
un nivel del 5% se puede concluir que el producto cumple las especificaciones
establecidas por el gerente.
4. Cuáles son las aplicaciones.
Aplicación de intervalos o límites de confianza
Esta aplicación se utiliza para muestras grandes y pequeñas simultáneamente, las cuales
deben ser menores o iguales a 30.
El intervalo de confianza se aplica a un par o varios pares de números entre los cuales se
estima que estará cierto valor desconocido con una determinada probabilidad de acierto.
Formalmente, estos números determinan un intervalo, que se calcula a partir de datos de
una muestra, y el valor desconocido es un parámetro poblacional. La probabilidad de
éxito en la estimación se representa con 1 - α y se denomina nivel de confianza. En estas
circunstancias, α es el llamado error aleatorio o nivel de significación, esto es, una
medida de las posibilidades de fallar en la estimación mediante tal intervalo.
Un intervalo de confianza al 1 - α por ciento para la estimación de un parámetro
poblacional θ que sigue una determinada distribución de probabilidad, es una expresión
del tipo [θ1, θ2] tal que P[θ1 ≤ θ ≤ θ2] = 1 - α, donde P es la función de distribución de
probabilidad de θ.
Aplicación en pruebas de regresión y correlación
Series de tiempo o cronológicas:
Una serie temporal o cronológica hacen referencia a una secuencia de datos,
observaciones o valores, medidos en determinados momentos y ordenados
cronológicamente. Los datos pueden estar espaciados a intervalos iguales (como la
temperatura en un observatorio meteorológico en días sucesivos al mediodía) o
desiguales (como el peso de una persona en sucesivas mediciones en el consultorio
médico, la farmacia, etc.).
Para el análisis de las series temporales se usan métodos que ayudan a interpretarlas y
que permiten extraer información representativa sobre las relaciones subyacentes entre
los datos de la serie o de diversas series y que permiten en diferente medida y con
distinta confianza extrapolar o interpolar los datos y así predecir el comportamiento de
la serie en momentos no observados, sean en el futuro (extrapolación pronostica), en el
pasado (extrapolación retrógrada) o en momentos intermedios (interpolación)..
1. Componentes
El análisis más clásico de las series temporales se basa en que los valores que toma la
variable de observación es la consecuencia de cuatro componentes, cuya actuación
conjunta da como resultado los valores medidos, estos componentes son:
a. Tendencia secular o regular, indica la marcha general y persistente del
fenómeno observado, es una componente de la serie que refleja la evolución a
largo plazo. Por ejemplo, la tendencia creciente del índice de reciclado de basuras
en los países desarrollados, o el uso creciente de Internet en la sociedad,
independientemente de que en un mes concreto en un país, por determinadas
causas, haya una baja en la utilización de Internet.
b. Variación estacional o Variación cíclica regular. Es el movimiento periódico
de corto plazo. Se trata de una componente causal debida a la influencia de
ciertos fenómenos que se repiten de manera periódica en un año (las estaciones),
una semana (los fines de semana) o un día (las horas puntas) o cualquier otro
periodo. Recoge las oscilaciones que se producen en esos períodos de repetición.
c. Variación cíclica. Es el componente de la serie que recoge las oscilaciones
periódicas de amplitud superior a un año. movimientos normalmente irregulares
alrededor de la tendencia, en las que a diferencia de las variaciones estacionales,
tiene un período y amplitud variables, pudiendo clasificarse como cíclicos,
cuasicíclicos o recurrentes.
d. Variación aleatoria o ruido, accidental, de carácter errático, también
denominada residuo, no muestran ninguna regularidad (salvo las regularidades
estadísticas), debidos a fenómenos de carácter ocasional como pueden ser
tormentas, terremotos, inundaciones, huelgas, guerras, avances tecnológicos, etc.
e. Variación trasciende, accidental, de carácter errático debido a fenómenos
aislados que son capaces de modificar el comportamiento de la serie (tendencia,
estacionalidad variaciones cíclicas y aleatorias).
2. Tipos de series temporales
Aditivas, se componen sumando la Tendencia, estacionalidad, variación cíclica
regular, variación cíclica irregular, ruido:
Multiplicativas, se componen multiplicando la Tendencia, estacionalidad, variación
cíclica regular, variación cíclica irregular, ruido:
Mixtas, se componen sumando y multiplicando la Tendencia, estacionalidad,
variación cíclica regular, variación cíclica irregular, ruido. Existen varias
alternativas, entre otras:
Prueba del coeficiente de Regresión
Es necesario utilizar la ecuación de la recta, mediante el método de los mínimos
cuadrados, para hallar el valor correspondiente a b denominado, como ya se anotó,
Coeficiente Angular o Pendiente. En la población este parámetro se simboliza por B1 y
en la calculadora se simboliza con una B.
Hallar el valor de b.
Ejemplo del libro guía:
Este valor cae en la región crítica.
Al nivel del 5% se puede concluir que si hay relación entre las dos variables, por tanto
la estimación de una en función de la otra es posible.
Correlación
Esta determina la relación o dependencia que existe entre las dos variables que
intervienen en una distribución bidimensional.
Es decir, determinar si los cambios en una de las variables influyen en los cambios de la
otra. Si esto sucede, quiere decir que hay correlación entre ellas.
Coeficiente de correlación:
El coeficiente de correlación lineal se expresa mediante la letra r.
Propiedades
1. El coeficiente de correlación no varía al hacerlo la escala de medición.
Es decir, si expresamos la altura en metros o en centímetros el coeficiente de
correlación no varía.
2. El signo del coeficiente de correlación es el mismo que el de la covarianza.
Si la covarianza es positiva, la correlación es directa.
Si la covarianza es negativa, la correlación es inversa.
Si la covarianza es nula, no existe correlación.
3. El coeficiente de correlación lineal es un número real comprendido entre
menos −1 y 1.
−1 ≤ r ≤ 1
4. Si el coeficiente de correlación lineal toma valores cercanos a −1 la correlación
es fuerte e inversa, y será tanto más fuerte cuanto más se aproxime r a −1.
5. Si el coeficiente de correlación lineal toma valores cercanos a 1 la correlación
es fuerte y directa, y será tanto más fuerte cuanto más se aproxime r a 1.
6. Si el coeficiente de correlación lineal toma valores cercanos a 0, la correlación
es débil.
7. Si r = 1 ó −1, los puntos de la nube están sobre la recta creciente o decreciente.
Entre ambas variables hay dependencia funcional.
5. Qué es el coeficiente de correlación de spearman
Se define como termino estadístico el coeficiente de correlación de spearman a la
medida efectuada cuando una o ambas escalas de medidas de variables son
proporcionales a sus misma longitud permitiendo identificar si dos variables se
relacionan en una fusión es decir que cuando un número aumenta el otro también o en
viceversa, dicha medida se rige por las reglas de correlación simple de person, y las
mediciones de este índice corresponden a +1 a -1, la ecuación utilizada Cuando en el
ordenamiento de los rangos de las observaciones no hay datos empatados o ligados, es
la siguiente:
Donde:
rs = coeficiente de correlación de Spearman.
d2 = diferencias existentes entre los rangos de las dos variables, elevadas al cuadrado.
N = tamaño de la muestra expresada en parejas de rangos de las variables.
Con ello se efectúa un proceso de investigación y desarrollo con determinados pasos
como:
Clasificar en rangos cada medición de las observaciones.
Obtener las diferencias de las parejas de rangos de las variables estudiadas y
elevadas al cuadrado.
Efectuar la sumatoria de todas las diferencias al cuadrado.
Aplicar la ecuación.
Calcular los grados de libertad (gl). gl = número de parejas. (Solo se utilizará
cuando la muestra sea mayor a 10).
Comparar el valor r calculado con respecto a los valores críticos de la tabla de
valores críticos de t de Kendall en función de probabilidad.
Decisión de la hipótesis.
6. Qué es la prueba del signo
Según el autor Ciro Martínez, es una prueba no paramétrica la cual es utilizada
frecuentemente en casos cuando se tiene poca seguridad de que los datos
provengan de una distribución que tenga un comportamiento similar o anormal.
Para aplicar esta prueba se toma solamente el signo de las diferencias en cada par de
observaciones, se realiza la suma de signos positivos y signos negativos y los valores la
diferencia entre ellos es igual a cero, partiendo del hecho de que una distribución tenga
igual número de signos positivos y negativos se dirá que p=0.5 (corresponde al signo
positivo).
µ=np y ó=√npq
X= Nro de signos positivos más 0.5 si el valor es menor que µ si es mayor se le
restara0.5