compañera CONSOLIDADO.pdf
-
Upload
cristian-gonzalez-nino -
Category
Documents
-
view
213 -
download
0
Transcript of compañera CONSOLIDADO.pdf
I�FERE�CIA ESTADISTICA
ACT �º10 TRABAJO COLABORATIVO �º2
I�TEGRA�TES:
DAYA�A A�DREA BUITRAGO VILLAMIL COD: 1’053.333.563
JOSÉ HARBEY SALAZAR GO�ZÁLEZ CÓD: 1.053.604.692
GRUPO: 100403_59
TUTOR:
DA�YS BRITO
U�IVERSIDAD �ACIO�AL ABIERTA Y A DISTA�CIA U�AD
ECBTI
I�GE�IERIA DE SISTEMAS
I�TRODUCCIO�
La intención de este trabajo es el dar a conocer ciertos conceptos de la inferencia
estadística con el fin de mostrar los conocimientos adquiridos, sobre los diferentes
conceptos relacionados en la unidad 2 del Modulo de Inferencia Estadística.
Este trabajo tiene a continuación diferentes preguntas ya establecida por el Tutor y que
el fin de este es la resolución de problemas Aplicando los diferentes métodos de
solución.
OBJETIVOS
• Aplicar los fundamentos teóricos en los que se basa la prueba de hipótesis
estadística, considerada como alternativa para toma de decisiones.
• Explicar los elementos conceptuales esenciales que tiene la inferencia
estadística en las pruebas de hipótesis
• Aplicar las diferentes pruebas de Hipótesis en los ejercicios propuestos
• Medir los análisis de varianza dentro de cada problema
1. Establezca la diferencia entre: �ivel de significación y potencia de una prueba; pruebas paramétricas y pruebas �o paramétricas
�ivel de significación: Cuando se prueba determinada hipotesis, a la probabilidad maxima con la que se esta dispuesto a cometer un error tipo I se llama nivel de
significacion de la prueba. Esta probabiliada axostumbra denotarse ∝ y por lo general se
especifica antes detomar cualquier muestra para evitar que los resultados onbtenidos
influyan sobre la eleecion del valor de esta probabilidad.
En la práctica, se acostumbran los niveles de significacion 0.05 o 0.01 aunque tambien
se usasn otros valores. Si poir ejemplo, al diseñar la regla de decision se elige el nivel de
significacion 0.05 (o bien 5%), entonces exiaten 5 probabilades en 100 de que se
rechace una hipotesis que debia ser aceptada; es decir, se tiene una confianza de
aproximadamente 95% de que se ha tomado la decicsion correcta. En tal caso se dice
que la hipotesis ha sido rechazadaal nivel de significancia 0.05, lo que significa que la
hipotesis tiene una probabiliodad de 0.05 de ser erronea.
Potencia de una prueba: Si sospechamos que una moneda ha sido trucada para que se produzcan más caras que cruces al lanzarla al aire, podríamos realizar 30 lanzamientos,
tomando nota del número de caras obtenidas. Si obtenemos un valor demasiado alto, por
ejemplo 25 o más, consideraríamos que el resultado es poco compatible con la hipótesis
de que la moneda no está trucada, y concluiríamos que las observaciones contradicen
dicha hipótesis.
La aplicación de cálculos probabilísticos permite determinar a partir de qué valor
debemos rechazar la hipótesis garantizando que la probabilidad de cometer un error es
un valor conocido a priori. Las hipótesis pueden clasificarse en dos grupos, según:
Especifiquen un valor concreto o un intervalo para los parámetros del modelo.
Determinen el tipo de distribución de probabilidad que ha generado los datos.
Un ejemplo del primer grupo es la hipótesis de que la media de una variable es 10, y del
segundo que la distribución de probabilidad es la distribución normal
Aunque la metodología para realizar el contraste de hipótesis es análoga en ambos
casos, distinguir ambos tipos de hipótesis es importante puesto que muchos problemas
de contraste de hipótesis respecto a un parámetro son, en realidad, problemas de
estimación, que tienen una respuesta complementaria dando un intervalo de confianza
(o conjunto de intervalos de confianza) para dicho parámetro. Sin embargo, las hipótesis
respecto a la forma de la distribución se suelen utilizar para validar un modelo
estadístico para un fenómeno aleatorio que se está estudiando.
Pruebas paramétricas Se llaman así porque su cálculo implica una estimación de los parámetros de la población con base en muestras estadísticas. Mientras más grande sea
la muestra más exacta será la estimación, mientras más pequeña, más distorsionada será
la media de las muestras por los valores raros extremos.
Suposiciones que subyacen a la utilización de las pruebas paramétricas.
1. El nivel de medición debe ser al menos de intervalo. Debemos tomar una decisión a cerca de nuestra variable dependiente. ¿Es realmente un nivel de
intervalo? Si es una escala no estandarizada, o si se basa en estimaciones o
calificaciones con humanos. Frecuentemente aparecen como intervalo pero lo
reducimos a nivel ordinal al darles rango.
2. Los datos de la muestra se obtienen de una población normalmente distribuida. Este principio suele mal entenderse como: la muestra debe distribuirse
normalmente, "no es así". La mayoría de las muestras son demasiado pequeñas
para siquiera parecerse a una distribución normal, la cual solo obtiene su
característica en forma de campana con la acumulación de muchas puntuaciones.
3. La varianza de las 2 muestras no son significativamente diferentes, esto se conoce como el principio de homogeneidad de la varianza, Los especialistas en
estadística han investigado más sobre ese requisito, el cual sabia exigir varianzas
muy similares. Estos se ignoran cuando tratamos con muestras relacionadas sin
gran riesgo de distorsionar nuestro resultado. Para muestras no relacionadas
necesitamos ser más cuidadosos cuando los tamaños de las muestras sean
bastante diferentes.
Pruebas �o paramétricas: La mayor parte de las pruebas de hipotesis y significacion, requieren varias supociciones acreca de la poblacionde la que se toma la muestra. Por
ejemplo, en la clasificaion se requiere que las poblaciones tengana una distribucion
normal y desviacion estandar iguales.
En la practica, hay sitiaciones en las que tales suposiciones no se justifica o en las que
se dudaque se satisfagan como es el caso de poblaciones muy sesgadas. Denbido a esto,
se han desarrollado diversas pruebas y metodos que son independientes tanto de la
distribuacion de las poblaciones como de sus corespondiente parametros. Estas pruebas
se cponocen como pruebas no parametricas.
Las pruebas no parametricas se emplean como sustitutos sencillos de pruebas mas
cpmplicadasson especialmete utiles cuando se tienen datos no numericos, como en el
caso de consumidores que ordenan cerelaes u otros productos de acuerdo a su
preferencia.
2. Para tomar la decisión en un contraste de hipótesis se puede comparar el P-Valor con el nivel de significación. Explique cuáles son las condiciones en términos de magnitud de estos factores para rechazar una hipótesis unilateral derecha o unilateral izquierda. 3. Qué significan el error tipo I y el error tipo II. Explique su interpretación con un ejemplo Cuando se tiene una hipótesis esta puede ser verdadera o falsa y la decisión que se toma
en la prueba es aceptar o rechazar la hipótesis. Si la decisión que se toma está de
acuerdo con la realidad, no se cometen errores, en este caso las dos buenas decisiones
son: aceptar la hipótesis nula cuando es cierta o rechazarla cuando es falsa.
Pero cuando la decisión no está de acuerdo con la realidad, se pueden cometer dos tipos
de errores:
ERROR TIPO I: Rechazar la hipótesis nula cuando en realidad es cierta. Su planteamiento se representa de la siguiente manera: (Consideremos que la hipótesis
nula se representa HO)
α Probabilidad de rechazar HO cuando es verdadera, se llama Nivel de Significancia
(1-α) Probabilidad de aceptar HO cuando es verdadera, se denomina Nivel de Confianza
ERROR TIPO II: Aceptar la hipótesis nula cuando en realidad es falsa. Se representa así:
β probabilidad de aceptar HO cuando es falsa
4. Explique cuáles son los supuestos de homogeneidad, homocedasticidad, independencia y normalidad, que deben cumplirse para validar un análisis de varianzas.
HOMOGE�EIDAD: Hace referencia a la igualdad de las variables dependientes
HOMOCEDASTICIDAD: Las varianzas poblacionales de los diversos grupos en las variables dependientes, han de ser homogéneas, lo que implica que también lo sean las
varianzas muéstrales
I�DEPE�DE�CIA: Las puntuaciones de los diversos grupos en la variable dependiente han de ser independientes, lo que asegura que la razón entre la varianza
debida al efectos de las variables independientes y la varianza debida al efecto del error
siga una distribución con el alfa nominal estipulado y los grados de libertad asociados al
numerador y al denominador de dicha razón.
�ORMALIDAD: Las puntuaciones de los diversos grupos en la variable dependiente se deben distribuir normalmente, lo que implica que son muestras representativas de
poblaciones con distribución normal en esa variable dependiente
5. Comprueben a partir de dos muestras independientes de igual tamaño de hombres y mujeres, la opinión de acuerdo o desacuerdo con algún tema de su interés, a través del contraste de una hipótesis, en la se establezca si existen diferencias de opinión entre los hombres y mujeres sobre el tema de interés consultado. Interprete los resultados a que diere lugar este caso. Para dar respuesta a este caso utilice los pasos para el contraste de una hipótesis.
6. Establezca las consideraciones que deben hacerse para seleccionar entre un modelo paramétrico o su correspondiente no para métrico.
Los métodos no paramétricos tienen ventajas sobre los paramétrico. Los métodos
paramétricos en muchas ocasiones no cumplen con los supuestos acerca de la forma
funcional del conjunto de variables aleatorias de las cuales provienen los datos,
produciendo así modelos no muy confiables que generan sesgos y deterioran la calidad
de los pronósticos. En el campo no para métrico se evita este problema al permitir una
forma funcional flexible, y no un conjunto pequeño de modelos rígidos como lo hacen
los para métricos.
Consideraciones de las pruebas no paramétricas sobre las pruebas paramétricas:
- Por lo general, son fáciles de usar y entender.
- Eliminan la necesidad de suposiciones restrictivas de las pruebas para métricas.
- Se pueden usar con muestras pequeñas.
- Se pueden usar con datos cualitativos.
Consideraciones de las pruebas para métricas sobre las pruebas no para métricas:
- A veces, ignoran, desperdician o pierden información.
- No son tan eficientes como las paramétricas.
- Llevan a una mayor probabilidad de no rechazar una hipótesis nula falsa (incurriendo
en un error de tipo II).
Por lo general, las pruebas paramétricas son más poderosas que las pruebas no
paramétricas y deben usarse siempre que sea posible. Es importante observar, que
aunque las pruebas no paramétricas no hacen suposiciones sobre la distribución de la
población que se muestrea, muchas veces se apoyan en distribuciones muéstrales como
la normal o la chi cuadrada.
7. Una de las opciones que tiene la estadística para realizar inferencia sobre los parámetros de una población es la prueba de hipótesis. Explique las ventajas y desventajas con respecto al otro método de estimación.
PRUEBA DE HIPOTESIS.
CONSIDERACIONES:
• Las hipótesis siempre son proposiciones sobre la población o distribución bajo
estudio, no proposiciones sobre la muestra.
• El valor del parámetro puede ser resultado de la experiencia pasada, entonces el
objetivo de la prueba es determinar si ha cambiado el valor del parámetro.
• El valor del parámetro puede obtenerse a partir de una teoría o modelo, en
relación con el proceso bajo estudio. En este caso el objetivo de la prueba es
verificar la teoría o modelo.
• Cuando el valor del parámetro proviene de consideraciones externas, como
especificaciones de diseño o ingeniería. En esta situación el objetivo de la prueba
de hipótesis es probar el cumplimiento de las especificaciones.
• Formular la hipótesis en base a los objetivos del estudio, pero siempre antes de
extraer la muestra y calcular el estimador puntual del parámetro desconocido,
para no verse influenciado por este resultado.
• Como en todo proceso de inferencia, existe algún grado de subjetividad en la
realización de una prueba, particularmente en la elección del nivel de
significancia y del tamaño de la muestra.
• Una vez fijadas las condiciones de la prueba, el resultado de la misma es
totalmente objetivo.
• Para fijar el nivel de significancia de la prueba, hay que tener en cuenta que
cuando la probabilidad del error tipo I aumenta, la del error tipo II disminuye. La
forma de minimizar el error tipo II independientemente del nivel de
significancia, es aumentando el tamaño de la muestra.
8. Los dos métodos no paramétrico para realizar una bondad de ajuste de los datos de una variable con respecto a una distribución de probabilidad son: el de chi-cuadrado y el de kolmogorov - smirnov. Explique en qué condiciones debe usarse cada uno de ellos.
CHI – CUADRADO:
Se utiliza:
• Cuando los datos puntualizan a las escalas nominal u ordinal.
• Se utiliza solo la frecuencia.
• Poblaciones pequeñas.
• Cuando se desconocen los parámetros media, moda, etc.
• Cuando los datos son independientes.
• Cuando se quiere contrastar o comparar hipótesis.
• Investigaciones de tipo social - muestras pequeñas no representativas >5.
• Cuando se requiere de establecer el nivel de confianza o significativita en las
diferencias.
• Cuando la muestra es seleccionada no probabilísticamente.
• X2 permite establecer diferencias entre f y se utiliza solo en escala nominal.
• Población > a 5 y < a 20.
KOLMOGOROV – SMIR�OV:
Se aplica:
• A distribuciones de tipo ordinal.
• También se usa para probar hipótesis acerca de distribuciones discretas.
• Se basa en calcular las diferencias, en valor absoluto, entre las frecuencias
acumuladas relativas observadas y las esperadas, en cada clase.
• La prueba de Kolmogorov puede usarse con muestras muy pequeñas, en
donde no se pueden aplicar otras pruebas paramétricas.
• Podemos usar la prueba de Kolmogorov para verificar la suposición de
normalidad subyacente en todo análisis de inferencia.
9. El análisis de varianza es una técnica estadística utilizada para medir el efecto que tiene cada uno de los niveles en que se clasifica una variable sobre otra variable que representa las repuestas a las mediciones realizadas una experimentación. explique las condiciones que se deben imponer a las dos variables y los supuestos que deben cumplirse para que tenga validez el uso de esta técnica.
Supuestos del análisis de varianza.
F Para cada población la variable de respuesta está normalmente distribuida.
F La varianza de la variable respuesta es la misma para todas las poblaciones.
F Las observaciones deben ser independientes.
El análisis de varianza es una prueba que nos permite medir la variación de las
respuestas numéricas como valores de evaluación de diferentes variables nominales.
La prueba a realizar es de sí existe diferencia en los promedios para la los diferentes
valores de las variables nominales; esta prueba se realiza para variables donde una tiene
valores nominales y la otra tiene valores numéricos.
En estadística, el análisis de la varianza o análisis de varianza es una colección de
modelos estadísticos y sus procedimientos asociados, en el cual la varianza esta
particionada en ciertos componentes debidos a diferentes variables explicativas.
Las técnicas iníciales del análisis de varianza fueron desarrolladas por el estadístico y
genetista R. A. Fisher en los años 1920 y 1930s y es algunas veces conocido como
Anova de Fisher o análisis de varianza de Fisher, debido al uso de la distribución F de
Fisher como parte del test de significancia estadística.
El análisis de varianza sirve para comparar si los valores de un conjunto de datos
numéricos son significativamente distintos a los valores de otro o más conjuntos de
datos. El procedimiento para comparar estos valores está basado en la varianza global
observada en los grupos de datos numéricos a comparar. Típicamente, el análisis de
varianza se utiliza para asociar una probabilidad a la conclusión de que la media de un
grupo de puntuaciones es distinta de la media de otro grupo de puntuaciones.
Supuestos previos:
El ANOVA parte de algunos supuestos que han de cumplirse:
• La variable dependiente debe medirse al menos a nivel de intervalo.
• Independencia de las observaciones. La distribución de los residuales debe ser
normal.
• Homocedasticidad: homogeneidad de las varianzas.
La técnica fundamental consiste en la separación de la suma de cuadrados (SS, 'sum of
squares') en componentes relativos a los factores contemplados en el modelo. Como
ejemplo, mostramos el modelo para un ANOVA simplificado con un tipo de factores en
diferentes niveles. (Si los niveles son cuantitativos y los efectos son lineales, puede
resultar apropiado un análisis de regresión lineal)
Estatal = SSError + SSFactores
El número de grados de libertad (gl) puede separarse de forma similar y se corresponde
con la forma en que la distribución chi-cuadrado describe la suma de cuadrados
asociada.
glTotal = glError + glFactores
10 Existen dos tipos de modelo de análisis de varianza: de efectos fijos y de efectos aleatorios. Explique el significado cada uno de ellos en un análisis de varianza.
Un modelo de análisis de varianza es de efectos fijos cuando los resultados obtenidos
solo son validos para esos determinados niveles del factor estudiado y lo que ocurra a
otros niveles del factor puede ser diferente y de Efecto Aleatorio cuando un factor se ha
considerado tan solo una muestra de los posibles valores que este puede tomar, es decir
cuando los resultados obtenidos son validos para cualquier nivel del factor estudiado.
Un modelo de análisis de varianza es de efectos fijos cuando los resultados obtenidos
sólo son válidos para esos determinados niveles del factor estudiado y lo que ocurra a
otros niveles del factor puede ser diferente.
Un modelo de análisis de varianza es de efectos aleatorios cuando los resultados
obtenidos son válidos para cualquier nivel del factor estudiado.
Un modelo es replicado si el experimento se repite varias veces para cada nivel del
factor; en caso contrario se dice que el modelo es por unidad de casilla.
CO�CLUSIO�ES
El desarrollo de anterior trabajo nos dio a conocer conceptos de la inferencia estadística
y de igual forma adquirimos nuevos conocimientos y los colocámos en práctica con la
solución de diferentes tipos de preguntas.
En este trabajo plasmamos un análisis y la respectiva solución, a los ejercicios y
preguntas propuestas en la guia.
BIBLIOGRAFIA
Modulo versión final agosto 2008.pdf
es.wikipedia.org/wiki/Estadística_inferencial
recursostic.educacion.es/.../inferencia_estadistica/index_inferencia.h
biplot.usal.es/problemas/confianza/INFERENCIA.pdf