compañera CONSOLIDADO.pdf

I�FERE�CIA ESTADISTICA

ACT �º10 TRABAJO COLABORATIVO �º2

I�TEGRA�TES:

DAYA�A A�DREA BUITRAGO VILLAMIL COD: 1’053.333.563

JOSÉ HARBEY SALAZAR GO�ZÁLEZ CÓD: 1.053.604.692

GRUPO: 100403_59

TUTOR:

DA�YS BRITO

U�IVERSIDAD �ACIO�AL ABIERTA Y A DISTA�CIA U�AD

ECBTI

I�GE�IERIA DE SISTEMAS

I�TRODUCCIO�

La intención de este trabajo es el dar a conocer ciertos conceptos de la inferencia

estadística con el fin de mostrar los conocimientos adquiridos, sobre los diferentes

conceptos relacionados en la unidad 2 del Modulo de Inferencia Estadística.

Este trabajo tiene a continuación diferentes preguntas ya establecida por el Tutor y que

el fin de este es la resolución de problemas Aplicando los diferentes métodos de

solución.

OBJETIVOS

• Aplicar los fundamentos teóricos en los que se basa la prueba de hipótesis

estadística, considerada como alternativa para toma de decisiones.

• Explicar los elementos conceptuales esenciales que tiene la inferencia

estadística en las pruebas de hipótesis

• Aplicar las diferentes pruebas de Hipótesis en los ejercicios propuestos

• Medir los análisis de varianza dentro de cada problema

1. Establezca la diferencia entre: �ivel de significación y potencia de una prueba; pruebas paramétricas y pruebas �o paramétricas

�ivel de significación: Cuando se prueba determinada hipotesis, a la probabilidad maxima con la que se esta dispuesto a cometer un error tipo I se llama nivel de

significacion de la prueba. Esta probabiliada axostumbra denotarse ∝ y por lo general se

especifica antes detomar cualquier muestra para evitar que los resultados onbtenidos

influyan sobre la eleecion del valor de esta probabilidad.

En la práctica, se acostumbran los niveles de significacion 0.05 o 0.01 aunque tambien

se usasn otros valores. Si poir ejemplo, al diseñar la regla de decision se elige el nivel de

significacion 0.05 (o bien 5%), entonces exiaten 5 probabilades en 100 de que se

rechace una hipotesis que debia ser aceptada; es decir, se tiene una confianza de

aproximadamente 95% de que se ha tomado la decicsion correcta. En tal caso se dice

que la hipotesis ha sido rechazadaal nivel de significancia 0.05, lo que significa que la

hipotesis tiene una probabiliodad de 0.05 de ser erronea.

Potencia de una prueba: Si sospechamos que una moneda ha sido trucada para que se produzcan más caras que cruces al lanzarla al aire, podríamos realizar 30 lanzamientos,

tomando nota del número de caras obtenidas. Si obtenemos un valor demasiado alto, por

ejemplo 25 o más, consideraríamos que el resultado es poco compatible con la hipótesis

de que la moneda no está trucada, y concluiríamos que las observaciones contradicen

dicha hipótesis.

La aplicación de cálculos probabilísticos permite determinar a partir de qué valor

debemos rechazar la hipótesis garantizando que la probabilidad de cometer un error es

un valor conocido a priori. Las hipótesis pueden clasificarse en dos grupos, según:

Especifiquen un valor concreto o un intervalo para los parámetros del modelo.

Determinen el tipo de distribución de probabilidad que ha generado los datos.

Un ejemplo del primer grupo es la hipótesis de que la media de una variable es 10, y del

segundo que la distribución de probabilidad es la distribución normal

Aunque la metodología para realizar el contraste de hipótesis es análoga en ambos

casos, distinguir ambos tipos de hipótesis es importante puesto que muchos problemas

de contraste de hipótesis respecto a un parámetro son, en realidad, problemas de

estimación, que tienen una respuesta complementaria dando un intervalo de confianza

(o conjunto de intervalos de confianza) para dicho parámetro. Sin embargo, las hipótesis

respecto a la forma de la distribución se suelen utilizar para validar un modelo

estadístico para un fenómeno aleatorio que se está estudiando.

Pruebas paramétricas Se llaman así porque su cálculo implica una estimación de los parámetros de la población con base en muestras estadísticas. Mientras más grande sea

la muestra más exacta será la estimación, mientras más pequeña, más distorsionada será

la media de las muestras por los valores raros extremos.

Suposiciones que subyacen a la utilización de las pruebas paramétricas.

1. El nivel de medición debe ser al menos de intervalo. Debemos tomar una decisión a cerca de nuestra variable dependiente. ¿Es realmente un nivel de

intervalo? Si es una escala no estandarizada, o si se basa en estimaciones o

calificaciones con humanos. Frecuentemente aparecen como intervalo pero lo

reducimos a nivel ordinal al darles rango.

2. Los datos de la muestra se obtienen de una población normalmente distribuida. Este principio suele mal entenderse como: la muestra debe distribuirse

normalmente, "no es así". La mayoría de las muestras son demasiado pequeñas

para siquiera parecerse a una distribución normal, la cual solo obtiene su

característica en forma de campana con la acumulación de muchas puntuaciones.

3. La varianza de las 2 muestras no son significativamente diferentes, esto se conoce como el principio de homogeneidad de la varianza, Los especialistas en

estadística han investigado más sobre ese requisito, el cual sabia exigir varianzas

muy similares. Estos se ignoran cuando tratamos con muestras relacionadas sin

gran riesgo de distorsionar nuestro resultado. Para muestras no relacionadas

necesitamos ser más cuidadosos cuando los tamaños de las muestras sean

bastante diferentes.

Pruebas �o paramétricas: La mayor parte de las pruebas de hipotesis y significacion, requieren varias supociciones acreca de la poblacionde la que se toma la muestra. Por

ejemplo, en la clasificaion se requiere que las poblaciones tengana una distribucion

normal y desviacion estandar iguales.

En la practica, hay sitiaciones en las que tales suposiciones no se justifica o en las que

se dudaque se satisfagan como es el caso de poblaciones muy sesgadas. Denbido a esto,

se han desarrollado diversas pruebas y metodos que son independientes tanto de la

distribuacion de las poblaciones como de sus corespondiente parametros. Estas pruebas

se cponocen como pruebas no parametricas.

Las pruebas no parametricas se emplean como sustitutos sencillos de pruebas mas

cpmplicadasson especialmete utiles cuando se tienen datos no numericos, como en el

caso de consumidores que ordenan cerelaes u otros productos de acuerdo a su

preferencia.

2. Para tomar la decisión en un contraste de hipótesis se puede comparar el P-Valor con el nivel de significación. Explique cuáles son las condiciones en términos de magnitud de estos factores para rechazar una hipótesis unilateral derecha o unilateral izquierda. 3. Qué significan el error tipo I y el error tipo II. Explique su interpretación con un ejemplo Cuando se tiene una hipótesis esta puede ser verdadera o falsa y la decisión que se toma

en la prueba es aceptar o rechazar la hipótesis. Si la decisión que se toma está de

acuerdo con la realidad, no se cometen errores, en este caso las dos buenas decisiones

son: aceptar la hipótesis nula cuando es cierta o rechazarla cuando es falsa.

Pero cuando la decisión no está de acuerdo con la realidad, se pueden cometer dos tipos

de errores:

ERROR TIPO I: Rechazar la hipótesis nula cuando en realidad es cierta. Su planteamiento se representa de la siguiente manera: (Consideremos que la hipótesis

nula se representa HO)

α Probabilidad de rechazar HO cuando es verdadera, se llama Nivel de Significancia

(1-α) Probabilidad de aceptar HO cuando es verdadera, se denomina Nivel de Confianza

ERROR TIPO II: Aceptar la hipótesis nula cuando en realidad es falsa. Se representa así:

β probabilidad de aceptar HO cuando es falsa

4. Explique cuáles son los supuestos de homogeneidad, homocedasticidad, independencia y normalidad, que deben cumplirse para validar un análisis de varianzas.

HOMOGE�EIDAD: Hace referencia a la igualdad de las variables dependientes

HOMOCEDASTICIDAD: Las varianzas poblacionales de los diversos grupos en las variables dependientes, han de ser homogéneas, lo que implica que también lo sean las

varianzas muéstrales

I�DEPE�DE�CIA: Las puntuaciones de los diversos grupos en la variable dependiente han de ser independientes, lo que asegura que la razón entre la varianza

debida al efectos de las variables independientes y la varianza debida al efecto del error

siga una distribución con el alfa nominal estipulado y los grados de libertad asociados al

numerador y al denominador de dicha razón.

�ORMALIDAD: Las puntuaciones de los diversos grupos en la variable dependiente se deben distribuir normalmente, lo que implica que son muestras representativas de

poblaciones con distribución normal en esa variable dependiente

5. Comprueben a partir de dos muestras independientes de igual tamaño de hombres y mujeres, la opinión de acuerdo o desacuerdo con algún tema de su interés, a través del contraste de una hipótesis, en la se establezca si existen diferencias de opinión entre los hombres y mujeres sobre el tema de interés consultado. Interprete los resultados a que diere lugar este caso. Para dar respuesta a este caso utilice los pasos para el contraste de una hipótesis.

6. Establezca las consideraciones que deben hacerse para seleccionar entre un modelo paramétrico o su correspondiente no para métrico.

Los métodos no paramétricos tienen ventajas sobre los paramétrico. Los métodos

paramétricos en muchas ocasiones no cumplen con los supuestos acerca de la forma

funcional del conjunto de variables aleatorias de las cuales provienen los datos,

produciendo así modelos no muy confiables que generan sesgos y deterioran la calidad

de los pronósticos. En el campo no para métrico se evita este problema al permitir una

forma funcional flexible, y no un conjunto pequeño de modelos rígidos como lo hacen

los para métricos.

Consideraciones de las pruebas no paramétricas sobre las pruebas paramétricas:

- Por lo general, son fáciles de usar y entender.

- Eliminan la necesidad de suposiciones restrictivas de las pruebas para métricas.

- Se pueden usar con muestras pequeñas.

- Se pueden usar con datos cualitativos.

Consideraciones de las pruebas para métricas sobre las pruebas no para métricas:

- A veces, ignoran, desperdician o pierden información.

- No son tan eficientes como las paramétricas.

- Llevan a una mayor probabilidad de no rechazar una hipótesis nula falsa (incurriendo

en un error de tipo II).

Por lo general, las pruebas paramétricas son más poderosas que las pruebas no

paramétricas y deben usarse siempre que sea posible. Es importante observar, que

aunque las pruebas no paramétricas no hacen suposiciones sobre la distribución de la

población que se muestrea, muchas veces se apoyan en distribuciones muéstrales como

la normal o la chi cuadrada.

7. Una de las opciones que tiene la estadística para realizar inferencia sobre los parámetros de una población es la prueba de hipótesis. Explique las ventajas y desventajas con respecto al otro método de estimación.

PRUEBA DE HIPOTESIS.

CONSIDERACIONES:

• Las hipótesis siempre son proposiciones sobre la población o distribución bajo

estudio, no proposiciones sobre la muestra.

• El valor del parámetro puede ser resultado de la experiencia pasada, entonces el

objetivo de la prueba es determinar si ha cambiado el valor del parámetro.

• El valor del parámetro puede obtenerse a partir de una teoría o modelo, en

relación con el proceso bajo estudio. En este caso el objetivo de la prueba es

verificar la teoría o modelo.

• Cuando el valor del parámetro proviene de consideraciones externas, como

especificaciones de diseño o ingeniería. En esta situación el objetivo de la prueba

de hipótesis es probar el cumplimiento de las especificaciones.

• Formular la hipótesis en base a los objetivos del estudio, pero siempre antes de

extraer la muestra y calcular el estimador puntual del parámetro desconocido,

para no verse influenciado por este resultado.

• Como en todo proceso de inferencia, existe algún grado de subjetividad en la

realización de una prueba, particularmente en la elección del nivel de

significancia y del tamaño de la muestra.

• Una vez fijadas las condiciones de la prueba, el resultado de la misma es

totalmente objetivo.

• Para fijar el nivel de significancia de la prueba, hay que tener en cuenta que

cuando la probabilidad del error tipo I aumenta, la del error tipo II disminuye. La

forma de minimizar el error tipo II independientemente del nivel de

significancia, es aumentando el tamaño de la muestra.

8. Los dos métodos no paramétrico para realizar una bondad de ajuste de los datos de una variable con respecto a una distribución de probabilidad son: el de chi-cuadrado y el de kolmogorov - smirnov. Explique en qué condiciones debe usarse cada uno de ellos.

CHI – CUADRADO:

Se utiliza:

• Cuando los datos puntualizan a las escalas nominal u ordinal.

• Se utiliza solo la frecuencia.

• Poblaciones pequeñas.

• Cuando se desconocen los parámetros media, moda, etc.

• Cuando los datos son independientes.

• Cuando se quiere contrastar o comparar hipótesis.

• Investigaciones de tipo social - muestras pequeñas no representativas >5.

• Cuando se requiere de establecer el nivel de confianza o significativita en las

diferencias.

• Cuando la muestra es seleccionada no probabilísticamente.

• X2 permite establecer diferencias entre f y se utiliza solo en escala nominal.

• Población > a 5 y < a 20.

KOLMOGOROV – SMIR�OV:

Se aplica:

• A distribuciones de tipo ordinal.

• También se usa para probar hipótesis acerca de distribuciones discretas.

• Se basa en calcular las diferencias, en valor absoluto, entre las frecuencias

acumuladas relativas observadas y las esperadas, en cada clase.

• La prueba de Kolmogorov puede usarse con muestras muy pequeñas, en

donde no se pueden aplicar otras pruebas paramétricas.

• Podemos usar la prueba de Kolmogorov para verificar la suposición de

normalidad subyacente en todo análisis de inferencia.

9. El análisis de varianza es una técnica estadística utilizada para medir el efecto que tiene cada uno de los niveles en que se clasifica una variable sobre otra variable que representa las repuestas a las mediciones realizadas una experimentación. explique las condiciones que se deben imponer a las dos variables y los supuestos que deben cumplirse para que tenga validez el uso de esta técnica.

Supuestos del análisis de varianza.

F Para cada población la variable de respuesta está normalmente distribuida.

F La varianza de la variable respuesta es la misma para todas las poblaciones.

F Las observaciones deben ser independientes.

El análisis de varianza es una prueba que nos permite medir la variación de las

respuestas numéricas como valores de evaluación de diferentes variables nominales.

La prueba a realizar es de sí existe diferencia en los promedios para la los diferentes

valores de las variables nominales; esta prueba se realiza para variables donde una tiene

valores nominales y la otra tiene valores numéricos.

En estadística, el análisis de la varianza o análisis de varianza es una colección de

modelos estadísticos y sus procedimientos asociados, en el cual la varianza esta

particionada en ciertos componentes debidos a diferentes variables explicativas.

Las técnicas iníciales del análisis de varianza fueron desarrolladas por el estadístico y

genetista R. A. Fisher en los años 1920 y 1930s y es algunas veces conocido como

Anova de Fisher o análisis de varianza de Fisher, debido al uso de la distribución F de

Fisher como parte del test de significancia estadística.

El análisis de varianza sirve para comparar si los valores de un conjunto de datos

numéricos son significativamente distintos a los valores de otro o más conjuntos de

datos. El procedimiento para comparar estos valores está basado en la varianza global

observada en los grupos de datos numéricos a comparar. Típicamente, el análisis de

varianza se utiliza para asociar una probabilidad a la conclusión de que la media de un

grupo de puntuaciones es distinta de la media de otro grupo de puntuaciones.

Supuestos previos:

El ANOVA parte de algunos supuestos que han de cumplirse:

• La variable dependiente debe medirse al menos a nivel de intervalo.

• Independencia de las observaciones. La distribución de los residuales debe ser

normal.

• Homocedasticidad: homogeneidad de las varianzas.

La técnica fundamental consiste en la separación de la suma de cuadrados (SS, 'sum of

squares') en componentes relativos a los factores contemplados en el modelo. Como

ejemplo, mostramos el modelo para un ANOVA simplificado con un tipo de factores en

diferentes niveles. (Si los niveles son cuantitativos y los efectos son lineales, puede

resultar apropiado un análisis de regresión lineal)

Estatal = SSError + SSFactores

El número de grados de libertad (gl) puede separarse de forma similar y se corresponde

con la forma en que la distribución chi-cuadrado describe la suma de cuadrados

asociada.

glTotal = glError + glFactores

10 Existen dos tipos de modelo de análisis de varianza: de efectos fijos y de efectos aleatorios. Explique el significado cada uno de ellos en un análisis de varianza.

Un modelo de análisis de varianza es de efectos fijos cuando los resultados obtenidos

solo son validos para esos determinados niveles del factor estudiado y lo que ocurra a

otros niveles del factor puede ser diferente y de Efecto Aleatorio cuando un factor se ha

considerado tan solo una muestra de los posibles valores que este puede tomar, es decir

cuando los resultados obtenidos son validos para cualquier nivel del factor estudiado.

Un modelo de análisis de varianza es de efectos fijos cuando los resultados obtenidos

sólo son válidos para esos determinados niveles del factor estudiado y lo que ocurra a

otros niveles del factor puede ser diferente.

Un modelo de análisis de varianza es de efectos aleatorios cuando los resultados

obtenidos son válidos para cualquier nivel del factor estudiado.

Un modelo es replicado si el experimento se repite varias veces para cada nivel del

factor; en caso contrario se dice que el modelo es por unidad de casilla.

CO�CLUSIO�ES

El desarrollo de anterior trabajo nos dio a conocer conceptos de la inferencia estadística

y de igual forma adquirimos nuevos conocimientos y los colocámos en práctica con la

solución de diferentes tipos de preguntas.

En este trabajo plasmamos un análisis y la respectiva solución, a los ejercicios y

preguntas propuestas en la guia.

BIBLIOGRAFIA

Modulo versión final agosto 2008.pdf

es.wikipedia.org/wiki/Estadística_inferencial

recursostic.educacion.es/.../inferencia_estadistica/index_inferencia.h

biplot.usal.es/problemas/confianza/INFERENCIA.pdf

compañera CONSOLIDADO.pdf

Documents

Transcript of compañera CONSOLIDADO.pdf