Ejer Cici Os

14
Ejemplo: Un investigador está interesado en saber si el desarrollo mental de un niño se asocia a la educación formal de la madre. De esta manera, obtiene la calificación de desarrollo mental en la escala de Gesell de ocho niños elegidos aleatoriamente y se informa del grado de escolaridad de las madres. Elección de la prueba estadística. Se desea medir asociación o correlación. Las calificaciones de la educación formal de cada madre están dadas en una medición cualitativa, pero tienen una escala ordinal, por lo cual es posible ordenarlas en rangos. Véase: Flujograma 6 Planteamiento de la hipótesis. Hipótesis alterna (Ha). El desarrollo mental de los hijos es una variable dependiente de la educación formal de la madre; por lo tanto, existe una correlación significativa. Hipótesis nula (Ho). La asociación entre las variables educación formal de la madre y desarrollo mental de los hijos no es significativa, ni hay correlación. Nivel de significación. Para todo valor de probabilidad igual o menor que 0.05, se acepta Ha y se rechaza Ho. Zona de rechazo. Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se rechaza Ha. Desarrollo mental de algunos niños y escolaridad de las madres.

description

ggd

Transcript of Ejer Cici Os

Page 1: Ejer Cici Os

Ejemplo:

Un investigador está interesado en saber si el desarrollo mental de un niño se asocia a la educación formal de la madre. De esta manera, obtiene la calificación de desarrollo mental en la escala de Gesell de ocho niños elegidos aleatoriamente y se informa del grado de escolaridad de las madres.

Elección de la prueba estadística.Se desea medir asociación o correlación. Las calificaciones de la educación formal de cada madre están dadas en una medición cualitativa, pero tienen una escala ordinal, por lo cual es posible ordenarlas en rangos. Véase: Flujograma 6

Planteamiento de la hipótesis.

Hipótesis alterna (Ha). El desarrollo mental de los hijos es una variable dependiente de la educación formal de la madre; por lo tanto, existe una correlación significativa.

Hipótesis nula (Ho). La asociación entre las variables educación formal de la madre y desarrollo mental de los hijos no es significativa, ni hay correlación.

Nivel de significación.Para todo valor de probabilidad igual o menor que 0.05, se acepta Ha y se rechaza Ho.

Zona de rechazo.Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se rechaza Ha.

Desarrollo mental de algunos niños y escolaridad de las madres.

Aplicación de la prueba estadística.Inicialmente, las observaciones de las variables X y Y se ordenan en rangos.

Page 2: Ejer Cici Os

Arreglo en rangos de las observaciones presentadas en la tabla anterior.

De acuerdo con esto, se efectúa un ordenamiento natural de los rangos de las variables X y Y.

Rangos de la variable independiente X y su correspondiente de la variable dependiente.

El cálculo de la puntuación efectiva (S) se realiza con el ordenamiento de los rangos de la variable dependiente (Y).El primer valor del rango de Y es 1. Respecto a los demás rangos, existen siete mayores que Y y ninguno es menor, de manera que queda:S = (7 - 0) +

Después está el rango 5, luego se hallan tres por arriba y tres por debajo de éste y se continúa:S = (7 - 0) + (3 - 3) +

En rango siguiente es el 3, del cual cuatro son mayores y uno menor, y queda:S = (7 - 0) + (3 - 3) + (4 - 1) +

El rango inmediato es el 2, y los cuatro subsecuentes son mayores y ninguno menor:S = (7 - 0) + (3 - 3) + (4 - 1) + (4 - 0) +

Después se halla el rango 7, en el que uno es mayor y dos menores:S = (7 - 0) + (3 - 3) + (4 - 1) + (4 - 0) + (1 - 2) +

Finalmente, se encuentra el rango 8, el subsecuente es el 6, que es menor y se concluye el cálculo de S, como sigue:S = (7 - 0) + (3 - 3) + (4 - 1) + (4 - 0) + (1 - 2) + (0 - 1)S = 7 + 0 + 3 + 4 - 1 - 1 = 12

Aplicamos la ecuación de la prueba estadística.

Calculamos el nivel se significancia.

Page 3: Ejer Cici Os

Una vez calculado el valor Z, se obtiene la probabilidad en la tabla de coeficientes de correlación en niveles de p 0.05 y 0.01; a su vez en buscamos en la tabla de probabilidades asociadas en valores extremos como los de 2 en la distribución normal.

Se localiza el valor 1.4 y en la intersección de la columna 0.09, se observa el valor 0.0681, el cual corresponde a la probabilidad de obtener un valor Z de esta magnitud, que difiere del promedio y es mayor que el nivel de significancia.

Decisión.Como el valor Z tiene mayor probabilidad que el nivel de significancia, se acepta Ho y se rechaza Ha.

Interpretación.La correlación entre las variables educación materna y desarrollo mental del hijo no es significativa. Esta misma conclusión se obtuvo mediante el coeficiente de correlación de Spearman.

En la sección de coeficiente de correlación de Spearman se señaló que al aumentar el tamaño de la muestra, existe mayor probabilidad de empates o ligas entre los rangos de las observaciones. Para esta condición se presenta la siguiente ecuación:

Donde:t (tau) = coeficiente de correlación de Kendall.S = puntuación efectiva de los rangos.N = tamaño de la muestra en parejas de variables.Lx = sumatoria de ligas o empates dados en la variable independiente (X).Ly = sumatoria de ligas o empates dados en la variable dependiente (Y).

Ahora analizamos los datos de la segunda tabla que nos dio la pantalla de resultados.

Los nuevos datos se registran en la tabla 9.10.

Analicemos ahora los datos de la tabla 9.7 que registra los dos estadísticos Tau y Gamma

Page 4: Ejer Cici Os

a. Asumiendo la hipótesis alternativa.

b. Empleando el error típico asintótico basado en la hipótesis nula.

El estadístico Kendall’s Tau mide la probabilidad de las diferencias entre las probabili-dades de que los datos observados estén en el mismo orden, versus la probabilidad de que no estén en el mismo orden.

Hay dos variantes de Tau: Tau b y Tau c, variantes que difieren en la manera cómo se percibe las ordenaciones de las variables relacionadas entre sí.

Kendall’s Tau-b es una medida de asociación que computa los excesos de los pares de los datos observados concordantes en relación a los discordantes

Todo eso de acuerdo con una fórmula establecida.

Tiende a un valor 0 cuando las variables son estadísticamente dependientes

En el cuadro de análisis su valor es 0.107 y su Sig 0.001

Estos bajos niveles nos permite desechar la hipótesis de que ambas variables,Shopping frecuency y Overall satisfaction, sean independientes entre sí.

Esto es, aceptamos la hipótesis alternativa de que las variables están asociadas entre sí.

Tau-c, también conocida como Kendall-Stuart Tau-c, es una variante de Tau-b pero para tablas mayores; iguala el exceso de concordancia sobre los pares discordantes.

Su valor en la tabla que analizamos también está respaldado por Sig. 0.001, que es otra razón para desechar la hipótesis nula que sostiene la independencia de las variables.

Uso de la Tabla de Contingencia para medir el riesgo relativo de un evento.

Una compañía que vende revistas envía tradicionalmente correos a clientes que figuran en la base de datos; el porcentaje de respuestas es típicamente bajo.

Para mejorar las respuestas mensuales, decidieron enviar correos mensuales a personas que tienen suscripciones de periódicos.

Esta iniciativa se basaba en el supuesto de que la gente que lee periódicos estará más interesada en suscribirse a una revista.

Page 5: Ejer Cici Os

Para tener los estadísticos que les permita tomar una decisión al respecto, nos encargan testar las bondades del nuevo sistema y nos entregan los datos en el archivo demo.sav.

Nuestra tarea consiste en estimar el Riesgo Relativo de que una persona que está suscrita a un periódico responde o no a los avisos que se les hace llegar mensualmente.

Vamos a usar el procedimiento referido a las Tablas de Contingencia para testar la teoría, construyendo una tabla de dos por dos, con relación a las suscripciones de periódicos.

Menú principal → Estadísticos Descriptivos →Tablas de Contingencia → Newspaper en la casilla de Filas y Response en la casilla de Columna.

Todavía no pedimos Estadísticos; pero en la misma pantalla, debajo Estadísticos → click en Casilla → Recuentos: click observado → esperado

A la derecha, click en comparar las proporciones de columna; → abajo, en la sección Porcentajes click columna → continuar → aceptar.

Los datos aparecen en la tabla que copiamos como tabla 9.8

El Riesgo

El riesgo relativo es una razón de las probabilidades de dos eventos, en este caso, nos interesa el riesgo relativo de una respuesta a los correos mensuales.

Medimos ese riesgo por medio de una razón de probabilidades.

La razón de la probabilidad de que alguien suscrito a un periódico responda a los correos, con relación a la probabilidad de que alguien que no está suscrito también responda.

Así, de la tabla anterior el estimado del riesgo relativo es 13.7%/8.2% = 1.668.

Veamos ahora el riesgo relativo de no respuesta

Es la razón de la probabilidad de que alguien suscrito a un periódico no responda con relación a la probabilidad de que una persona no suscrita tampoco responda.

Esto es 86,3%/91.8% = 0.94

Podemos afirmar que la probabilidad de que una persona suscrita a un periódico res-ponda es 1.6680 veces que alguien no suscrita responda a los correos.

También se puede llegar a la misma conclusión diciendo que una persona que está suscrita a un periódico responda, es 0.94 veces que alguien no suscrito no responda.

Page 6: Ejer Cici Os

Ejercicio :

Muestras

Hay dos muestras en este estudio, la primera constituida por la serie de 23 datos (años) consecutivos, del número de suicidios (y su tasa), ocurridos en Chile entre 1981 y 2003, obtenida de los anuarios estadísticos publicados por el SML. La segunda es la relativa al PIB chileno entre los años 1981 y 2003, provisto por el Banco Central de Chile (2003) cuyos datos están en términos �reales � medidos a precio constante en millones de pesos de 1986.

Procedimientos

Con la base de datos relativa al PIB se establece una relación entre el número de suicidios y el PIB para el período 1981-2003. El problema de ajustar una línea entre series temporales se desarrolla en varias etapas diferentes: primera, se analiza la estacionariedad de las series Yt : Número de Suicidios y Xt: PIB; segunda, se elige la forma de la ecuación econométrica que representa el fenómeno estudiado el cual será formulado en términos de las series Yt y Xt. Tercera, se estima el valor numérico de los parámetros bj contenidos en la ecuación elegida usando el método de los mínimos cuadrados ordinarios (MCO), identificando dentro del modelo escogido, la ecuación de regresión que mejor se ajuste a los puntos observados disponibles. Una tarea importante que valida las consecuencias de un modelo consiste en la comprobación de los supuestos que operan en la base misma de su construcción, a saber; la autocorrelación y la homoscedasticidad. Finalmente, cuarta, se estudia el efecto de no cointegración que puede resultar al relacionar, a través de una ecuación de regresión, dos series temporales Yt y Xt no estacionarias.

Resultados

Page 7: Ejer Cici Os

Los datos constitutivos de la muestra 2 relativa al PIB, recogidos desde los archivos del Banco Central de Chile (2003) se presentan en Tabla 1, conjuntamente con el número y tasa de suicidio en el país de 1981 a 2003.

El comportamiento estandarizado de las series Xt e Yt, entre PIB y número de suicidios se muestra en la Figura 1.

Del análisis de la prueba de estacionariedad obtenemos la estadística Q de Ljung-Box para las variables número de suicidios (LBQ = 178, 46; gl = 22; p< 0,01) y PIB ( LBQ = 194, 906; gl = 22; p < 0,01) a partir de la cual se puede establecer que cada serie temporal es no estacionaria.

Se observa, también, que la curva PIB es suave y ascendente mientras que la curva del número de suicidios es algo accidentada pero igualmente ascendente, observándose una cierta similitud entre el comportamiento de ambas. El modelo de regresión que representa

Page 8: Ejer Cici Os

aproximadamente la relación entre ambas series es lineal tanto en sus parámetros como en sus variables, cuya formulación general es:

Yt = β1 Xt + β0 + et

dónde et representa el residuo o error de modelo.

Usando el método de estimación MCO se obtiene las siguientes estimaciones de los parámetros del modelo de regresión.

b1 = 0,00010956 y b0 = 287,15156608

donde b1 y b0 son estimaciones de β1 y β0 respectivamente.

En la Figura 2 se registra la relación existente entre el PIB y el número de suicidios para los 23 años analizados, (1981 a 2003), junto con la línea de regresión estimada.

El resultado de la relación entre el número suicidio y PIB es una r = 0,874 para el período 1981-2003 calculado mediante la estadística Tau-b de Kendall (Taprox = 21,08; p< 0,01) por lo cual, existe una relación significativa y positiva entre ambas variables (Siegel & Castellan, 1995).

El análisis de varianza nos entrega la significancia de la ecuación de regresión lineal Freg= 478,652; glreg= 1, glresiduo= 22; p < 0,01. Para los coeficientes estimados tb0=9,405; gl = 21; p < 0,01 y tb1 =? 22,083; gl = 21; ????p < 0,01. El modelo y sus coeficientes son estadísticamente significativos. La ecuación de regresión para el período 1981 – 2003 es:

Yt = 0.00010956 Xt + 287.15156608 + et

Aunque es posible la extrapolación, ésta es una operación siempre peligrosa, y tanto más cuando esas predicciones sobrepasan plazos prudentes o apropiados (Venables & Ripley, 1998).

Page 9: Ejer Cici Os

La aplicación de pruebas de significación t y F usuales son válidas si las estimaciones de los coeficientes de la ecuación de regresión, mediante MCO, son eficientes. Para que tal situación ocurra es necesario comprobar las suposiciones de normalidad, ausencia de autocorrelación y la homoscedasticidad en los residuos de la regresión.

Para analizar la autocorrelación aplicaremos la prueba de Durbin-Watson. La estadística obtenida es d = 1,254 y p > 0,01, por lo tanto, se puede afirmar que no hay evidencia significativa de autocorrelación en los residuos de la regresión.

Sin embargo, es necesario probar el comportamiento normal de tales residuos (estandarizados) que supone la prueba de Durbin-Watson. Basándonos en el test de normalidad de Anderson-Darling se puede afirmar que no hay evidencia que indique un desajuste significativo del comportamiento normal, (A-Squared = 0,401; p > 0,01). En consecuencia, los residuos estandarizados provienen de una población normalmente distribuida (Gujarati, 2004). En la Figura 3 se puede observar la curva relativa a la bondad de ajuste de los residuos estandarizados.

Una prueba que nos ayuda a establecer la ausencia de autocorrelación en los residuos (estandarizados), en forma complementaria a la prueba de Durbin-Watson, es la prueba de rachas, la cual no hace suposiciones sobre la distribución de probabilidades de donde se obtuvieron las observaciones (Dickinson, 1985; Gujarati, 2004). Al analizar los resultados de la prueba de rachas, se puede afirmar que no existe evidencia significativa (z = -0,350; p > 0,01) que muestre un patrón sistemático en el comportamiento de los residuos estandarizados a través del tiempo. Tales residuos constituyen un proceso estocástico estacionario llamado ruido blanco.

En la Figura 4 se puede observar la distribución correspondiente al comportamiento de los residuos (estandarizados) en el tiempo.

Page 10: Ejer Cici Os

Se recogió evidencia de confiabilidad de la versión preparada para los usuarios de negocio mediante el cálculo del coeficiente alfa de Cronbach (∝), método para estimar la consistencia interna del cuestionario, ecuación (1)(correlación que sería obtenida entre dos formas perfectamente paralelas de pruebas si no hubiera cambios en los examinandos) [9].

El cálculo del coeficiente alfa para la muestra de patrocinadores, líderes de proyecto, analistas de negocio y desarrolladores fue de 726. El cálculo del coeficiente alfa para el instrumento utilizado con la muestra de usuarios de negocio fue de .841. Estos coeficientes de confiabilidad, tanto para la muestra de patrocinadores, líderes de proyecto, analistas de negocio y desarrolladores como para la muestra de usuarios de negocio son considerados altos. Nunnally, sugiere, para los tipos de investigación exploratorios, los niveles del coeficiente alfa mayores de 0.7 (considerados altos) [10]. Esto implica que existe asociación entre los ítems del instrumento con relación a los constructos que lo constituyen (consistencia interna) [10] (ver Tabla 1).

Se utilizó el coeficiente de correlación de Kendall con el propósito de examinar la relación entre factores de implementación, éxito de la implementación y éxito del sistema, que afecta la implementación exitosa de un DW [9]. El coeficiente de correlación tau de Kendall se usa

Page 11: Ejer Cici Os

cuando las variables estudiadas son medidas en escala ordinal y se ordenan por rangos o jerarquías. La fórmula es la ecuación (2):

Donde; T (tau) = coeficiente de correlación de Kendall S = puntuación efectiva de los rangos N = tamaño de la muestra en parejas de variables

Solamente se calcularon coeficientes de correlación para la muestra administrada a los usuarios de negocio. La muestra de patrocinadores, líderes de proyecto, analista de negocios y desarrollado-res, no se utilizó debido a la homogeneidad de la muestra obtenida.

El coeficiente de correlación es un número (entre -1.00 y +1.00 inclusive) que indica el grado de la relación entre las dos variables. El signo indica la dirección de la relación. Cuando el valor es positivo, significa que existe una relación directa entre ambas variables, esto es, si las dos aumentan al mismo tiempo. El valor negativo indica que la relación es inversa, es decir, cuando una variable disminuye a medida que la otra aumenta. Cuando no hay correlación entre dos variables el coeficiente de correlación es 0. Para interpretar el nivel de asociación entre dos variables se utiliza el tamaño del coeficiente de correlación teniendo en consideración los criterios establecidos por [11] (ver Tabla 2).