Metodo de Duncan
Click here to load reader
-
Upload
software029 -
Category
Documents
-
view
13.016 -
download
0
Transcript of Metodo de Duncan
METODO DE DUNCAN
Análisis de los métodos estadísticos a la solución de problemas técnico
1. Desarrollo
Regresión Lineal Simple Y MúltipleProblema 1.En la Unidad Económica Básica "Frank País" de Moa se desea conocer el peso promedio que alcanzarán las gallinas en el próximo trimestre. A final de cada trimestre estas gallinas son distribuidas a la población y se inicia nuevamente el ciclo de crecimiento.Se conoce la cantidad de pienzo y agua consumida por estas juega un papel determinante en el peso de las mismas.En el actual trimestre se realizó un estudio donde se obtuvieron los datos para 35 gallinas. (Ver anexo 1). (Los datos recopilados no son reales).
Análisis de la Regresión Simple.Variables:
Variable dependiente: Y. Peso de las gallinas en libras (lb.). Variable independiente: X. Cantidad de pienzo consumida en kilogramos
(Kg.)
Dócima de la pendiente.Planteamiento de las hipótesis:
Si se acepta H0 : la variable no es significativa.(No existe relación lineal entre Y y X ).
Si se rechaza H0 la variable es significativa (Existe relación lineal entre Y y X ).
F. variación S.C G.L C.M F P
Regresión 153,198 1 153,198 90,58 0,0000
Residuos 55,815 33 1,69136
Total 209,013 34
El coeficiente de correlación = 0,856131(las variables se encuentran relacionadas linealmente en un 85,6131%).R2 = 73,2959 (Se ha eliminado un 73,2959 % de los errores con la regresión).El error estándar = 1,30052Como el valor de probabilidad es 0,0000<0,05 se RH0 lo que quiere decir que el pienzo es determinante en el peso de las gallinas.
La ecuación determinada para esta estimación es:
Dócima de la falta de ajuste.
(El modelo lineal proporciona un buen ajuste).
(El modelo lineal no proporciona un buen ajuste).
El modelo que mejor ajusta es el Square Root-X
F. variación S.C G.L C.M F P
F.A 36,1583 24 1,5066 0,69 0,7771
E.P 19,6567 9 2,18407
Como el valor de probabilidad 0,7771>0,10 se AH0 por lo que el modelo proporciona un buen ajuste.
Análisis de la Regresión múltiple:Variables:
Variable dependiente: Y. Peso de las gallinas en libras (lb.). Variable independiente: X1 .cantidad de pienzo consumida en kilogramos
(Kg.). Variable independiente: X2 .cantidad de agua consumida en litros (L.).
Dócima de la pendiente
F. variación S.C G.L C.M F P
Regresión 177,586 2 88,7929 90,41 0,0000
Residuos 31,4272 32 0,982099
Total 209,013 34
R2 = 84,964 %R2 ajustada =84,0243 %Error estándar =0,991009Error medio absoluto = 0,742858Estadístico de Durbin Watson = 1,76054.Como la probabilidad es menor que 0,05 entonces se RH0, lo que indica que algunas de estas variables son útiles para hacer estimaciones del peso de las gallinas (Y).
Método paso a paso.(paso alante )Con este método podemos determinar cuáles variables del modelo son significativas.Estadígrafo para entrar = 4,14911
Estadígrafo para remover = 4,14911En el paso número cero tenemos cero variables en el modelo con 34 G.L para el error y un coeficiente de determinación de 0,00 %.En el paso número uno adicionamos la variable X1 con un estadígrafo para entrar de 87,4949 y como este valor es mayor que 4,14911 esta variable queda en el modelo con 33 G.L para el error y un coeficiente de determinación de 72,61 %.En el paso número dos adicionamos la variable X2 con un estadígrafo para entrar de 26,2859 y como este valor es mayor que 4,14911 esta variable queda en el modelo con 32 G.L para el error y un coeficiente de determinación de 84,96 %.Como podemos observar, tanto el pienzo como el agua que consumen las gallinas son significativas en el peso de las mismas.
El modelo tiene la siguiente ecuación:
Verificación de supuestos:Normalidad:
Si aproximadamente el 95 % de los residuos están en el intervalo de , entonces no hay razón para rechazar el supuesto de normalidad.
El intervalo es (-1,982018; 1,982018)Se cumple el supuesto de normalidad ya que el 94,29 % de los errores aleatorios se encuentran dentro del intervalo indicado.
Homocedasticidad:
(Hay Homocedasticidad)
Algún difiere (No hay Homocedasticidad)
n =35c = 3p =3S.C Residual G.1 = 22, 2067S.C Residual G.2 = 24,306
F = 1, 0945345
1,0945345<2,57693
Se acepta H0 por lo que se cumple el supuesto de Homocedasticidad.No autocorrelación:
(No hay autocorrelación).
(Hay autocorrelación)
n =35
dl =1,343dv =1,584RH0 AH0 RH00 1,343 1,584 2,416 2,657 4d =1,76054. Se encuentra en la región de aceptación por lo que se cumple este supuesto.No multicolinialidad:
(No hay multicolinialidad)
(Si hay multicolinialidad)
R.C:
R.C:
> 4,13927
Se RH0 por lo no se cumple el supuesto de no multicolinialidad.Haciendo un pronóstico del peso que debería alcanzar una gallina para un consumo de pienzo de 10,6 Kg. y 9 L de agua obtuvimos un valor de 10,5669 con un error estándar 1,04204.
2. Diseño de experimento
Problema 2.En un estudio realizado por el ministerio de salud pública se obtuvo que la mayor parte de la población cubana que padece de Hipertensión Arterial se concentra en las provincias orientales. Según criterios médicos una de las causas fundamentales de tal enfermedad es el régimen alimenticio que llevan las personas. Se pudo observar además que los alimentos que se consumen no provocan el mismo efecto en la presión para los distintos horarios del día.Es interés de todos conocer cuáles son los alimento que podemos consumir en mayor o menor medida, los horarios en que son menores y mayores los valores de
tensión arterial, así como la mejor y la peor combinación de estos factores.Para darle respuestas a estas interrogantes se tomaron muestras de valores de presión por 6 días en diferentes horarios del día de una persona. (Ver anexo 2).
Análisis de varianza para datos tipo III
F. variación S.C G.L C.M F P
P. Efectos
A: Factor A. 1733,33 2 866,667 39,00 0,0024
B: Factor H. 1200,0 2 600 27,00 0,0048
C: Réplic. 5,55556 1 5,55556 0,25 0,6433
Interacción
AB 266,667 4 66,6667 3,00 0,1562
AC 311,111 2 155,556 7,00 0,0494
BC 44,4444 2 22,2222 1,00 0,4444
Residuos 88,8889 4 22,2222
Total 3650,0 17
Analizando el P-value del factor A. se obtuvo que para se rechaza H0 lo que significa que hay diferencias significativas entre los alimentos que se consumen, por lo que la variable es significativa en la inestabilidad de la presión.
Haciendo el mismo análisis para el factor H. se obtuvo que para se rechaza H0 lo que significa que hay diferencias significativas entre los horarios del día en que se toma la presión, por lo que la variable es significativa en la inestabilidad de la presión.
Haciendo el análisis para las réplicas se obtuvo que para se acepta H0 lo que significa que la variable no es significativa en la inestabilidad de la presión.En las interacciones tenemos que solo es significativa la interacción del factor A con las réplicas.Para obtener en cuáles horarios y en cuáles alimentos están estas diferencias significativas se uso del método de Duncan obteniéndose:Pruebas de rangos múltiples para los datos por el Factor A.
Método de Duncan con 95 %
Factor A. Conteo Media LS Grupos Homogéneos
Verduras 6 118,333 X
Harina
Sal
6
6
135,0
141,667
X
X
Contraste Diferencia
Harina-sal
Harina-verduras
Sal-verduras
-6,66667
*16,6667
*23,3333
De aquí se deduce que existe homogeneidad entre los alimentos harina y sal y existen diferencias significativas entre harina-verduras y sal-verduras.
Pruebas de rangos múltiples para los datos por el Factor H.
Método de Duncan con 95 %
Factor H. Conteo Media LS Grupos Homogéneos
Meridiano
Noche
mañana
6
6
6
121,667
131,667
141,667
X
X
X
Contraste Diferencia
Mañana-meridiano
Mañana-noche
Meridiano-noche
*20,0
*10,0
*-10,0
De aquí se obtiene que existen diferencias significativas entre los tres horarios.Para el Factor A.Chequeo de varianza.Prueba C. de Cochran`s: 0,565217 P-value = 0,279372Prueba de Bartlett`s: 1,15598 P-value = 0,368475En la prueba de Cochran`s P-value > 0,05En la prueba de Bartlett`s P-value > 0,05Se cumple el supuesto de igualdad de varianza.
Para el Factor H.Chequeo de varianzaPrueba C. de Cochran`s: 0,442177 P-value = 0,749976Prueba de Bartlett`s: 1,17879 P-value = 0,322074En la prueba de Cochran`s P-value > 0,05En la prueba de Bartlett`s P-value > 0,05Se cumple el supuesto de igualdad de varianza.
Para el Factor Combi.Pruebas de rangos múltiples para los datos por el Facto Combi.
Método de Duncan con 95 %
Factor Combi. Conteo Media Grupos Homogéneos
8
9
7
5
2
6
3
4
1
2
2
2
2
2
2
2
2
2
115,0
115,0
125,0
125,0
125,0
135,0
145,0
145,0
155,0
X
X
XX
XX
XX
XX
XX
XX
X
Con el experimento anterior llegamos a la conclusión de que los alimentos que debemos consumir en mayor proporción son las verduras y los que menos debemos consumir son aquellos que contengan alto contenido de sal. El horario del día en que la presión alcanza menores valores es el meridiano y mayores valores por la mañana. La mejor combinación es verduras-meridiano y la peor sal-mañana.
3. Series Cronológicas
Analizando el problema anterior pero con datos correspondientes a cuatro semanas se desea analizar el comportamiento de la presión en cada semana así podría comportarse en los próximos días. (Ver anexo 3).
1. Tt = B0Media: 139,6429 Varianza: 153,4439 Modelo híbrido.
2. Serie de tendencia constante estacional con período 7.
B0 =139,643 p = 7 n = 28E (1) =1,074 E (2) = 0,967 E (3) = 1,074 E (4) = 0,967E (5) = 0,859 E (6) = 0,985 E (7) = 1,074Varianza: 63,7500 Desv. Típica: 7,9844
3. Estimación y chequeo. 4. Diseño de pronóstico.
Horizonte (K): 2 N = 28 m = 28 n = 14 Función de pronóstico:
E (1) = 1,060 E (2) = 0,971 E (3) = 1,065 E (4) = 0,975E (5) = 0,851 E (6) = 0,953 E (7) = 1,094
Media de los errores: - 5,361Suma de cuadrados: 980,298 Cuadrado Medio: 75,405Raíz del Cuadrado Medio: 8,683752
Cálculo del intervalo de confianza para un nivel de confianza de 95 %.Pronóstico para T = 30: 132,7373Intervalo de confianza para el pronóstico (115,09; 150,38)Desviación Estándar (1,25 DAP):9,0026Valor del DAP: 7,20Coeficiente de alisamiento del DPA: 0,250
METODO DE TUKEY
Inferencia de los parámetros del modelo.
Intervalos de confianza de los parámetros.
Se consideran dos situaciones:
Se acepta H0. Si se acepta la no influencia del factor los datos provienen de una única muestra homogénea y los parámetros y 2 se estiman según las técnicas clásicas.
(3.21)
(3.22)
Se rechaza H0.
Si se supone que el factor influye, entonces los parámetros del modelo son: 1,...,I y 2. Los estimadores son
Los intervalos de confianza se calculan a partir de las siguientes distribuciones: Para i = + i
que permite obtener el siguiente intervalo de confianza a un nivel 1 - (dado en (3.19 ))
Para la varianza 2 se utiliza el estadístico pivote (dado en (3.16 ))
de donde se deduce el siguiente intervalo de confianza dado en (3.17 ).
Diferencia entre dos medias.
Si se rechaza la hipótesis nula es porque existen medias de tratamientos diferentes y es importante calcular un intervalo de confianza para el parámetro =
i - j, con i j, i,j = 1,...,I. Este intervalo se deduce fácilmente del siguiente estadístico pivote
que proporciona el siguiente intervalo de confianza a un nivel 1 -
3.5.2 Concepto de contraste.
Lo expuesto en el apartado anterior puede generalizarse. Para ello se introduce el siguiente concepto:
“ Se denomina contraste, , a cualquier combinación lineal de los efectos de los tratamientos
En un diseño completamente aleatorizado todo contraste es estimable y su estimador mínimo-cuadrático es
Por la normalidad e independencia de las observaciones, se obtiene la distribución de
(3.26)
En muchos casos es útil representar un contraste por la lista de sus coeficientes. Esto es, el contraste se puede representar por cualquiera de las dos formas equivalentes siguientes:
Contrastes importantes sobre los que es interesante hacer inferencia son los siguientes:
• Comparar tratamientos a pares (“pairwise”).
Son contrastes del tipo: = i - j, donde el vector de coeficientes es un 1 en el i-ésimo lugar, un -1 en el j-ésimo lugar y un 0 en el resto.
Por ejemplo, = [0,0,1,0,...,0,-1,0] sería el contraste 3 - I-1. Existen m = (I 2) contrastes de comparaciones por pares
Es decir, estimar contrastes del tipo: = i - j, donde el vector de coeficientes es 1 en el i-éximo lugar, un -1 en el j-ésimo lugar y un 0 en el resto.
Por ejemplo, =[0,0,1,0,...,0,-1,0] sería el contraste 3 - I-1. Existen m = contrastes de comparaciones por pares.
• Tratamientos frente a control.Un subconjunto de contrastes del grupo anterior muy particular es el formado por los I - 1 contrastes 1 - I ([1,0,...,0,-1]), 2 - I ([0,1,...,0,-1]), ... , I-1 - I ([0,0,...,1,-1]). El objetivo es comparar el efecto de cada uno de los tratamientos con un tratamiento concreto, que se suele denominar control.
• Diferencias de medias de grupos.
Si los niveles de los factores tratamiento se dividen de un modo natural en dos o más grupos, puede ser interesante comparar el efecto medio de un grupo con los efectos medios de otros grupos.
Por ejemplo, supóngase que se desea comparar el efecto del color del papel de examen en los resultados finales de éste. Se ha probado con dos tonos claros:
blanco y amarillo (niveles 1 y 2 del factor) y con tres tonos más fuertes: azul, verde y rosa (niveles 3, 4 y 5). El siguiente contraste:
permite observar diferencias entre la influencia del papel claro (grupo 1) con respecto a la del papel oscuro (grupo 2).
• Tendencias
Cuando los niveles del factor tratamiento son cuantitativos y tienen un orden natural, el experimentador podría estar interesado en saber si la respuesta crece o decrece con un incremento del nivel o, más aún, si esa tendencia se mantiene o no constante. Se habla entonces de contrastes de tendencia.
Por ejemplo, supóngase que hay I = 5 niveles de un factor son equiespaciados y con igual tamaño muestral en cada grupo. Suponiendo α = α1 = α2 = α3 = α4 = α5 el siguiente contraste indica una tendencia lineal en los niveles
En el mismo contexto, una tendencia cuadrática viene dada por el contraste
En general, si = i = 1Ibi i es el estimador mínimo cuadrático de un contraste
individual = i = 1Ibi i, con i = 1
Ibi = 0. Entonces, de (3.2 6) se deduce que un intervalo de confianza para , al nivel 1 - , viene dado por:
(3.27)
donde g.l. representa los grados de libertad con que se ha estimado la varianza del error.
En el modelo del diseño completamente aleatorizado al estimar 2 por la varianza residual, R
2, con n - I grados de libertad, se obtiene
(3.28)
Análogamente, utilizando la distribución del contraste = i = 1Ibi i, dada en
(3 .26), se pueden realizar test de hipótesis del tipo
(3.29)
3.5.3 Contrastes múltiples.
Si el test de la F de la tabla ANOVA indica rechazo de la hipótesis nula de igualdad de las medias de los niveles, es importante establecer la hipótesis alternativa adecuada y, para ello, son de gran utilidad los contrastes múltiples. En ocasiones se quiere realizar un número muy grande de comparaciones, de modo que la probabilidad de que alguna comparación individual resulte significativa puede ser erróneamente muy grande.
Si se quieren resolver todas las pruebas de hipótesis siguientes:
Existen m = = pruebas (por ejemplo, si I = 6 entonces m = 15). Al resolverlas una a una, con nivel , se denomina Aij al suceso:
Entonces:
Sea el suceso: A = rechazar erróneamente alguna H0ij = ij
mAij.
¿Cuál es la probabilidad de A? Suponiendo que los Aij fuesen independientes (obviamente no lo son):
Si = 0'05 y m = 15, entonces P(A) = 1 - 0'9515 = 1 - 0'46 = 0'54.
Por tanto, la probabilidad de concluir erróneamente que algún par de tratamientos son significativamente distintos es mayor que 0'54.
Hay distintos métodos para abordar el problema de la resolución de pruebas de hipótesis simultáneas (es decir, garantizando para todos ellas un nivel de significación predeterminado). Unos han sido desarrollados con carácter general y
otros orientados a problemas concretos como puede ser la comparación de distintos tratamientos con un tratamiento control.
A continuación se exponen dos métodos de resolución de contrastes múltiples.
Método de Bonferroni.
Se basa en calcular un nivel de significación, *, para cada una de las m pruebas de hipótesis que garantice un nivel de significación concreto para todas las pruebas de hipótesis simultáneas ( es por tanto el nivel de significación global).
Supóngase que se tienen I niveles y m pruebas de hipótesis individuales. Sean los sucesos:
Ak : “aceptar la hipótesis nula del contraste k-ésimo cuando ésta es cierta”.
A : “rechazar erróneamente la hipótesis nula de uno o más contrastes”.
¿Qué * habrá que utilizar en cada prueba de hipótesis individual para garantizar que P(A) no es mayor que ?
(3.29)
Por tanto, para el modelo matemático de un diseño completamente aleatorizado, el método de Bonferroni consiste en resolver cada prueba de hipótesis individual conforme al siguiente criterio:
Dado un conjunto de m contrastes j = 1m, rechazar la hipótesis H0
j : i =
1Ibi
ji = 0, a un nivel de significación global no superior a , siempre que
(3.30)
Ventajas y desventajas de este procedimiento son las siguientes:
• Si m es muy grande, será tan pequeño que tn-I no viene en las tablas. Se puede aproximar por:
donde z es el valor de una normal estandar tal que P = .
• Es método es excesivamente conservador y sólo resulta más potente que otros procedimientos cuando m es muy pequeño. • Es válido para cualquier tipo de diseño.
Método de Scheffé.
El método de Bonferroni presenta serios inconvenientes, en particular, si m es muy grande la mínima diferencia significativa al nivel global para cada prueba es excesivamente grande.
Por el contrario, el método de Scheffé proporciona una mínima diferencia significativa que no depende del número de pruebas m a realizar.
El valor crítico de Scheffé es
de modo que, para cualquier contraste individual i = 1Ibi i se rechaza la hipótesis H0
: i = 1Ibi i = 0, a un nivel de significación global no superior a , siempre que
(3.31)
DIFERENCIA MÍNIMA SIGNIFICATIVA
La Diferencia Mínima Significativa (DMS) sólo debe emplearse para comparar medias adyacentes en un arreglo ordenado, aunque también se puede emplear para comparar las medias con un testigo o tratamiento estándar.
La DMS es una prueba de t de Student que utiliza la varianza combinada, es decir:
Sd es el error estándar de la diferencia y su cálculo a partir de los datos de la ANDEVA es como sigue:
Donde: CME es el cuadrado medio del error r es el número de repeticiones.Ejemplo:
ANDEVA
Fuentes de variación
SC GL CM F
Tratamientos 0.73 4 0.1825 4.1196
Repeticiones 0.096 2 0.048 1.0835
Error 0.354 8 0.0443
Total 1.1790 14
Promedios ordenados
B 8.05
A 7.85
C 7.74
D 7.51
E 7.45
El valor de la t se toma de la tabla con los grados de libertad del error.Si la diferencia entre dos promedios seguidos excede el valor de 0.397, se la declara significativa al nivel del 5%.En este ejemplo, la DMS indica que no hay diferencias significativas entre tratamientos adyacentes, pero la F de la ANDEVA indica que sí existen diferencias si se comparan medias no adyacentes, en este caso, el investigador podría optar por otro tipo de prueba de rango múltiple.