Metodo de Duncan

21

Click here to load reader

Transcript of Metodo de Duncan

Page 1: Metodo de Duncan

METODO DE DUNCAN

Análisis de los métodos estadísticos a la solución de problemas técnico

1. Desarrollo

Regresión Lineal Simple Y MúltipleProblema 1.En la Unidad Económica Básica "Frank País" de Moa se desea conocer el peso promedio que alcanzarán las gallinas en el próximo trimestre. A final de cada trimestre estas gallinas son distribuidas a la población y se inicia nuevamente el ciclo de crecimiento.Se conoce la cantidad de pienzo y agua consumida por estas juega un papel determinante en el peso de las mismas.En el actual trimestre se realizó un estudio donde se obtuvieron los datos para 35 gallinas. (Ver anexo 1). (Los datos recopilados no son reales).

Análisis de la Regresión Simple.Variables:

Variable dependiente: Y. Peso de las gallinas en libras (lb.). Variable independiente: X. Cantidad de pienzo consumida en kilogramos

(Kg.)

Dócima de la pendiente.Planteamiento de las hipótesis:

Si se acepta H0 : la variable no es significativa.(No existe relación lineal entre Y y X ).

Si se rechaza H0 la variable es significativa (Existe relación lineal entre Y y X ).

F. variación S.C G.L C.M F P

Regresión 153,198 1 153,198 90,58 0,0000

Residuos 55,815 33 1,69136

Total 209,013 34

 

El coeficiente de correlación = 0,856131(las variables se encuentran relacionadas linealmente en un 85,6131%).R2 = 73,2959 (Se ha eliminado un 73,2959 % de los errores con la regresión).El error estándar = 1,30052Como el valor de probabilidad es 0,0000<0,05 se RH0 lo que quiere decir que el pienzo es determinante en el peso de las gallinas.

Page 2: Metodo de Duncan

La ecuación determinada para esta estimación es:

Dócima de la falta de ajuste.

(El modelo lineal proporciona un buen ajuste).

(El modelo lineal no proporciona un buen ajuste).

 

El modelo que mejor ajusta es el Square Root-X

F. variación S.C G.L C.M F P

F.A 36,1583 24 1,5066 0,69 0,7771

E.P 19,6567 9 2,18407

Como el valor de probabilidad 0,7771>0,10 se AH0 por lo que el modelo proporciona un buen ajuste.

Análisis de la Regresión múltiple:Variables:

Variable dependiente: Y. Peso de las gallinas en libras (lb.). Variable independiente: X1 .cantidad de pienzo consumida en kilogramos

(Kg.). Variable independiente: X2 .cantidad de agua consumida en litros (L.).

Dócima de la pendiente

F. variación S.C G.L C.M F P

Regresión 177,586 2 88,7929 90,41 0,0000

Residuos 31,4272 32 0,982099

Total 209,013 34

R2 = 84,964 %R2 ajustada =84,0243 %Error estándar =0,991009Error medio absoluto = 0,742858Estadístico de Durbin Watson = 1,76054.Como la probabilidad es menor que 0,05 entonces se RH0, lo que indica que algunas de estas variables son útiles para hacer estimaciones del peso de las gallinas (Y).

Método paso a paso.(paso alante )Con este método podemos determinar cuáles variables del modelo son significativas.Estadígrafo para entrar = 4,14911

Page 3: Metodo de Duncan

Estadígrafo para remover = 4,14911En el paso número cero tenemos cero variables en el modelo con 34 G.L para el error y un coeficiente de determinación de 0,00 %.En el paso número uno adicionamos la variable X1 con un estadígrafo para entrar de 87,4949 y como este valor es mayor que 4,14911 esta variable queda en el modelo con 33 G.L para el error y un coeficiente de determinación de 72,61 %.En el paso número dos adicionamos la variable X2 con un estadígrafo para entrar de 26,2859 y como este valor es mayor que 4,14911 esta variable queda en el modelo con 32 G.L para el error y un coeficiente de determinación de 84,96 %.Como podemos observar, tanto el pienzo como el agua que consumen las gallinas son significativas en el peso de las mismas.

El modelo tiene la siguiente ecuación:

Verificación de supuestos:Normalidad:

Si aproximadamente el 95 % de los residuos están en el intervalo de , entonces no hay razón para rechazar el supuesto de normalidad.

El intervalo es (-1,982018; 1,982018)Se cumple el supuesto de normalidad ya que el 94,29 % de los errores aleatorios se encuentran dentro del intervalo indicado.

Homocedasticidad:

(Hay Homocedasticidad)

Algún difiere (No hay Homocedasticidad)

n =35c = 3p =3S.C Residual G.1 = 22, 2067S.C Residual G.2 = 24,306

F = 1, 0945345

1,0945345<2,57693

Se acepta H0 por lo que se cumple el supuesto de Homocedasticidad.No autocorrelación:

Page 4: Metodo de Duncan

(No hay autocorrelación).

(Hay autocorrelación)

n =35

dl =1,343dv =1,584RH0 AH0 RH00 1,343 1,584 2,416 2,657 4d =1,76054. Se encuentra en la región de aceptación por lo que se cumple este supuesto.No multicolinialidad:

(No hay multicolinialidad)

(Si hay multicolinialidad)

R.C:

R.C:

> 4,13927

Se RH0 por lo no se cumple el supuesto de no multicolinialidad.Haciendo un pronóstico del peso que debería alcanzar una gallina para un consumo de pienzo de 10,6 Kg. y 9 L de agua obtuvimos un valor de 10,5669 con un error estándar 1,04204.

2. Diseño de experimento

Problema 2.En un estudio realizado por el ministerio de salud pública se obtuvo que la mayor parte de la población cubana que padece de Hipertensión Arterial se concentra en las provincias orientales. Según criterios médicos una de las causas fundamentales de tal enfermedad es el régimen alimenticio que llevan las personas. Se pudo observar además que los alimentos que se consumen no provocan el mismo efecto en la presión para los distintos horarios del día.Es interés de todos conocer cuáles son los alimento que podemos consumir en mayor o menor medida, los horarios en que son menores y mayores los valores de

Page 5: Metodo de Duncan

tensión arterial, así como la mejor y la peor combinación de estos factores.Para darle respuestas a estas interrogantes se tomaron muestras de valores de presión por 6 días en diferentes horarios del día de una persona. (Ver anexo 2).

Análisis de varianza para datos tipo III

F. variación S.C G.L C.M F P

P. Efectos

A: Factor A. 1733,33 2 866,667 39,00 0,0024

B: Factor H. 1200,0 2 600 27,00 0,0048

C: Réplic. 5,55556 1 5,55556 0,25 0,6433

Interacción

AB 266,667 4 66,6667 3,00 0,1562

AC 311,111 2 155,556 7,00 0,0494

BC 44,4444 2 22,2222 1,00 0,4444

Residuos 88,8889 4 22,2222

Total 3650,0 17

Analizando el P-value del factor A. se obtuvo que para se rechaza H0 lo que significa que hay diferencias significativas entre los alimentos que se consumen, por lo que la variable es significativa en la inestabilidad de la presión.

Haciendo el mismo análisis para el factor H. se obtuvo que para se rechaza H0 lo que significa que hay diferencias significativas entre los horarios del día en que se toma la presión, por lo que la variable es significativa en la inestabilidad de la presión.

Haciendo el análisis para las réplicas se obtuvo que para se acepta H0 lo que significa que la variable no es significativa en la inestabilidad de la presión.En las interacciones tenemos que solo es significativa la interacción del factor A con las réplicas.Para obtener en cuáles horarios y en cuáles alimentos están estas diferencias significativas se uso del método de Duncan obteniéndose:Pruebas de rangos múltiples para los datos por el Factor A.

Método de Duncan con 95 %

Factor A. Conteo Media LS Grupos Homogéneos

Verduras 6 118,333 X

Page 6: Metodo de Duncan

Harina

Sal

6

6

135,0

141,667

X

X

Contraste Diferencia

Harina-sal

Harina-verduras

Sal-verduras

-6,66667

*16,6667

*23,3333

De aquí se deduce que existe homogeneidad entre los alimentos harina y sal y existen diferencias significativas entre harina-verduras y sal-verduras.

Pruebas de rangos múltiples para los datos por el Factor H.

Método de Duncan con 95 %

Factor H. Conteo Media LS Grupos Homogéneos

Meridiano

Noche

mañana

6

6

6

121,667

131,667

141,667

X

X

X

Contraste Diferencia

Mañana-meridiano

Mañana-noche

Meridiano-noche

*20,0

*10,0

*-10,0

De aquí se obtiene que existen diferencias significativas entre los tres horarios.Para el Factor A.Chequeo de varianza.Prueba C. de Cochran`s: 0,565217 P-value = 0,279372Prueba de Bartlett`s: 1,15598 P-value = 0,368475En la prueba de Cochran`s P-value > 0,05En la prueba de Bartlett`s P-value > 0,05Se cumple el supuesto de igualdad de varianza.

Para el Factor H.Chequeo de varianzaPrueba C. de Cochran`s: 0,442177 P-value = 0,749976Prueba de Bartlett`s: 1,17879 P-value = 0,322074En la prueba de Cochran`s P-value > 0,05En la prueba de Bartlett`s P-value > 0,05Se cumple el supuesto de igualdad de varianza.

Para el Factor Combi.Pruebas de rangos múltiples para los datos por el Facto Combi.

Page 7: Metodo de Duncan

Método de Duncan con 95 %

Factor Combi. Conteo Media Grupos Homogéneos

8

9

7

5

2

6

3

4

1

2

2

2

2

2

2

2

2

2

115,0

115,0

125,0

125,0

125,0

135,0

145,0

145,0

155,0

X

X

XX

XX

XX

XX

XX

XX

X

Con el experimento anterior llegamos a la conclusión de que los alimentos que debemos consumir en mayor proporción son las verduras y los que menos debemos consumir son aquellos que contengan alto contenido de sal. El horario del día en que la presión alcanza menores valores es el meridiano y mayores valores por la mañana. La mejor combinación es verduras-meridiano y la peor sal-mañana.

3. Series Cronológicas

Analizando el problema anterior pero con datos correspondientes a cuatro semanas se desea analizar el comportamiento de la presión en cada semana así podría comportarse en los próximos días. (Ver anexo 3).

1. Tt = B0Media: 139,6429 Varianza: 153,4439 Modelo híbrido.

2. Serie de tendencia constante estacional con período 7.

B0 =139,643 p = 7 n = 28E (1) =1,074 E (2) = 0,967 E (3) = 1,074 E (4) = 0,967E (5) = 0,859 E (6) = 0,985 E (7) = 1,074Varianza: 63,7500 Desv. Típica: 7,9844

3. Estimación y chequeo. 4. Diseño de pronóstico.

Horizonte (K): 2 N = 28 m = 28 n = 14 Función de pronóstico:

Page 8: Metodo de Duncan

E (1) = 1,060 E (2) = 0,971 E (3) = 1,065 E (4) = 0,975E (5) = 0,851 E (6) = 0,953 E (7) = 1,094

Media de los errores: - 5,361Suma de cuadrados: 980,298 Cuadrado Medio: 75,405Raíz del Cuadrado Medio: 8,683752

Cálculo del intervalo de confianza para un nivel de confianza de 95 %.Pronóstico para T = 30: 132,7373Intervalo de confianza para el pronóstico (115,09; 150,38)Desviación Estándar (1,25 DAP):9,0026Valor del DAP: 7,20Coeficiente de alisamiento del DPA: 0,250

METODO DE TUKEY

Page 9: Metodo de Duncan

Inferencia de los parámetros del modelo.

Intervalos de confianza de los parámetros.

Se consideran dos situaciones:

Se acepta H0. Si se acepta la no influencia del factor los datos provienen de una única muestra homogénea y los parámetros y 2 se estiman según las técnicas clásicas.

(3.21)

(3.22)

Se rechaza H0.  

Si se supone que el factor influye, entonces los parámetros del modelo son: 1,...,I y 2. Los estimadores son

Los intervalos de confianza se calculan a partir de las siguientes distribuciones: Para i = + i

que permite obtener el siguiente intervalo de confianza a un nivel 1 - (dado en (3.19 ))

Para la varianza 2 se utiliza el estadístico pivote (dado en (3.16 ))

de donde se deduce el siguiente intervalo de confianza dado en (3.17 ).

Page 10: Metodo de Duncan

Diferencia entre dos medias.

Si se rechaza la hipótesis nula es porque existen medias de tratamientos diferentes y es importante calcular un intervalo de confianza para el parámetro =

i - j, con i j, i,j = 1,...,I. Este intervalo se deduce fácilmente del siguiente estadístico pivote

 que proporciona el siguiente intervalo de confianza a un nivel 1 -

3.5.2 Concepto de contraste.

Lo expuesto en el apartado anterior puede generalizarse. Para ello se introduce el siguiente concepto:

 

“ Se denomina contraste, , a cualquier combinación lineal de los efectos de los tratamientos

  En un diseño completamente aleatorizado todo contraste es estimable y su estimador mínimo-cuadrático es  

Por la normalidad e independencia de las observaciones, se obtiene la distribución de

(3.26)

Page 11: Metodo de Duncan

En muchos casos es útil representar un contraste por la lista de sus coeficientes. Esto es, el contraste se puede representar por cualquiera de las dos formas equivalentes siguientes:

 

Contrastes importantes sobre los que es interesante hacer inferencia son los siguientes:

 

• Comparar tratamientos a pares (“pairwise”).

Son contrastes del tipo: = i - j, donde el vector de coeficientes es un 1 en el i-ésimo lugar, un -1 en el j-ésimo lugar y un 0 en el resto.

Por ejemplo, = [0,0,1,0,...,0,-1,0] sería el contraste 3 - I-1. Existen m = (I 2) contrastes de comparaciones por pares

 

Es decir, estimar contrastes del tipo: = i - j, donde el vector de coeficientes es 1 en el i-éximo lugar, un -1 en el j-ésimo lugar y un 0 en el resto.

Por ejemplo, =[0,0,1,0,...,0,-1,0] sería el contraste 3 - I-1. Existen m = contrastes de comparaciones por pares.

 

• Tratamientos frente a control.Un subconjunto de contrastes del grupo anterior muy particular es el formado por los I - 1 contrastes 1 - I ([1,0,...,0,-1]), 2 - I ([0,1,...,0,-1]), ... , I-1 - I ([0,0,...,1,-1]). El objetivo es comparar el efecto de cada uno de los tratamientos con un tratamiento concreto, que se suele denominar control.  

• Diferencias de medias de grupos.

Si los niveles de los factores tratamiento se dividen de un modo natural en dos o más grupos, puede ser interesante comparar el efecto medio de un grupo con los efectos medios de otros grupos.

Por ejemplo, supóngase que se desea comparar el efecto del color del papel de examen en los resultados finales de éste. Se ha probado con dos tonos claros:

Page 12: Metodo de Duncan

blanco y amarillo (niveles 1 y 2 del factor) y con tres tonos más fuertes: azul, verde y rosa (niveles 3, 4 y 5). El siguiente contraste:

 

permite observar diferencias entre la influencia del papel claro (grupo 1) con respecto a la del papel oscuro (grupo 2).

• Tendencias

Cuando los niveles del factor tratamiento son cuantitativos y tienen un orden natural, el experimentador podría estar interesado en saber si la respuesta crece o decrece con un incremento del nivel o, más aún, si esa tendencia se mantiene o no constante. Se habla entonces de contrastes de tendencia.

Por ejemplo, supóngase que hay I = 5 niveles de un factor son equiespaciados y con igual tamaño muestral en cada grupo. Suponiendo α = α1 = α2 = α3 = α4 = α5 el siguiente contraste indica una tendencia lineal en los niveles

En el mismo contexto, una tendencia cuadrática viene dada por el contraste

En general, si = i = 1Ibi i es el estimador mínimo cuadrático de un contraste

individual = i = 1Ibi i, con i = 1

Ibi = 0. Entonces, de (3.2 6) se deduce que un intervalo de confianza para , al nivel 1 - , viene dado por:

(3.27)

donde g.l. representa los grados de libertad con que se ha estimado la varianza del error.

En el modelo del diseño completamente aleatorizado al estimar 2 por la varianza residual, R

2, con n - I grados de libertad, se obtiene

(3.28)

    

Page 13: Metodo de Duncan

Análogamente, utilizando la distribución del contraste = i = 1Ibi i, dada en

(3 .26), se pueden realizar test de hipótesis del tipo

(3.29)

3.5.3 Contrastes múltiples.

Si el test de la F de la tabla ANOVA indica rechazo de la hipótesis nula de igualdad de las medias de los niveles, es importante establecer la hipótesis alternativa adecuada y, para ello, son de gran utilidad los contrastes múltiples. En ocasiones se quiere realizar un número muy grande de comparaciones, de modo que la probabilidad de que alguna comparación individual resulte significativa puede ser erróneamente muy grande.

Si se quieren resolver todas las pruebas de hipótesis siguientes:

 

Existen m = = pruebas (por ejemplo, si I = 6 entonces m = 15). Al resolverlas una a una, con nivel , se denomina Aij al suceso:

Entonces:  

Sea el suceso: A = rechazar erróneamente alguna H0ij = ij

mAij.

¿Cuál es la probabilidad de A? Suponiendo que los Aij fuesen independientes (obviamente no lo son):

 

Si = 0'05 y m = 15, entonces P(A) = 1 - 0'9515 = 1 - 0'46 = 0'54.

Por tanto, la probabilidad de concluir erróneamente que algún par de tratamientos son significativamente distintos es mayor que 0'54.

Hay distintos métodos para abordar el problema de la resolución de pruebas de hipótesis simultáneas (es decir, garantizando para todos ellas un nivel de significación predeterminado). Unos han sido desarrollados con carácter general y

Page 14: Metodo de Duncan

otros orientados a problemas concretos como puede ser la comparación de distintos tratamientos con un tratamiento control.

A continuación se exponen dos métodos de resolución de contrastes múltiples.

Método de Bonferroni.

Se basa en calcular un nivel de significación, *, para cada una de las m pruebas de hipótesis que garantice un nivel de significación concreto para todas las pruebas de hipótesis simultáneas ( es por tanto el nivel de significación global).

Supóngase que se tienen I niveles y m pruebas de hipótesis individuales. Sean los sucesos:

   Ak : “aceptar la hipótesis nula del contraste k-ésimo cuando ésta es cierta”.

   A :  “rechazar erróneamente la hipótesis nula de uno o más contrastes”.

¿Qué * habrá que utilizar en cada prueba de hipótesis individual para garantizar que P(A) no es mayor que ?

 

(3.29)

Por tanto, para el modelo matemático de un diseño completamente aleatorizado, el método de Bonferroni consiste en resolver cada prueba de hipótesis individual conforme al siguiente criterio:

 

Dado un conjunto de m contrastes  j = 1m, rechazar la hipótesis H0

j : i =

1Ibi

ji = 0, a un nivel de significación global no superior a  , siempre que 

 

(3.30)

 Ventajas y desventajas de este procedimiento son las siguientes:

Page 15: Metodo de Duncan

• Si m es muy grande, será tan pequeño que tn-I no viene en las tablas. Se puede aproximar por:  

donde z es el valor de una normal estandar tal que P = .

• Es método es excesivamente conservador y sólo resulta más potente que otros procedimientos cuando m es muy pequeño. • Es válido para cualquier tipo de diseño.

Método de Scheffé.

El método de Bonferroni presenta serios inconvenientes, en particular, si m es muy grande la mínima diferencia significativa al nivel global para cada prueba es excesivamente grande.

Por el contrario, el método de Scheffé proporciona una mínima diferencia significativa que no depende del número de pruebas m a realizar.

El valor crítico de Scheffé es  

de modo que, para cualquier contraste individual  i = 1Ibi i se rechaza la hipótesis H0

: i = 1Ibi i = 0, a un nivel de significación global no superior a , siempre que  

(3.31)

DIFERENCIA MÍNIMA SIGNIFICATIVA

La Diferencia Mínima Significativa (DMS) sólo debe emplearse para comparar medias adyacentes en un arreglo ordenado, aunque también se puede emplear para comparar las medias con un testigo o tratamiento estándar.

La DMS es una prueba de t de Student que utiliza la varianza combinada, es decir:

Page 16: Metodo de Duncan

Sd es el error estándar de la diferencia y su cálculo a partir de los datos de la ANDEVA es como sigue:

Donde: CME es el cuadrado medio del error                r     es el número de repeticiones.Ejemplo:

ANDEVA

Fuentes de variación

SC GL CM F

Tratamientos 0.73 4 0.1825 4.1196

Repeticiones 0.096 2 0.048 1.0835

Error 0.354 8 0.0443  

Total 1.1790 14    

Promedios ordenados

B 8.05

A 7.85

C 7.74

D 7.51

E 7.45

Page 17: Metodo de Duncan

El valor de la t se toma de la tabla con los grados de libertad del error.Si la diferencia entre dos promedios seguidos excede el valor de 0.397, se la declara significativa al nivel del 5%.En este ejemplo, la DMS indica que no hay diferencias significativas entre tratamientos adyacentes, pero la F de la ANDEVA indica que sí existen diferencias si se comparan medias no adyacentes, en este caso, el investigador podría optar por otro tipo de prueba de rango múltiple.