Biometría Avanzada 2015 Macchiavelli

98
A A G G R R O O 6 6 6 6 0 0 0 0 B B I I O O M M E E T T R R Í Í A A A A V V A A N N Z Z A A D D A A N N o o t t a a s s d d e e c c l l a a s s e e 2 2 0 0 1 1 5 5 Raúl E. Macchiavelli, Ph.D. Estas notas complementan el material del libro de texto del curso

description

Estadistica, biometria

Transcript of Biometría Avanzada 2015 Macchiavelli

Page 1: Biometría Avanzada 2015 Macchiavelli

AAGGRROO 66660000

BBIIOOMMEETTRRÍÍAA AAVVAANNZZAADDAA

NNoottaass ddee ccllaassee

22001155

Raúl E. Macchiavelli, Ph.D.

Estas notas complementan el material del libro de texto del curso

Page 2: Biometría Avanzada 2015 Macchiavelli

2

Contenidos

1. Introducción y repaso de notación del análisis de varianza .................................................................. 3

2. Diseños completamente aleatorizados y en bloques completos aleatorizados ..................................... 5

3. Supuestos del análisis de la varianza ...................................................................................................... 7

4. Determinación del número de repeticiones de un experimento ...........................................................11

5. Comparaciones múltiples ........................................................................................................................14

6. Contrastes.................................................................................................................................................24

7. Diseño de cuadrado latino .......................................................................................................................28

8. Experimentos factoriales con dos factores.............................................................................................32

9. Experimentos factoriales con tres o más factores .................................................................................40

10. Modelos de efectos aleatorios y mixtos ................................................................................................43

11. Diseños anidados ....................................................................................................................................49

12. Diseño de parcelas divididas .................................................................................................................53

13. Repaso de regresión lineal simple ........................................................................................................58

14. Regresión polinomial .............................................................................................................................62

15. Regresión lineal múltiple.......................................................................................................................66

16. Selección de variables en regresión múltiple .......................................................................................72

17. Análisis de covarianza ...........................................................................................................................85

18. Documentación y comunicación de resultados ....................................................................................92

Bibliografía...................................................................................................................................................94

Page 3: Biometría Avanzada 2015 Macchiavelli

3

1. Introducción y repaso de notación del análisis de varianza

Cuando planeamos un estudio científico podemos realizar un experimento o un estudio

observacional. En el experimento nosotros decidimos qué tratamiento recibe cada

unidad, mientras que en el estudio observacional el tratamiento ya viene asignado a la

unidad. Esto implica que en el experimento podemos hablar con mayor confianza de

“causa-efecto”, mientras que en el estudio observacional es más difícil estar seguros de

que nuestro tratamiento es la causa de lo que estamos observando.

Consideremos este ejemplo (estudiado en el curso anterior) en el que nos interesa

comparar el contenido de almidón en tallos de tomate bajo 3 regímenes diferentes de

fertilización:

A 22 20 21 18 16 14 1 111Y

1 18.5Y

B 12 14 15 10 9 2 60Y

2 12.0Y

C 7 9 7 6 3 29Y

3 7.25Y

200Y

La notación que usaremos será la siguiente: tenemos t tratamientos (en este caso 3t ),

cada uno con in repeticiones (en este caso 1 2 36, 5 y 4n n n ).

denota la ésima observación del ésimo tratamientoijY j i .

1

, es la suma de todas las observaciones del tratamiento .in

i ij

j

Y Y i

1 1 1

, es la suma de todas las observaciones.int t

ij i

i j i

Y Y Y

es la media de las observaciones del tratamiento .iY i

es la media de todas las observaciones (media general):Y 200/15 13.33Y

=15 es la cantidad total de observaciones ( si hay observaciones en cada tratamiento).i

i

n n nt n

Las sumas de cuadrados se calculan de la siguiente manera:

22

2

, ,

SCTotal=SCTot ij ij

i j i j

YY Y Y

n

2 2

2

SCEntre=SCTratamientos=SCTrat ii i

i i i

Y Yn Y Y

n n

2

,

SCDentro=SCResidual=SCError=SCRes SCTot-SCTratij i

i j

Y Y

Page 4: Biometría Avanzada 2015 Macchiavelli

4

2 22

,

200SCTot 3062 395.333315ij

i j

YY

n

2 2 2 2 2 2111 60 29 200SCTrat 317.0833

6 5 4 15

i

i i

Y Y

n n

SCRes SCTot-SCTrat=78.2500

Fuente de

Variación

Suma de

Cuadrados

grados

de

libertad

Cuadrado

Medio

F Valor p

Tratamiento 317.0833 2 158.5417 24.313 0.00006

Residual (Error) 78.2500 12 6.5208

Total 395.3333 14

0 1 2: ...

: al menos una es diferente

t

a i

H

H

Estadístico de la prueba: 24.313F

Región de rechazo (α=.05): 3.89F ó p<0.05

Conclusión: Rechazamos 0H , al menos uno de los tratamientos es diferente.

Page 5: Biometría Avanzada 2015 Macchiavelli

5

2. Diseños completamente aleatorizados y en bloques completos

aleatorizados

El análisis de la varianza discutido anteriormente requiere independencia de todas

las observaciones. En un experimento, esto se logra realizando una aleatorización

completa de los tratamientos a las unidades experimentales (es decir, cada unidad

experimental tiene la misma probabilidad de recibir cualquiera de los tratamientos,

independientemente del tratamiento asignado a unidades vecinas). Este diseño se llama

“completamente aleatorizado” (DCA). La versión observacional análoga consiste en

tomar muestras aleatorias de cada uno de los grupos o poblaciones.

Ventajas del DCA:

Simple para construir

Simple para analizar, aun cuando el número de repeticiones no es constante.

Sirve para cualquier número de tratamientos.

Desventajas del DCA:

Requiere que todas las unidades experimentales sean homogéneas.

Fuentes de variación no consideradas inflarán el error experimental.

Cuando las unidades no son homogéneas pero pueden agruparse en grupos de

unidades homogéneas existe otro diseño, que es la generalización del diseño pareado para

comparar dos grupos: el diseño en bloques completos aleatorizados (DBCA). Un

“bloque” es un conjunto de unidades experimentales homogéneas (es decir, parecidas

entre sí). Este diseño consiste en asignar los tratamientos aleatoriamente dentro de cada

bloque de manera tal que cada tratamiento que representado una vez en cada bloque. De

esta manera garantizamos que todos los tratamientos estarán representados en todos los

bloques, y que las comparaciones estarán libres de las diferencias entre bloques (el

mismo efecto que lográbamos con el diseño pareado). Para que este efecto del DBCA sea

útil en reducir la variabilidad necesitamos que haya diferencias entre los bloques y dentro

de cada bloque las unidades sean homogéneas.

Ventajas del DBCA:

Útil para comparar tratamientos en presencia de una fuente externa de

variabilidad.

Simple para construir y analizar (siempre que el número de repeticiones sea

constante).

Desventajas del DBCA:

Práctico para pocos tratamientos, para que las unidades de un bloque sean

realmente homogéneas.

Controla una sola fuente de variabilidad externa.

El efecto del tratamiento debe ser el mismo en cada bloque.

Page 6: Biometría Avanzada 2015 Macchiavelli

6

La notación que usaremos será la misma que para el DCA: tenemos t tratamientos, cada

uno con n repeticiones (=bloques). En este caso ijY denota la observación del

ésimo i tratamiento en el bloque j. Ahora tendremos una fuente adicional de variabi-

lidad: los bloques. Las sumas de cuadrados se calculan de la siguiente manera:

22

2

, ,

SCTotal=SCTot ij ij

i j i j

YY Y Y

nt

2 2

2

SCTratamientos=SCTrat ii

i i

Y Yn Y Y

n nt

2 2

2

SCBloques=SCBlj

j

j j

Y Yt Y Y

t nt

2

,

SCResidual=SCError=SCRes SCTot-SCTrat-SCBlij i

i j

Y Y

La siguiente es la tabla de ANOVA:

Fuente de

Variación

Suma de

Cuadrados

grados de

libertad

Cuadrado

Medio

F

Tratamiento SCTrat 1t CMTrat F=CMTrat/CME

Bloque SCBl 1n CMBl F=CMBl/CME

Residual (Error) SCRes=SCE 1 1n t CMRes=CME

Total SCTot 1nt

El modelo que describe los datos provenientes de este diseño es el siguiente:

ij i j ijY

Los supuestos que necesitamos hacer son los mismos que para el DCA (los ij son inde-

pendientes, tienen distribución normal y varianza constante) y además necesitamos

asumir que los efectos de los tratamientos son iguales en todos los bloques.

La hipótesis de interés es, como siempre, acerca de los efectos de tratamiento:

0 1 2: ...

: al menos una es diferente de 0.

t

a i

H

H

Estadístico de la prueba: CMTratCME

F

Región de rechazo: g.l.: 1,( 1)( 1)F F t n t

También podemos probar la hipótesis de que no existen diferencias entre bloques:

0 1 2: ...

: al menos una es diferente de 0.

n

a i

H

H

Estadístico de la prueba: CM BlCME

F

Región de rechazo: g.l.: 1,( 1)( 1)F F n n t

Page 7: Biometría Avanzada 2015 Macchiavelli

7

3. Supuestos del análisis de la varianza

Para que las conclusiones obtenidas de un análisis de varianza sean válidas se deben

satisfacer ciertas condiciones (supuestos). En la práctica nunca estamos seguros que estas

condiciones se satisfacen en un problema dado, pero usando los datos observados

podemos verificar (aproximadamente) si los supuestos se cumplen o no.

Si los supuestos no se cumplen debemos modificar el modelo, el análisis y/o las

conclusiones.

Los modelos lineales para ANOVA que hemos estudiado pueden verse como casos

especiales del modelo:

ij ij ijY

donde ij representa la media de la observación ij-ésima (por ejemplo en un DCA media

general, ij i ) y ij el error experimental (o “efecto” de la ij-ésima unidad

experimental, o efecto “ambiental”).

Los supuestos para la validez del análisis son:

1. Los efectos de tratamiento y unidad experimental son aditivos.

2. Los errores experimentales son independientes (o, por lo menos, no

correlacionados).

3. Los errores experimentales se distribuyen normalmente.

4. Los errores experimentales tienen varianza constante (es decir, que no depende de

los tratamientos ni de otros factores).

La consecuencia del no cumplimiento de estos supuestos es que las conclusiones pueden

no ser válidas (los niveles de error pueden ser diferentes a los establecidos, los errores

estándar pueden subestimar o sobreestimar los verdaderos errores poblacionales, los

límites de confianza pueden ser incorrectos, etc.)

El supuesto de independencia normalmente se garantiza realizando una aleatorización

correcta y mediante una buena técnica experimental (uso de borduras, evitar contagio

entre unidades, etc.)

El supuesto de normalidad se puede verificar graficando los “residuales” o “residuos”:

ˆ ˆij ij ij ij ije Y Y Y

Estos residuales representan aproximaciones a los verdaderos errores experimentales ij ,

que son, por supuesto, desconocidos. Un histograma, un diagrama de tallo y hoja o un

gráfico de caja (“boxplot”) pueden revelar problemas con la distribución normal de los

errores. Existen además pruebas formales para probar la hipótesis de que los errores

tienen una distribución normal y un gráfico (Q-Q plot) que permite detectar la falta de

normalidad más fácilmente que con un histograma.

Page 8: Biometría Avanzada 2015 Macchiavelli

8

Para obtener residuos en InfoStat debemos marcar en las opciones del análisis de

varianza “Guardar Residuos”, “Guardar Predichos”, “Guardar Residuos Estudentizados”,

y “Guardar Abs(Residuos)”. Los residuos son los definidos anteriormente, y dependen,

por supuesto, del diseño experimental usado. Los valores predichos son ˆijY , los residuos

estudentizados son los residuos divididos por su desviación estándar (como siempre

tienen media 0, es una forma de estandarizarlos), y los abs(residuos) son los valores

absolutos de los residuos (recordemos que hay residuos positivos y negativos). Al

seleccionar estas opciones, se generarán nuevas columnas en los datos incluyendo estos

valores.

Una vez que tenemos los residuales podemos graficarlos mediante histogramas o el Q-Q

plot. Mediante este último gráfico, si los residuos son normales (y por lo tanto, los errores

lo son), se grafican los valores de los residuos (o residuos estudentizados) versus los

valores teóricos que esperaríamos si la distribución fuese normal. Si la distribución es

normal, entonces observaríamos los puntos alineados en una recta. Si hay problemas,

entonces los puntos no se verán sobre la recta.

Page 9: Biometría Avanzada 2015 Macchiavelli

9

-270 -135 0 135 270

Cuantiles de una Normal

-270

-135

0

135

270

Re

sid

uo

s O

bs

erv

ad

os

Además se puede realizar una prueba de normalidad (prueba de Shapiro-Wilks

modificada). La hipótesis nula es que los errores son normales, y la alternativa es que no

son normales. Recordemos que si el valor p es mayor que el nivel de significación (en

general 0.05), entonces nos quedamos con la hipótesis nula. Para hacer esta prueba

usamos el menú Estadísticas>Inferencia basada en una muestra> Prueba de Normalidad.

Shapiro-Wilks (modificado)

Variable n Media D.E. W* p (una cola)

RDUO_Rendimiento 20 0.00 127.67 0.96 0.7824

En este ejemplo el supuesto de normalidad se acepta (p=0.7824>0.05).

Para verificar el supuesto de homogeneidad de varianzas (homoscedasticidad) se pueden

graficar residuales versus valores predichos, y esto permite visualizar si las varianzas son

homogéneas o no. Si las varianzas no son homogéneas el gráfico muestra típicamente una

estructura de “embudo” (a medida que los valores predichos son mayores, los residuos

varían más. Otra condición que este gráfico también puede diagnosticar es la existencia

de observaciones atípicas (“outliers”) que requieren verificación.

Page 10: Biometría Avanzada 2015 Macchiavelli

10

18 31 44 57 70

PRED_PN

-70

-35

0

35

70

RD

UO

_P

NEjemplo con varianzas heterogéneas

1750.0 2187.5 2625.0 3062.5 3500.0

PRED_Rendimiento

-300

-150

0

150

300

RD

UO

_R

en

dim

ien

to

Ejemplo con varianzas homogéneas

Para este supuesto también se pueden realizar pruebas específicas. Entre las pruebas formales para

verificar este supuesto tenemos la prueba de Hartley ( maxF ), Levene, etc. Estas pruebas contrastan

la hipótesis nula 2 2 20 1 2: ... tH con una alternativa general (“las varianzas no son iguales”).

Ver en la sección 7.4 del libro de Ott los detalles de estas pruebas.

La prueba de Levene consiste en realizar un análisis de varianza con el mismo modelo del original,

pero usando como variable dependiente (Y) a los valores absolutos de los residuales. Es la única

prueba que podemos aplicar en todos los diseños que estudiaremos en este curso.

La prueba de maxF consiste en realizar el cociente entre las varianzas máxima y mínima, compa-

rando este cociente con un valor tabular (Tabla 12 en el libro). Solamente es válida para datos

provenientes de un DCA. Si el valor de maxF es mayor que el valor tabular, la hipótesis nula se

rechaza (es decir, el supuesto no se cumple).

Si se detecta que los supuestos no se cumplen algunas medidas comúnmente usadas son la

transformación de datos, el análisis parcial (por ejemplo comparando sólo algunos de los

tratamientos) y el uso de otros métodos específicamente diseñados para el problema particular (por

ejemplo, métodos no paramétricos)

Las transformaciones se usan regularmente para problemas de varianzas heterogéneas, falta de

normalidad y/o falta de aditividad. Las más comúnmente usadas son la logarítmica, la raíz cuadrada

y el arco-seno.

La transformación logarítmica, logY Y o log( 1)Y Y , se usa para datos que exhiben efectos

multiplicativos (una forma de falta de aditividad) o cuyas varianzas son proporcionales al cuadrado

de las medias.

Page 11: Biometría Avanzada 2015 Macchiavelli

11

La transformación raíz cuadrada, Y Y o 0.5Y Y , se usa para datos con varianzas que

cambian proporcionalmente a la media, como es frecuentemente el caso de recuentos de insectos u

otros organismos.

La transformación arco seno, arcsenY Y , se usa para datos expresados como porcentajes. Los

porcentajes deben estar basados en un denominador común (por ejemplo, porcentaje de

germinación calculado a partir de 50 semillas bajo distintos tratamientos). Si todos los datos están

entre el 30 y el 70% esta transformación no es necesaria.

Para presentar resultados de análisis con datos transformados, todas las tablas estadísticas deben

mostrar los análisis con los datos transformados. Además, se pueden agregar las medias y los

límites de confianza retransformados a la escala original. Las varianzas, errores estándar y

coeficientes de variación no se deben retransformar a la escala original.

4. Determinación del número de repeticiones de un experimento

Recordemos que al realizar cualquier prueba de hipótesis existen dos tipos de errores que debemos

considerar: Tipo I (rechazar la hipótesis nula cuando es cierta) y Tipo II (aceptar la hipótesis nula

cuando es falsa). La probabilidad de cometer el error de tipo I la fijamos nosotros (es α, el nivel de

significación de la prueba), mientras que la probabilidad de cometer error de tipo II (β) va a

depender de cuán lejos esté el valor verdadero (por ejemplo, la diferencia entre dos medias) del

valor que habíamos postulado en la hipótesis nula (0). Es importante notar que β (la probabilidad

del error de tipo II) depende de los valores verdaderos de las medias. Por supuesto que queremos

que el valor de esta probabilidad sea pequeño cuando hay diferencia entre las medias, y se haga aun

más pequeño a medida que haya más diferencias entre las medias.

Para el análisis de varianza, el libro de texto presenta algunas gráficas (Tabla 14) de valores de

potencia (1 ) para distintos tamaños muestrales y efectos de tratamiento. El efecto de

tratamiento se define como

2

2

in

t

Se puede observar que se deben formular todos los valores de i i . Para simplificar, se

puede usar una forma equivalente en la que solamente se indica la alternativa de tener al menos un

par de medias que son diferentes en D unidades (es decir, D es la diferencia mínima que se desea

detectar con una potencia (1 ) dada: 2

22

nD

t

Page 12: Biometría Avanzada 2015 Macchiavelli

12

En InfoStat, se pueden usar el menú “Cálculo del tamaño muestral” para dos muestras

independientes y para análisis de varianza.

Page 13: Biometría Avanzada 2015 Macchiavelli

13

Para usar la Tabla 14, observemos que 221 1.5

1.722 4 2

, por lo que la potencia es

aproximadamente 0.81:

Page 14: Biometría Avanzada 2015 Macchiavelli

14

5. Comparaciones múltiples

Recordemos que la hipótesis alternativa general del análisis de la varianza es “al menos

una de las medias es diferente”. Cuando rechazamos la hipótesis nula estamos

concluyendo que hay diferencias, pero no sabemos exactamente cuáles de las medias son

diferentes. Una forma de responder a esta pregunta es planteando las siguientes hipótesis:

0 1 2 0 1 3 0 1 4 0 3 4: ; : ; : ; ... :H H H H

Para probar cada una de estas hipótesis podemos usar un estadístico t para dos muestras

independientes. Por ejemplo, para la primera,

1 2

1 2

1 1p n n

Y Yt

s

El problema de este enfoque es que se están realizando múltiples inferencias sobre los

mismos datos, por lo que los errores de tipo I de cada una de las pruebas pueden

acumularse. Es decir, para todo el experimento, la probabilidad de rechazar al menos una

de estas hipótesis erróneamente va a ser mayor del 5%. En otras palabras, podemos

detectar diferencias que no existen con mucha mayor frecuencia de lo esperado.

Esta prueba se denomina de la diferencia mínima significativa (DMS, o LSD en inglés)

de Fisher. Debido al problema de acumulación potencial de errores, se han desarrollado

otras pruebas alternativas, y sólo se recomienda usar el DMS cuando en la prueba F

global se ha rechazado la hipótesis nula. De esta manera, aunque sabemos que el es

válido para cada comparación individual y no para el conjunto de todas las

comparaciones, podemos aplicar esta prueba.

Cuando los tamaños de muestra son iguales, esta prueba se simplifica. Vamos a declarar

una diferencia significativa si 2

t t :

1 1 2 2

2 o DMS

2i j

i j i j

i j

p n n

Y Y Y Y CMEt Y Y t

nCMEs

n

Si definimos 2

2DMS

CMEt

n, estaremos declarando la diferencia significativa si

DMS i jY Y . Podemos observar que este caso la diferencia mínima significativa es la

misma para todas las comparaciones.

Vamos a aplicar este método a los datos del ejercicio 1 (lab.2).

1. El primer paso es calcular el DMS:

15;.025

2 26.33952.131, CME 26.3395, 4, DMS 2.131 7.7334

4t n

Page 15: Biometría Avanzada 2015 Macchiavelli

15

2. El siguiente paso es ordenar las medias de mayor a menor:

Tratamiento 1 2 5 3 4

Media 52.925 42.025 37.700 34.150 21.975

3. Ahora calculamos todas las diferencias, empezando por la más grande. Observemos

que si una diferencia es menor que DMS, todas las más pequeñas también lo serán.

52.925-21.975=30.95 >DMS

52.925-34.150=18.775 >DMS

52.925-37.700=15.225 >DMS

52.925-42.025=10.90 >DMS

42.025-21.975=7.785 >DMS

42.025-34.150=7.785 >DMS

42.025-37.700=4.325 <DMS

37.700-21.175=15.725 >DMS

37.700-34.150=3.55 <DMS

34.150-21.975=12.175 >DMS

4. Por último ponemos letras iguales a las medias que no son significativamente

diferentes:

Tratamiento 1 2 5 3 4

Media 52.925 a 42.025 b 37.700 bc 34.150 c 21.975 d

Otro ejemplo (estudiado en el curso AGRO 5005)

Vamos a considerar un segundo ejemplo en el que tenemos 6 tratamientos, cuyas medias

aparecen en orden descendente a continuación. El valor de la diferencia mínima

significativa es DMS=2.2.

Tratamiento Y Trat. 3 35.7

Trat. 1 34.0

Trat. 5 33.9

Trat. 4 25.1

Trat. 2 24.7

Trat. 6 22.8

a. El primer paso va a ser comparar la media del tratamiento 3 con todas las que le siguen

(es decir, 3Y con 1Y , 3Y con 5Y , 3Y con 4Y , 3Y con 2Y , 3Y con 6Y ). Vamos a conectar con

una línea las medias que no son significativamente diferentes (es decir, aquéllas cuya

diferencia sea menor que DMS)

Page 16: Biometría Avanzada 2015 Macchiavelli

16

Tratamiento Y Trat. 3 35.7

Trat. 1 34.0

Trat. 5 33.9

Trat. 4 25.1

Trat. 2 24.7

Trat. 6 22.8

b. Ahora compararemos 1Y con todas las medias que le siguen, y conectaremos con líneas

las medias que no son significativamente diferentes de 1Y :

c. Cuando seguimos el proceso para 5 ,Y observamos que la media que le sigue, 4 ,Y tiene

una diferencia mayor que DMS, y por lo tanto no podemos poner una línea que una 5Y

con una media que está más abajo.

d. Repetimos el proceso para 4 2 y Y Y :

e. Observar que hay una línea (uniendo las medias 1 y 5) que está de más, ya que las

medias 1 y 5 ya aparecen unidas por la línea que va desde la media 3 hasta la media 5.

Por lo tanto, eliminamos la línea redundante.

Tratamiento Y Trat. 3 35.7

Trat. 1 34.0

Trat. 5 33.9

Trat. 4 25.1

Trat. 2 24.7

Trat. 6 22.8

Tratamiento Y Trat. 3 35.7

Trat. 1 34.0

Trat. 5 33.9

Trat. 4 25.1

Trat. 2 24.7

Trat. 6 22.8

Page 17: Biometría Avanzada 2015 Macchiavelli

17

f. Ahora podemos dejar las líneas, o cambiar las líneas por letras iguales:

Tratamiento Y

Trat. 3 35.7 a

Trat. 1 34.0 a

Trat. 5 33.9 a

Trat. 4 25.1 b

Trat. 2 24.7 bc

Trat. 6 22.8 c

g. Se debe observar que las medias que no están unidas por líneas verticales (o la misma

letra) son significativamente diferentes entre sí.

Tasas de error por comparación y por experimento

Recordemos que la probabilidad de cometer error de tipo I se denominaba α. Cuando

realizamos comparaciones de todos los pares posibles de medias, el error de tipo I sería

declarar que un par de medias difiere significativamente cuando en realidad son iguales.

Si consideramos cada comparación individualmente (es decir, como una hipótesis

separada de las demás), el error de tipo I es concluir que esa comparación es significativa

cuando en realidad esas medias no son diferentes. La probabilidad de cometer error de

tipo I para esta comparación individual (promediada a través de todas las comparaciones

y todos los experimentos posibles) es la “tasa de error por comparación”, I .

Por otro lado, si consideramos a todas las comparaciones posibles como una sola

hipótesis, entonces realizar error de tipo I es decir que por lo menos un par de medias es

diferente cuando todas las medias son iguales. La probabilidad de cometer el error de tipo

I para todas las comparaciones en conjunto se denomina “tasa de error por experimento”,

E .

Supongamos que estamos simulando un experimento en el cual estamos comparando 3

tratamientos A, B, C (por lo tanto tenemos 3 comparaciones de a pares: A vs. B, A vs. C,

B vs. C). Supongamos además que no hay diferencias entre las medias (por lo tanto, cada

vez que encontremos una diferencia estaremos cometiendo error de tipo I). Vamos a

indicar con * los casos en los que encontremos diferencias significativas, y con NS los

casos en los que no encontramos diferencias significativas. El experimento se simulará 20

Tratamiento Y Trat. 3 35.7

Trat. 1 34.0

Trat. 5 33.9

Trat. 4 25.1

Trat. 2 24.7

Trat. 6 22.8

Page 18: Biometría Avanzada 2015 Macchiavelli

18

veces, y cada vez realizaremos las comparaciones de a pares correspondientes. Los

resultados se resumen en la siguiente tabla:

Simulación Comparaciones

A vs. B A vs. C B vs. C

1 NS NS NS

2 * NS NS

3 NS NS NS

4 NS * *

5 NS NS NS

6 * NS NS

7 NS NS NS

8 * * *

9 NS * NS

10 NS NS NS

11 NS NS NS

12 NS NS NS

13 NS NS *

14 NS NS NS

15 NS NS NS

16 NS NS NS

17 NS NS NS

18 NS * *

19 NS NS NS

20 NS NS NS

En este ejemplo tenemos un total de 60 comparaciones, y hemos cometido error de tipo I

en 11 de ellas. Por lo tanto la tasa de error por comparación es 0.1833.

Por otro lado, observamos que hay 20 “experimentos”, y hemos cometido error de tipo I

en 7 de ellos. Por lo tanto la tasa de error por experimento es 0.35.

En la práctica nunca el mismo experimento lo repetiremos 20 veces, pero las tasas de

error tienen la misma interpretación: si no hay diferencias entre las medias y repitiéramos

el experimento muchas veces, cometeremos error de tipo I cada vez que declaremos una

diferencia significativa. La proporción de comparaciones que se encuentran significativas

falsamente es la tasa de error por comparación, y la proporción de experimentos en los

que se encuentran diferencias significativas falsamente es la tasa de error por

experimento.

Corrección de Bonferroni para la prueba de DMS

Con el objeto de controlar la tasa de error para todo el experimento (es decir, todas las

comparaciones), se pueden aplicar modificaciones a la prueba de DMS. La más sencilla

consiste en corregir el nivel de significancia de la prueba para tener en cuenta la

Page 19: Biometría Avanzada 2015 Macchiavelli

19

multiplicidad de comparaciones que se están realizando. Si llamamos I al nivel de

significancia para una comparación individual (que es el que consideramos en DMS), y

E al nivel de significancia para todo el experimento (que es lo que querríamos controlar

para no declarar demasiadas diferencias significativas falsamente), la desigualdad de

Bonferroni nos dice que E Im , donde m es el número de comparaciones que nos

interesa realizar en todo el experimento. Para todos los pares posibles, ( 1) / 2m t t . Por

lo tanto, si queremos que la tasa de error para todo el experimento no sea mayor de

0.05 , por ejemplo, si hay t=5 tratamientos podemos realizar una prueba de DMS

usando un nivel de significancia igual a / 0.05/10 0.005m . Es decir, la fórmula de

DMS para la prueba de Bonferroni ahora es

0.00252

2 2BON=

m

CME CMEt t

n n

Prueba de Tukey

Otra manera de evitar el problema de errores acumulados en las conclusiones del

experimento es usar métodos alternativos a la prueba de DMS. La idea fundamental es

que la probabilidad de cometer el error de tipo I (declarar falsamente diferencias

significativas) se mantenga en el nivel especificado ( ) para todo el experimento,

aunque esto implique que para cada comparación tomada individualmente la probabilidad

disminuya. Es decir, hacemos cada prueba individual más conservadora, de manera que

globalmente la probabilidad de cometer al menos un error de tipo I se mantenga

razonablemente cerca del nivel especificado (usualmente 5%).

La prueba de Tukey se desarrolla con esta idea en mente, y consiste en usar un nivel

crítico mayor que el DMS. Este valor crítico es

CME

( , ) ,W q tn

donde ( , )q t se busca en la tabla 10 del libro con t tratamientos y grados de libertad

en el cuadrado medio del error. Si los tamaños de muestra son desiguales, el método se

llama prueba de Tukey-Kramer y el valor crítico es

CME 1 1( , ) .

2ij

i j

W q tn n

Si aplicamos la prueba de Tukey al mismo ejemplo considerado anteriormente obtenemos

los siguientes resultados:

CME 26.3395( , ) 4.37 11.21

4W q t

n

Page 20: Biometría Avanzada 2015 Macchiavelli

20

52.925-21.975=30.95 >W

52.925-34.150=18.775 >W

52.925-37.700=15.225 >W

52.925-42.025=10.90 <W

42.025-21.975=20.05 >W

42.025-34.150=7.785 <W

42.025-37.700=4.325 <W

37.700-21.175=15.725 >W

37.700-34.150=3.55 <W

34.150-21.975=12.175 >W

Tratamiento 1 2 5 3 4

Media 52.925 a 42.025 ab 37.700 b 34.150 b 21.975 c

Como podemos apreciar, esta prueba es más conservadora que DMS (encuentra menos

diferencias significativas).

Para hacer comparaciones múltiples en Infostat debemos usar la solapa “comparaciones”

en la ventana de análisis de varianza.

Para realizar comparaciones múltiples en SAS, debemos usar el comando MEANS. Por

ejemplo, para los datos del ejercicio 2 (laboratorio 2),

proc glm;

class bloque tratam;

model plantas = bloque tratam;

means tratam / lsd;

means tratam / bon;

means tratam / tukey;

run;

Page 21: Biometría Avanzada 2015 Macchiavelli

21

Class Level Information

Class Levels Values

Bloque 4 1 2 3 4

tratam 3 tratA tratB tratC

Dependent Variable: plantas

Source DF Sum of Squares Mean Square F Value Pr > F

Model 5 2311.416667 462.283333 118.03 <.0001

Error 6 23.500000 3.916667

Corrected Total 11 2334.916667

Source DF Type III SS Mean Square F Value Pr > F

Bloque 3 386.250000 128.750000 32.87 0.0004

tratam 2 1925.166667 962.583333 245.77 <.0001

t Tests (LSD) for plantas

Note: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.05

Error Degrees of Freedom 6

Error Mean Square 3.916667

Critical Value of t 2.44691

Least Significant Difference 3.4242

Means with the same letter are not significantly different.

t Grouping Mean N tratam

A 87.250 4 tratB

B 80.000 4 tratC

C 57.500 4 tratA

Page 22: Biometría Avanzada 2015 Macchiavelli

22

Bonferroni (Dunn) t Tests for plantas

Note: This test controls the Type I experimentwise error rate, but it generally has a higher Type II error rate than REGWQ.

Alpha 0.05

Error Degrees of Freedom 6

Error Mean Square 3.916667

Critical Value of t 3.28746

Minimum Significant Difference 4.6005

Means with the same letter are not significantly different.

Bon Grouping Mean N tratam

A 87.250 4 tratB

B 80.000 4 tratC

C 57.500 4 tratA

Tukey's Studentized Range (HSD) Test for plantas

Note: This test controls the Type I experimentwise error rate, but it generally has a higher Type II error rate than REGWQ.

Alpha 0.05

Error Degrees of Freedom 6

Error Mean Square 3.916667

Critical Value of Studentized Range 4.33902

Minimum Significant Difference 4.2936

Means with the same letter are not significantly different.

Tukey Grouping Mean N tratam

A 87.250 4 tratB

B 80.000 4 tratC

C 57.500 4 tratA

Page 23: Biometría Avanzada 2015 Macchiavelli

23

Intervalos de confianza para medias y diferencias de medias en ANOVA

Para reportar las medias luego de realizar un ANOVA podemos usar un gráfico de barras

(que se genera opcionalmente en InfoStat), e incluir límites de confianza para las medias

(o errores estándar para las medias). Las fórmulas estudiadas anteriormente usando la

tabla t se podrían aplicar aquí:

2 .sY tn

Como hemos hecho para el cálculo del DMS, el mejor estimador que tenemos de la

desviación estándar poblacional es (bajo el supuesto que las varianzas son iguales),

CME

Este estimador tiene los grados de libertad del error. Por lo tanto, el intervalo de

confianza para una media de tratamiento es

2

CMEY t

n

Recordar que en esta fórmula n representa la cantidad de observaciones en la media

específica (cantidad de repeticiones), y no la cantidad total de observaciones en todo el

experimento. Los grados de libertad para el valor tabular de t son los grados de libertad

del error.

Similarmente podemos calcular un intervalo de confianza para la diferencia de dos

medias. Suponiendo igual número de repeticiones n:

/2

2CMEi jY Y t

n

Observar que el término que se suma y resta en esta fórmula es DMS, por lo que el

intervalo de confianza para la diferencia de dos medias es:

DMSi jY Y

Si este intervalo incluye el valor de cero, las dos medias correspondientes no son

significativamente diferentes. Esto es lo que hemos usado cuando estudiamos la prueba

de DMS: si la diferencia de dos medias es menor que DMS, esas medias no son

significativamente diferentes. El intervalo va a incluir 0 si y solo si la diferencia de las

dos medias es menor que DMS.

Page 24: Biometría Avanzada 2015 Macchiavelli

24

6. Contrastes

La prueba F que realizamos en el ANOVA prueba la igualdad de medias (ausencia de

efectos de tratamientos) versus una alternativa general. Como hemos visto en las

conferencias anteriores, podemos realizar pruebas de comparaciones de a pares (DMS,

Tukey, etc.), pero esto puede traernos problemas: por una parte puede haber acumulación

de errores, y por otra parte la interpretación no siempre es simple. Cuando hay mucha

superposición, es difícil realizar inferencias útiles.

Si los tratamientos tienen una estructura dada (no son simplemente 5 variedades, por

ejemplo), existen otras hipótesis que pueden resultar de mucho más interés que las que

probamos con DMS. Éstas pueden escribirse como combinaciones lineales de medias.

Por ejemplo,

i iL c

Las ic son los coeficientes de la combinación lineal. Un contraste se define como una

combinación lineal con 0.ic Por ejemplo supongamos que estamos probando las

siguientes 5 dietas en pavos:

Grupo Dieta

1 Control

2 Nivel 1, suplemento A

3 Nivel 2, suplemento A

4 Nivel 1, suplemento B

5 Nivel 2, suplemento B

Es posible que estemos interesados en probar si el promedio de los tratamientos con

suplemento A es igual al promedio de los tratamientos con suplemento B:

2 3 4 50 :

2 2H

Esto es equivalente a 0 2 3 4 5: 0H . Podemos verificar que esto es un

contraste, y estamos probando 0 : 0H L . Observar que 1 1 1 1 0.ic

Si tuviésemos un solo contraste de interés, la estimación y la prueba es directa:

2

2 2 2

ˆ ˆ

ˆˆˆ ˆvar var

i i i i i i

i i i i

i i

L c c Y Y c Y

CMEL c Y c c

n n

Page 25: Biometría Avanzada 2015 Macchiavelli

25

0

2

ˆ ˆ: 0, : 0

ˆ. .a

i

i

L LH L H L t

CMEs e Lc

n

, rechazamos 0H cuando2; dfe

t t .

En forma equivalente, podemos calcular una suma de cuadrados para el contraste, y

construir un estadístico F para probar la misma hipótesis: 2

2

0

ˆ

( ): 0, : 0

i

ia

L

c

nCM LH L H L F

CME CME

, rechazamos 0H cuando ;1,dfeF F .

Debemos observar que el numerador tiene 1 grado de libertad, y por lo tanto la suma de

cuadrados es igual al cuadrado medio.

Los contrastes pueden clasificarse en “a priori” y “a posteriori”. Los primeros son

contrastes que se postulan basándonos únicamente en la estructura de los tratamientos,

antes de mirar los datos. Este tipo de contraste es lo que deberíamos usar casi siempre

que sea posible.

En la mayoría de los casos tenemos más de un contraste de interés. El problema de

acumulación potencial de errores estará también presente en estos casos cuando tratemos

de obtener conclusiones para todos los contrastes conjuntamente.

El método que hemos presentado, basado en la prueba t o F, controla la tasa de error por

comparación (igual que el DMS). Esto es porque está diseñado para contrastes

individuales. Si cada uno de los contrastes está diseñado para responder a una pregunta

“separada”, el método de t o F también puede usarse y la acumulación de errores no será

tan importante. Matemáticamente estos contrastes se denominan “ortogonales”. Dos

contrastes 1 i iL a y 2 i iL b son ortogonales si 0i ia b . Un conjunto de

contrastes es ortogonal si todos los pares posibles de contrastes son ortogonales entre sí.

Si tenemos t tratamientos, no podemos tener más de 1t contrastes ortogonales en un

conjunto dado (los grados de libertad de tratamientos). En el ejemplo de los pavos un

conjunto ortogonal de interés podría ser

Grupo L1 L2 L3 L4

1 4 0 0 0

2 -1 1 0 1

3 -1 -1 0 1

4 -1 0 1 -1

5 -1 0 -1 -1

Observar que L1 compara la dieta control con el promedio de las otras, L2 compara los

dos niveles del suplemento A, L3 compara los dos niveles del suplemento B, y L4

Page 26: Biometría Avanzada 2015 Macchiavelli

26

compara el promedio de las dos formulaciones de A con el promedio de las dos

formulaciones de B.

En resumen, si tenemos más de un contraste “a priori”, podemos usar contrastes

ortogonales y probarlos con una prueba t o F. Si no tenemos un conjunto ortogonal de

interés, podemos seguir usando las pruebas t o F, pero los niveles de significación

deberán dividirse por m, la cantidad de contrastes a priori de interés (prueba de

Bonferroni).

Si tenemos muchos contrastes no ortogonales “a priori” (lo que hará que Bonferroni sea

muy ineficiente) o si tenemos contrastes “a posteriori” podemos usar un procedimiento

que controla la tasa de error por experimento: la prueba de Scheffé.

Prueba de Scheffé

Este procedimiento puede usarse para cualquier contraste, ya que controla la tasa de error

para todos los contrastes posibles, sean estos sugeridos por los datos, ortogonales, no

ortogonales, de a pares, etc. Dado que es una prueba tan general, tiende a ser muy

conservadora (por ejemplo, casi nunca se la usa para comparaciones de a pares, que son

un caso particular de contrastes a priori no ortogonales).

Para usar la prueba de Scheffé debemos calcular el estadístico F mencionado

anteriormente, y el criterio de rechazo será

Rechazar 0H si ; 1,dfe( 1) tF t F

donde t es el número de tratamientos usados. (El texto presenta una versión equivalente

de la prueba de Scheffé que usa el estadístico t, no el estadístico F)

Para realizar pruebas F en contrastes podemos usar Infostat o SAS. En Infostat debemos

abrir la ventana de contrastes, indicando los tratamientos y los coeficientes. Opcional-

mente podemos solicitar que se verifique la ortogonalidad de los contrastes. Para el

ejemplo de las dietas de pavos,

Se debe destacar que el usuario debe decidir de antemano qué prueba va a realizar:

1. Si es una prueba F sin ninguna corrección por contrastes múltiples,

Rechazar 0H si p

2. Si es una prueba F con corrección de Bonferroni por realizar m contrastes,

Rechazar 0H si /p m

3. Si es una prueba de Scheffé,

Rechazar 0H si ; 1,dfe( 1) tF t F

Page 27: Biometría Avanzada 2015 Macchiavelli

27

Contrastes

Tratamiento SC gl CM F valor p

Contraste1 3060357.61 1 3060357.61 118.57 <0.0001

Contraste2 450300.50 1 450300.50 17.45 0.0013

Contraste3 41616.13 1 41616.13 1.61 0.2282

Contraste4 739170.06 1 739170.06 28.64 0.0002

Total 4291444.30 4 1072861.08 41.57 <0.0001

Coeficientes de los contrastes

Tratamiento Cont. 1 Cont. 2 Cont. 3 Cont. 4

1.00 4.00 0.00 0.00 0.00

2.00 -1.00 1.00 0.00 1.00

3.00 -1.00 -1.00 0.00 1.00

4.00 -1.00 0.00 1.00 -1.00

5.00 -1.00 0.00 -1.00 -1.00

Programa de SAS para contrastes

proc glm data=pavos;

class trt;

model ganancia=trt;

means trt;

contrast 'control vs. otros' trt 4 -1 -1 -1 -1;

contrast 'A1 vs. A2' trt 0 1 -1 0 0;

contrast 'B1 vs. B2' trt 0 0 0 -1 1;

contrast 'A vs. B' trt 0 1 1 -1 -1;

run;

Page 28: Biometría Avanzada 2015 Macchiavelli

28

7. Diseño de cuadrado latino

Consideremos el siguiente ejemplo de aplicación del diseño en bloques completos

aleatorizados: vamos a analizar una enzima en camarones para estudiar el efecto de 4

distintos tratamientos de conservación. Como el análisis es muy complicado, vamos a

asegurarnos que no haya efecto de analista diseñando el experimento de manera que cada

uno de los cuatro analistas realice las determinaciones de los cuatro tratamientos. Es

decir, cada analista va a ser un bloque, y debemos aleatorizar el orden en que cada

analista va a trabajar (cada tratamiento requiere hacerse en un día diferente). Por ejemplo:

Analista

Día 1 2 3 4

L Trat A Trat A Trat B Trat A

Ma Trat C Trat B Trat C Trat C

Mi Trat D Trat D Trat A Trat B

J Trat B Trat C Trat D Trat D

Podemos ver que si hubiese un efecto de día (por ejemplo, los lunes no son tan confiables

como los miércoles), entonces algunos tratamientos pueden verse afectados (por ejemplo,

el A aparece 3 veces en lunes). Para evitar esto podríamos hacer que cada día también sea

un bloque completo (es decir, que todos los tratamientos estén representados). Un posible

arreglo de tratamientos sería:

Analista

Día 1 2 3 4

L Trat A Trat D Trat B Trat C

Ma Trat C Trat B Trat D Trat A

Mi Trat D Trat C Trat A Trat B

J Trat B Trat A Trat C Trat D

Este diseño se denomina cuadrado latino, y tiene la ventaja de controlar dos fuentes de

variación (en nuestro ejemplo el analista y el día). Es bastante rígido, ya que requiere,

para t tratamientos, t filas y t columnas. Su principal desventaja es que las diferencias

entre los tratamientos no deben estar afectadas por las filas o las columnas (es decir, si el

tratamiento A es mejor que el B, debe serlo en los 4 analistas). La forma más común de

aleatorizar los tratamientos es eligiendo al azar de una tabla de cuadrados latinos uno del

tamaño deseado (o armar uno en forma no aleatoria), y después aleatorizar los números

de filas, los números de columnas y los números de tratamientos.

El modelo que describe los datos provenientes de este diseño es el siguiente:

ijk i j k ijkY

La notación que usaremos será la misma que para el DBCA: tenemos t tratamientos,

denota la observación del ésimo tratamiento en la fila y la columna .ijkY i j k

Page 29: Biometría Avanzada 2015 Macchiavelli

29

Ahora tendremos dos fuentes adicionales de variabilidad: las filas y las columnas. Las

sumas de cuadrados se calculan de la siguiente manera:

22

22SCTotal=SCTot ijk ijk

YY Y Y

t

2 2

2

2SCTratamientos=SCTrat i

i

i i

Y Yt Y Y

t t

2 2

2

2SCFilas=

j

j

j j

Y Yt Y Y

t t

2 2

2

2SCColumnas= k

k

k k

Y Yt Y Y

t t

SCResidual=SCError=SCRes SCTot-SCTrat-SCFilas-SCCol

La siguiente es la tabla de ANOVA:

Fuente de

Variación

Suma de

Cuadrados

grados de

libertad

Cuadrado

Medio

F

Tratamiento SCTrat 1t CMTrat F=CMTrat/CME

Filas SCFilas 1t CMFilas F=CMFila/CME

Columnas SCColumnas 1t CMCol F=CMCol/CME

Residual (Error) SCRes=SCE 1 2t t CMRes=CME

Total SCTot 2 1t

Las hipótesis que probamos, los supuestos y los métodos de comparaciones múltiples se

aplican de la misma manera que lo que hemos estudiado para DCA y DBCA.

Ejemplo: Éste es el ejercicio 15.8 del libro de Ott (leer la descripción del mismo allí).

data melon;

input fila col trat peso;

datalines;

1 1 1 1.75

1 2 3 1.43

1 3 4 1.28

1 4 2 1.66

2 1 2 1.70

2 2 1 1.78

2 3 3 1.40

2 4 4 1.31

3 1 4 1.35

3 2 2 1.73

3 3 1 1.69

3 4 3 1.41

4 1 3 1.45

4 2 4 1.36

4 3 2 1.65

4 4 1 1.73

proc glm;

class fila col trat;

model peso = fila col trat; run;

Page 30: Biometría Avanzada 2015 Macchiavelli

30

Class Level Information

Class Levels Values

fila 4 1 2 3 4

col 4 1 2 3 4

trat 4 1 2 3 4

Dependent Variable: peso

Source DF Sum of Squares Mean Square F Value Pr > F

Model 9 0.49335000 0.05481667 438.53 <.0001

Error 6 0.00075000 0.00012500

Corrected Total 15 0.49410000

R-Square Coeff Var Root MSE peso Mean

0.998482 0.724819 0.011180 1.542500

Source DF Type III SS Mean Square F Value Pr > F

fila 3 0.00085000 0.00028333 2.27 0.1810

col 3 0.01235000 0.00411667 32.93 0.0004

trat 3 0.48015000 0.16005000 1280.40 <.0001

Para analizar los mismo datos en Infostat debemos seleccionar fila, columna y tratam

como variables de clasificación:

Page 31: Biometría Avanzada 2015 Macchiavelli

31

Page 32: Biometría Avanzada 2015 Macchiavelli

32

8. Experimentos factoriales con dos factores

Existen muchas situaciones en las que los tratamientos representan combinaciones de dos

o más variables independientes (=factores). Por ejemplo, supongamos que queremos

estudiar el efecto de dos factores: la presencia (o ausencia) de antibiótico y la presencia

(o ausencia) de vitamina B12 en la dieta de cerdos. Si combinamos los dos niveles de

antibiótico (0mg, 40mg) con los dos niveles de B12 (0mg, 5mg), tendremos cuatro

tratamientos:

Tratamiento Antibiótico Vitamina B12

1 0 0

2 40 0

3 0 5

4 40 5

Supongamos que aplicamos cada uno de estos cuatro tratamientos a 5 cerdos, según un

diseño completamente aleatorizado, y registramos el aumento de peso en cada uno.

Por ahora, supongamos que conocemos el aumento promedio verdadero (poblacional)

para cerdos en los tres primeros tratamientos. ¿Sería posible predecir el promedio del

cuarto tratamiento?

Tratamiento Antibiótico Vitamina B12

1 0 0 30

2 40 0 35

3 0 5 45

4 40 5 ?

Por una parte observamos que al pasar de 0 a 40 de antibiótico sin vitamina B12 el

aumento del promedio es 5. Si podríamos suponer que ese efecto positivo del antibiótico

en ausencia de B12 es el mismo que el efecto que el antibiótico tendría en presencia de

B12, entonces 4 3 5 50.

Equivalentemente, al pasar de 0 a 5 de B12 sin antibiótico el aumento del promedio es

15. Por lo tanto, al pasar de 0 a 5 de B12 en presencia del antibiótico el promedio sería

4 2 15 50.

Resumiendo, bajo el supuesto que el efecto de un factor es el mismo en ambos niveles del

otro factor, podemos calcular una media dadas las otras 3. Cuando esto sucede decimos

que los efectos son aditivos (podemos sumarlos) y no sería necesario probar los cuatro

tratamientos (con tres sería suficiente).

Ahora supongamos que esto no se cumple, sino que 4 60 (por ejemplo debido a que

la presencia de ambos suplementos es más beneficiosa que la presencia de uno de ellos

Page 33: Biometría Avanzada 2015 Macchiavelli

33

por separado). En este caso sí necesitamos estudiar las cuatro combinaciones, y no

podemos prescindir de ninguna. Cuando esto sucede decimos que los efectos no son

aditivos sino que existe interacción entre los factores. Gráficamente,

Efectos Aditivos

20

30

40

50

60

0 10 20 30 40

Antibiótico

Med

ia B12=0

B12=5

Efectos con interacción

20

30

40

50

60

0 10 20 30 40

Antibiótico

Med

ia B12=0

B12=5

En un experimento factorial siempre probamos todas las combinaciones de tratamiento,

ya que estudiar la interacción es uno de los objetivos más importantes al realizar un

experimento de este tipo. El ejemplo que hemos presentado se denomina un experimento

factorial 2x2, o 22, ya que tiene dos factores a dos niveles cada uno. Si tuviésemos

antibiótico a 2 niveles y B12 a 3 niveles, sería un factorial 2x3 (y en este caso tendríamos

6 tratamientos, o combinaciones de niveles). Un factorial 2x2x3 significa que hay tres

factores, uno a dos niveles, otro a dos niveles y un tercero a 3 niveles.

El modelo para observaciones provenientes de un arreglo factorial de tratamientos

arreglados en un diseño completamente aleatorizado es el siguiente:

ijk ij ijk i j ij ijkY

donde el índice i representa niveles del primer factor, j representa niveles del segundo

factor y k representa repeticiones. Si no hubiese interacción, la diferencia (por ejemplo)

12 11 sería igual a la diferencia 22 21 . Esto es lo que observamos en nuestro

ejemplo, y se logra si 0ij :

Page 34: Biometría Avanzada 2015 Macchiavelli

34

12 11 1 2 1 1 2 1

22 21 2 2 2 1 2 1

Si hubiese interacción esta igualdad no se cumpliría. Por lo tanto, el término ij

representa la interacción entre ambos factores. Los términos i y j representan los

efectos “principales” del primer y segundo factor respectivamente. Estos efectos

principales pueden interpretarse como el efecto de un factor promediado sobre todos los

niveles del otro factor (ya discutiremos este concepto más adelante).

Para armar nuestra tabla de ANOVA supongamos que el primer factor lo llamamos A, y

este factor tiene a niveles. Similarmente, el factor B tiene b niveles, y tenemos n

observaciones por tratamiento (combinación de niveles de A y B).

Usando la notación de puntos,

: total para el nivel del factor

: total para el nivel del factor

: total para el tratamiento

(combinación del nivel de y nivel de )

: total de todas las observac

i

j

ij

Y i A

Y j B

Y ij

i A j B

Y

iones

22

2SCTotal=SCTot ijk ijk

YY Y Y

nab

2 2

2

SCA ii

i i

Y Ybn Y Y

bn abn

2 2

2

SCB=j

j

j j

Y Yan Y Y

an abn

2 2

SCAB=SCTratamientos-SCA-SCB= SCA SCBijY Y

n nab

SCResidual=SCError=SCRes SCTot-SCA-SCB-SCAB

La siguiente es la tabla de ANOVA:

Fuente de Variación Suma de

Cuadrados

grados de

libertad

Cuadrado

Medio

F

A SCA a-1 CMA F=CMA/CME

B SCB b-1 CMB F=CMB/CME

AB SCAB (a-1)(b-1) CMAB F=CMAB/CME

Residual (Error) SCRes=SCE ab(n-1) CMRes=CME

Total SCTot abn-1

Page 35: Biometría Avanzada 2015 Macchiavelli

35

Las hipótesis que probamos son tres:

0 11 12

0 1 2

0 1 2

: ... 0

: ... 0

: ... 0

ab

a

b

H

H

H

La primera hipótesis que debemos probar siempre es si hay o no hay interacción. Si hay

interacción, las hipótesis de efectos principales no tienen demasiado sentido y por lo tanto

no deberíamos interpretarlas (excepto bajo ciertas circunstancias).

Si no hay interacción significativa, los efectos principales sí tienen interpretación, y por

lo tanto podemos probarlos.

Vamos a ver nuevamente el ejemplo presentado antes (factorial 2x2) para entender mejor

los conceptos de efectos principales e interacciones. Supongamos que observamos tres

cerdos en cada tratamiento (DCA) y observamos la ganancia diaria de peso:

Tratamiento Antibiótico Vitamina B12 Ganancia Diaria de Peso ijY

1 0 0 1.30, 1.19, 1.08 1.19

2 40 0 1.05, 1.00, 1.05 1.03

3 0 5 1.26, 1.21, 1.19 1.22

4 40 5 1.52, 1.56, 1.55 1.54

Bajo el nivel 0 de antibiótico (factor A) podemos estimar el efecto simple del factor B:

12 11 1.22 1.19 0.03Y Y

Similarmente el efecto simple del factor B cuando el factor A está en su segundo nivel se

estima como:

22 21 1.54 1.03 0.51Y Y

El efecto principal del factor B es el promedio de estos dos efectos simples, y es también

la diferencia entre las medias de los niveles de B:

2 1

.51 .030.27

2Y Y

Si los efectos simples no son significativamente diferentes, entonces sí tiene sentido

promediarlos para obtener el efecto principal. Pero si los efectos simple son

significativamente diferentes, entonces estamos en presencia de interacción y no tendría

sentido promediarlos. Por lo tanto, la interacción puede estimarse mediante la diferencia

de los efectos simples:

22 21 12 11Interacción: 0.51 0.03 0.48Y Y Y Y

Como ejercicio, calcular los efectos simples y principal del factor A. Verificar que

usando estos efectos simples la interacción es la misma. (Esto tiene sentido, ya que la

interacción es un concepto que comprende los dos factores.)

Page 36: Biometría Avanzada 2015 Macchiavelli

36

El programa SAS para este ejemplo sigue a continuación.

data cerdos;

input tratam antib vitb12 ganpeso;

datalines;

1 0 0 1.30

1 0 0 1.19

1 0 0 1.08

2 40 0 1.05

2 40 0 1.00

2 40 0 1.05

3 0 5 1.26

3 0 5 1.21

3 0 5 1.19

4 40 5 1.52

4 40 5 1.56

4 40 5 1.55

proc glm;

class antib vitb12;

model ganpeso = antib vitb12 antib*vitb12;

run;

Class Level Information

Class Levels Values

antib 2 0 40

vitb12 2 0 5

Dependent Variable: ganpeso

Source DF Sum of Squares Mean Square F Value Pr > F

Model 3 0.41233333 0.13744444 37.48 <.0001

Error 8 0.02933333 0.00366667

Corrected Total 11 0.44166667

R-Square Coeff Var Root MSE ganpeso Mean

0.933585 4.857193 0.060553 1.246667

Source DF Type III SS Mean Square F Value Pr > F

antib 1 0.02083333 0.02083333 5.68 0.0443

vitb12 1 0.21870000 0.21870000 59.65 <.0001

antib*vitb12 1 0.17280000 0.17280000 47.13 0.0001

Page 37: Biometría Avanzada 2015 Macchiavelli

37

Otra manera de ver este problema es mediante contrastes. Olvidándonos por un momento

de los dos factores, nosotros tenemos aquí un DCA con 4 tratamientos. Mediante

contrastes apropiados podemos probar las mismas hipótesis (además podríamos escribir

contrastes para efectos simples de ser necesario):

proc glm;

class tratam;

model ganpeso = tratam;

contrast 'Ef. ppal. A' tratam -1 1 -1 1;

contrast 'Ef. ppal. B' tratam -1 -1 1 1;

contrast 'Interac. AB' tratam 1 -1 -1 1;

run;

Class Level Information

Class Levels Values

tratam 4 1 2 3 4

Dependent Variable: ganpeso

Source DF Sum of Squares Mean Square F Value Pr > F

Model 3 0.41233333 0.13744444 37.48 <.0001

Error 8 0.02933333 0.00366667

Corrected Total 11 0.44166667

R-Square Coeff Var Root MSE ganpeso Mean

0.933585 4.857193 0.060553 1.246667

Source DF Type III SS Mean Square F Value Pr > F

tratam 3 0.41233333 0.13744444 37.48 <.0001

Contrast DF Contrast SS Mean Square F Value Pr > F

Ef. ppal. A 1 0.02083333 0.02083333 5.68 0.0443

Ef. ppal. B 1 0.21870000 0.21870000 59.65 <.0001

Interac. AB 1 0.17280000 0.17280000 47.13 0.0001

Page 38: Biometría Avanzada 2015 Macchiavelli

38

Interacción ordenada y no ordenada

Interacción Ordenada

0

10

20

30

40

50

0 1 2 3 4 5

A

Med

ia

B=1

B=2

B=3

Interacción No Ordenada

0

5

10

15

20

25

0 1 2 3 4 5

A

Med

ia

B=1

B=2

B=3

Si tenemos interacción ordenada podríamos probar efectos principales (recordemos que

son promedios de efectos simples) e interpretar los resultados (con cautela…), pero si

tenemos una interacción no ordenada, los efectos principales no se pueden interpretar en

términos prácticos (estamos promediando cosas con distinto signo, distinta magnitud,

etc.)

Page 39: Biometría Avanzada 2015 Macchiavelli

39

Pruebas de comparaciones múltiples, contrastes, intervalos de confianza, etc.

Para realizar comparaciones o contrastes podemos hacerlo con dos tipos de medias:

1. las medias de niveles de cada factor. Por ejemplo, 1 2 es la diferencia entre

el primer nivel de A y el segundo nivel de A. Es un efecto principal.

2. las medias de tratamientos (combinaciones de niveles niveles de cada factor). Por

ejemplo, 12 11 es la diferencia entre el primer nivel de B y el segundo nivel de

B cuando el factor A está en su primer nivel. Es un efecto simple.

Las medias de niveles de cada factor se calculan a partir de más observaciones que las

medias de tratamientos, por lo que las fórmulas que hemos estudiado deben corregirse

apropiadamente. En el ejemplo de los cerdos, para calcular 1 1ˆ Y debemos promediar

2 3 6bn observaciones; mientras que para calcular 12 12ˆ Y debemos promediar

3n observaciones. Esto hace que los errores estándar de las diferencias dependan de

qué tipo de media estamos considerando. Por ejemplo,

1 2

3 1

12 11

2. .

2. .

2. .

CMEs e Y Y

bn

CMEs e Y Y

an

CMEs e Y Y

n

Page 40: Biometría Avanzada 2015 Macchiavelli

40

9. Experimentos factoriales con tres o más factores

Para experimentos con tres o más factores las ideas básicas del análisis son las mismas

que para dos factores, aunque todo se complica por la existencia de interacciones dobles,

triples, etc. Veamos con un ejemplo qué significaría cada uno de los efectos e

interacciones en un factorial 2x2x2. Por ejemplo, supongamos que queremos estudiar el

efecto de la presencia (o ausencia) de antibiótico, la presencia (o ausencia) de vitamina

B12 y el sexo en la dieta de cerdos. Si combinamos los dos niveles de antibiótico (0mg,

40mg) con los dos niveles de B12 (0mg, 5mg), y los dos sexos tendremos ocho

tratamientos:

Tratamiento Antibiótico Vitamina B12 Sexo

1 0 0 M

2 40 0 M

3 0 5 M

4 40 5 M

5 0 0 F

6 40 0 F

7 0 5 F

8 40 5 F

Supongamos que aplicamos cada uno de estos ocho tratamientos a 5 cerdos, según un

diseño completamente aleatorizado, y registramos el aumento de peso en cada uno.

El modelo para este ejemplo sería:

ijkm ijk ijkm i j k ij ik jk ijk ijkmY

donde el índice i representa niveles del primer factor, j representa niveles del segundo

factor, k representa niveles del tercer factor y m representa repeticiones.

Debemos observar que ahora tenemos tres efectos principales, tres interacciones dobles y

una interacción triple. Los efectos principales tienen la misma interpretación que antes:

representan las comparaciones entre niveles de un factor promediadas sobre los niveles

de los otros dos factores. Por ejemplo, el efecto principal de sexo es la comparación entre

los 4 tratamientos con nivel 1 de sexo (trat. 1-4) y los 4 tratamientos con nivel 2 de sexo

(trat. 5-8).

Las interacciones dobles son comparaciones entre las diferencias de niveles de un factor

en cada nivel del otro promediadas sobre los niveles del factor no incluido en la

interacción. Por ejemplo, la interacción doble entre antibiótico y vitamina es la siguiente

comparación:

111 112 121 122 211 212 221 222

2 2 2 2

Observar que los niveles de sexo (tercer índice) están promediados, ya que la interacción

considerada es entre antibiótico y vitamina.

Page 41: Biometría Avanzada 2015 Macchiavelli

41

La interacción triple se puede interpretar como que la interacción doble entre dos de los

factores en un nivel dado del factor restante no es la misma que la interacción doble en el

otro nivel del factor restante. Por ejemplo, la interacción triple podría interpretarse como

que la interacción entre el antibiótico y la vitamina no es la misma en machos que en

hembras:

111 121 211 221 112 122 212 222

Para armar nuestra tabla de ANOVA supongamos que el primer factor lo llamamos A, y

este factor tiene a niveles. Similarmente, el factor B tiene b niveles, el factor C tiene c

niveles y tenemos n observaciones por tratamiento (combinación de niveles de A, B y C).

Usando la notación de puntos,

: total para el nivel del factor

: total para el nivel del factor

: total para el nivel del factor

: total para la combinación del nivel de y nivel de

: total

i

j

k

ij

i k

Y i A

Y j B

Y k C

Y i A j B

Y

para la combinación del nivel de y nivel de

: total para la combinación del nivel de y nivel de

: total para el tratamiento

: total de todas las observaciones

jk

ijk

i A k C

Y j B k C

Y ijk

Y

Las fórmulas para las sumas de cuadrados pueden consultarse en la página 907 del texto.

La siguiente es la tabla de ANOVA:

Fuente de

Variación

Suma de

Cuadrados

grados

libertad

Cuadrado

Medio

F

A SCA a-1 CMA F=CMA/CME

B SCB b-1 CMB F=CMB/CME

C SCC c-1 CMC F=CMC/CME

AB SCAB (a-1)(b-1) CMAB F=CMAB/CME

AC SCAC (a-1)(c-1) CMAC F=CMAC/CME

BC SCBC (b-1)(c-1) CMBC F=CMBC/CME

ABC SCABC (a-1)(b-1) (c-1) CMABC F=CMABC/CME

Residual (Error) SCRes=SCE abc(n-1) CMRes=CME

Total SCTot abcn-1

Page 42: Biometría Avanzada 2015 Macchiavelli

42

La estrategia general para analizar esta tabla es la misma que para factoriales con dos

factores: empezar a probar la interacción de mayor orden, seguir con las dobles de

acuerdo al resultado de la prueba de la interacción triple, etc. Un diagrama que nos puede

ayudar en esto es el siguiente (ver página 909 en el texto, quinta edición):

Page 43: Biometría Avanzada 2015 Macchiavelli

43

10. Modelos de efectos aleatorios y mixtos

Supongamos que nos interesa estudiar si hay diferencias en calidad según la variedad en

semillas de trigo comercializadas por cierta compañía. Para este estudio elegimos al azar

5 variedades (de entre las 40 variedades disponibles) y de cada variedad elegimos 10

muestras al azar de 50 semillas cada una, en las que medimos el porcentaje de

germinación, peso, densidad, etc. El modelo para cada una de las variables dependientes

sería

ij i ijY

Como en otros modelos estudiados antes, aquí i representa el efecto de la variedad y ij

el error. La principal diferencia es que el efecto de la variedad es una variable aleatoria.

Debemos observar que si hiciésemos el estudio nuevamente, las variedades elegidas

serían diferentes (se escogen al azar cada vez). Por otra parte, si las únicas variedades de

interés fuesen las cinco variedades del estudio, el efecto de la variedad ( i ) sería fijo

(esta situación sería similar a todos los ejemplos estudiados hasta ahora: al hacer el

estudio de nuevo, las muestras serían diferentes pero las variedades serían las mismas).

Como en todos los ejemplos anteriores, el error siempre es una variable aleatoria y la

media general es fija:

2 2~ 0, , ~ 0,i ijN N

Ambos efectos son independientes.

La inferencia para modelos de efectos aleatorios es diferente, ya que no estamos

interesados en los 5 valores de i actualmente estudiados sino en todos los valores

posibles (los efectos de las 40 variedades). Si todos los efectos fuesen iguales, la varianza

de estos efectos sería 0, es decir, 2 0 . Por lo tanto ésta es la hipótesis nula que

probamos en un modelo de efecto aleatorio. Los cálculos para la tabla de ANOVA son

los mismos que antes (por lo menos en este ejemplo con un solo factor), y la prueba F

sigue siendo CMTratCME

F .

Otra manera de ver que la hipótesis que estamos probando es la mencionada es mediante

el estudio de los cuadrados medios esperados. Un cuadrado medio esperado es el valor

promedio que obtendríamos si repitiésemos nuestro experimento infinidad de veces,

calculásemos cada vez un cuadrado medio, y promediásemos estos valores. Debemos

observar que según estemos trabajando con efectos fijos o aleatorios el proceso de repetir

el experimento va a ser diferente: en el caso de efectos fijos el proceso significa

realeatorizar las unidades experimentales a los tratamientos, mientras que con efectos

aleatorios deberíamos reelegir aleatoriamente los tratamientos y luego realeatorizar las

unidades experimentales a los tratamientos elegidos. Los cuadrados medios esperados

son cantidades poblacionales cuyo cálculo requiere bastante teoría. Para el ejemplo que

estamos considerando son los siguientes:

Page 44: Biometría Avanzada 2015 Macchiavelli

44

Fuente de variación Cuadrado Medio Esperado

Efectos Fijos Efectos Aleatorios

Tratamiento 2 2 ( 1)in t 2 2n

Error 2 2

Aquí podemos ver la justificación para la prueba F: bajo la hipótesis nula tanto el

numerador como el denominador tienen el mismo valor esperado, mientras que bajo la

hipótesis alternativa el numerador tiene un valor esperado más alto que el denominador

(de ahí que rechacemos la hipótesis nula para valores altos del estadístico).

El mismo concepto de efectos aleatorios lo podemos extender a situaciones con más de

un factor, con bloques, etc. Supongamos que estamos estudiando un proceso de

empacado de pescado en una fábrica. Escogemos 4 máquinas al azar entre todas las

disponibles, y 3 operarios al azar entre los 200 operarios de la fábrica. Para cada

combinación de máquina y operario escogemos 5 paquetes al azar de la línea de

producción. Debemos notar que éste es un experimento factorial 4x3 con 5 repeticiones

en un DCA, pero ambos efectos son aleatorios (si volviésemos a realizar el experimento,

tanto las máquinas como los operarios serían diferentes). El modelo en este caso es

2 2

2 2

~ 0, , ~ 0,

~ 0, , ~ 0,

ijk i j ij ijk

i j

ij ijk

Y

N N

N N

Todos los efectos aleatorios son independientes entre sí.

Otro ejemplo de un factorial con dos factores es el siguiente: deseamos comparar 4

variedades de habichuela aleatoriamente escogidas sembradas bajo 5 dosis de

fertilización. Para ello sembramos 2 repeticiones de cada una de las 20 combinaciones de

variedad y fertilización en un experimento diseñado según un DCA. En este caso el

modelo es mixto: los efectos de las variedades son aleatorios y los efectos de los métodos

de fertilización son fijos. El modelo es similar al anterior:

2 2

2

~ 0, , ~ 0,

~ 0,

ijk i j ij ijk

j ij

ijk

Y

N N

N

Page 45: Biometría Avanzada 2015 Macchiavelli

45

Los cuadrados medios esperados para factoriales pueden resumirse en la siguiente tabla:

Fuente

de

variación

Cuadrado Medio Esperado

A y B Fijos A y B Aleatorios A fijo, B Aleatorio

A 2 2 ( 1)inb a 2 2 2n nb 2 2 2 ( 1)in nb a

B 2 2 ( 1)jna b 2 2 2n na 2 2na

AB 2 2 ( 1)( 1)ijn a b 2 2n 2 2n

Error 2 2 2

A partir de esta tabla es bastante directo encontrar las hipótesis y la forma de construir

estadísticos F para probarlas. La clave es siempre encontrar un numerador y un

denominador para el estadístico F que tengan el mismo valor esperado bajo la hipótesis

nula. Por ejemplo, en el modelo mixto para probar el efecto principal del factor A

tenemos que 0 1 2: ... 0aH , y para probarla podemos construir el siguiente

estadístico:CMA

CMABF . Todas estas fórmulas son válidas sólo si los datos son

balanceados (igual número de repeticiones por combinación de niveles de factores). En

caso contrario se debe usar otra metodología.

Como ejemplo en SAS, consideremos el modelo mixto discutido antes con 5 dosis de

fertilizante (fijas) y 4 variedades (aleatorias). data ensayo;

input fertil varied rendim;

datalines;

1 1 7.2

1 2 4.2

1 3 9.5

1 4 5.4

1 1 9.6

1 2 3.5

1 3 9.3

1 4 3.9

2 1 8.5

2 2 2.9

2 3 8.8

2 4 6.3

2 1 9.6

2 2 3.3

2 3 9.2

2 4 6.0

3 1 9.1

3 2 1.8

3 3 7.6

3 4 6.1

3 1 8.6

3 2 2.4

3 3 7.1

3 4 5.6

4 1 8.2

4 2 3.6

4 3 7.3

4 4 5.0

4 1 9.0

4 2 4.4

4 3 7.0

4 4 5.4

5 1 7.8

5 2 3.7

5 3 9.2

5 4 6.5

5 1 8.0

5 2 3.9

5 3 8.3

5 4 6.9

proc glm;

class fertil varied;

model rendim = fertil|varied;

test h=fertil e=fertil*varied;

run;

Page 46: Biometría Avanzada 2015 Macchiavelli

46

Class Level Information

Class Levels Values

fertil 5 1 2 3 4 5

varied 4 1 2 3 4

Number of Observations Read 40

Number of Observations Used 40

Dependent Variable: rendim

Source DF Sum of Squares Mean Square F Value Pr > F

Model 19 200.1027500 10.5317237 30.42 <.0001

Error 20 6.9250000 0.3462500

Corrected Total 39 207.0277500

R-Square Coeff Var Root MSE rendim Mean

0.966550 9.063229 0.588430 6.492500

Source DF Type III SS Mean Square F Value Pr > F

fertil 4 3.8115000 0.9528750 2.75 0.0567

varied 3 180.1327500 60.0442500 173.41 <.0001

fertil*varied 12 16.1585000 1.3465417 3.89 0.0037

Tests of Hypotheses Using the Type III MS for fertil*varied as an Error Term

Source DF Type III SS Mean Square F Value Pr > F

fertil 4 3.81150000 0.95287500 0.71 0.6020

Page 47: Biometría Avanzada 2015 Macchiavelli

47

La tabla de cuadrados medios esperados también nos da la información necesaria para

estimar las componentes de la varianza:

2

2

2

ˆ CME .346

CMAB-CME 1.34654 .34625ˆ .500

2

CMB-CME 60.04425 .34625ˆ 5.970

5 2

n

an

Las fórmulas de cuadrados medios esperados a partir de las cuales podemos deducir estas

estimaciones de las varianzas son válidas sólo para igual número de repeticiones. Para

número desigual de repeticiones, situaciones con estimados negativos, etc. debemos usar

otro método llamado REML (implementado en SAS Proc Mixed o en el módulo de

modelos mixtos de InfoStat, pero que no lo estudiamos en este curso).

Para realizar el mismo ejemplo en Infostat, debemos indicar directamente en las especifi-

caciones del modelo el denominador de los estadísticos F de todos los efectos que usen

como denominador algo diferente del cuadrado medio de error. En nuestro ejemplo, notar

que en modelo escribimos FERTIL\FERTIL*VARIEDAD (sin espacios intermedios)

Page 48: Biometría Avanzada 2015 Macchiavelli

48

Análisis de la varianza

Variable N R² R² Aj CV

rendim 40 0.97 0.93 9.06

Cuadro de Análisis de la Varianza (SC tipo III)

F.V. SC gl CM F p-valor (Error)

Modelo 200.10 19 10.53 30.42 <0.0001

Fertil 3.81 4 0.95 0.71 0.6020 (Fertil*variedad)

variedad 180.13 3 60.04 173.41 <0.0001

Fertil*variedad 16.16 12 1.35 3.89 0.0037

Error 6.93 20 0.35

Total 207.03 39

Page 49: Biometría Avanzada 2015 Macchiavelli

49

11. Diseños anidados

Consideremos los siguientes dos ejemplos:

1. Queremos saber si hay diferencias en el contenido de vitamina C de jugo de china

de dos marcas diferentes (A, B). Elegimos aleatoriamente 6 cartones de cada una

de las marcas, y de cada cartón tomamos 2 muestras aleatorias de 1 oz. y las

analizamos. ¿Cuáles son los factores en estudio? ¿Son fijos o aleatorios?

2. Muestreamos 10 fincas de café al azar en el área central de P. Rico, elegimos 12

árboles al azar en cada finca y de cada árbol obtenemos 3 muestras de 20 hojas

cada una y determinamos el porcentaje de hojas con roya en cada muestra.

¿Cuáles son los factores en estudio? ¿Son fijos o aleatorios?

En ambos ejemplos tenemos 2 factores de interés, pero, a diferencia de los experimentos

factoriales estudiados antes, no tenemos disponibles todas las combinaciones de niveles.

Esto hace que no podamos estudiar la interacción entre los factores, sino sólo el efecto

del factor A, y el efecto del factor B “dentro” de los niveles de A (es decir, las diferencias

entre los niveles de B en un nivel dado de A). El modelo se llama “jerárquico” o

“anidado” (hay una jerarquía de factores: tenemos niveles de A, dentro de cada nivel de

A tenemos algunos niveles específicos de B, etc.). Decimos que el factor B está anidado

dentro del factor A. (En factoriales, decimos que el factor B está cruzado con el factor A,

ya que todas las combinaciones de niveles de ambos factores aparecen). El modelo que

explica las observaciones es:

( )ijk i j i ijkY

Los efectos de A pueden ser fijos o aleatorios, y de B dentro de A generalmente son

aleatorios, como hemos visto en los dos ejemplos al principio (el ejemplo 1 es mixto, el 2

es aleatorio).

Page 50: Biometría Avanzada 2015 Macchiavelli

50

La tabla de ANOVA es la siguiente:

Fuente de

Variación

Suma de Cuadrados grados

de

libertad

Cuadrado

Medio

A 2 2

SCA i

i

Y Y

bn abn

a-1 CMA

B(A) 2 2

SCB(A)= SCAijY Y

n nab

a(b-1) CMB(A)

Error SCE=SCTot-SCA-SCB(A) ab(n-1) CME

Total 22SCTot ijk

YY

nab

abn-1

Los cuadrados medios esperados para anidados pueden resumirse en la siguiente tabla:

Fuente de variación Cuadrado Medio Esperado

A y B Aleatorios A fijo, B Aleatorio

A 2 2 2n nb 2 2 2 ( 1)in nb a

B(A) 2 2n 2 2n

Error 2 2

A partir de esta tabla es bastante directo encontrar las hipótesis y la forma de construir

estadísticos F para probarlas. La clave es la misma de la clase anterior: encontrar un

numerador y un denominador para el estadístico F que tengan el mismo valor esperado

bajo la hipótesis nula. Por ejemplo, en el modelo mixto para probar el efecto principal del

factor A tenemos que 0 1 2: ... 0aH , y para probarla podemos construir el

siguiente estadístico:CMA

CMB(A)F . Todas estas fórmulas son válidas sólo si los datos

son balanceados (igual número de repeticiones por nivel de B, e igual número de niveles

de B por nivel de A). En caso contrario se debe usar otra metodología (como Proc Mixed

en SAS o el módulo de modelos mixtos en InfoStat, que hemos mencionado para casos

desbalanceados en modelos de efectos aleatorio o mixtos estudiados en el capítulo

anterior).

Page 51: Biometría Avanzada 2015 Macchiavelli

51

Como ejemplo en SAS e Infostat, consideremos el modelo mixto del ejemplo 1 con 2

marcas de jugo, 6 cartones por marca y 2 muestras por cartón.

data naranja;

input marca $ carton muestra

vitam;

datalines;

a 1 1 680

a 1 2 645

a 2 1 438

a 2 2 460

a 3 1 539

a 3 2 565

a 4 1 264

a 4 2 278

a 5 1 693

a 5 2 650

a 6 1 530

a 6 2 585

b 7 1 418

b 7 2 457

b 8 1 475

b 8 2 490

b 9 1 345

b 9 2 321

b 10 1 298

b 10 2 245

b 11 1 546

b 11 2 597

b 12 1 475

b 12 2 444

proc glm;

class marca carton;

model vitam = marca

carton(marca);

test h=marca e=carton(marca);

means marca;

run;

Class Level Information

Class Levels Values

marca 2 a b

carton 12 1 2 3 4 5 6 7 8 9 10 11 12

Dependent Variable: vitam

Source DF Sum of Squares Mean Square F Value Pr > F

Model 11 402713.8333 36610.3485 54.41 <.0001

Error 12 8074.0000 672.8333

Corrected Total 23 410787.8333

R-Square Coeff Var Root MSE vitam Mean

0.980345 5.442706 25.93903 476.5833

Source DF Type III SS Mean Square F Value Pr > F

marca 1 61610.6667 61610.6667 91.57 <.0001

carton(marca) 10 341103.1667 34110.3167 50.70 <.0001

Page 52: Biometría Avanzada 2015 Macchiavelli

52

Tests of Hypotheses Using the Type III MS for carton(marca) as an Error Term

Source DF Type III SS Mean Square F Value Pr > F

marca 1 61610.66667 61610.66667 1.81 0.2087

Level of marca

N vitam

Mean Std Dev

a 12 527.250000 144.145838

b 12 425.916667 104.715596

Análisis de la varianza

Variable N R² R² Aj CV

Columna4 24 0.98 0.96 5.44

Cuadro de Análisis de la Varianza (SC tipo I)

F.V. SC gl CM F valor p (Error)

Modelo 402713.83 11 36610.35 54.41 <0.0001

Marca 61610.67 1 61610.67 1.81 0.2087 (Marca>Cartón)

Marca>Cartón 341103.17 10 34110.32 50.70 <0.0001

Error 8074.00 12 672.83

Total 410787.83 23

Page 53: Biometría Avanzada 2015 Macchiavelli

53

12. Diseño de parcelas divididas

Hemos visto en distintos ejemplos cómo la manera en que aleatorizamos (asignamos los

tratamientos a las unidades experimentales) define el diseño del experimento. Por

ejemplo, si todos los tratamientos están asignados al azar en cada grupo de unidades

experimentales tenemos un diseño en bloques completos aleatorizados.

Consideremos un experimento en el que deseamos evaluar 4 distintos niveles de fertiliza-

ción (f1, f2, f3, f4) de Pasto Pangola para lo cual usamos 12 parcelas. Cada nivel de

fertilizante se aplica a 3 parcelas aleatoriamente elegidas. Cada una de las parcelas se

divide en 3 subparcelas, y aleatoriamente elegimos una de estas subparcelas para evaluar

la producción de materia seca de una de tres variedades del pasto (v1, v2, v3).

Este experimento tiene 2 factores, pero la forma en que hemos aleatorizado estos factores

no es la usual para los experimentos factoriales. Debemos observar que primero hemos

aleatorizado los niveles de un factor (fertilizante) a las parcelas completas y luego hemos

aleatorizado los niveles del otro factor (variedad) a las subparcelas. Debemos notar que la

aleatorización es más restringida que si hubiésemos aleatorizado todas las 12

combinaciones.

¿Qué ganamos con este diseño? Por una parte, pueden existir razones prácticas para

usarlo: por ejemplo es posible que logremos una mejor aplicación del fertilizante si lo

aplicamos a parcelas grandes. Por otra parte debemos observar también que cada parcela

(completa) está funcionando como un “bloque” para el segundo factor, ya que todos los

niveles del segundo factor (en nuestro ejemplo variedad) están presentes en cada parcela

completa. Esto hace que este factor gane en precisión.

En este diseño tenemos al menos dos factores: uno cuyos niveles se aleatorizan a las

parcelas completas y otro cuyos niveles se aleatorizan a las subparcelas. Las parcelas

completas pueden estar ordenadas en forma completamente aleatoria (como en nuestro

ejemplo), en forma de bloques completos, etc. El modelo para observaciones

provenientes de un diseño en parcelas divididas con parcelas completas en un DCA es

( )ijk i k i j ij ijkY

Aquí ( )k i es el efecto (aleatorio) de la repetición k en el tratamiento i (efecto de la

parcela completa). Si las parcelas completas estuviesen en un DBCA entonces debemos

agregar un efecto de bloques:

ijk i k ik j ij ijkY

Los cuadrados medios esperados (ambos factores se consideran fijos) para este diseño

son

Page 54: Biometría Avanzada 2015 Macchiavelli

54

A partir de esta tabla es bastante directo encontrar las hipótesis y la forma de construir

estadísticos F para probarlas. Es claro que para probar el efecto principal del factor A (y

el efecto de bloques) debemos usar como denominador el error de “parcela completa”

(error 1), ya que la aleatorización de niveles de este factor se hizo sobre las parcelas

completas. Similarmente, para probar efecto principal de B o interacción debemos usar

como denominador el error de subparcela (error 2).

Para realizar los cálculos de las sumas de cuadrados veamos el siguiente ejemplo, en el

que hay dos niveles de irrigación (aplicados a parcelas completas en un DCA con 3

repeticiones) y 2 variedades (aplicados a subparcelas).

Irrigación Variedad Repet. 1 Repet. 2 Repet. 3 Totales

sin 1 63 52 49 164

sin 2 33 43 48 124

con 1 53 69 55 177

con 2 38 49 42 129

594

Parcelas completas 1 2 3 4 5 6

Totales 96 95 97 91 118 97

Irrigación sin con

Totales 288 306

Variedad 1 2

Totales 341 253

SCTotal= 632+…+42

2 - 594

2/12 = 1117

SCParcelas Completas= (962+…+97

2)/2 - 594

2/12 = 229

SC A= (2882+306

2)/6 - 594

2/12 = 27

SC Error 1= SCParcelas Completas-SC A = 202

Fuente de

variación

Parcelas completas en DCA Parcelas completas en DBCA

CM Esperado gl CM Esperado gl

Bloques - - 2 2 2 ( 1)kb ab n

n-1

A 2 2 2 ( 1)ib nb a a-1 2 2 2 ( 1)ib nb a

a-1

Error 1 2 2b a(n-1) 2 2b (a-1)(n-1)

B 2 2 ( 1)jna b b-1 2 2 ( 1)jna b b-1

AB 2 2 ( 1)( 1)ijn a b

(a-1)(b-1) 2 2 ( 1)( 1)ijn a b

(a-1)(b-1)

Error 2 2 a(b-1)(n-1) 2 a(b-1)(n-1)

Total abn-1 abn-1

Page 55: Biometría Avanzada 2015 Macchiavelli

55

SC B = (3412+253

2)/6 - 594

2/12 = 645.33

SC AB = (1642+…+129

2)/3 - 594

2/12 - SC A - SC B = 5.33

SC Error 2 = SCTotal - SCParcelas Completas - SC B - SC AB = 237.33

data a;

input riego $ variedad repet rendim;

datalines;

sin 1 1 63

sin 1 2 52

sin 1 3 49

sin 2 1 33

sin 2 2 43

sin 2 3 48

con 1 1 53

con 1 2 69

con 1 3 55

con 2 1 38

con 2 2 49

con 2 3 42

proc glm data=a;

class riego variedad repet;

model rendim = riego repet(riego) variedad riego*variedad;

test h=riego e=repet(riego);

run;

Class Level Information

Class Levels Values

riego 2 con sin

variedad 2 1 2

repet 3 1 2 3

Dependent Variable: rendim

Source DF Sum of Squares Mean Square F Value Pr > F

Model 7 879.666667 125.666667 2.12 0.2442

Error 4 237.333333 59.333333

Corrected Total 11 1117.000000

R-Square Coeff Var Root MSE rendim Mean

0.787526 15.56124 7.702813 49.50000

Page 56: Biometría Avanzada 2015 Macchiavelli

56

Source DF Type III SS Mean Square F Value Pr > F

riego 1 27.0000000 27.0000000 0.46 0.5369

repet(riego) 4 202.0000000 50.5000000 0.85 0.5602

variedad 1 645.3333333 645.3333333 10.88 0.0300

riego*variedad 1 5.3333333 5.3333333 0.09 0.7793

Tests of Hypotheses Using the Type III MS for repet(riego) as an Error Term

Source DF Type III SS Mean Square F Value Pr > F

riego 1 27.00000000 27.00000000 0.53 0.5052

Para realizar el mismo ejemplo en Infostat debemos especificar el siguiente modelo:

Cuadro de Análisis de la Varianza (SC tipo III)

F.V. SC gl CM F p-valor (Error)

Modelo 879.67 7 125.67 2.12 0.2442

riego 27.00 1 27.00 0.53 0.5052 (riego>repet)

riego>repet 202.00 4 50.50 0.85 0.5602

variedad 645.33 1 645.33 10.88 0.0300

riego*variedad 5.33 1 5.33 0.09 0.7793

Error 237.33 4 59.33

Total 1117.00 11

Page 57: Biometría Avanzada 2015 Macchiavelli

57

Para realizar comparaciones de medias, contrastes, intervalos de confianza, etc.,

necesitamos conocer el error estándar de la diferencia de dos medias. Es claro que si la

diferencia es de dos medias de niveles de A, el error correcto es el Error 1 (error de

parcela completa), mientras que si la diferencia es entre dos medias de niveles de B el

error correcto es el Error 2 (error de subparcela). El problema está en comparar dos

medias a nivel de subparcela pero provenientes de dos parcelas completas diferentes. En

este caso la solución es aproximada, ya que no hay una prueba exacta.

Diferencia

entre

Medias

(ejemplo)

Error estándar de la

diferencia

Valor tabular

dos medias

de A

i iY Y

1 2Y Y 12CMEnb

1glt

dos medias

de B

j jY Y

2 3Y Y 22CME

na 2glt

dos medias

de B en el

mismo

nivel de A

ij ijY Y

11 12Y Y 22CME

n 2glt

dos medias

de A en el

mismo o

distinto

nivel de B

ij i jY Y

11 21Y Y

11 32Y Y

22CMEn

(aprox.) 2glt (aprox.)

Page 58: Biometría Avanzada 2015 Macchiavelli

58

13. Repaso de regresión lineal simple

Hasta ahora hemos estudiado la relación entre una variable dependiente (Y) y

tratamientos (uno o más factores) simplemente considerando que cada tratamiento tiene

su media, y nos interesaba comparar estas medias mediante hipótesis apropiadas. Ahora

vamos a enfatizar la relación que existe entre dos variables cuantitativas: una

independiente y otra dependiente. Por ejemplo la cantidad de proteína en la dieta y el

aumento de peso. La variable que nosotros variamos a voluntad es la “variable

independiente”, y sobre la que nos interesa estudiar el efecto es la “variable dependiente”.

Por ejemplo, queremos ver cuál es el promedio de ganancia de peso cuando agregamos

10%, 15%, 20% y 25% de proteína a la dieta.

La relación más simple es la de una línea recta 0 1Y x , donde Y es el aumento de

peso, x es el porcentaje de proteína en la dieta, 0 es el intercepto (valor de Y cuando

x=0) y 1 es la pendiente (cambio en Y cuando x aumenta en una unidad).

Este modelo se llama modelo determinístico: conociendo el valor de x podemos predecir

exactamente el valor de Y. En la práctica no es muy realista, ya que los puntos observados

no van a estar exactamente sobre la línea recta. El siguiente gráfico es más realista:

2

4

6

8

10

0 5 10

x

Y

Un modelo más realista es pensar que la línea recta representa la relación entre la media

de las Y para un valor dado de x y la variable independiente: 0 1Y x . Otra forma

de escribir este modelo es

0 1Y x

donde es el error aleatorio y representa la diferencia entre el valor de Y y su media Y

(o lo que es lo mismo, entre el valor observado y la recta). La media de estos errores

aleatorio para un valor dado de x es 0 (es decir, los valores positivos y negativos se

“balancean”) y por lo tanto ambas formulaciones de este modelo estocástico son

equivalentes.

Page 59: Biometría Avanzada 2015 Macchiavelli

59

Problema: los parámetros de la recta 0 1, son desconocidos, por lo que

necesitaremos una muestra de N observaciones 1 1, ,..., ,N Nx Y x Y para estimarlos. La

recta que obtendremos será la recta estimada:

0 1ˆ ˆY x

La diferencia entre cada valor observado iY y el valor correspondiente sobre la recta

estimada se llama “error de predicción” o residual, y se denomina como ˆ .i i ie Y Y

Observar que esto no es lo mismo que el error aleatorio i , que es la diferencia entre cada

valor observado y la recta verdadera (poblacional).

Para estimar la recta vamos a usar el método de mínimos cuadrados, que consiste en

elegir los parámetros 0 1, que minimicen la suma de los cuadrados de los errores de

predicción:

2 2

1

1 1

ˆ ˆˆ( ) ( )

N N

i i i o i

i i

Y Y Y x

Los estimadores son

1 0 1ˆ ˆ ˆ,

xy

xx

SY x

S

2

2 2

1 1 1

( )

N N N

xx i i i

i i i

S X X X X N

1 1 1 1

( )( )

N N N N

xy i i i i i i

i i i i

S X X Y Y X Y X Y N

Ejemplo: Relación entre el peso de gallinas (lb) y el consumo de alimento durante 1 año.

Peso Consumo

4.6 87.1

5.1 93.1

4.8 89.8

4.4 91.4

5.9 99.5

4.7 92.1

5.1 95.5

5.2 99.3

4.9 93.4

5.1 94.4

Page 60: Biometría Avanzada 2015 Macchiavelli

60

4.0 4.5 5.0 5.5 6.0

Peso

86

90

94

98

102

PR

ED

_C

on

su

mo

Coeficientes de regresión y estadísticos asociados

Coef Est. EE LI(95%) LS(95%) T valor p CpMallows

const 55.26 9.53 33.28 77.25 5.80 0.0004

Peso 7.69 1.91 3.29 12.09 4.03 0.0038 15.54

Observar que, para este ejemplo 1 0ˆ ˆ1.536, 11.812, 7.69, 55.26.xx xyS S

Ahora estamos en condiciones de realizar inferencias. Repasemos nuestro modelo

0 1i i iY x

Vamos a asumir que este es el modelo correcto, que los 1,..., N son independientes y

tienen distribución normal con media 0 y varianza constante:

~ 0,i N

La tabla de análisis de varianza que nos permite partir la variabilidad total es:

Fuente de

Variación

Suma de

Cuadrados

grados de

libertad

Cuadrado Medio F

Regresión SCRegresión 1 CMReg=SCReg/1 F=CMReg/CME

Residual (Error) SCResidual=SCE N-2 CME=SCE/(N-2)

Total SCTotal N-1

Page 61: Biometría Avanzada 2015 Macchiavelli

61

Las fórmulas para estas sumas de cuadrados son:

2

2 2

2

1

2

SCTotal

ˆˆSCRegresión

ˆSCResidual =SCTotal SCRegresión

i

YY i i

i XY

i i

YS Y Y Y

N

Y Y S

Y Y

Podemos ver qué pasaría si todas las observaciones estuviesen sobre la recta

(SCResidual=0), y qué pasaría si lal mejor recta de ajuste fuese una línea horizontal

(SCRegresión=0).

Cuadro de Análisis de la Varianza (SC tipo III)

F.V. SC gl CM F valor p

Modelo 90.84 1 90.84 16.23 0.0038

Peso 90.84 1 90.84 16.23 0.0038

Error 44.77 8 5.60

Total 135.60 9

Para realizar inferencias podemos aplicar propiedades de la distribución muestral de

0 1ˆ ˆ y , que es normal con los siguientes parámetros:

0 1

0 1

ˆ ˆ0 1

2

ˆ ˆ

,

,

xx

xx

xN S S

El estimador de 2

es el cuadrado medio residual.

Con esta información podemos construir intervalos de confianza y realizar pruebas de

hipótesis usando el estadístico t o F. Por ejemplo,

0 1 1

1

: 0, : 0

ˆ 0, gl 2

a

xx

H H

t Ns

S

Esta última prueba es la más importante en regresión lineal: si no podemos rechazar 0H

entonces estamos concluyendo que no hay una relación lineal entre el promedio de las Y

y las x. Otro estadístico alternativo es el estadístico para esta prueba es

CMRegCME

F y debemos rechazar 0H si F F . Para encontrar el valor tabular de

F debemos buscar en la tabla correspondiente con 1 y N-2 grados de libertad. Podemos

verificar que tanto para el valor observado como para el tabular, 2F t y por lo tanto

ambas pruebas siempre van a conducir a las mismas conclusiones.

Page 62: Biometría Avanzada 2015 Macchiavelli

62

14. Regresión polinomial

Supongamos que tenemos 4 tratamientos, que son las dosis de fertilizante nitrogenado 0,

50, 100 y 200. Realizamos un experimento con estos tratamientos en un DCA con 5

repeticiones. Ahora tenemos dos opciones para analizar estos datos: ANOVA y regresión.

En ANOVA el modelo es ij i ijY , mientras que en regresión el modelo es

0 1ij ij ijY x . Veamos cómo sería el modelo para observaciones de cada una de las

dosis: Dosis Modelo de ANOVA Modelo de regresión

0 1 1 1j jY 1 0 1j jY

50 2 2 2j jY 2 0 1 250j jY

100 3 3 3j jY 3 0 1 3100j jY

200 4 4 4j jY 4 0 1 4200j jY

Podemos ver la diferencia entre ambos modelos. En el ANOVA estamos ajustando una

media diferente para cada dosis ( i i ) mientras que en regresión lineal simple la

media de cada dosis se calcula a partir de la ecuación lineal. En ANOVA tenemos cuatro

parámetros (aparecen 5 en las fórmulas pero la suma de los efectos es cero, así que

efectivamente son 4); mientras que en regresión lineal simple tenemos sólo dos

parámetros (intercepto y pendiente).

¿Cuál de los dos modelos será mejor? Por una parte el ANOVA siempre tendrá una SCE

más pequeña (o a lo sumo igual) que la de la regresión, pero los grados de libertad

también son menos (ANOVA tiene más parámetros que regresión lineal simple), por lo

que no sabemos lo que pasa con el CME. Si el modelo de regresión ajusta bien (es decir,

explica bien los datos) entonces será más útil (podríamos predecir qué pasa con una dosis

de 75, por ejemplo). Aunque el modelo de regresión no ajusta, el de ANOVA siempre lo

hará, ya que no hay ninguna función a la que las medias deban ajustarse: simplemente

cada tratamiento tiene su media.

¿Cómo podemos probar si el modelo de regresión lineal simple ajusta bien? La forma

más sencilla e intuitiva de hacerlo es a través de la comparación de las sumas de cuadrado

de error de ambos modelos: si son bastante parecidas, entonces razonablemente podremos

decir que el modelo de regresión lineal ajusta bien. Si la del ANOVA es sustancialmente

menor, entonces obviamente las medias no siguen una relación de línea recta sino que

necesitaríamos otro modelo para explicar su relación. Es decir, necesitaremos dos tablas

de ANOVA: una para el modelo de ANOVA y otra para el modelo de regresión lineal

simple. Denotaremos como SCEANOVA y SCEREG a las sumas de cuadrado de error de

ambos modelos. Podemos construir un estadístico F como

REG ANOVA

REG ANOVA

ANOVA

SCE -SCE

gle -gle

CMEF

Page 63: Biometría Avanzada 2015 Macchiavelli

63

Este estadístico permitirá probar las hipótesis:

0 0 1:

: el modelo no ajusta

Y

a

H x

H

La región de rechazo son los valores F F , con los grados de libertad apropiados.

Debemos notar que para probar esta hipótesis necesitamos que haya valores de Y

repetidos para al menos algunos de los valores de x, cosa que no siempre sucede en

regresión.

¿Qué hacemos si el modelo de regresión lineal simple no ajusta? Una de las alternativas

ya la conocemos: podemos olvidarnos de la regresión y comparar las medias mediante las

técnicas de ANOVA (comparaciones múltiples, contrastes, intervalos de confianza, etc.)

La otra alternativa es usar un modelo de regresión más complejo, que permita estudiar

relaciones curvilíneas. Entre estos modelos tenemos los polinomios, las ecuaciones

exponenciales, logarítmicas, etc. El polinomio es la extensión natural de la ecuación

lineal simple, y consiste en suma de distintas potencias de x. Por ejemplo un modelo

polinomial de tercer grado es:

320 1 2 3ij ijij ij ijY x x x

Ahora vemos que tenemos un modelo mucho más flexible, pero con mayor cantidad de

parámetros (en este ejemplo, la misma cantidad que el modelo de ANOVA considerado

antes). En modelos polinomiales podemos aplicar la misma prueba de falta de ajuste

presentada antes, pero de manera secuencial. Es decir, empezamos probando si el

polinomio de primer grado ajusta. Si aceptamos la hipótesis nula entonces no es necesario

hacer nada más: el modelo rectilíneo es apropiado. Si rechazamos la nula, entonces

probaríamos si un modelo cuadrático es apropiado, y así seguiremos probando hasta

encontrar un grado del polinomio que sea apropiado. Si tenemos t tratamientos el grado

máximo del polinomio que podremos ajustar es t-1, ya que en ese caso los grados de

libertad de regresión son los mismos que los grados de libertad de tratamientos (en

efecto, los modelos son exactamente iguales).

Ejemplo: En este ejemplo tenemos rendimientos de tomate bajo cinco regímenes de

humedad diferentes: 6, 8, 10, 12 y 14%. Hay 5 repeticiones de cada tratamiento, ubicadas

en un DCA. rend. hum.

49.2 6.0

48.1 6.0

48.0 6.0

49.6 6.0

47.0 6.0

51.5 8.0

51.7 8.0

50.4 8.0

rend. hum.

51.2 8.0

48.4 8.0

51.1 10.0

51.5 10.0

50.3 10.0

48.9 10.0

48.7 10.0

48.6 12.0

rend. hum.

47.0 12.0

48.0 12.0

46.4 12.0

46.2 12.0

43.2 14.0

42.6 14.0

42.1 14.0

43.9 14.0

40.5 14.0

Page 64: Biometría Avanzada 2015 Macchiavelli

64

En Infostat usamos el menú Regresión lineal, con las opciones de “Error Puro” para

probar la falta de ajuste, y en la solapa “Polinomios” podemos seleccionar el orden

deseado.

Al ajustar un modelo de regresión lineal simple obtenemos los siguientes resultados: Análisis de regresión lineal

Variable N R² R² Aj

rendim 25 0.48 0.46

Coeficientes de regresión y estadísticos asociados

Coef Est. EE LI(95%) LS(95%) T valor p CpMallows

const 55.38 1.71 51.84 58.93 32.29 <0.0001

humedad -0.76 0.17 -1.10 -0.42 -4.62 0.0001 21.48

Cuadro de Análisis de la Varianza (SC tipo III)

F.V. SC gl CM F valor p

Modelo 116.13 1 116.13 21.32 0.0001

humedad 116.13 1 116.13 21.32 0.0001

Error 125.27 23 5.45

Lack Of Fit 96.44 3 32.15 22.31 <0.0001

Error Puro 28.82 20 1.44

Total 241.40 24

Page 65: Biometría Avanzada 2015 Macchiavelli

65

6 8 10 12 14

humedad

40.0

43.5

47.0

50.5

54.0

Re

nd

imRendimiento de Tomate

Al ajustar un modelo de regresión polinomial de segundo orden (cuadrática) obtenemos

los siguientes resultados: Análisis de regresión lineal

Variable N R² R² Aj

rendim 25 0.88 0.87

Coeficientes de regresión y estadísticos asociados

Coef Est. EE LI(95%) LS(95%) T valor p CpMallows

const 28.44 3.28 21.64 35.24 8.67 <0.0001

humedad 5.10 0.69 3.66 6.53 7.35 <0.0001 53.68

humed^2 -0.29 0.03 -0.36 -0.22 -8.51 <0.0001 71.24

Cuadro de Análisis de la Varianza (SC tipo I)

F.V. SC gl CM F valor p

Modelo 212.19 2 106.09 79.90 <0.0001

humedad 116.13 1 116.13 87.46 <0.0001

humedad^2 96.06 1 96.06 72.34 <0.0001

Error 29.21 22 1.33

Total 241.40 24

Cuadro de Análisis de la Varianza (SC tipo III)

F.V. SC gl CM F valor p

Modelo 212.19 2 106.09 79.90 <0.0001

humedad 212.19 2 106.09 79.90 <0.0001

Error 29.21 22 1.33

Lack Of Fit 0.39 2 0.19 0.13 0.8749

Error Puro 28.82 20 1.44

Total 241.40 24

Page 66: Biometría Avanzada 2015 Macchiavelli

66

6 8 10 12 14

humedad

40.0

43.5

47.0

50.5

54.0R

en

dim

Rendimiento de Tomate

15. Regresión lineal múltiple

Supongamos que estamos estudiando la relación entre la pérdida de peso de un vegetal

(en mg) luego de exponerse al aire durante distintos tiempos a diferentes humedades

relativas:

0

1

2

3

4

5

6

7

8

9

0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9

Humedad

rdid

a

Page 67: Biometría Avanzada 2015 Macchiavelli

67

0

1

2

3

4

5

6

7

8

9

3 4 5 6 7 8

Tiempo

rdid

a

Podríamos realizar dos regresiones lineales, pero obtendremos más información si

introducimos ambas variables independientes (humedad y tiempo) en el mismo modelo:

0 1 1 2 2i i i iY x x

Éste es un modelo de regresión lineal múltiple.

Gráficamente es la ecuación de un plano (o un “hiperplano” si hay más de dos variables

independientes). Veamos un ejemplo:

Page 68: Biometría Avanzada 2015 Macchiavelli

68

El intercepto tiene la misma interpretación que en regresión lineal simple: promedio de

las Y cuando todas las x valen 0. Recordemos que esto no siempre tiene una

interpretación práctica (en este ejemplo no la tiene). La principal dificultad de este

modelo es la interpretación de las pendientes (ahora llamadas pendientes parciales o

coeficientes de regresión parciales). El parámetro 1 es el cambio en el promedio de las

Y cuando 1x aumenta una unidad y 2x permanece constante. Es decir, un coeficiente de

regresión parcial se interpreta manteniendo todas las otras variables independientes

constantes. El término “parcial” enfatiza que no es una pendiente absoluta, sino una

pendiente en la dirección de la variable 1x (es decir, moviéndonos a lo largo del eje 1x ).

Para visualizar modelos de regresión múltiple y observar cómo funcionan las pendientes

parciales, recomiendo visitar la página

http://www.ats.ucla.edu/stat/sas/faq/spplot/reg_int_cont.htm

En esta página también se pueden apreciar modelos con “interacciones” (términos con

1 2x x ) y términos cuadráticos.

Los supuestos son los mismos que realizamos en regresión simple (observar que los

errores i son los mismos): independencia, varianza constante, normalidad y modelo

correcto (es decir, no hay necesidad de términos cuadráticos, etc. en ninguna de las

variables independientes, ni tampoco de productos entre las variables independientes).

Para ajustar este modelo debemos usar programas estadísticos, y a que los cálculos

manuales son muy complicados. El ejemplo analizado en SAS e Infostat nos da los

siguientes resultados:

data fruta;

input tiempo humedad perdida;

datalines;

4 .6 4.3

5 .6 5.5

6 .6 6.8

7 .6 8.0

4 .7 4.0

5 .7 5.2

6 .7 6.6

7 .7 7.5

4 .8 2.0

5 .8 4.0

6 .8 5.7

7 .8 6.5

proc reg ;

model perdida=tiempo humedad;

run;

Page 69: Biometría Avanzada 2015 Macchiavelli

69

The REG Procedure Model: MODEL1 Dependent Variable: perdida

Number of Observations Read 12

Number of Observations Used 12

Analysis of Variance

Source DF Sum of Squares

Mean Square

F Value Pr > F

Model 2 31.12417 15.56208 104.13 <.0001

Error 9 1.34500 0.14944

Corrected Total 11 32.46917

Root MSE 0.38658 R-Square 0.9586

Dependent Mean 5.50833 Adj R-Sq 0.9494

Coeff Var 7.01810

Parameter Estimates

Variable DF Parameter Estimate

Standard Error

t Value Pr > |t|

Intercept 1 3.86667 1.10868 3.49 0.0069

tiempo 1 1.31667 0.09981 13.19 <.0001

humedad 1 -8.00000 1.36677 -5.85 0.0002

Análisis de regresión lineal

Variable N R² R² Aj

perdida 12 0.96 0.95

Coeficientes de regresión y estadísticos asociados

Coef Est. EE LI(95%) LS(95%) T valor p CpMallows

const 3.87 1.11 1.36 6.37 3.49 0.0069

tiempo 1.32 0.10 1.09 1.54 13.19 <0.0001 158.71

humedad -8.0 1.37 -11.09 -4.91 -5.85 0.0002 32.93

Page 70: Biometría Avanzada 2015 Macchiavelli

70

Cuadro de Análisis de la Varianza (SC tipo III)

F.V. SC gl CM F valor p

Modelo 31.12 2 15.56 104.13 <0.0001

tiempo 26.00 1 26.00 174.01 <0.0001

humedad 5.12 1 5.12 34.26 0.0002

Error 1.35 9 0.15

Total 32.47 11

¿Cómo sabemos si este modelo es razonable para ajustar estos datos? Tenemos dos

formas básicas: el coeficiente de determinación 2R y los gráficos “residuales vs.

predichos”. El coeficiente de determinación es la proporción de la variabilidad total

explicada por la regresión:

2SCRegresión

SCTotalR

Este coeficiente siempre está entre 0 y 1, y cuanto más cerca de 1 está mejor será el

ajuste. Observar que si tuviésemos una regresión lineal simple, 2R es simplemente el

cuadrado del coeficiente de correlación lineal.

Para probar hipótesis acerca de los coeficientes de regresión i necesitamos conocer el

error estándar ˆi

s . Como la fórmula para este error estándar es muy complicada,

podemos leer directamente su valor en la salida de computadora. Para probar hipótesis o

construir intervalos de confianza usamos el estadístico t. Por ejemplo,

2

0 2

2

2

ˆ

: 0

: 0 (>0, 0)

ˆ

a

H

H

ts

Un intervalo de confianza para 1 sería 2 1

ˆ1ˆ t s . Los grados de libertad del estadístico

t son los del error. Lo más importante que tenemos que tener en cuenta al realizar

inferencias acerca de un coeficiente de regresión parcial es que la inferencia se hace en

presencia de todas las otras variables independientes en el modelo (es decir, es una

prueba parcial).

Debido a la complicación de la interpretación de una prueba parcial, nunca podemos

decir, mirando a las pruebas t o F parciales, que dos coeficientes de regresión no son

importantes y que debemos eliminarlos (es posible que ambos no sean necesarios, pero al

menos uno de ellos sea muy importante, y como explican más o menos lo mismo las

pruebas parciales de cada uno de ellos en presencia del otro no sean significativas!). Para

probar simultáneamente la significancia de dos (o más) coeficientes podemos usar la idea

de un modelo “completo” (que se cumple si la hipótesis nula es falsa) y un modelo

“reducido” (que se cumple si la hipótesis nula es verdadera). Por ejemplo, para probar

que 1 3 0 en un modelo con tres regresores planteamos

Page 71: Biometría Avanzada 2015 Macchiavelli

71

0 0 2 2

0 1 1 2 2 3 3

: (modelo reducido)

: (modelo completo)

i

a i

H Y x

H Y x x x

Ahora ajustamos ambos modelos y obtenemos las sumas de cuadrados y los grados de

libertad del error. La suma de cuadrados para probar nuestra hipótesis va a ser la

diferencia en las sumas de cuadrados:

SCH=SCError(reducido)-SCError(completo)

glH=glerror(reducido)-glerror(completo)

SCHCMH=

glH

El estadístico F será: CMH .CMError(completo)

F

Pasos a seguir para construir un modelo de regresión múltiple

1. Seleccionar las variables independientes importantes. Obviamente no todo lo que

podamos medir sobre un fenómeno nos va a servir para explicarlo (además, no tiene

sentido usar 150 variables independientes!). Lo primero que necesitamos es conocer

los antecedentes de estudios previos, naturaleza del fenómeno, etc. para decidir qué

variables podrían usarse. Luego podemos aplicar técnicas estadísticas para eliminar

las que no contribuyen significativamente en el modelo. Las técnicas más comunes se

basan en agregar y/o eliminar variables una por vez (para evitar el problema de

pruebas parciales ocultando información importante). Las estudiaremos la próxima

clase: 2R , selección “backwards”, selección “forward” y selección “stepwise”.

2. Usar residuales para evaluar si el modelo seleccionado es suficiente, o es necesario

agregar términos (por ejemplo cuadrático en alguna de las variables, o prpoductos de

variables), o es necesario considerar transformaciones o modelos no lineales. Entre

los gráficos mas comunes está el de “residuales vs. predichos”, “residuales vs. cada

variable independiente”, etc.

3. Verificación de supuestos mediante las técnicas estudiadas en ANOVA y regresión

simple. Una vez que encontramos un modelo satisfactorio (ver parte 2), recordemos

que los supuestos son los mismos que en otrso modelos lineales (independencia,

varianza constante, normalidad). El gráfico “residuales vs. predichos” nos permite ver

si hay problemas de varianzas constantes. El gráfico de normalidad (o las pruebas de

Shapiro_Wilks, etc.) nos permiten verificar normalidad. La independencia no

siempre es posible garantizarla mediante aleatorización, ya que muchos estudios no

experimentales también generan datos que se analizan por regresión múltiple. Si

tenemos un experimento bien diseñado, no hay problemas de dependencia. Si

tenemos un estudio observacional con datos registrados a lo largo del tiempo es

posible que haya dependencia ya que observaciones cercanas tenderán a estar

positivamente correlacionadas. Un gráfico “residuales vs. tiempo” nos permitirá

detectar este problema (también existe la prueba de Durbin Watson para estudiar

esto). La validez de la forma funcional del modelo se puede probar si existen

repeticiones en las mismas combinaciones de valores de x a través de la prueba de

error puro.

Page 72: Biometría Avanzada 2015 Macchiavelli

72

16. Selección de variables en regresión múltiple

Recordemos que los objetivos de un modelo de regresión son dos: encontrar un

modelo que ajuste bien (es decir, que esté “cerca” de los datos observados) y que sea útil

para predecir observaciones futuras razonablemente bien. Por lo tanto no siempre

queremos usar todas las variables independientes disponibles sino sólo aquéllas que sean

importantes. El problema de decidir cuáles son las importantes es bastante complicado,

ya que vimos que las pruebas parciales pueden ocultar información de interés. Entre los

métodos más comunes para seleccionar variables tenemos el método de r-cuadrado, el de

r-cuadrado ajustado, el de selección “forward”, el de selección “backward” y el de

selección “stepwise”.

Supongamos que tenemos k posibles regresores (variables independientes) y queremos

seleccionar un subconjunto de estos regresores que nos den un modelo apropiado.

El método de 2R consiste en calcular este coeficiente de determinación para cada uno de

los modelos posibles 2 1k . Entonces podemos elegir el modelo que mejor ajusta entre

los de 1 variable, 2 variables, etc. El principal problema es que el 2R va a crecer siempre

que agreguemos términos al modelo, aunque este crecimiento no va a ser necesariamente

importante. Debemos usar nuestro criterio para decidir qué modelo vamos a elegir.

Para evitar el problema de 2R creciendo a medida que agregamos regresores, se ha

desarrollado el método de 2R ajustado. Este ajuste penaliza los modelos con demasiadas

variables independientes, por lo que este coeficiente ajustado no necesariamente crece a

medida que ponemos más regresores.

2

2( 1) 1

ajustado 1( 1)

N RR

N k

Si la cantidad de posibles regresores es muy grande, el uso de todos los modelos posibles

es dificultoso (por ejemplo, si hay 20 posibles regresores la cantidad de modelos es

1048575). Para evitar tener que ajustar todos estos modelos, se han desarrollado otros

métodos de selección. El método “forward” comienza con el mejor modelo de una

variable (regresión lineal simple), luego agrega una segunda variable y selecciona el

mejor modelo entre los que tienen la primera seleccionada y alguna de las otras. Sigue

agregando variables hasta que el agregado de cualquier otra variable no es significativo (a

un nivel predeterminado llamado “SLENTRY”, típicamente .10-.15). Este método no

garantiza que encontraremos el mejor modelo, pero posiblemente encuentre un modelo

razonable.

Otro método relacionado es el de selección “backward”. En este método comenzamos por

el modelo “completo” (con todas las variables independientes), y empezamos a eliminar

la menos importante (cuya prueba F o t parcial sea la menos significativa). Seguimos

eliminando variables (una por vez) hasta que todas las variables en el modelo sean

Page 73: Biometría Avanzada 2015 Macchiavelli

73

significativas según los resultados de las pruebas parciales (a un nivel predeterminado,

“SLSTAY”).

El método “stepwise” comienza como el forward, pero después de incorporar una nueva

variable independiente trata de eliminar alguna de las que estaban ya en el modelo (si no

es significativa en la prueba parcial). Continúa incorporando y eliminando variables hasta

que ninguna de las que quedan afuera pueden agregarse al modelo (porque su nivel de

significancia es mayor que el SLENTRY) y ninguna de las incorporadas al modelo

pueden eliminarse (porque su nivel de significancia es menor de SLSTAY).

En el siguiente ejemplo se estudió la altura de adultos (en pulgadas) en relación al largo

al nacimiento, la altura de sus padres y de sus abuelos. data alturas;

input y x1 x2 x3 x4 x5 x6 x7;

label y='altura' x1='largo al nacim.' x2='altura madre'

x3='altura padre' x4='altura abuela materna' x5='altura abuelo materno'

x6='altura abuela paterna' x7='altura abuelo paterno';

datalines;

67.2 19.7 60.5 70.3 65.7 69.3 65.7 67.3

69.1 19.6 64.9 70.4 62.6 69.6 64.6 66.4

67.0 19.4 65.4 65.8 66.2 68.8 64.0 69.4

72.4 19.4 63.4 71.9 60.7 68.0 64.9 67.1

63.6 19.7 65.1 65.1 65.5 65.5 61.8 70.9

72.7 19.6 65.2 71.1 63.5 66.2 67.3 68.6

68.5 19.8 64.3 67.9 62.4 71.4 63.4 69.4

69.7 19.7 65.3 68.8 61.5 66.0 62.4 67.7

68.4 19.7 64.5 68.7 63.9 68.8 62.3 68.8

70.4 19.9 63.4 70.3 65.9 69.0 63.7 65.1

67.5 18.9 63.3 70.4 63.7 68.2 66.2 68.5

73.3 20.8 66.2 70.2 65.4 66.6 61.7 64.0

70.0 20.3 64.9 68.8 65.2 70.2 62.4 67.0

69.8 19.7 63.5 70.3 63.1 64.4 65.1 67.0

63.6 19.9 62.0 65.5 64.1 67.7 62.1 66.5

64.3 19.6 63.5 65.2 63.9 70.0 64.2 64.5

68.5 21.3 66.1 65.4 64.8 68.4 66.4 70.8

70.5 20.1 64.8 70.2 65.3 65.5 63.7 66.9

68.1 20.2 62.6 68.6 63.7 69.8 66.7 68.0

66.1 19.2 62.2 67.3 63.6 70.9 63.6 66.7

proc reg;

model y=x1 x2 x3 x4 x5 x6 x7 /selection=rsquare;

proc reg;

model y=x1 x2 x3 x4 x5 x6 x7 /selection=adjrsq;

proc reg;

model y=x1 x2 x3 x4 x5 x6 x7 /selection=forward slentry=0.15;

proc reg;

model y=x1 x2 x3 x4 x5 x6 x7 /selection=backward slstay=0.15;

proc reg;

model y=x1 x2 x3 x4 x5 x6 x7 /selection=stepwise; run;

Page 74: Biometría Avanzada 2015 Macchiavelli

74

The REG Procedure Model: MODEL1 Dependent Variable: y R-Square Selection Method

Number of Observations Read 20

Number of Observations Used 20

Number in Model

R-Square Variables in Model

1 0.6262 x3

1 0.1596 x2

1 0.0677 x1

1 0.0633 x5

1 0.0536 x7

1 0.0458 x4

1 0.0371 x6

2 0.8509 x2 x3

2 0.7939 x1 x3

2 0.6350 x3 x5

2 0.6286 x3 x6

2 0.6271 x3 x7

2 0.6270 x3 x4

2 0.2749 x2 x7

… … …

2 0.0996 x4 x7

2 0.0719 x4 x6

3 0.9050 x1 x2 x3

3 0.8572 x2 x3 x7

3 0.8568 x2 x3 x5

Page 75: Biometría Avanzada 2015 Macchiavelli

75

Number in Model

R-Square Variables in Model

3 0.8531 x2 x3 x6

3 0.8510 x2 x3 x4

3 0.1727 x1 x5 x6

… … …

3 0.1428 x4 x5 x6

4 0.9102 x1 x2 x3 x5

4 0.9090 x1 x2 x3 x4

… … …

4 0.2328 x4 x5 x6 x7

5 0.9135 x1 x2 x3 x4 x5

5 0.9113 x1 x2 x3 x5 x7

5 0.9110 x1 x2 x3 x5 x6

5 0.9109 x1 x2 x3 x4 x7

… … …

5 0.3315 x1 x2 x4 x5 x6

6 0.9150 x1 x2 x3 x4 x5 x7

6 0.9141 x1 x2 x3 x4 x5 x6

6 0.9137 x1 x2 x3 x5 x6 x7

6 0.9136 x1 x2 x3 x4 x6 x7

6 0.8691 x2 x3 x4 x5 x6 x7

6 0.8105 x1 x3 x4 x5 x6 x7

6 0.5028 x1 x2 x4 x5 x6 x7

7 0.9171 x1 x2 x3 x4 x5 x6 x7

Page 76: Biometría Avanzada 2015 Macchiavelli

76

The REG Procedure Model: MODEL1 Dependent Variable: y Adjusted R-Square Selection Method

Number in Model

Adjusted R-Square

R-Square Variables in Model

3 0.8871 0.9050 x1 x2 x3

4 0.8863 0.9102 x1 x2 x3 x5

4 0.8847 0.9090 x1 x2 x3 x4

5 0.8826 0.9135 x1 x2 x3 x4 x5

4 0.8815 0.9065 x1 x2 x3 x7

4 0.8810 0.9061 x1 x2 x3 x6

5 0.8797 0.9113 x1 x2 x3 x5 x7

5 0.8792 0.9110 x1 x2 x3 x5 x6

5 0.8791 0.9109 x1 x2 x3 x4 x7

5 0.8776 0.9098 x1 x2 x3 x4 x6

5 0.8774 0.9096 x1 x2 x3 x6 x7

6 0.8758 0.9150 x1 x2 x3 x4 x5 x7

6 0.8744 0.9141 x1 x2 x3 x4 x5 x6

6 0.8739 0.9137 x1 x2 x3 x5 x6 x7

6 0.8738 0.9136 x1 x2 x3 x4 x6 x7

7 0.8687 0.9171 x1 x2 x3 x4 x5 x6 x7

… … … …

1 -.0164 0.0371 x6

3 -.0179 0.1428 x4 x5 x6

2 -.0373 0.0719 x4 x6

Page 77: Biometría Avanzada 2015 Macchiavelli

77

The REG Procedure Model: MODEL1 Dependent Variable: y altura Forward Selection: Step 1 Variable x3 Entered: R-Square = 0.6262 and C(p) = 38.0804

Analysis of Variance

Source DF Sum of Squares

Mean Square

F Value Pr > F

Model 1 91.26802 91.26802 30.16 <.0001

Error 18 54.47748 3.02653

Corrected Total 19 145.74550

Variable Parameter Estimate

Standard Error

Type II SS F Value Pr > F

Intercept -0.10886 12.50618 0.00022932 0.00 0.9932

x3 1.00049 0.18219 91.26802 30.16 <.0001

Forward Selection: Step 2 Variable x2 Entered: R-Square = 0.8509 and C(p) = 7.5778

Analysis of Variance

Source DF Sum of Squares

Mean Square

F Value Pr > F

Model 2 124.00926 62.00463 48.49 <.0001

Error 17 21.73624 1.27860

Corrected Total 19 145.74550

Variable Parameter Estimate

Standard Error

Type II SS F Value Pr > F

Intercept -61.20217 14.55445 22.60881 17.68 0.0006

x2 0.89468 0.17680 32.74124 25.61 <.0001

x3 1.05565 0.11892 100.75483 78.80 <.0001

Page 78: Biometría Avanzada 2015 Macchiavelli

78

Forward Selection: Step 3 Variable x1 Entered: R-Square = 0.9050 and C(p) = 1.7509

Analysis of Variance

Source DF Sum of Squares

Mean Square

F Value Pr > F

Model 3 131.89367 43.96456 50.78 <.0001

Error 16 13.85183 0.86574

Corrected Total 19 145.74550

Variable Parameter Estimate

Standard Error

Type II SS F Value Pr > F

Intercept -78.23276 13.23928 30.22981 34.92 <.0001

x1 1.35030 0.44745 7.88441 9.11 0.0082

x2 0.69246 0.16017 16.18063 18.69 0.0005

x3 1.10250 0.09908 107.19782 123.82 <.0001

No other variable met the 0.1500 significance level for entry into the model.

Summary of Forward Selection

Step Variable Entered

Label Number Vars In

Partial R-

Square

Model R-

Square

C(p) F Value

Pr > F

1 x3 altura padre

1 0.6262 0.6262 38.0804 30.16 <.0001

2 x2 altura madre

2 0.2246 0.8509 7.5778 25.61 <.0001

3 x1 largo al nacim.

3 0.0541 0.9050 1.7509 9.11 0.0082

Page 79: Biometría Avanzada 2015 Macchiavelli

79

The REG Procedure Model: MODEL1 Dependent Variable: y altura Backward Elimination: Step 0 All Variables Entered: R-Square = 0.9171 and C(p) = 8.0000

Analysis of Variance

Source DF Sum of Squares

Mean Square

F Value Pr > F

Model 7 133.65740 19.09391 18.95 <.0001

Error 12 12.08810 1.00734

Corrected Total 19 145.74550

Variable Parameter Estimate

Standard Error

Type II SS F Value Pr > F

Intercept -78.26838 26.96237 8.48855 8.43 0.0133

x1 1.37182 0.52067 6.99263 6.94 0.0218

x2 0.78242 0.19924 15.53499 15.42 0.0020

x3 1.05141 0.13581 60.37253 59.93 <.0001

x4 -0.11991 0.17173 0.49115 0.49 0.4983

x5 0.09144 0.13012 0.49745 0.49 0.4956

x6 0.08834 0.16133 0.30207 0.30 0.5940

x7 -0.10174 0.15490 0.43460 0.43 0.5237

Backward Elimination: Step 1 Variable x6 Removed: R-Square = 0.9150 and C(p) = 6.2999

Analysis of Variance

Source DF Sum of Squares

Mean Square

F Value Pr > F

Model 6 133.35533 22.22589 23.32 <.0001

Error 13 12.39017 0.95309

Corrected Total 19 145.74550

Page 80: Biometría Avanzada 2015 Macchiavelli

80

Variable Parameter Estimate

Standard Error

Type II SS F Value Pr > F

Intercept -76.36524 26.00749 8.21729 8.62 0.0116

x1 1.41812 0.49973 7.67515 8.05 0.0140

x2 0.74901 0.18449 15.71002 16.48 0.0014

x3 1.08334 0.11932 78.57051 82.44 <.0001

x4 -0.12463 0.16683 0.53183 0.56 0.4684

x5 0.09941 0.12577 0.59541 0.62 0.4435

x7 -0.06397 0.13491 0.21431 0.22 0.6432

Backward Elimination: Step 2 Variable x7 Removed: R-Square = 0.9135 and C(p) = 4.5126

Analysis of Variance

Source DF Sum of Squares

Mean Square

F Value Pr > F

Model 5 133.14102 26.62820 29.58 <.0001

Error 14 12.60448 0.90032

Corrected Total 19 145.74550

Variable Parameter Estimate

Standard Error

Type II SS F Value Pr > F

Intercept -82.17559 22.29609 12.22996 13.58 0.0024

x1 1.45250 0.48056 8.22480 9.14 0.0091

x2 0.72851 0.17432 15.72505 17.47 0.0009

x3 1.10351 0.10834 93.40113 103.74 <.0001

x4 -0.11825 0.16162 0.48192 0.54 0.4765

x5 0.10423 0.12184 0.65885 0.73 0.4067

Page 81: Biometría Avanzada 2015 Macchiavelli

81

Backward Elimination: Step 3 Variable x4 Removed: R-Square = 0.9102 and C(p) = 2.9910

Analysis of Variance

Source DF Sum of Squares

Mean Square

F Value Pr > F

Model 4 132.65910 33.16477 38.01 <.0001

Error 15 13.08640 0.87243

Corrected Total 19 145.74550

Variable Parameter Estimate

Standard Error

Type II SS F Value Pr > F

Intercept -90.63864 18.76308 20.35857 23.34 0.0002

x1 1.34236 0.44925 7.78912 8.93 0.0092

x2 0.74474 0.17020 16.70357 19.15 0.0005

x3 1.12553 0.10245 105.28783 120.68 <.0001

x5 0.11192 0.11949 0.76543 0.88 0.3638

Backward Elimination: Step 4 Variable x5 Removed: R-Square = 0.9050 and C(p) = 1.7509

Analysis of Variance

Source DF Sum of Squares

Mean Square

F Value Pr > F

Model 3 131.89367 43.96456 50.78 <.0001

Error 16 13.85183 0.86574

Corrected Total 19 145.74550

Variable Parameter Estimate

Standard Error

Type II SS F Value Pr > F

Intercept -78.23276 13.23928 30.22981 34.92 <.0001

x1 1.35030 0.44745 7.88441 9.11 0.0082

x2 0.69246 0.16017 16.18063 18.69 0.0005

Page 82: Biometría Avanzada 2015 Macchiavelli

82

Variable Parameter Estimate

Standard Error

Type II SS F Value Pr > F

x3 1.10250 0.09908 107.19782 123.82 <.0001

All variables left in the model are significant at the 0.1500 level.

Summary of Backward Elimination

Step Variable Removed

Label Number Vars In

Partial R-

Square

Model R-

Square

C(p) F Value

Pr > F

1 x6 altura abuela paterna

6 0.0021 0.9150 6.2999 0.30 0.5940

2 x7 altura abuelo paterno

5 0.0015 0.9135 4.5126 0.22 0.6432

3 x4 altura abuela materna

4 0.0033 0.9102 2.9910 0.54 0.4765

4 x5 altura abuelo materno

3 0.0053 0.9050 1.7509 0.88 0.3638

The REG Procedure Model: MODEL1 Dependent Variable: y altura Stepwise Selection: Step 1 Variable x3 Entered: R-Square = 0.6262 and C(p) = 38.0804

Analysis of Variance

Source DF Sum of Squares

Mean Square

F Value Pr > F

Model 1 91.26802 91.26802 30.16 <.0001

Error 18 54.47748 3.02653

Corrected Total 19 145.74550

Variable Parameter Estimate

Standard Error

Type II SS F Value Pr > F

Intercept -0.10886 12.50618 0.00022932 0.00 0.9932

x3 1.00049 0.18219 91.26802 30.16 <.0001

Page 83: Biometría Avanzada 2015 Macchiavelli

83

Stepwise Selection: Step 2 Variable x2 Entered: R-Square = 0.8509 and C(p) = 7.5778

Analysis of Variance

Source DF Sum of Squares

Mean Square

F Value Pr > F

Model 2 124.00926 62.00463 48.49 <.0001

Error 17 21.73624 1.27860

Corrected Total 19 145.74550

Variable Parameter Estimate

Standard Error

Type II SS F Value Pr > F

Intercept -61.20217 14.55445 22.60881 17.68 0.0006

x2 0.89468 0.17680 32.74124 25.61 <.0001

x3 1.05565 0.11892 100.75483 78.80 <.0001

Stepwise Selection: Step 3 Variable x1 Entered: R-Square = 0.9050 and C(p) = 1.7509

Analysis of Variance

Source DF Sum of Squares

Mean Square

F Value Pr > F

Model 3 131.89367 43.96456 50.78 <.0001

Error 16 13.85183 0.86574

Corrected Total 19 145.74550

Variable Parameter Estimate

Standard Error

Type II SS F Value Pr > F

Intercept -78.23276 13.23928 30.22981 34.92 <.0001

x1 1.35030 0.44745 7.88441 9.11 0.0082

x2 0.69246 0.16017 16.18063 18.69 0.0005

x3 1.10250 0.09908 107.19782 123.82 <.0001

Page 84: Biometría Avanzada 2015 Macchiavelli

84

All variables left in the model are significant at the 0.1500 level. No other variable met the 0.1500 significance level for entry into the model.

Summary of Stepwise Selection

Step Variable Entered

Variable Removed

Label Number Vars In

Partial R-

Square

Model R-

Square

C(p) F Value

Pr > F

1 x3 altura padre

1 0.6262 0.6262 38.0804 30.16 <.0001

2 x2 altura madre

2 0.2246 0.8509 7.5778 25.61 <.0001

3 x1 largo al nacim.

3 0.0541 0.9050 1.7509 9.11 0.0082

Para realizar selección de variables en regresión múltiple, la versión actual de Infostat usa

los siguientes métodos: backward, forward, stepwise, r-cuadrado ajustado, minimizar

cuadrado medio de error, y minimizar ECM de predicción. El método de minimizar

cuadrado medio de error es aproximadamente equivalente al método de maximizar r-

cuadrado para modelos de 1 variable, 2 variables, etc. que usa SAS (method= rsquare).

Page 85: Biometría Avanzada 2015 Macchiavelli

85

17. Análisis de covarianza

Existen muchas situaciones en las que deseamos estudiar una respuesta (Y, variable

dependiente) en función de uno o más tratamientos (factor/es) y de una o más variables x

(regresores). Es decir, nos interesa combinar en el mismo modelo un ANOVA y una

regresión.

Ejemplos:

Y: peso final de un animal

x: peso inicial

Tratamiento: dietas

Y: rendimiento de un cultivo

x: fertilidad de la parcela

Tratamiento: variedad

Y: cantidad de insectos Drosophila sobrevivientes

x: dosis de insecticida

Tratamiento: especie de Drosophila

Y: calidad de la grama en un campo de golf (medida por la velocidad con que una bola de

golf rueda por la grama).

x: humedad del suelo

Tratamiento: cultivares

En el análisis de covarianza tenemos tres objectivos importantes:

1. Comparar las medias de Y para cada tratamiento en un valor común de x.

2. Comparar la reclación entre la Y y la x en cada tratamiento.

3. Aumentar la precisión (disminuir el CME).

El modelo para datos provenientes de un DCA con una covariable es

ij i ij ijY x

En este modelo i representa el efecto del tratamiento i para un valor dado de x y es

el incremento promedio de las Y de un tratamiento específico cuando x aumenta en una

unidad. Observar que la interpretación de los parámetros es análoga a la que hicimos en

regresión múltiple. Los supuestos que realizamos acerca de los ij son los mismos que

realizamos en modelos de ANOVA y regresión: independencia, normalidad y

homogeneidad de varianzas. Además, como en todo modelo de regresión, requerimos que

el modelo sea el correcto. En particular necesitamos asumir que la relación entre las Y y

las x es lineal, que la pendiente es la misma en todos los tratamientos (es decir, no

existe interacción entre la covariable y el tratamiento) y que los tratamientos no afectan a

la covariable. Para las pruebas de hipótesis vamos a usar, como siempre hacemos en

regresión múltiple, las pruebas de tipo III.

Page 86: Biometría Avanzada 2015 Macchiavelli

86

Consideremos el siguiente ejemplo. Se estudia el efecto de cuatro dietas sobre el peso

final de cerdos, y se registra el peso inicial de los mismos. Se usaron 6 animales por dieta,

en un DCA. data dietas;

input dieta pesoinic pesofin;

datalines;

1 5.0 17.0

1 7.0 21.0

1 5.0 18.0

1 4.0 11.0

1 3.0 6.0

1 6.0 23.0

2 7.0 24.0

2 7.0 26.0

2 8.0 23.0

2 6.0 23.0

2 5.0 18.0

2 9.0 30.0

3 5.0 20.0

3 4.0 13.0

3 3.0 14.0

3 7.0 22.0

3 6.0 23.0

3 5.0 16.0

4 10.0 30.0

4 9.0 28.0

4 8.0 22.0

4 7.0 20.0

4 11.0 31.0

4 9.0 25.0

El modelo que estamos usando es el descripto anteriormente, que en este ejemplo es:

Animales de la dieta 1: 1 1 1 1j j jY x

Animales de la dieta 2: 2 2 2 2j j jY x

Animales de la dieta 3: 3 3 3 3j j jY x

Animales de la dieta 4: 4 4 4 4j j jY x

Podemos ver que en cada caso el modelo corresponde a una línea recta con intercepto

diferente i y la misma pendiente . Es decir, tenemos líneas paralelas. Si

graficamos estos datos podemos ver que el modelo es razonable:

Page 87: Biometría Avanzada 2015 Macchiavelli

87

dieta 1 dieta 2

dieta 3 dieta 4

2.5 5.0 7.5 10.0 12.5

peso inicial

5.0

10.4

15.8

21.2

26.6

32.0

pe

so

fin

al

Relación entre peso inicial y final

dieta 1 dieta 2

dieta 3 dieta 4

Para comparar las medias de las distintas dietas vemos que tenemos dos opciones:

comparamos cada media de Y sin tener en cuenta las x, o comparamos las medias de Y

estimadas en cierto valor común de x. La primera opción es lo que haríamos si usamos un

modelo sin la covariable, y podríamos tener el problema que la dieta que tenía los

animales más pesados nos daría mayores pesos finales no porque fuese mejor sino porque

el azar hizo que tuviera los animales de mayor peso inicial (En el ejemplo la dieta 4 tenía

los animales más pesados inicialmente, y sus pesos finales también estuvieron entre los

más altos).

Una comparación más razonable es aquella que compara las dietas a un nivel común de x

(por ejemplo en x x ). Esta comparación la realiza una prueba “parcial” (tipo III), ya

que compara algunos efectos en el modelo “ajustando” por todos los otros términos del

modelo (en este caso la covariable). ¿Cómo calculamos el valor de media de Y cuando

x x ? Para eso usamos la fórmula de regresión, reemplazando x por x :

Animales de la dieta 1: 1 1ˆˆ ˆ ˆY x

Animales de la dieta 2: 2 2ˆˆ ˆ ˆY x

Animales de la dieta 3: 3 3ˆˆ ˆ ˆY x

Animales de la dieta 4: 4 4ˆˆ ˆ ˆY x

Page 88: Biometría Avanzada 2015 Macchiavelli

88

Éstas son las “medias ajustadas”, que en SAS se denominan “least squares means”. La

prueba de tipo III prueba la igualdad de medias ajustadas, o lo que es lo mismo, la

igualdad de los i . Debemos observar que debido a que las líneas son paralelas, da lo

mismo comparar en x x o en cualquier otro valor de x: siempre estaremos comparando

igualdad de i (se puede probar que en x x se logra la prueba más eficiente).

Otra prueba de interés es la relacionada a la regresión lineal: 0 : 0H (es decir, nos

interesa saber si la covariable explica parte de la variabilidad de la Y en un modelo que

tiene los efectos de tratamiento). La prueba para esto también es la prueba parcial (tipo

III) para la covariable.

Para ajustar este modelo en SAS simplemente escribimos la variable tratamiento en

“class” y las variables tratamiento y covariable en el “model”: proc glm;

class dieta;

model pesofin = dieta pesoinic / solution ss3;

lsmeans dieta;

La opción “solution” del comando “model” nos da los estimadores de los parámetros del

modelo y la opción “ss3” nos muestra sólo las pruebas de tipo III (parciales).

Class Level Information

Class Levels Values

dieta 4 1 2 3 4

Number of Observations Read 24

Number of Observations Used 24

Dependent Variable: pesofin

Source DF Sum of Squares Mean Square F Value Pr > F

Model 4 780.1000000 195.0250000 37.85 <.0001

Error 19 97.9000000 5.1526316

Corrected Total 23 878.0000000

R-Square Coeff Var Root MSE pesofin Mean

0.888497 10.80924 2.269941 21.00000

Page 89: Biometría Avanzada 2015 Macchiavelli

89

Source DF Type III SS Mean Square F Value Pr > F

dieta 3 51.0056604 17.0018868 3.30 0.0427

pesoinic 1 372.1000000 372.1000000 72.22 <.0001

Parameter Estimate Standard Error t Value Pr > |t|

Intercept -1.450000000 B 3.36048373 -0.43 0.6710

dieta 1 2.200000000 B 1.94386123 1.13 0.2718

dieta 2 4.100000000 B 1.49425802 2.74 0.0129

dieta 3 4.200000000 B 1.94386123 2.16 0.0437

dieta 4 0.000000000 B . . .

pesoinic 3.050000000 0.35890917 8.50 <.0001

Note: The X'X matrix has been found to be singular, and a generalized inverse was used to solve the normal equations. Terms whose estimates are followed by the letter 'B' are not uniquely estimable.

Least Squares Means

dieta pesofin LSMEAN

1 20.5750000

2 22.4750000

3 22.5750000

4 18.3750000

En Infostat, el menú ANOVA permite la incorporación de covariables, y las medias que

calcula son directamente las medias ajustadas. Análisis de la varianza

Variable N R² R² Aj CV

pesofin 24 0.888 0.865 10.809

Cuadro de Análisis de la Varianza (SC tipo III)

F.V. SC gl CM F valor p Coef

Modelo 780.100 4 195.025 37.850 <0.0001

dieta 51.006 3 17.002 3.300 0.0427

pesoinic 372.100 1 372.100 72.216 <0.0001 3.050

Error 97.900 19 5.153

Total 878.000 23

Page 90: Biometría Avanzada 2015 Macchiavelli

90

Test:LSD Fisher Alfa:=0.05 DMS:=2.74301

Error: 5.1526 gl: 19

dieta Medias n

4 18.375 6 A

1 20.575 6 A B

2 22.475 6 B

3 22.575 6 B

Letras distintas indican diferencias significativas(p<= 0.05)

Los supuestos que hacemos son los de todo modelo lineal (independencia de errores,

normalidad de errores y homogeneidad de las varianzas de los errores), además de los

específicos del modelo de regresión usado (validez del modelo de líneas rectas paralelas).

Para verificar los primeros supuestos usamos los residuales como siempre, y para

verificar el supuesto de paralelismo podemos probar la hipótesis de no interacción entre

los tratamientos y la covariable:

0 :

:

ij i ij ij

a ij i ij i ij ij

H Y x

H Y x x

Aquí vemos que si la hipótesis nula es falsa, entonces tenemos un modelo con líneas

rectas con pendientes diferentes para cada tratamiento:

Animales de la dieta 1: 1 1 1 1 1j j jY x

Animales de la dieta 2: 2 2 2 2 2j j jY x

Animales de la dieta 3: 3 3 3 3 3j j jY x

Animales de la dieta 4: 4 4 4 4 4j j jY x

Para hacer esto en SAS simplemente ajustamos un modelo con interacción, y probamos la

significancia de ésta (prueba de tipo III): proc glm;

class dieta;

model pesofin = dieta pesoinic dieta*pesoinic;

run;

Dependent Variable: pesofin

Source DF Sum of Squares Mean Square F Value Pr > F

Model 7 799.6000000 114.2285714 23.31 <.0001

Error 16 78.4000000 4.9000000

Corrected Total 23 878.0000000

R-Square Coeff Var Root MSE pesofin Mean

0.910706 10.54093 2.213594 21.00000

Page 91: Biometría Avanzada 2015 Macchiavelli

91

Source DF Type III SS Mean Square F Value Pr > F

dieta 3 27.5204410 9.1734803 1.87 0.1750

pesoinic 1 372.1000000 372.1000000 75.94 <.0001

pesoinic*dieta 3 19.5000000 6.5000000 1.33 0.3006

El ejemplo que hemos visto era bastante simple: un factor, una covariable y un diseño

completamente aleatorizado. La extensión a casos más complejos es directa: podemos

tener más de un factor, podemos tener más de una covariable y podemos tener términos

polinomiales en una covariable. Además podemos tener cualquier diseño experimental

(bloques, cuadrado latino, parcela dividida, etc.).

Page 92: Biometría Avanzada 2015 Macchiavelli

92

18. Documentación y comunicación de resultados

Esto es lo que presentamos en la primera clase de AGRO 5005:

¿Qué es la Biometría? Es la disciplina que se encarga de obtener

información a partir de datos biológicos.

¿Cómo? Mediante gráficos, medidas numéricas de resumen (ej., promedio),

comparaciones, predicciones, etc.

Etapas que debemos seguir para obtener información “buena” a partir de los

datos:

1. Recolectar los datos

2. Resumir los datos

3. Analizar los datos

4. Comunicar los resultados

En esta conferencia vamos a tratar de discutir algunas ideas que permitan lograr

eficazmente la etapa 4, “comunicar los resultados”.

La comunicación puede ser verbal o escrita. La comunicación verbal puede ser desde

una comunicación informal hasta una presentación formal. La comunicación escrita

también varía desde memorandos e informes de proyecto dentro de la misma

organización (interna) hasta cartas, folletos de divulgación, artículos científicos y libros

(externa). En todos los casos tenemos que tener en cuenta la audiencia (hacia quién nos

estamos comunicando).

Los principales problemas que se pueden encontrar al comunicar resultados estadísticos

son los siguientes:

Distorsiones gráficas: recordemos lo que habíamos discutido antes

1. ¿Qué es lo que se desea informar al lector del grafico?

2. Elegir cuidadosamente los títulos, ejes, colores, rayas, etc.

3. No sobrecargar de información al gráfico.

4. Practicar mucho!

Muestras sesgadas: éste es posiblemente uno de los problemas centrales que nos

encontramos. Las conclusiones pueden ser correctas pero se refieren a la “población”

equivocada. Recordemos que si no existe la aleatorización no podemos realizar la

inferencia estadística correctamente. Se requiere de una planificación adecuada del

estudio.

Tamaño muestral inadecuado: los resultados de un experimento pueden llevar a una

conclusión equivocada porque no había suficientes observaciones como para que el error

de tipo II (aceptar una hipótesis nula falsa) fuese suficientemente pequeño. Se requiere de

Page 93: Biometría Avanzada 2015 Macchiavelli

93

una planificación adecuada para que la cantidad de repeticiones sea suficiente como para

detectar con una probabilidad alta una diferencia que exista en la población y que sea de

interés para el investigador.

Al informar las conclusiones debemos especificar claramente cómo se obtuvieron las

observaciones, qué diseño se usó (=cómo se aleatorizó) y cuántas observaciones

(=repeticiones) se realizaron. Si es posible, se debería incluir un estudio de la potencia de

las pruebas para evidenciar que el tamaño muestral fue adecuado para detectar las

diferencias de interés.

Preparación de los datos para el análisis

1. Generar (recibir) los datos originales

2. Crear la base de datos a partir de los datos originales

3. Editar la base de datos

4. Corregir y clarificar la base de datos comparándola con los datos originales

5. Finalizar la base de datos, archivarla y crear copias (en varios medios, como USB,

DVD, papel, etc.)

6. Crear archivos de datos para los análisis

Es muy importante (y en algunas áreas obligatorio) llevar un registro detallado de todo el

proceso para, de ser necesario, rehacer nuevamente las distintas etapas por las que los

datos han pasado. Una forma común de documentar esto es mediante un registro del

estudio (cuaderno de bitácora o “study log”). Éste debería incluir:

a. datos recibidos, y de quién

b. investigador a cargo del estudio

c. estadístico y otro personal asignado

d. descripción breve del estudio

e. tratamientos usados

f. diseño experimental usado

g. mapa de campo con tratamientos y aleatorizaciones

h. fuente de los datos originales

i. variables dependientes medidas (“respuestas”)

j. fechas de toma de datos, análisis, etc.

k. irregularidades en la toma de datos, registro, etc.

l. otra información relacionada

Guías para el análisis e informe estadísticos

Los análisis preliminares, a menudo descriptivos o gráficos, permiten familiarizarse con

los datos, observar algunas relaciones, detectar problemas, etc.

Los análisis primarios se hacen para responder las preguntas de investigación que se

indicaron en los objetivos del estudio.

Los análisis secundarios (o de apoyo) incluyen métodos alternativos de observar los

datos, uso de métodos poco comunes en el área de aplicación, exploración de hipótesis

sugeridas por los resultados del experimento, etc.

Page 94: Biometría Avanzada 2015 Macchiavelli

94

Informe estadístico

a. Resumen

b. Introducción

c. Diseño experimental y procedimientos del estudio

d. Estadísticos descriptivos

e. Metodología estadística

f. Resultados y conclusiones

g. Discusión

h. Lista de datos y salidas de computación relevantes

Documentación y almacenamiento de resultados

La idea fundamental es que podamos tener la documentación y los datos almacenados de

forma tal que en el futuro nosotros (o algúna otra persona) pueda rehacer los análisis,

obtener nuevos resultados (o confirmar los obtenidos) y alcanzar nuevas conclusiones sin

mayores dificultades. En algunas áreas de investigación esto es necesario para poder

evaluar la calidad de las conclusiones obtenidas, y en todos los casos es una práctica muy

importante.

Bibliografía

Texto del curso

Ott, R.L. y M. Longnecker (2001). An Introduction to Statistical Methods and Data

Analysis. 5ta. ed. Pacific Grove (CA): Duxbury

Referencias adicionales

Ott, R.L. y M. Longnecker (2008). An Introduction to Statistical Methods and Data

Analysis. 6ta. ed. Pacific Grove (CA): Duxbury

Macchiavelli, R. (2014). Notas de clase de Biometría Avanzada.

http://academic.uprm.edu/rmacchia/agro6600/agro6600.pdf

Di Rienzo J.A., Casanoves F., Balzarini M.G., Gonzalez L., Tablada M., Robledo C.W.

InfoStat versión 2012. Grupo InfoStat, FCA, Universidad Nacional de Córdoba,

Argentina. URL http://www.infostat.com.ar

Der, Geoff y B. Everitt (2008). A Handbook of Statistical Analyses Using SAS. 3ra. Ed.

Boca Raton (FL): Chapman and Hall.

Mead, R., R. Curnow y A. Hasted (2003) Statistical Methods in Agriculture and

Experimental Biology. 3ra. Ed. Boca Raton (FL): Chapman and Hall.

Page 95: Biometría Avanzada 2015 Macchiavelli

95

Biometría Avanzada - AGRO 6600 Prontuario Segundo Semestre 2014-2015

Número de horas crédito: 3 (tres). Se realizarán dos conferencias semanales de 50 minutos cada una y un laboratorio semanal de 3 horas. Prerrequisitos, correquisitos y otros conocimientos: se espera que los estudiantes posean destrezas en el uso de computadoras personales y conocimientos de estadística básica. Descripción: Estudio avanzado del análisis de varianza, covarianza y regresión múltiple; métodos de análisis y diseños experimentales aplicados a problemas de investigación en las ciencias agrícolas, biológicas y ambientales. Los estudiantes diseñan experimentos, analizan datos y usan programas estadísticos de computación. Se suponen conocimientos previos de estadística básica. Propósito del curso: En este curso aprenderemos los fundamentos del diseño y análisis de los experimentos más comúnmente usados en las ciencias agrícolas y biológicas. Daremos un énfasis especial a la discusión de problemas reales y a la interpretación de resultados procesados con la computadora (programas SAS e Infostat). Objetivos: Se espera que al finalizar el curso el estudiante

conozca y aplique los principales diseños experimentales (completamente aleatorizado, bloques completos aleatorizados, cuadrados latinos, parcelas divididas, etc.) y los modelos usados para su análisis (modelos con un criterio de clasificación, con submuestreo, factoriales, de efectos fijos, aleatorios y mixtos).

conozca las ventajas y las limitaciones de los modelos comúnmente usados.

pueda diseñar y analizar experimentos, obteniendo conclusiones válidas.

conozca y aplique regresión polinomial y múltiple en situaciones experimentales.

analice los modelos estudiados usando Infostat y SAS, y extraiga conclusiones válidas a partir de las salidas de computación.

Conferencia: Martes y Jueves 9:30-10:20, P213 (Sección 036) Laboratorios: Martes 1:30-4:20pm, AP 203 (Sección 076L) Miércoles 1:30-4:20pm, AP 203 (Sección 070L) Miércoles 4:30-7:20, AP 203 (Sección 100L)

Jueves 1:30-4:20, AP 203 (Sección 077L) Profesores: Dr. Raúl E. Macchiavelli (conferencia). Oficina: P-217A (Conferencia) Teléfono: 787-832-4040 ext. 3020 (oficina), 2313 (departamento), 3809 (Estudios Graduados)

[email protected] , http://academic.uprm.edu/rmacchia Horas de oficina: martes y jueves 7:30-9:30 (otros horarios llamando previamente) Dra. Linda Wessel Beaver. Oficina: P-110 (Sección 077L) Teléfono: 787-832-4040 ext. 6334 (oficina), 787-832-4040 ext. 2313 (departamento), [email protected] Horas de oficina: lunes 8-10 am y martes 1:30-2:30 (otros horarios llamando previamente) Srta. Cristina López (Oficina: AP203) (Sección 070L) [email protected] Horas de oficina: lunes 1:30-3

Page 96: Biometría Avanzada 2015 Macchiavelli

96

Sr. Edgar Quijia (Oficina: AP203) (Sección 076L) [email protected] Horas de oficina: miércoles 11-12:30

Sra. Rocío Suárez (Sección 100L) Oficina: P-218A

Teléfono: 787-832-4040 ext. 3851 o 2313

e-mail: [email protected]

Horas de oficina: martes y jueves 4:30 – 6:00 pm o por acuerdo Bosquejo del curso:

Tema Sección (texto 5ta.ed)

Fecha tentativa

1. Introducción. Tipos de experimentos 14.1-5 15 enero

2. Diseño completamente aleatorizado y bloques 15.1-3, 8.3 20, 27 enero

3. Verificación de supuestos 8.4, 8.5, 7.4 29 enero, 3 febrero

4. Determinación del número de repeticiones 14.6 5 febrero

5. Comparaciones múltiples 9.1, 3-5, 7 10, 12 febrero

6. Contrastes 9.2, 8 17, 19 febrero

7. Diseño de cuadrados latinos 15.4 24 febrero

8. Experimentos factoriales de dos factores 15.5 26 feb, 3, 5 marzo

PRIMER EXAMEN PARCIAL (temas 1-6) 9 marzo, 7:30 pm

9. Factoriales con tres o más factores 15.6-7 5, 10 marzo

10. Modelos de efectos aleatorios y mixtos 17.1-4 17, 19, 24 marzo

11. Diseños anidados 17.6 26 marzo

12. Diseños de parcelas divididas 17.6 7, 9 abril

13. Repaso de regresión lineal simple. 11.1-3 16 abril

SEGUNDO EXAMEN PARCIAL (temas 7-12) 20 abril, 7:30 pm

14. Regresión polinomial 11.5 21 abril

15. Regresión múltiple 12.1-6 23, 28 abril

16. Selección de variables en regresión múltiple 13.1-4 30 abril

17. Análisis de covarianza 16.1-4 5, 7 mayo

18. Resumen 12 mayo

EXAMEN FINAL

Laboratorios

Tema Fecha aproximada

Lab. Martes Lab. Miércoles Lab. Jueves

1. Repaso de notación. Introducción a SAS. 27 enero 28 enero 29 enero

2. Diseño completamente aleatorizado y en bloques. 3 febrero 4 febrero 5 febrero

3. Supuestos del análisis de varianza. 10 febrero 11 febrero 12 febrero

4. Determinación del número de repeticiones. Comparaciones múltiples.

17 febrero 18 febrero 19 febrero

5. Contrastes. 24 febrero 25 febrero 26 febrero

Page 97: Biometría Avanzada 2015 Macchiavelli

97

6. Diseño cuadrado latino y factorial 2x2. 3 marzo 4 marzo 5 marzo

7. Experimentos con dos factores. 10 marzo 11 marzo 12 marzo

8. Experimentos con tres o más factores. 17 marzo 18 marzo 19 marzo

9. Efectos aleatorios y mixtos. Diseños anidados. 24 marzo 25 marzo 26 marzo

10. Diseño en parcelas divididas. 7 abril 8 abril 9 abril

11. Regresión lineal simple y polinomial. 21 abril 22 abril 23 abril

12. Regresión múltiple. Selección de variables 28 abril 29 abril 30 abril

13. Análisis de covarianza. 5 mayo 6 mayo 7 mayo

Estrategias instruccionales: Conferencia: dos conferencias semanales de asistencia obligatoria. El material a discutir en las conferencias se encuentra en el texto del curso, y un resumen del material está disponible en las notas de clase. Laboratorio: un laboratorio semanal de asistencia obligatoria. Durante el mismo se discutirán temas y analizarán datos usando computadoras. El material y los datos de cada laboratorio estarán disponibles en la página web del curso. Los estudiantes deben llevar al laboratorio calculadora con funciones estadísticas y las tablas estadísticas a usarse. Los informes de laboratorio deben entregarse hasta una semana después de haber realizado el laboratorio. (Para no interrumpir las conferencias o laboratorios, está prohibido el uso de teléfonos celulares. Favor ponerlos en modo silencioso durante clases, laboratorios y exámenes.) Recursos de aprendizaje: Los laboratorios se realizarán en el laboratorio de computadoras de Biometría Agrícola, donde están disponibles 18 computadoras personales y pantalla inteligente. La página web del curso, http://academic.uprm.edu/rmacchia/agro6600 , contiene el bosquejo del curso actualizado, los laboratorios, las claves de los laboratorios y los exámenes de años anteriores. Estrategias de evaluación / Herramientas de avalúo Pruebas cortas (quizes): cinco quizes durante los laboratorios. Estos quizes no se anunciarán. La nota final solamente incluirá el promedio de los 4 mejores quizes. No habrá reposiciones de quizes. Asistencia y participación en clase y laboratorios. La asistencia es obligatoria. Los informes escritos de laboratorio deben entregarse hasta una semana después de haber realizado el laboratorio. Exámenes parciales: dos exámenes parciales, tentativamente los días lunes 9 de marzo y 20 de abril a las 7:30 pm. Durante los exámenes se proveerán las fórmulas necesarias, y los estudiantes podrán usar calculadora y el libro (no se permiten notas de clase ni fotocopias). Los exámenes de años anteriores estarán disponibles en la página web del curso. Examen Final: el examen final será un trabajo integrador del material estudiado durante el curso. Durante los exámenes se proveerán las fórmulas necesarias, y los estudiantes podrán

Page 98: Biometría Avanzada 2015 Macchiavelli

98

usar calculadora y el libro (no se permiten notas de clase ni fotocopias). Los exámenes de años anteriores estarán disponibles en la página web del curso. La calificación final se basará en un promedio ponderado de las notas de Asistencia y participación (10%) Quizes (20%) Exámenes parciales (22% cada uno) Examen final (26%) Sistema de calificación: La nota final se basará en la calificación final de acuerdo a la siguiente equivalencia. Es posible que los límites inferiores que se apliquen sean menores que los aquí indicados (por ejemplo, al final del semestre se puede decidir que una nota de 89 es una A). A: 90 o más B: 80 o más pero menos de 90 C: 70 o más pero menos de 80 D: 60 o más pero menos de 70 F: menos de 60 Política Universitaria y Departamental Las políticas departamentales e institucionales relacionadas con la asistencia a clases y laboratorios, con los procedimientos de bajas parciales o totales, con los acomodos razonables a personas con impedimentos y con la ética y moral esperada de los estudiantes están definidas en el Boletín de Información del Recinto Universitario de Mayagüez. Bibliografía:

Ott, R.L. y M. Longnecker (2001). An Introduction to Statistical Methods and Data Analysis. 5ta. ed. Pacific Grove (CA): Duxbury

Ott, R.L. y M. Longnecker (2008). An Introduction to Statistical Methods and Data Analysis. 6ta. ed. Pacific Grove (CA): Duxbury

Macchiavelli, R. (2015). Notas de clase de Biometría Avanzada. http://academic.uprm.edu/rmacchia/agro6600/agro6600.pdf

Di Rienzo J.A., Casanoves F., Balzarini M.G., Gonzalez L., Tablada M., Robledo C.W. InfoStat versión 2012. Grupo InfoStat, FCA, Universidad Nacional de Córdoba, Argentina. URL http://www.infostat.com.ar Der, Geoff y B. Everitt (2008). A Handbook of Statistical Analyses Using SAS. 3ra. Ed. Boca Raton (FL): Chapman and Hall. Mead, R., R. Curnow y A. Hasted (2003) Statistical Methods in Agriculture and Experimental Biology. 3ra. Ed. Boca Raton (FL): Chapman and Hall.