Presentación ANCOVA
Transcript of Presentación ANCOVA
1
Análisis de la Covarianza
Métodos Avanzados en Control de Calidad
Safae Temsamani
Aurora Muñoz de Escalona Pavón
Master Organización Industrial y Gestión de Empresas
Diseño Experimental
2
Indice
1. Introducción
2. Análisis de la Covarianza
3. Caso práctico
4. Aplicaciones
3
1. Introducción
Este procedimiento es la combinación de las técnicas:– Análisis de la Varianza– Análisis de Regresión
ObjetivosEstudiar la relación de una variable cualitativa
(factor) con una variable cuantitativa (covariable).
La variable cualitativa () recibe el nombre de factor, dicha variable es controlada por el experimentador y se presenta a varios niveles
La variable cuantitativa (X) recibe el nombre de covariable y no es controlada por el experimentador pero puede medirla al mismo tiempo que la variable respuesta (Y: variable dependiente)
Se elimina la variación debida a la/s Covariable/s de la estimación de la varianza del error y se la evalúa como un efecto principal separado
2. Análisis de la Covarianza
Análisis de la Covarianza Unifactorial
Modelo Unifactorial con una covariable
Diseños en bloques completos aleatorios con una covariable
Diseños en bloques completos aleatorios con dos covariables
Diseños factoriales con dos factores y una covariable.
Diseño factoriales con dos factores y dos covariables
4
5
2.1. Análisis de la Covarianza Unifactorial
Describe a una situación que involucra:– Una variable independiente cualitativa con diversos niveles.– Una o más covariables (variables independiantes cuantitativas)
Modelo Unifactorial con una covariableEn un diseño con un solo factor y una sola covariable, si se supone que existe relación lineal entre la variable respuesta y la covariable:
i: Es el efecto producido por el tratamiento i-ésimoEs el coeficiente de regresión lineal que representa la cantidad en que varia la variable respuesta por cada cambio unitario de la covariable.xij: Es el valor de la covariable correspondiente a la observación yij.
:es la media de la covariable.
6
2.1.1. Modelo Unifactorial con una covariable
En un diseño completamente aleatorizado la suma total de cuadrados puede descomponerse en suma de cuadrados entre tratamientos y en suma de cuadrados residual.
A.- Contraste de hipótesis1. Todos los niveles del factor producen el mismo efecto (Ho: i = 0 ∀i) vs (H1: i ≠ 0
por lo menos para algún i).
2. El coeficiente de regresión es 0
Ho: = 0
H1: ≠ 0
B.- Contraste de los efectos del factorEl estadístico de contraste para contrastar la hipótesis nula Ho: i = 0 ∀i es:
Se rechazará Ho cuando Fexp > al nivel de significación
7
2.1.1. Modelo Unifactorial con una covariable
C.- Contraste del coeficiente de regresión ()El estadístico de contraste para contrastar la hipótesis nula Ho: = 0 viene dada por la expresión:
Si este valor es mayor que el valor teórico al nivel de significación de se rechaza la hipótesis de que el coeficiente de regresión es igual a 0.
8
2.1.1. Modelo Unifactorial con una covariable
9
Diseño en bloques completos aleatorios con una covariable
El modelo estadístico para este diseño es:
Siendo i el efecto producido por el nivel i-ésimo del factor principal ( )
j el efecto producido por el nivel j-ésimo bloque ( )
es el efecto ijésimo valor observado en la covariable
10
Diseño en bloques completos aleatorios con una covariable
Las Sumas de Cuadrados y productos Cruzados tienen las siguientes expresiones:
.
11
Diseño en bloques completos aleatorios con una covariable
12
Diseño en bloques completos aleatorios con dos covariables
Modelo estadístico
13
Diseños factoriales con dos factores y una covariable
Modelo estadísticoConsideramos un diseño unifactorial equilibrado con dos factores, supongamos que hay a niveles para el factor A y b niveles del factor B y cada réplica del experimento contiene los ab tratamientos posibles
Siendo
r: nº de replicaciones
ij: el efecto producido por la interacción entre A y B.
14
Diseño factoriales con dos factores y dos covariables
Modelo estadístico
Siendo
r: nº de replicaciones
ij: el efecto producido por la interacción entre A y B.
15
Caso práctico
Se tiene ocho variedades de fresas (A, B, C, D, E, F, G y H) sembradas a lo largo de cuatro franjas de un terreno. Cada franja se ha dividido en ocho parcelas donde se siembran las ocho variedades de fresas. No se tiene seguridad de que el terreno sea igual de fértil en todas las franjas, por lo que la cantidad de fresas recolectada podría depender de la franja en la que se siembra.
Además, en el límite este del terreno hay un seto que podría quitar elementos de tierra beneficiosas para las fresas, influyendo de alguna manera en la cosecha recogida.
Los datos de los kilos recolectados y la distribución del cultivo de las fresas en terreno se representan a continuación en la tabla 1
16
Franja
IA
5.8B
6.3C
4.9D
6.5E
4.5F
5.2G
6.5H
3.8
Seto
IIG
6.9H
7.6F
7.9E
5.6A7
B5.5
D4
C2.7
IIIB
7.6D
6.4C5
A6.9
H7.4
G5.3
E5.2
F3.2
IVG
7.5E7
F6.1
H7.2
A6.5
D5.6
B5.8
C1.4
Distancia al seto (en metros)
8 7 6 5 4 3 2 1
Tabla 1
Caso práctico
17
Caso práctico
Se pide:
1. Describir el problema planteado, identificando los elementos.
2. Escribir el modelo matemático asociado donde se introduzca el inverso de la distancia al seto como variable concomitante.
3. ¿Es necesario controlar la influencia de esta variable? ¿Es el terreno igual de fértil en todas las franjas?
4. Analizar las diferencias entre las ochos variedades de fresas. De existir diferencias entre las cantidades recolectadas, decidir por el método de Bonferroni cuáles son las variedades de las que recoge más cosecha.
18
Caso práctico
19
Caso práctico
La variable respuesta que se mide es el “número de kilos recogidos de cada variedad de fresa”. El factor de interés es la variedad de fresa. Las unidades experimentalesson las parcelas, a las que seles anota el número de kilos recogidos de fresa.
El hecho de que las franjas de terrenopuedan influir sobre las cosechas,hace que se deba incluir también el seto, se tomará como posible variable concomitante el inverso de la distancia al seto. Así los tratamientos son los ochos tipos de fresa.
1.- Describir el problema planteado, identificando los elementos.
20
Caso práctico
El modelo matemático asociado a esta situación es:
yij = + i + j + (xij – ..) + ij ; i=1, … , 8; j=1, … , 4
ij ≈ N(0,σ) independientes
yij: kilos de fresa de variedad i recolectados en la franja j.
xij: inverso de la distancia al seto de la parcela de la franja j donde se siembra la fresa i.
: número medio de kilos recolectados.
i: efecto medio adicional sobre la cosecha media de la variedad de fresa i.
j: efecto medio adicional sobre la cosecha media de la franja j.
: influencia de la distancia al seto sobre la cosecha media.
Así, yij ≈ N( + i + j + (xij – ), σ) independientes
2.- Modelo matemático (variable concomitante: INV_distancia al seto) .
21
Para realizar el estudio de la varianza se comprueba Normalidad Homocedasticidad
yij ~ N (µ+αi ,σ)
Para verificar si se trata o no de una distribución Normal se realiza un contraste Chi-cuadrado
A continuación, vamos a verificar la condición de Homocedasticidad mediante un Contraste de Varianza.
Caso práctico
22
Por lo tanto, P-valor > 0,10. Así que, no se rechaza H0 al nivel del 10% de significación. De este modo, podemos concluir que la distribución es normal.
Caso práctico
23
Caso práctico 3.- ¿Es necesario controlar la influencia de esta variable?
¿Es el terreno igual de fértil en todas las franjas?
p-valor asociado a la variable concominante es 0,0000.
El inverso de la distancia al seto influye sobre la cantidad de fresa recolectada.
Si es necesario incluir en el análisis la distancia al seto. Sin embargo, las franjas de terreno no son influyentes sobre las cosechas recogidas, lo que hace suponer que todas ellas son igual de fértiles.
24
Caso práctico4.- Analizar las diferencias entre las 8 variedades de fresas
La variable concominate (INV_SETO) es significativa e influye sobre la cosecha recogida.
Se replantea el modelo, suprimiendo del mismo el factor bloque.
Con respecto a las diferencias entre las variedades de fresa, obtenemos un (p-valor)fresa=0,0110 < a, siendo
significativa las diferencias a un nivel del 95%, pero no al 99%.
25
Caso práctico4.- Analizar las diferencias entre las 8 variedades de fresas
Las diferencias encontradas entre las cantidades medias recogidas de las variedades son C y H.
Y de la cosecha que más se recoge es de la variedad H, siendo su media 6.7.
26
Aplicaciones
Efecto de fertilizantes en el estudio de las plantas Efecto de formas nuevas de promoción en la venta de sus vinos en supermercados. Las formas de promoción son: Degustaciones, Aumento de espacio en los estantes, Muestrarios en los
extremos del pasillo Efecto de las dietas en cerdos de la misma edad Efecto de la renta, según zona geográfica, pero ajustando previamente por variables cuantitativas como la
protección social (covariable). Efecto de las horas trabajadas según la educación y sexo. Efecto de reducir las diferencias salariales entre hombres y mujeres al asistir a los cursos de formación que
antes han sido planificados. Efecto de la religión en la actitud hacia el divorcio según nivel educacional Efecto de los métodos de enseñanza en el rendimiento según habilidades de los alumnos (cov). Efecto de documentales en el deseo de viajar a la Patagonia. Efecto de corregir resultados observados de conocimientos iniciales sobre una materia determinada. Efecto de comparar rendimientos en un proceso químico según los porcentajes de impureza en la materia
prima a diversas temperaturas. Efecto de distintos métodos de aprendizaje en los alumnos. Efecto de métodos de adelgazamiento en pacientes. Efecto de un tratamiento y efecto de una o más variables de confusión potenciales según puntuaciones
previas a la prueba, edad, educación, nivel social y nivel de ansiedad. Efecto de la hipertensión según la edad y sexo. Efecto en la producción al utilizar diferentes insecticidas en un cultivo de patatas.
27
Bibliografia
– Miller G.A. & Chapman, J.P (2001). Misunderstanding analysis of covariance. Journal of Abnormal Psychology, 110, 40-48.
– J. Rodríguez Cano, Universidad de Viña del Mar– Manuel Milla; Franklin Chapín, Análisis Estadístico de Covarianza Múltiple No Paramétrico.
Caso: Covariables ordinales vs Variables respuesta cuantitativa. Rev. Fac. Agron. (Maracay) 32:77-86. 2006.
– Conover, W.; R. Iman. 1982. Analysis of covariance using the rank transformation. Biometrics 38:715-724.
– Milla, M.; F. Chacín. 2005. Una contribución al Análisis Estadístico No Paramétrico de Covarianza Múltiple a través de la transformación de rangos. Tesis de Doctorado. Maracay, Venezuela. Facultad de Agronomía, Universidad Central de Venezuela.
– Tisha Hooks, David Marx, Stephen Kachman,Jeffrey Pedersen3, Roger Eigenberg. Análisis de covarianzas con variables secundarias correlacionadas Espacialmente. Revista Colombiana de Estadística. Junio 2008, volumen 31, no. 1, pp. 95 a 109
– Lara Porras A.M. (2000). “Diseño estadístico de experimentos, análisis de la varianza y temas relacionados: tratamiento informático mediante SPSS”. Ed.: Proyecto Sur.
– Kleinbaum, Kupper, Muller, Nizam . Applied regression analysis and other multivariate methods. Ed. Duxbury Press 1998Huitema, B The analysis of covariance and alternatives, Ed. Wiley 1980
– Manual Statgraphics Plus 5.1
28
Web– http://es.wikipedia.org/wiki/An%C3%A1lisis_de_covarianza– http://repositorio.uvm.cl/gsdl/collect/sociol/index/assoc/HASH01c0.dir/doc.pdf– http://www.ugr.es/~bioestad/_private/cpfund6.pdf– http://www.agro.unalmed.edu.co/cursos/material/3000010/
Analisis_de_Covarianza.pdf– http://erfa.com.ve/revista/revistas2006/322/Revista32-2art3.pdf– http://www.seio2006.ull.es/files/202/resumen_202_VviLrZ6PsW.pdf– http://209.85.129.132/search?q=cache:Gr0cnyvWAXYJ:academic.uprm.edu/
rmacchia/agro6600/lab13key.pdf+analisis+de+covarianza&hl=es&ct=clnk&cd=22&gl=es
– http://www.ine.es/revistas/estaespa/117_3.pdf
Bibliografia