Post on 12-Jan-2016
description
MANOVA y Análisis Discriminante Diseño Experimental y Análisis de Datos
35
6.- MANOVA y Análisis Discriminante
Se realiza un análisis discriminante cuando tenemos un conjunto de observaciones, con varias variables que las definen (igual que en componentes principales y cluster) para dos objetivos distintos (pero nunca para formar grupos):
Comprobar que las variables utilizadadas discriminan entre grupos ya establecidos, y distinguir cual o cuales discriminan mejor.
Predecir la pertenencia de una observación a un grupo de los establecidos naturales. Si desconocemos los grupos que deben formarse, pero debemos realizar un
análisis discriminante, debemos previamente realizar un análisis de componentes principales para establecer los grupos naturales.
Para comprobar que es coherente realizar con los datos un análisis
discriminante, debemos realizar siempre un análisis previo; MANOVA (Multivariant ANalyse Of VAriance). Debemos suponer normalidad y homocedasticidad. Este MANOVA es similar al análisis ANOVA para un factor, pero con varias variables distintas. Para i grupos definidos por j variables, siendo 𝜇𝑖𝑗 la media de cada variable
para cada grupo, el contraste de hipótesis que resuelve MANOVA es el siguiente:
𝐻𝑜 : 𝜇11 = 𝜇21 = ⋯ = 𝜇𝑛𝑟 ; 𝑐𝑜𝑛 𝑛, 𝑟 > 2𝐻1: 𝑁𝑜 𝑒𝑠 𝑐𝑖𝑒𝑟𝑡𝑎 𝑙𝑎 𝑖𝑝ó𝑡𝑒𝑠𝑖𝑠 𝑛𝑢𝑙𝑎.
Es decir;
𝐻𝑜 : 𝑙𝑎𝑠 𝑚𝑒𝑑𝑖𝑎𝑠 𝑑𝑒 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑒𝑛 𝑡𝑜𝑑𝑜𝑠 𝑙𝑜𝑠 𝑔𝑟𝑢𝑝𝑜𝑠
𝑠𝑜𝑛 𝑖𝑔𝑢𝑎𝑙𝑒𝑠𝐻1: 𝑁𝑜 𝑒𝑠 𝑐𝑖𝑒𝑟𝑡𝑎 𝑙𝑎 𝑖𝑝ó𝑡𝑒𝑠𝑖𝑠 𝑛𝑢𝑙𝑎.
Si aceptamos la hipótesis nula, todas las variables tienen la misma media en
todos los grupos y no son capaces de discriminar entre grupos; no tiene sentido realizar un análisis discriminante.
Si rechazamos la hipótesis nula significa que al menos una variable puede discriminar entre grupos, en cuyo caso sí tiene sentido proceder a realizar un análisis discriminante.
La hipótesis nula no es sencilla y sólo puede ser aproximada, excepto en unos
casos de pocas dimensiones. La mejor aproximación de la lambda de Wilks. Otro estadístico muy útil es la Correlación Canónica (entre variables canónicas). Ambos varían entre 0 y 1.
El análisis discriminante genera a su vez dos tipos de funciones; las funciones discriminantes, que permiten contrastar si las variables permiten discriminar grupos, y cuales son las que mejor discriminan, y las funciones de clasificación, una para cada grupo preexistente, que permiten clasificar a nuevos individuos.
La Lambda de Wilks es el estadístico más útil para resolver análisis MANOVA.
Varia entre 0 y 1. Mide el poder discriminante de un conjunto de variables. Cuanto más
MANOVA y Análisis Discriminante Diseño Experimental y Análisis de Datos
36
próximo a 0, más potente será el análisis discriminante, puesto que la varianza entre grupos (between) será muy alta, mientras que la varianza dentro de los grupos (within) será muy baja. La fórmula de este estadístico es aproximadamente:
𝐿𝑎𝑚𝑏𝑑𝑎 𝑑𝑒 𝑊𝑖𝑙𝑘𝑠 =𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑒𝑛𝑡𝑟𝑜 𝑑𝑒 𝑙𝑜𝑠 𝑔𝑟𝑢𝑝𝑜𝑠
𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑒𝑛𝑡𝑟𝑜 𝑑𝑒 𝑙𝑜𝑠 𝑔𝑟𝑢𝑝𝑜𝑠 + 𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑒𝑛𝑡𝑟𝑒 𝑙𝑜𝑠 𝑔𝑟𝑢𝑝𝑜𝑠
Las funciones discriminantes (FD) son combinaciones lineales de las variables
predictoras (similares a los componentes principales, pero no son la misma), donde cada variable viene acompañada de un coeficiente o peso (b). Son funciones de la forma (para m variables x):
𝐹𝐷 = 𝑏1. 𝑥1 + ⋯+ 𝑏𝑚 . 𝑥𝑚
El número de funciones discriminantes que se pueden construír corresponde al
mínimo entre el número de variables y el número de grupos que existen menos uno. Este número no hace falta calcularlo; corresponde al número de funciones discriminantes que construye el programa. Cuantas menos funciones se creen menor es la potencia del análisis.
Esta función informa sobre la partición de cada variable independiente en la discriminación a través de sus pesos; la variable que más discrimina es la de mayor coeficiente (valor absoluto) en la función discriminante que más discrimina, es decir, la primera. Al igual que en los componentes principales, el programa construye las funciones de mayor a menor cantidad de información (porcentaje de variabilidad explicada por la función).
Cada función discriminante tendrá su correlación canónica, y dependerá de un contraste de hipótesis de la siguiente forma:
𝐻𝑜 : 𝐿𝑎 𝑓𝑢𝑛𝑐𝑖ó𝑛 𝐹𝐷 𝑛𝑜 𝑑𝑖𝑠𝑐𝑟𝑖𝑚𝑖𝑛𝑎𝐻1: 𝑁𝑜 𝑒𝑠 𝑐𝑖𝑒𝑟𝑡𝑎 𝑙𝑎 𝑖𝑝ó𝑡𝑒𝑠𝑖𝑠 𝑛𝑢𝑙𝑎.
En caso de aceptación de la hipótesis nula, la función discriminante en
cuestión no discrimina, y por lo tanto debe salir del análisis. Este contraste de hipótesis se resuelve con el estadístico chi-cuadrado.
Si rechazamos la hipótesis nula podemos trabajar con la función discriminante que corresponda.
La correlación canónica es similar a la correlación pero adaptada para variables
canónicas. Varía entre 0 y 1. La correlación canónica se obtiene calculando las funciones discriminantes de cada individuo de todos los grupos, para hallar el centroide (valor medio) de cada grupo. Cuanto más próximo a 1, más potente será el análisis, puesto que los centroides de los distintos grupos serán muy distantes.
Las funciones de clasificación (FC) sirven para clasificar nuevas observaciones
en uno de los grupos. Sólo serán útiles si las variables discriminan, es decir, si rechazamos las hipótesis nulas de los contrastes de las funciones discriminantes. Existirá una función de clasificación para cada grupo. Se trata de combinaciones lineales de las variables utilizadas, de la siguiente forma:
MANOVA y Análisis Discriminante Diseño Experimental y Análisis de Datos
37
𝐹𝐶 = 𝑐 + 𝑏1. 𝑥1 + ⋯+ 𝑏𝑚 . 𝑥𝑚
Una nueva observación (o individuo) pertenecerá al grupo con mayor valor en
la función de clasificación (introduciendo en dicha función los valores de las variables de esta observación).
A/ MANOVA en Statgrafic plus 5.1: En el fichero de datos hemos creado una columna para cada variable (igual que
en componentes principales), y además una columna de código donde introducimos los códigos que diferencian a los grupos. Para el ejercicio DC1:
Clicamos en “Menú” en “Avanzado” / “Regresión Avanzada” / “Modelos
Lineales Generales…”. En la pantalla que aparece introducimos las variables en “Variables dependientes:” y la columna de código en “Factores categóricos:”. No debemos rellenar ningún otro espacio. Para el ejercicio DC1:
En la siguiente ventana que aparece, “Especificaciones del Modelo GLM”
clicamos simplemente aceptar sin modificar nada. Entonces aparece el análisis de modelos lineales generales, pero no el MANOVA. Para ver el manova no debemos ir a opciones tabulares, sino que debemos clicar en el botón derecho en la ventana del análisis y seleccionar “Opciones de Análisis”; en la ventana que aparece seleccionamos
MANOVA y Análisis Discriminante Diseño Experimental y Análisis de Datos
38
la opción de “Incluír MANOVA”. Los resultados del MANOVA aparecen entonces en la misma ventana, al final del análisis. Para el ejercicio DC1:
Para el examen sólo utilizaremos los valores de la primera línea, “lambda de
Wilks”. Nos aparece el valor de lambda de Wilks, del estadístico F (Fischer) y el p-valor para el contraste de hipótesis del MANOVA.
En este ejercicio sí tiene sentido realizar un análisis discriminante para los grupos “estadío” propuestos.
B/ Análisis Discriminante en Statgrafic plus 5.1: Una vez realizado en análisis MANOVA preliminar podemos proceder a realizar
el análisis discriminante. Lo encontraremos en el “Menú” en “Avanzado” / “Métodos Multivariables” / “Análisis Discriminante…”. Introducimos las columas de las variables en el campo “Datos:” y la columna de código (estadío en DC1) en el campo “Factor de Clasificación:”, y clicamos aceptar.
A continuación clicamos “Opciones Tabulares” para seleccionar las cuatro primeras opciones, que son: “Resumen del Análisis”, “Funciones de Clasificación” “Funciones Discriminantes” y “Tabla de Clasificación”.
Para ver el gráfico de Funciones Discriminantes (inicialmente puede no verse, si sólo existe una FD) clicar en la ventana en el botón derecho, seleccionar “Opciones de Ventana” e introducir 1 en los ambos ejes.
MANOVA y Análisis Discriminante Diseño Experimental y Análisis de Datos
39
El “Resumen del Análisis” nos da los valores de Correlación Canónica, chi-
cuadrado y p-valor para el contraste de cada función discriminante. Nos sirve para determinar si estas funciones sirven para discriminar, y por lo tanto, si es coherente el análisis. Para el ejercicio DC1 (una única FD):
Las ventanas de “Funciones de Clasificación” y “Funciones Discriminantes” dan
los valores de los coeficientes y las constantes de estas funciones.
FD1
MANOVA y Análisis Discriminante Diseño Experimental y Análisis de Datos
40
Para las funciones discriminantes utilizaremos siempre los coeficientes estandarizados. Son de hecho los que utiliza el StatAdvisor para construír la primera función discriminante a modo de ejemplo (en este caso del ejercicio DC1 sólo existe una función discriminante pero puede haber más de una).
En cuanto a las funciones de Clasificación, obtendremos una por cada grupo
existente. Para el ejercicio DC1:
Al igual que en las funciones discriminantes, el StatAdvisor nos construye la
primera función de clasificación a modo de ejemplo. Finalmente, consultamos la Tabla de Clasificación para ver las predicciones que
ha realizado el análisis para observaciones no clasificadas. Escribimos los valores de las variables de las observaciones cuyo grupo de pertenencia debe ser predicho, en las últimas filas del fichero, en las columnas vacías (como en regresión), dejando en blanco la casilla de código. Para el ejercicio DC1:
(…)
FC1
FC2
Sin agrupar (predicción)
MANOVA y Análisis Discriminante Diseño Experimental y Análisis de Datos
41
(…)
En la tabla de clasificación el programa calcula las funciones de clasificación para todas
las observaciones (que ha utilizado para construir las mismas funciones), y las clasifica a partir de los valores obtenidos. En algunas observaciones las funciones de clasificación pueden equivocarse; los datos de los errores totales (en %) cometidos aparecen en la primera tabla de la ventana.
En la segunda tabla aparecen los grupos en los que se clasifica cada observación a través de la función de clasificación, y los valores obtenidos en dicha función (también aparece la segunda opción y el valor de la función para ese grupo segundo más probable). En esta misma tabla, al final, aparece la predicción que realiza el programa para las observaciones no agrupadas. En este caso (ejercicio DC1) introduce al individuo (215,07 ; 147,31) en el grupo 1 y al individuo (248,13 ; 154,01) en el grupo 2.
predicción