Analisis_Discriminante

7
MANOVA y Análisis Discriminante Diseño Experimental y Análisis de Datos 35 6.- MANOVA y Análisis Discriminante Se realiza un análisis discriminante cuando tenemos un conjunto de observaciones, con varias variables que las definen (igual que en componentes principales y cluster) para dos objetivos distintos (pero nunca para formar grupos): Comprobar que las variables utilizadadas discriminan entre grupos ya establecidos, y distinguir cual o cuales discriminan mejor. Predecir la pertenencia de una observación a un grupo de los establecidos naturales. Si desconocemos los grupos que deben formarse, pero debemos realizar un análisis discriminante, debemos previamente realizar un análisis de componentes principales para establecer los grupos naturales. Para comprobar que es coherente realizar con los datos un análisis discriminante, debemos realizar siempre un análisis previo; MANOVA (Multivariant ANalyse Of VAriance). Debemos suponer normalidad y homocedasticidad. Este MANOVA es similar al análisis ANOVA para un factor, pero con varias variables distintas. Para i grupos definidos por j variables, siendo la media de cada variable para cada grupo, el contraste de hipótesis que resuelve MANOVA es el siguiente: : 11 = 21 = = ; , >2 1 : ó . Es decir; : 1 : ó . Si aceptamos la hipótesis nula, todas las variables tienen la misma media en todos los grupos y no son capaces de discriminar entre grupos; no tiene sentido realizar un análisis discriminante. Si rechazamos la hipótesis nula significa que al menos una variable puede discriminar entre grupos, en cuyo caso sí tiene sentido proceder a realizar un análisis discriminante. La hipótesis nula no es sencilla y sólo puede ser aproximada, excepto en unos casos de pocas dimensiones. La mejor aproximación de la lambda de Wilks. Otro estadístico muy útil es la Correlación Canónica (entre variables canónicas). Ambos varían entre 0 y 1. El análisis discriminante genera a su vez dos tipos de funciones; las funciones discriminantes, que permiten contrastar si las variables permiten discriminar grupos, y cuales son las que mejor discriminan, y las funciones de clasificación, una para cada grupo preexistente, que permiten clasificar a nuevos individuos. La Lambda de Wilks es el estadístico más útil para resolver análisis MANOVA. Varia entre 0 y 1. Mide el poder discriminante de un conjunto de variables. Cuanto más

description

Estadística

Transcript of Analisis_Discriminante

Page 1: Analisis_Discriminante

MANOVA y Análisis Discriminante Diseño Experimental y Análisis de Datos

35

6.- MANOVA y Análisis Discriminante

Se realiza un análisis discriminante cuando tenemos un conjunto de observaciones, con varias variables que las definen (igual que en componentes principales y cluster) para dos objetivos distintos (pero nunca para formar grupos):

Comprobar que las variables utilizadadas discriminan entre grupos ya establecidos, y distinguir cual o cuales discriminan mejor.

Predecir la pertenencia de una observación a un grupo de los establecidos naturales. Si desconocemos los grupos que deben formarse, pero debemos realizar un

análisis discriminante, debemos previamente realizar un análisis de componentes principales para establecer los grupos naturales.

Para comprobar que es coherente realizar con los datos un análisis

discriminante, debemos realizar siempre un análisis previo; MANOVA (Multivariant ANalyse Of VAriance). Debemos suponer normalidad y homocedasticidad. Este MANOVA es similar al análisis ANOVA para un factor, pero con varias variables distintas. Para i grupos definidos por j variables, siendo 𝜇𝑖𝑗 la media de cada variable

para cada grupo, el contraste de hipótesis que resuelve MANOVA es el siguiente:

𝐻𝑜 : 𝜇11 = 𝜇21 = ⋯ = 𝜇𝑛𝑟 ; 𝑐𝑜𝑛 𝑛, 𝑟 > 2𝐻1: 𝑁𝑜 𝑒𝑠 𝑐𝑖𝑒𝑟𝑡𝑎 𝑙𝑎 𝑕𝑖𝑝ó𝑡𝑒𝑠𝑖𝑠 𝑛𝑢𝑙𝑎.

Es decir;

𝐻𝑜 : 𝑙𝑎𝑠 𝑚𝑒𝑑𝑖𝑎𝑠 𝑑𝑒 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑒𝑛 𝑡𝑜𝑑𝑜𝑠 𝑙𝑜𝑠 𝑔𝑟𝑢𝑝𝑜𝑠

𝑠𝑜𝑛 𝑖𝑔𝑢𝑎𝑙𝑒𝑠𝐻1: 𝑁𝑜 𝑒𝑠 𝑐𝑖𝑒𝑟𝑡𝑎 𝑙𝑎 𝑕𝑖𝑝ó𝑡𝑒𝑠𝑖𝑠 𝑛𝑢𝑙𝑎.

Si aceptamos la hipótesis nula, todas las variables tienen la misma media en

todos los grupos y no son capaces de discriminar entre grupos; no tiene sentido realizar un análisis discriminante.

Si rechazamos la hipótesis nula significa que al menos una variable puede discriminar entre grupos, en cuyo caso sí tiene sentido proceder a realizar un análisis discriminante.

La hipótesis nula no es sencilla y sólo puede ser aproximada, excepto en unos

casos de pocas dimensiones. La mejor aproximación de la lambda de Wilks. Otro estadístico muy útil es la Correlación Canónica (entre variables canónicas). Ambos varían entre 0 y 1.

El análisis discriminante genera a su vez dos tipos de funciones; las funciones discriminantes, que permiten contrastar si las variables permiten discriminar grupos, y cuales son las que mejor discriminan, y las funciones de clasificación, una para cada grupo preexistente, que permiten clasificar a nuevos individuos.

La Lambda de Wilks es el estadístico más útil para resolver análisis MANOVA.

Varia entre 0 y 1. Mide el poder discriminante de un conjunto de variables. Cuanto más

Page 2: Analisis_Discriminante

MANOVA y Análisis Discriminante Diseño Experimental y Análisis de Datos

36

próximo a 0, más potente será el análisis discriminante, puesto que la varianza entre grupos (between) será muy alta, mientras que la varianza dentro de los grupos (within) será muy baja. La fórmula de este estadístico es aproximadamente:

𝐿𝑎𝑚𝑏𝑑𝑎 𝑑𝑒 𝑊𝑖𝑙𝑘𝑠 =𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑒𝑛𝑡𝑟𝑜 𝑑𝑒 𝑙𝑜𝑠 𝑔𝑟𝑢𝑝𝑜𝑠

𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑒𝑛𝑡𝑟𝑜 𝑑𝑒 𝑙𝑜𝑠 𝑔𝑟𝑢𝑝𝑜𝑠 + 𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑒𝑛𝑡𝑟𝑒 𝑙𝑜𝑠 𝑔𝑟𝑢𝑝𝑜𝑠

Las funciones discriminantes (FD) son combinaciones lineales de las variables

predictoras (similares a los componentes principales, pero no son la misma), donde cada variable viene acompañada de un coeficiente o peso (b). Son funciones de la forma (para m variables x):

𝐹𝐷 = 𝑏1. 𝑥1 + ⋯+ 𝑏𝑚 . 𝑥𝑚

El número de funciones discriminantes que se pueden construír corresponde al

mínimo entre el número de variables y el número de grupos que existen menos uno. Este número no hace falta calcularlo; corresponde al número de funciones discriminantes que construye el programa. Cuantas menos funciones se creen menor es la potencia del análisis.

Esta función informa sobre la partición de cada variable independiente en la discriminación a través de sus pesos; la variable que más discrimina es la de mayor coeficiente (valor absoluto) en la función discriminante que más discrimina, es decir, la primera. Al igual que en los componentes principales, el programa construye las funciones de mayor a menor cantidad de información (porcentaje de variabilidad explicada por la función).

Cada función discriminante tendrá su correlación canónica, y dependerá de un contraste de hipótesis de la siguiente forma:

𝐻𝑜 : 𝐿𝑎 𝑓𝑢𝑛𝑐𝑖ó𝑛 𝐹𝐷 𝑛𝑜 𝑑𝑖𝑠𝑐𝑟𝑖𝑚𝑖𝑛𝑎𝐻1: 𝑁𝑜 𝑒𝑠 𝑐𝑖𝑒𝑟𝑡𝑎 𝑙𝑎 𝑕𝑖𝑝ó𝑡𝑒𝑠𝑖𝑠 𝑛𝑢𝑙𝑎.

En caso de aceptación de la hipótesis nula, la función discriminante en

cuestión no discrimina, y por lo tanto debe salir del análisis. Este contraste de hipótesis se resuelve con el estadístico chi-cuadrado.

Si rechazamos la hipótesis nula podemos trabajar con la función discriminante que corresponda.

La correlación canónica es similar a la correlación pero adaptada para variables

canónicas. Varía entre 0 y 1. La correlación canónica se obtiene calculando las funciones discriminantes de cada individuo de todos los grupos, para hallar el centroide (valor medio) de cada grupo. Cuanto más próximo a 1, más potente será el análisis, puesto que los centroides de los distintos grupos serán muy distantes.

Las funciones de clasificación (FC) sirven para clasificar nuevas observaciones

en uno de los grupos. Sólo serán útiles si las variables discriminan, es decir, si rechazamos las hipótesis nulas de los contrastes de las funciones discriminantes. Existirá una función de clasificación para cada grupo. Se trata de combinaciones lineales de las variables utilizadas, de la siguiente forma:

Page 3: Analisis_Discriminante

MANOVA y Análisis Discriminante Diseño Experimental y Análisis de Datos

37

𝐹𝐶 = 𝑐 + 𝑏1. 𝑥1 + ⋯+ 𝑏𝑚 . 𝑥𝑚

Una nueva observación (o individuo) pertenecerá al grupo con mayor valor en

la función de clasificación (introduciendo en dicha función los valores de las variables de esta observación).

A/ MANOVA en Statgrafic plus 5.1: En el fichero de datos hemos creado una columna para cada variable (igual que

en componentes principales), y además una columna de código donde introducimos los códigos que diferencian a los grupos. Para el ejercicio DC1:

Clicamos en “Menú” en “Avanzado” / “Regresión Avanzada” / “Modelos

Lineales Generales…”. En la pantalla que aparece introducimos las variables en “Variables dependientes:” y la columna de código en “Factores categóricos:”. No debemos rellenar ningún otro espacio. Para el ejercicio DC1:

En la siguiente ventana que aparece, “Especificaciones del Modelo GLM”

clicamos simplemente aceptar sin modificar nada. Entonces aparece el análisis de modelos lineales generales, pero no el MANOVA. Para ver el manova no debemos ir a opciones tabulares, sino que debemos clicar en el botón derecho en la ventana del análisis y seleccionar “Opciones de Análisis”; en la ventana que aparece seleccionamos

Page 4: Analisis_Discriminante

MANOVA y Análisis Discriminante Diseño Experimental y Análisis de Datos

38

la opción de “Incluír MANOVA”. Los resultados del MANOVA aparecen entonces en la misma ventana, al final del análisis. Para el ejercicio DC1:

Para el examen sólo utilizaremos los valores de la primera línea, “lambda de

Wilks”. Nos aparece el valor de lambda de Wilks, del estadístico F (Fischer) y el p-valor para el contraste de hipótesis del MANOVA.

En este ejercicio sí tiene sentido realizar un análisis discriminante para los grupos “estadío” propuestos.

B/ Análisis Discriminante en Statgrafic plus 5.1: Una vez realizado en análisis MANOVA preliminar podemos proceder a realizar

el análisis discriminante. Lo encontraremos en el “Menú” en “Avanzado” / “Métodos Multivariables” / “Análisis Discriminante…”. Introducimos las columas de las variables en el campo “Datos:” y la columna de código (estadío en DC1) en el campo “Factor de Clasificación:”, y clicamos aceptar.

A continuación clicamos “Opciones Tabulares” para seleccionar las cuatro primeras opciones, que son: “Resumen del Análisis”, “Funciones de Clasificación” “Funciones Discriminantes” y “Tabla de Clasificación”.

Para ver el gráfico de Funciones Discriminantes (inicialmente puede no verse, si sólo existe una FD) clicar en la ventana en el botón derecho, seleccionar “Opciones de Ventana” e introducir 1 en los ambos ejes.

Page 5: Analisis_Discriminante

MANOVA y Análisis Discriminante Diseño Experimental y Análisis de Datos

39

El “Resumen del Análisis” nos da los valores de Correlación Canónica, chi-

cuadrado y p-valor para el contraste de cada función discriminante. Nos sirve para determinar si estas funciones sirven para discriminar, y por lo tanto, si es coherente el análisis. Para el ejercicio DC1 (una única FD):

Las ventanas de “Funciones de Clasificación” y “Funciones Discriminantes” dan

los valores de los coeficientes y las constantes de estas funciones.

FD1

Page 6: Analisis_Discriminante

MANOVA y Análisis Discriminante Diseño Experimental y Análisis de Datos

40

Para las funciones discriminantes utilizaremos siempre los coeficientes estandarizados. Son de hecho los que utiliza el StatAdvisor para construír la primera función discriminante a modo de ejemplo (en este caso del ejercicio DC1 sólo existe una función discriminante pero puede haber más de una).

En cuanto a las funciones de Clasificación, obtendremos una por cada grupo

existente. Para el ejercicio DC1:

Al igual que en las funciones discriminantes, el StatAdvisor nos construye la

primera función de clasificación a modo de ejemplo. Finalmente, consultamos la Tabla de Clasificación para ver las predicciones que

ha realizado el análisis para observaciones no clasificadas. Escribimos los valores de las variables de las observaciones cuyo grupo de pertenencia debe ser predicho, en las últimas filas del fichero, en las columnas vacías (como en regresión), dejando en blanco la casilla de código. Para el ejercicio DC1:

(…)

FC1

FC2

Sin agrupar (predicción)

Page 7: Analisis_Discriminante

MANOVA y Análisis Discriminante Diseño Experimental y Análisis de Datos

41

(…)

En la tabla de clasificación el programa calcula las funciones de clasificación para todas

las observaciones (que ha utilizado para construir las mismas funciones), y las clasifica a partir de los valores obtenidos. En algunas observaciones las funciones de clasificación pueden equivocarse; los datos de los errores totales (en %) cometidos aparecen en la primera tabla de la ventana.

En la segunda tabla aparecen los grupos en los que se clasifica cada observación a través de la función de clasificación, y los valores obtenidos en dicha función (también aparece la segunda opción y el valor de la función para ese grupo segundo más probable). En esta misma tabla, al final, aparece la predicción que realiza el programa para las observaciones no agrupadas. En este caso (ejercicio DC1) introduce al individuo (215,07 ; 147,31) en el grupo 1 y al individuo (248,13 ; 154,01) en el grupo 2.

predicción