Análisis-discriminante

Análisis discriminante.

Es una generalización de la regresión logísticaEs un método que permite clasificar nuevos individuos en grupos apriorimente formados.EjemploIris.X1 largo de sepalosX2 ancho de sepalosX3 largo de petalos

Grupo : setosaVersicolorVirginca

Si , la función discrimínate es lineal1

2

Prueba de igualdad de mediasX1 longitud de sepalo

P=sig=0,000<0.05 se acepta Ha

Prueba de igualdad de mediasX2 ancho de sepalo


Prueba de igualdad de mediasX3 largo de petalos


Graf

A menor valor de lambda de wilks (lambda cercano a cero) mayor poder discriminante.Lambda de wilks de x3 es menor que las demás variables entonces x3 presenta mayor discriminante.A mayor F mayor poder discriminate

Prueba de M de box¿qué función discriminante es la más adecuada?

P=sig=0.000<0.05 se acepta Ha

F1 es la más adecuada

Están en su propia escala

Tiene una escala tipificada (estandarizada)

Centroides

Función discriminante canónica

Reemplazando medias para setosa, versicolor y virginica en la función canónicaSetosa

Versicolorvirginica

Ejemplo:X1=5.4X2=3.9X3=1.7

Se nota q f1 discrimina mejor q f2 por otro lado entre versicolor y virginica se puede tener error

Análisis de clúster

Técnica multivariado para agrupar eltos con características similares (estratos, segmentos, clases, taxonomía,…)

Agrupan casos(sujetos, países, plantas,…)

Grupo homogéneo→mínima distancia (variables cuantitativas). → máxima similitud (variables cualitativa).

Agrupamiento de Variables.

Para formar grupos homogéneos Existen dos métodos de clúster: jerárquicos (se desconoce el número de grupos a formar) Métodos:Aglomerativos: Todos los sujetos son grupos diferentes y luego se agrupan de acuerdo con sus similitudes.Método de vecino más cercano, vecino más lejano, …Disociativos: se asume al inicio como un solo grupo y paso a paso se extrae los sujetos con características diferentesMétodo ward no jerárquicos (se conoce de antemano el número de grupos a establecer).Método K-medias.

Ejemplo supongamos que se ha evaluado las competencias académicas de 5 docentes en los siguientes indicadores

profesor X1 X2 X3 X4

A 0 0 0 0

B 9 0 0 0

C

D

E

Sup la sigte matríz de distanciasA B C D E

A 0B 9 0

D= C 3 7 0D 6 5 9 0E 11 10 2 8 0

Utilizando el método jerárquico de vecino más cercano. d(E,C)=2 forman el primer clúster.

A B EC DA 0B 9 0

D1= EC 3 7 0D 6 5 8 0

PASO 2 EC y AA B D

A(EC) 0D2= B 9 0

D 6 5 0

PASO 3 D y B

A BDD3= A(EC) 0

B D 0

Dendograma

Ejemplo con spss mundo2.savClúster jerárquico

Los países son casos

Y aceptarCluster

Se ven 3 grupos Ahora de nuevo sabiendo el número de grupos

Continuar y aceptar

Vemos si las variables sirven para discriminar

Var: Averange linkageRango: min=1 y max=3Pasamos la varialbles seleccionadas.Cont y aceptar

De acuerdo a la significancia se ve que se pueden quitar 3 variables que no son necesarias.Mejorando Ana-clas-cluste jeEliminamos pobl, ingesta, natalidad.Se repite todoEn método vecino más cercano

Ejemplo spss 2: distritos peruanos.sav(si las variables dan la misma información osea presentan relación entre variables se agrupan usando un análisis factorial)

1 generamos nuevas variables independientes. (Ana Fact) En otro caso donde se aplica primero ana fact cuando p>o =30

Pasamos todas las variables cuantitativas

Cont y aceptar

Se encuentran 3 nuevas variablesAna-class-cluster j.

Aceptar

Ana-clas-cl j

Datos-ordenar

Las variables cualitativas se usan para el clúster con los factores hallados

Ana-clas-clu j

En los casos de muchas variables se recomienda el método de WardLas variabales puede ser correlaciones, coseno, ..

Las dos primeras para casosLas dos siguientes variables cuantitativasCasos o var cualitativas : chebychev y minkowski

Análisis de clúster no jerárquicoEl número de clúster está definido a priori K=5Técnica K-medias

Correlación canónica: analiza la relación entre factores

Se tiene:

var independiente → (factores)

¿existe relación?

var dependiente → (factores)

Satisf.savSe selecciona de acuerdo a las variables

Definir

Pasamos las “Y” y definimos rangos

SigPasamos las X y definimos rango de cada una de ellas

Opciones

Cont-aceptar

1.347 el modelo es adecuado (máximo es 2 por en número de dimensiones)

La suma mide la importancia a mayor suma mayor importancia

Relación entre variablesCorrelación múltiple:

Datos-ponderar casos-mediante-frecuencia (aceptar)Ana-reducción de dimensión –escalonamiento

Análisis-discriminante

Documents

Transcript of Análisis-discriminante