Análisis-discriminante

26
Análisis discriminante. Es una generalización de la regresión logística Es un método que permite clasificar nuevos individuos en grupos apriorimente formados. Ejemplo Iris. X1 largo de sepalos X2 ancho de sepalos X3 largo de petalos Grupo : setosa Versicolor Virginca Si , la función discrimínate es lineal 1 2

description

discriminante

Transcript of Análisis-discriminante

Page 1: Análisis-discriminante

Análisis discriminante.

Es una generalización de la regresión logísticaEs un método que permite clasificar nuevos individuos en grupos apriorimente formados.EjemploIris.X1 largo de sepalosX2 ancho de sepalosX3 largo de petalos

Grupo : setosaVersicolorVirginca

Si , la función discrimínate es lineal1

2

Page 2: Análisis-discriminante

3

Page 3: Análisis-discriminante

Prueba de igualdad de mediasX1 longitud de sepalo

P=sig=0,000<0.05 se acepta Ha

Prueba de igualdad de mediasX2 ancho de sepalo

P=sig=0,000<0.05 se acepta Ha

Prueba de igualdad de mediasX3 largo de petalos

Page 4: Análisis-discriminante

P=sig=0,000<0.05 se acepta Ha

Graf

A menor valor de lambda de wilks (lambda cercano a cero) mayor poder discriminante.Lambda de wilks de x3 es menor que las demás variables entonces x3 presenta mayor discriminante.A mayor F mayor poder discriminate

Prueba de M de box¿qué función discriminante es la más adecuada?

P=sig=0.000<0.05 se acepta Ha

F1 es la más adecuada

Están en su propia escala

Page 5: Análisis-discriminante

Tiene una escala tipificada (estandarizada)

Centroides

Función discriminante canónica

Page 6: Análisis-discriminante

Reemplazando medias para setosa, versicolor y virginica en la función canónicaSetosa

Versicolorvirginica

Ejemplo:X1=5.4X2=3.9X3=1.7

Page 7: Análisis-discriminante
Page 8: Análisis-discriminante

Se nota q f1 discrimina mejor q f2 por otro lado entre versicolor y virginica se puede tener error

Page 9: Análisis-discriminante

Análisis de clúster

Técnica multivariado para agrupar eltos con características similares (estratos, segmentos, clases, taxonomía,…)

Agrupan casos(sujetos, países, plantas,…)

Grupo homogéneo→mínima distancia (variables cuantitativas). → máxima similitud (variables cualitativa).

Agrupamiento de Variables.

Para formar grupos homogéneos Existen dos métodos de clúster: jerárquicos (se desconoce el número de grupos a formar) Métodos:Aglomerativos: Todos los sujetos son grupos diferentes y luego se agrupan de acuerdo con sus similitudes.Método de vecino más cercano, vecino más lejano, …Disociativos: se asume al inicio como un solo grupo y paso a paso se extrae los sujetos con características diferentesMétodo ward no jerárquicos (se conoce de antemano el número de grupos a establecer).Método K-medias.

Ejemplo supongamos que se ha evaluado las competencias académicas de 5 docentes en los siguientes indicadores

profesor X1 X2 X3 X4

A 0 0 0 0

B 9 0 0 0

C

D

E

Sup la sigte matríz de distanciasA B C D E

A 0B 9 0

D= C 3 7 0D 6 5 9 0E 11 10 2 8 0

Page 10: Análisis-discriminante

Utilizando el método jerárquico de vecino más cercano. d(E,C)=2 forman el primer clúster.

A B EC DA 0B 9 0

D1= EC 3 7 0D 6 5 8 0

PASO 2 EC y AA B D

A(EC) 0D2= B 9 0

D 6 5 0

PASO 3 D y B

A BDD3= A(EC) 0

B D 0

Dendograma

Page 11: Análisis-discriminante

Ejemplo con spss mundo2.savClúster jerárquico

Los países son casos

Page 12: Análisis-discriminante

Y aceptarCluster

Page 13: Análisis-discriminante

Se ven 3 grupos Ahora de nuevo sabiendo el número de grupos

Continuar y aceptar

Page 14: Análisis-discriminante

Vemos si las variables sirven para discriminar

Var: Averange linkageRango: min=1 y max=3Pasamos la varialbles seleccionadas.Cont y aceptar

Page 15: Análisis-discriminante

De acuerdo a la significancia se ve que se pueden quitar 3 variables que no son necesarias.Mejorando Ana-clas-cluste jeEliminamos pobl, ingesta, natalidad.Se repite todoEn método vecino más cercano

Ejemplo spss 2: distritos peruanos.sav(si las variables dan la misma información osea presentan relación entre variables se agrupan usando un análisis factorial)

1 generamos nuevas variables independientes. (Ana Fact) En otro caso donde se aplica primero ana fact cuando p>o =30

Page 16: Análisis-discriminante

Pasamos todas las variables cuantitativas

Cont y aceptar

Page 17: Análisis-discriminante

Se encuentran 3 nuevas variablesAna-class-cluster j.

Page 18: Análisis-discriminante

Aceptar

Page 19: Análisis-discriminante
Page 20: Análisis-discriminante

Ana-clas-cl j

Datos-ordenar

Las variables cualitativas se usan para el clúster con los factores hallados

Ana-clas-clu j

Page 21: Análisis-discriminante

En los casos de muchas variables se recomienda el método de WardLas variabales puede ser correlaciones, coseno, ..

Las dos primeras para casosLas dos siguientes variables cuantitativasCasos o var cualitativas : chebychev y minkowski

Page 22: Análisis-discriminante

Análisis de clúster no jerárquicoEl número de clúster está definido a priori K=5Técnica K-medias

Page 23: Análisis-discriminante

Correlación canónica: analiza la relación entre factores

Se tiene:

var independiente → (factores)

¿existe relación?

var dependiente → (factores)

Satisf.savSe selecciona de acuerdo a las variables

Definir

Page 24: Análisis-discriminante

Pasamos las “Y” y definimos rangos

SigPasamos las X y definimos rango de cada una de ellas

Page 25: Análisis-discriminante

Opciones

Cont-aceptar

1.347 el modelo es adecuado (máximo es 2 por en número de dimensiones)

Page 26: Análisis-discriminante

La suma mide la importancia a mayor suma mayor importancia

Relación entre variablesCorrelación múltiple:

Datos-ponderar casos-mediante-frecuencia (aceptar)Ana-reducción de dimensión –escalonamiento