sesion 10 [Modo de compatibilidad] - Universidad de … · Análisis de dependencias introducción...

108
ANÁLISIS DISCRIMINANTE

Transcript of sesion 10 [Modo de compatibilidad] - Universidad de … · Análisis de dependencias introducción...

ANÁLISIS DISCRIMINANTE

ÁANÁLISIS DISCRIMINANTE

1. Introducción

2 Etapas2. Etapas

3. Caso práctico

Análisis de dependenciasintroducción

variasrelaciones

unarelación

1 variable dependiente

> 1 variabledependiente

dependenciamétrica

dependenciano métrica

dependenciamétrica

dependenciano métricamétrica no métrica métrica no métrica

independencia independenciaindependenciano métrica

independenciamétrica

ecuacionesestructurales

regresiónmúltiple

análisisdiscriminante

Regresiónlogística MANOVA correlación

canónicaestructurales múltiple discriminante logística canónica

Técnica de clasificación.introducción

A d d l dif i t- Ayuda a comprender las diferencias entre grupos.

Técnica de clasificación.introducción

A d d l dif i t- Ayuda a comprender las diferencias entre grupos.

- Explica, en función de variables métricas observadas,porqué los casos de estudio se encuentran asociados adistintos niveles de un factordistintos niveles de un factor.

Técnica de clasificación.introducción

A d d l dif i t- Ayuda a comprender las diferencias entre grupos.

- Explica, en función de variables métricas observadas,porqué los casos de estudio se encuentran asociados adistintos niveles de un factordistintos niveles de un factor.

- Puede ser descriptivo o predictivo.

Técnica de clasificación.introducción

A d d l dif i t- Ayuda a comprender las diferencias entre grupos.

- Explica, en función de variables métricas observadas,porqué los casos de estudio se encuentran asociados adistintos niveles de un factordistintos niveles de un factor.

- Puede ser descriptivo o predictivo.

- Necesita que los grupos sean conocidos a priori.

Análisis discriminante descriptivo.introducción

p

Obj ti C t i l d t i- Objetivo. Caracterizar los productores caprinospampeanos.

Análisis discriminante descriptivo.introducción

p

Obj ti C t i l d t i- Objetivo. Caracterizar los productores caprinospampeanos.

- Diseño. Una muestra aleatoria de 100 productorescaprinos pampeanos y 100 no pampeanos; y se tomancaprinos pampeanos y 100 no pampeanos; y se tomandatos del sistema de producción, sus resultados técnicosy económicos.

Análisis discriminante descriptivo.introducción

p

Obj ti C t i l d t i- Objetivo. Caracterizar los productores caprinospampeanos.

- Diseño. Una muestra aleatoria de 100 productorescaprinos pampeanos y 100 no pampeanos; y se tomancaprinos pampeanos y 100 no pampeanos; y se tomandatos del sistema de producción, sus resultados técnicosy económicos.

Resultado El análisis discriminante establecerá la- Resultado. El análisis discriminante establecerá laimportancia relativa de cada variable permitiendo orientarmejor la política provincial.

Análisis discriminante descriptivo.introducción

p

Obj ti V l d é d d l fid lid d d- Objetivo. Valorar de qué depende la fidelidad de unganadero a una determinada fábrica de balanceado.

Análisis discriminante descriptivo.introducción

p

Obj ti V l d é d d l fid lid d d- Objetivo. Valorar de qué depende la fidelidad de unganadero a una determinada fábrica de balanceado.

- Diseño. Se encuesta a 30 ganaderos sobre la posibilidadde cambiar de balanceado y sobre la percepción quede cambiar de balanceado y sobre la percepción quetienen de su servicio (precio, distribución, etc.).

Análisis discriminante descriptivo.introducción

p

Obj ti V l d é d d l fid lid d d- Objetivo. Valorar de qué depende la fidelidad de unganadero a una determinada fábrica de balanceado.

- Diseño. Se encuesta a 30 ganaderos sobre la posibilidadde cambiar de balanceado y sobre la percepción quede cambiar de balanceado y sobre la percepción quetienen de su servicio (precio, distribución, etc.).

- Resultado. El análisis permitirá conocer la importanciarelativa del servicio en la fidelidad del clienterelativa del servicio en la fidelidad del cliente.

Análisis discriminante predictivo.introducción

p

Obj ti P l i d id d l ti l- Objetivo. Prever el riesgo de morosidad relativa a lospréstamos en una entidad bancaria.

Análisis discriminante predictivo.introducción

p

Obj ti P l i d id d l ti l- Objetivo. Prever el riesgo de morosidad relativa a lospréstamos en una entidad bancaria.

- Diseño. En el fichero de clientes morosos y no morososse observan variables cuantitativas potencialmentese observan variables cuantitativas potencialmenteexplicativas: renta total, edad, créditos adicionales, añosde estabilidad laboral, ....

Análisis discriminante predictivo.introducción

p

Obj ti P l i d id d l ti l- Objetivo. Prever el riesgo de morosidad relativa a lospréstamos en una entidad bancaria.

- Diseño. En el fichero de clientes morosos y no morososse observan variables cuantitativas potencialmentese observan variables cuantitativas potencialmenteexplicativas: renta total, edad, créditos adicionales, añosde estabilidad laboral, ....

Resultado El análisis permitirá anticipar el riesgo de- Resultado. El análisis permitirá anticipar el riesgo demorosidad de nuevos clientes.

¿Cuáles son los factores que influyen en el desarrollo de la

introducción

¿Cuáles son los factores que influyen en el desarrollo de la fiebre aftosa? ¿Es posible predecir de antemano que

una explotación corre riesgo?p g

¿Cuáles son los factores que influyen en el desarrollo de la

introducción

¿Cuáles son los factores que influyen en el desarrollo de la fiebre aftosa? ¿Es posible predecir de antemano que

una explotación corre riesgo?p g

¿Se puede predecir de antemano si un frigorífico no va a cumplir la reglamentación sanitaria?

¿Cuáles son los factores que influyen en el desarrollo de la

introducción

¿Cuáles son los factores que influyen en el desarrollo de la fiebre aftosa? ¿Es posible predecir de antemano que

una explotación corre riesgo?p g

¿Se puede predecir de antemano si un frigorífico no va a cumplir la reglamentación sanitaria?

S d d i i l t ió b ?¿Se puede predecir si una explotación va a quebrar?

¿Cuáles son los factores que influyen en el desarrollo de la

introducción

¿Cuáles son los factores que influyen en el desarrollo de la fiebre aftosa? ¿Es posible predecir de antemano que

una explotación corre riesgo?p g

¿Se puede predecir de antemano si un frigorífico no va a cumplir la reglamentación sanitaria?

S d d i i l t ió b ?¿Se puede predecir si una explotación va a quebrar?

¿Cuáles son las razones que llevan a un consumidor a¿Cuáles son las razones que llevan a un consumidor a preferir una determinada raza sobre otras existentes en

el mercado?

¿Cuáles son los factores que influyen en el desarrollo de la

introducción

¿Cuáles son los factores que influyen en el desarrollo de la fiebre aftosa? ¿Es posible predecir de antemano que

una explotación corre riesgo?p g

¿Se puede predecir de antemano si un frigorífico no va a cumplir la reglamentación sanitaria?

S d d i i l t ió b ?¿Se puede predecir si una explotación va a quebrar?

¿Cuáles son las razones que llevan a un consumidor a¿Cuáles son las razones que llevan a un consumidor a preferir una determinada raza sobre otras existentes en

el mercado?

¿Existe discriminación por razones de sexo o de raza en la Universidad?

Etapas del análisis discriminante.introducción

p

1 Pl t i t d l bl1. Planteamiento del problema

2. Selección de variables dependiente e independientes

3. Selección del tamaño muestral

4. Comprobación de las hipótesis de partidap p p

5. Estimación del modelo

6 Validación de las funciones discriminantes6. Validación de las funciones discriminantes

7. Contribución de las variables a la capacidad discriminante

8. Valoración de la capacidad predictiva

9. Selección de variables

1. Planteamiento del problema.planteamiento del problema

n casos divididos en q grupos que constituyen una- n casos divididos en q grupos que constituyen unapartición de la población de la que dichos casos proceden(o dos poblaciones)

1. Planteamiento del problema.planteamiento del problema

n casos divididos en q grupos que constituyen una- n casos divididos en q grupos que constituyen unapartición de la población de la que dichos casos proceden(o dos poblaciones)

- Y=(Y1,...,Yp) es el conjunto de variables numéricasobservadas sobre dichos casos

1. Planteamiento del problema.planteamiento del problema

n casos divididos en q grupos que constituyen una- n casos divididos en q grupos que constituyen unapartición de la población de la que dichos casos proceden(o dos poblaciones)

- Y=(Y1,...,Yp) es el conjunto de variables numéricasobservadas sobre dichos casos

- Los objetivos del análisis discriminante pueden ser:

- Analizar si existen diferencias entre los gruposAnalizar si existen diferencias entre los gruposrespecto a las variables consideradas y averiguar enqué sentido

1. Planteamiento del problema.planteamiento del problema

n casos divididos en q grupos que constituyen una- n casos divididos en q grupos que constituyen unapartición de la población de la que dichos casos proceden(o dos poblaciones)

- Y=(Y1,...,Yp) es el conjunto de variables numéricasobservadas sobre dichos casos

- Los objetivos del análisis discriminante pueden ser:

- Analizar si existen diferencias entre los gruposAnalizar si existen diferencias entre los gruposrespecto a las variables consideradas y averiguar enqué sentido

- Elaborar procedimientos de clasificación sistemáticade individuos de origen desconocido

Ejemplo.planteamiento del problema

- La Universidad desea establecer las diferencias entre dosrazas bovinas.

- Para ello, estudia 8 variables morfológicas en 1000animales de 30 explotaciones.

Ejemploplanteamiento del problema

El objetivo es determinar si existen diferencias en ambas- El objetivo es determinar si existen diferencias en ambasrazas, y en caso de que existan determinar en qué sentidose dan dichas diferencias.

Ejemploplanteamiento del problema

El objetivo es determinar si existen diferencias en ambas- El objetivo es determinar si existen diferencias en ambasrazas, y en caso de que existan determinar en qué sentidose dan dichas diferencias.

- En este caso:

- Variables independientes: 8 medidas biométricas- Variables independientes: 8 medidas biométricas

Ejemploplanteamiento del problema

El objetivo es determinar si existen diferencias en ambas- El objetivo es determinar si existen diferencias en ambasrazas, y en caso de que existan determinar en qué sentidose dan dichas diferencias.

- En este caso:

- Variables independientes: 8 medidas biométricas- Variables independientes: 8 medidas biométricas

- Variable dependiente: raza (braford vs aberdeen)

Ejemploplanteamiento del problema

El objetivo es determinar si existen diferencias en ambas- El objetivo es determinar si existen diferencias en ambasrazas, y en caso de que existan determinar en qué sentidose dan dichas diferencias.

- En este caso:

- Variables independientes: 8 medidas biométricas- Variables independientes: 8 medidas biométricas

- Variable dependiente: raza (braford vs aberdeen)

- n = n1 + n2; 1000 = 600 braford + 400 aberdeen

Ejemploplanteamiento del problema

El objetivo es determinar si existen diferencias en ambas- El objetivo es determinar si existen diferencias en ambasrazas, y en caso de que existan determinar en qué sentidose dan dichas diferencias.

- En este caso:

- Variables independientes: 8 medidas biométricas- Variables independientes: 8 medidas biométricas

- Variable dependiente: raza (braford vs aberdeen)

- n = n1 + n2; 1000 = 600 braford + 400 aberdeen

- El fin último es encontrar una regla que permita clasificaradecuadamente nuevos animales

planteamiento del problema

Clasificación

Necesita que los grupos sea conocidos a priori

Elaboración de funciones matemáticas Reglas de Clasificación

n1 + n2 = n

M did 8 i bl l t in n2Medidas 8 variables aleatorias

Perfil de cada población

n1n2

Población A Población B

Perfil de cada población

E ∈ A o BPoblación A(braford)

Población B(aberdeen)

Ei ∈ A o B

2. Selección de variables.selección de variables

La variable dependiente debe ser no métrica- La variable dependiente debe ser no métrica

2. Selección de variables.selección de variables

La variable dependiente debe ser no métrica- La variable dependiente debe ser no métrica

- Los grupos deben ser mutuamente excluyentes

2. Selección de variables.selección de variables

La variable dependiente debe ser no métrica- La variable dependiente debe ser no métrica

- Los grupos deben ser mutuamente excluyentes

- Puede ser métrica en origen

- P.e. Superficie: pequeña, mediana, grande

2. Selección de variables.selección de variables

La variable dependiente debe ser no métrica- La variable dependiente debe ser no métrica

- Los grupos deben ser mutuamente excluyentes

- Puede ser métrica en origen

- P.e. Superficie: pequeña, mediana, grande

- La decisión sobre el número de categorías:

2. Selección de variables.selección de variables

La variable dependiente debe ser no métrica- La variable dependiente debe ser no métrica

- Los grupos deben ser mutuamente excluyentes

- Puede ser métrica en origen

- P.e. Superficie: pequeña, mediana, grande

- La decisión sobre el número de categorías:

- Debe ajustarse al poder discriminante de losDebe ajustarse al poder discriminante de lospredictores

2. Selección de variables.selección de variables

La variable dependiente debe ser no métrica- La variable dependiente debe ser no métrica

- Los grupos deben ser mutuamente excluyentes

- Puede ser métrica en origen

- P.e. Superficie: pequeña, mediana, grande

- La decisión sobre el número de categorías:

- Debe ajustarse al poder discriminante de losDebe ajustarse al poder discriminante de lospredictores

- Puede observarse en etapas sucesivas y optar sóloPuede observarse en etapas sucesivas y optar sólopor el enfoque de extremos polares

2. Selección de variables.selección de variables

La variable dependiente debe ser no métrica- La variable dependiente debe ser no métrica

- Los grupos deben ser mutuamente excluyentes

- Puede ser métrica en origen

- P.e. Superficie: pequeña, mediana, grande

- La decisión sobre el número de categorías:

- Debe ajustarse al poder discriminante de losDebe ajustarse al poder discriminante de lospredictores

- Puede observarse en etapas sucesivas y optar sóloPuede observarse en etapas sucesivas y optar sólopor el enfoque de extremos polares

- P.e. Superficie: pequeña o grandeP.e. Superficie: pequeña o grande

3. Selección del tamaño muestral.selección de variables

Alta sensibilidad al tamaño muestral- Alta sensibilidad al tamaño muestral.

3. Selección del tamaño muestral.selección de variables

Alta sensibilidad al tamaño muestral- Alta sensibilidad al tamaño muestral.

- Por lo menos 5 casos por variable independiente.

3. Selección del tamaño muestral.selección de variables

Alta sensibilidad al tamaño muestral- Alta sensibilidad al tamaño muestral.

- Por lo menos 5 casos por variable independiente.

- Ideal, 20 casos por variable.

3. Selección del tamaño muestral.selección de variables

Alta sensibilidad al tamaño muestral- Alta sensibilidad al tamaño muestral.

- Por lo menos 5 casos por variable independiente.

- Ideal, 20 casos por variable.

- Alta sensibilidad al tamaño de los grupos.

3. Selección del tamaño muestral.selección de variables

Alta sensibilidad al tamaño muestral- Alta sensibilidad al tamaño muestral.

- Por lo menos 5 casos por variable independiente.

- Ideal, 20 casos por variable.

- Alta sensibilidad al tamaño de los grupos.

- No es necesario que los grupos tengan el mismo númeroNo es necesario que los grupos tengan el mismo númerode casos, aunque es recomendable.

3. Selección del tamaño muestral.selección de variables

Alta sensibilidad al tamaño muestral- Alta sensibilidad al tamaño muestral.

- Por lo menos 5 casos por variable independiente.

- Ideal, 20 casos por variable.

- Alta sensibilidad al tamaño de los grupos.

- No es necesario que los grupos tengan el mismo númeroNo es necesario que los grupos tengan el mismo númerode casos, aunque es recomendable.

- El más pequeño de los grupos debe tener más casos queEl más pequeño de los grupos debe tener más casos quevariables independientes.

4. Comprobación de las hipótesis.selección de variables

Normalidad multivariante Si no se cumple hay que usar un- Normalidad multivariante. Si no se cumple hay que usar unmodelo de regresión logística.

4. Comprobación de las hipótesis.selección de variables

Normalidad multivariante Si no se cumple hay que usar un- Normalidad multivariante. Si no se cumple hay que usar unmodelo de regresión logística.

- Homocedasticidad multivariante (matrices de varianzas–covarianzas similares) Si no se cumple hay que usar técnicascovarianzas similares). Si no se cumple hay que usar técnicasde clasificación cuadráticas.

4. Comprobación de las hipótesis.selección de variables

Normalidad multivariante Si no se cumple hay que usar un- Normalidad multivariante. Si no se cumple hay que usar unmodelo de regresión logística.

- Homocedasticidad multivariante (matrices de varianzas–covarianzas similares) Si no se cumple hay que usar técnicascovarianzas similares). Si no se cumple hay que usar técnicasde clasificación cuadráticas.

- Multicolinealidad. Causará problemas en la interpretación.

5. Estimación del modelo.estimación del modelo

La discriminación entre los q grupos se realiza mediante el- La discriminación entre los q grupos se realiza mediante elcálculo de unas funciones matemáticas denominadasfunciones discriminantes.

- Existen varios procedimientos para calcularlas siendo el- Existen varios procedimientos para calcularlas siendo elprocedimiento de Fisher el más utilizado.

El di i t d Fi h t f i

estimación del modelo

- El procedimiento de Fisher toma como funcionesdiscriminantes, combinaciones lineales de las variablesclasificadoras:

Y = u1X1 + u2X2 + ... + upXp = u’X

Y (f ió di i i t ) bi ió li l d l i bl

estimación del modelo

- Y (función discriminante): combinación lineal de las variablesoriginales "X" que:

P t l í i i ió INTRA l- Presente la mínima variación INTRA grupal

- Presente la máxima variación ENTRE grupal

Y (f ió di i i t ) bi ió li l d l i bl

estimación del modelo

- Y (función discriminante): combinación lineal de las variablesoriginales "X" que:

P t l í i i ió INTRA l- Presente la mínima variación INTRA grupal

- Presente la máxima variación ENTRE grupal

- La función discriminante no será única: se parte de unapclasificación en q grupos, se obtendrán varios conjuntos deparámetros, es decir, varias funciones discriminantes (menorde “q 1” o “p”)de q-1 o p )

T

estimación del modelo

Tenemos:

- q grupos: subíndice j; j=1, 2, 3, …, q

T

estimación del modelo

Tenemos:

- q grupos: subíndice j; j=1, 2, 3, …, q

- p variables: 1, 2, 3, …, p

T

estimación del modelo

Tenemos:

- q grupos: subíndice j; j=1, 2, 3, …, q

- p variables: 1, 2, 3, …, p

- n casos: subíndice i; i=1, 2, 3, … n; , , ,

estimación del modelo

M t i d b iMatriz de observaciones:

estimación del modelo

M t i d di d ( j )Matriz de medias de grupo ( grupo = j ):

estimación del modelo

M t i d di t t lMatriz de medias totales:

estimación del modelo

La variación entre grupos:La variación entre grupos:

La variación dentro de grupos:

estimación del modeloHay que maximizar:

F = Variación entre grupos / Variación intra grupos

estimación del modeloHay que maximizar:

F = Variación entre grupos / Variación intra grupos

Pero el objetivo es encontrar los parámetros b:

Y = u1X1 + u2X2 + ... + upXp1 1 2 2 p p

estimación del modeloHay que maximizar:

F = Variación entre grupos / Variación intra grupos

Pero el objetivo es encontrar los parámetros b:

Y = u1X1 + u2X2 + ... + upXp1 1 2 2 p p

Expresamos F en función de u :Expresamos F en función de up:

estimación del modeloHay que maximizar SCE y minimizar SCI:

estimación del modeloHay que maximizar SCE y minimizar SCI:

estimación del modeloHay que maximizar SCE y minimizar SCI:

Hay múltiples parámetros b que maximizan la raíz característica,por lo que siempre vamos a tener más de una solución

validación del modelo

6 Validación de la función discriminante6. Validación de la función discriminante

- T2 de Hooteling

- Autovalores (raíces características)

- Ratio autovalor / suma de autovalores

- Test de Bartlett- Test de Bartlett

- Correlación canónica

- Lambda de Wilks

Autovalores

validación del modelo

Autovalores.- La suma de cuadrados entre grupos de cada función

discriminantediscriminante.

- Debe ser alto.

Autovalores

validación del modelo

Autovalores.- La suma de cuadrados entre grupos de cada función

discriminantediscriminante.

- Debe ser alto.

Ratio autovalor / suma de autovalores.- Indica la capacidad discriminante relativa.

- Toma valores entre 0 y 100Toma valores entre 0 y 100.

- Debe ser alto.

Correlación canónica

validación del modelo

Correlación canónica.- Mide en términos relativos el poder discriminante.

- Es el porcentaje de la variación total en dicha función que esexplicada por las diferencias entre los grupos.

- Toma valores entre 0 y 1.

- Debe ser próximo a 1.

Lambda de Wilks

validación del modelo

Lambda de Wilks.- Es un estadístico que mide el poder discriminante de las

variablesvariables.

- Tiene una distribución lambda de Wilks con p, q-1 y n-qgrados de libertadgrados de libertad.

- Toma valores entre 0 y 1.

D b ó i 0- Debe ser próximo a 0.

Con Statgraphics:

7 Contribución de las variables al modelo

contribución de las variables al modelo

7. Contribución de las variables al modelo.

¿Cuándo incluir o excluir variables en el modelo?

7 Contribución de las variables al modelo

contribución de las variables al modelo

7. Contribución de las variables al modelo.- Este es el aspecto clave del análisis discriminante.

- Hay que encontrar una regla óptima de clasificación con elmenor número de variables (principio de parsimonia)

¿Cuándo incluir o excluir variables en el modelo?

7 Contribución de las variables al modelo

contribución de las variables al modelo

7. Contribución de las variables al modelo.- Este es el aspecto clave del análisis discriminante.

- Hay que encontrar una regla óptima de clasificación con elmenor número de variables (principio de parsimonia)

- La regla óptima de clasificación es la que menos errorescomete con el mínimo número de variables (valoración de lacapacidad predictiva)capacidad predictiva)

¿Cuándo incluir o excluir variables en el modelo?

12,0 Grupo 1G 2

10,0Grupo 2Grupo 3

8,0

le 2

p

6,0

aria

b

2 0

4,0V

0 0

2,0

0,00,0 5,0 10,0 15,0 20,0 25,0

Dispersión de las variables por grupoVariable 1

12,0 Grupo 1G 2

10,0Grupo 2Grupo 3

8,0

le 2

p

6,0

aria

b

2 0

4,0V

0 0

2,0¿Son necesarias todas las variables?

0,00,0 5,0 10,0 15,0 20,0 25,0

Dispersión de las variables por grupoVariable 1

12,0 Grupo 1G 2

10,0Grupo 2Grupo 3

8,0

le 2

p

6,0

aria

b

2 0

4,0V

0 0

2,0

0,00,0 5,0 10,0 15,0 20,0 25,0

Dispersión de las variables por grupoVariable 1

¿son necesarias todas las variables?

¿cuáles variables son mejores?

Comportamiento de tres poblaciones en relación a dos variables

Cuatro indicadores

contribución de las variables al modelo

Cuatro indicadores.

- ANOVA simple de cada variable con la variable dependiente.

- Parámetros estandarizados de la función discriminante.

- Cargas discriminantes: correlación de cada variable con lafunción discriminantefunción discriminante.

- Juicio del investigador.

ANOVA simple. contribución de las variables al modelo

- Se desarrolla a priori y determina inicialmente las variablescandidatas al modelocandidatas al modelo.

ANOVA simple. contribución de las variables al modelo

- Se desarrolla a priori y determina inicialmente las variablescandidatas al modelocandidatas al modelo.

- Las variables que no se segmenten completamente por laagrupación son candidatas a no entrar en el modeloagrupación son candidatas a no entrar en el modelo.

ANOVA simple. contribución de las variables al modelo

- Se desarrolla a priori y determina inicialmente las variablescandidatas al modelocandidatas al modelo.

- Las variables que no se segmenten completamente por laagrupación son candidatas a no entrar en el modeloagrupación son candidatas a no entrar en el modelo.

- CUIDADO: puede ser que la variable sea determinante enalgunos grupos y en otros no.algunos grupos y en otros no.

ANOVA simple. contribución de las variables al modelo

- Se desarrolla a priori y determina inicialmente las variablescandidatas al modelocandidatas al modelo.

- Las variables que no se segmenten completamente por laagrupación son candidatas a no entrar en el modeloagrupación son candidatas a no entrar en el modelo.

- CUIDADO: puede ser que la variable sea determinante enalgunos grupos y en otros no.algunos grupos y en otros no.

- Por ejemplo: Clasificar el resultado neto de explotaciones(negativo, equilibrio o positivo) en función del precio del(negativo, equilibrio o positivo) en función del precio delbalanceado y del precio de la leche.

- Puede ser que el precio de la leche segmenteq p gperfectamente entre negativo y no negativo.

- Y el precio del concentrado discrimine equilibrio dep qpositivo.

Parámetros estandarizados de la función.contribución de las variables al modelo

- Indican el peso relativo y el sentido del efecto de cadap yvariable.

- Interesan pesos absolutos altos.p

Parámetros estandarizados de la función.contribución de las variables al modelo

- Indican el peso relativo y el sentido del efecto de cadap yvariable.

- Interesan pesos absolutos altos.p

Cargas discriminantes.

- Indican la relación lineal entre la variable y la función.

- Interesan correlaciones altas pero no lineales.

8. Valoración de la función predictiva.valoración de la función predictiva

Estimación por resustiución- Estimación por resustiución.

- Estimación por valoración cruzada.

Método de resustituciónvaloración de la función predictiva

Prob (Error 1) = p(2/1)Prob (Error 2) = p(1/2)

Población clasificada por la regla Total

1 2

Población original

1 n11 n12 n1

2 n21 n22 n2

E ti i d l d d b bilid d

n 21n

Estimaciones en exceso de las verdaderas probabilidades

1

12)1/2(ˆnnp =

2

21)2/1(ˆnnp =

Estimación de la probabilidad global de éxitovaloración de la función predictiva

21

2112)(ˆnnnnéxitop

++

=

Población clasificada por la regla Total

1 21 2

Población original

1 18 3 21

2 1 24 25

Número de éxito

18 24éxito

Proporción de éxito

0,857 0,960

3 13+143,0

213)1/2(ˆ ==p04,0

251)2/1(ˆ ==p 913,0

252113)(ˆ =

++

=éxitop

Estimaciones de validación cruzada (Lachenbruch)valoración de la función predictiva

Paso 1.• Eliminar el primer vector de observaciones.

F l l di i i t b d l d t t t• Formular una regla discriminante basada los datos restantes.• Usar la regla para clasificar la primera observación.• Observar si la regla clasifica o no en forma correcta.Observar si la regla clasifica o no en forma correcta.

Paso 2.• Reemplazar la primera observación y eliminar el segundo vector• Reemplazar la primera observación y eliminar el segundo vectorde observaciones.• Formular una regla discriminante basada en los datos restantes.

U l l l ifi l i b ió• Usar la regla para clasificar la primera observación.• Observar si la regla clasifica o no en forma correcta.

Paso 3Paso 3.• Idem hasta el final.

P 4Paso 4.• Crear una tabla igual al método de resustitución.

valoración de la función predictiva

Población clasificada por la regla Total1 2

Población original

1 18 3 21g

2 2 23 25Número de é ito

18 23

éxitoProporción de éxito

0,857 0,920

143,0213)1/2(ˆ ==p08,0

252)2/1(ˆ ==p 891,0

25212318)(ˆ =

++

=éxitop2125 2521+

selección de variables

9 Algoritmos de selección de variables9. Algoritmos de selección de variables.

Forward (eliminación hacia adelante)

Backward (eliminación hacia atrás) – pocas variables

Stepwise (método por pasos)

selección de variables

Selección hacia delanteSelección hacia delante

- Eligen la variable que más discrimina entre los grupos- Eligen la variable que más discrimina entre los grupos.

- A continuación seleccionan la segunda más discriminante yasí sucesivamente.

Si de las variables que quedan por elegir ninguna discrimina- Si de las variables que quedan por elegir ninguna discriminade forma significativa entre los grupos analizados el algoritmofinaliza.

selección de variables

Selección hacia atrásSelección hacia atrás

- El procedimiento es inverso al anterior- El procedimiento es inverso al anterior.

- Comienza suponiendo que todas las variables son necesariaspara discriminar y se elimina la menos discriminante entre losgrupos analizados y así sucesivamente.

- Si las variables no eliminadas discriminan significativamenteentre los grupos analizados el algoritmo finaliza.

- Generalmente selecciona pocas variables.

selección de variablesSelección por pasos

- Utilizan una combinación de los dos algoritmos anteriores.

selección de variablesSelección por pasos

- Utilizan una combinación de los dos algoritmos anteriores.

- Incluyen la posibilidad de:- Eliminar una variable introducida en el conjunto en un

paso anteriorpaso anterior- Introducir una variable eliminada con anterioridad

selección de variablesSelección por pasos

- Utilizan una combinación de los dos algoritmos anteriores.

- Incluyen la posibilidad de:- Eliminar una variable introducida en el conjunto en un

paso anteriorpaso anterior- Introducir una variable eliminada con anterioridad

- Para determinar qué variables entran y salen en cada pasode este tipo de algoritmos se utilizan diversos criterios.

selección de variablesSelección por pasos

- Utilizan una combinación de los dos algoritmos anteriores.

- Incluyen la posibilidad de:- Eliminar una variable introducida en el conjunto en un

paso anteriorpaso anterior- Introducir una variable eliminada con anterioridad

- Para determinar qué variables entran y salen en cada pasode este tipo de algoritmos se utilizan diversos criterios.

L bd d Wilk l á tili d- Lambda de Wilks es el más utilizado

selección de variablesSelección por pasos

- Utilizan una combinación de los dos algoritmos anteriores.

- Incluyen la posibilidad de:- Eliminar una variable introducida en el conjunto en un

paso anteriorpaso anterior- Introducir una variable eliminada con anterioridad

- Para determinar qué variables entran y salen en cada pasode este tipo de algoritmos se utilizan diversos criterios.

L bd d Wilk l á tili d- Lambda de Wilks es el más utilizado- Proporcionar un p-valor de entrada y otro de salida

selección de variablesSelección por pasos

- Utilizan una combinación de los dos algoritmos anteriores.

- Incluyen la posibilidad de:- Eliminar una variable introducida en el conjunto en un

paso anteriorpaso anterior- Introducir una variable eliminada con anterioridad

- Para determinar qué variables entran y salen en cada pasode este tipo de algoritmos se utilizan diversos criterios.

L bd d Wilk l á tili d- Lambda de Wilks es el más utilizado- Proporcionar un p-valor de entrada y otro de salida- Si el p-valor obtenido al introducir una variable no esSi el p valor obtenido al introducir una variable no es

inferior al p-valor de entrada, la variable consideradano entra.Si l l bt id l li i l d l j t d- Si el p-valor obtenido al eliminarla del conjunto dediscriminación no es superior al de salida, la variableconsiderada no sale de dicho conjunto.

selección de variables

Inconvenientes de los procedimientos de selección

- No tienen por qué llegar a la solución óptima

- Utilizan como criterios de selección, criterios de separaciónde grupos y no de clasificacióng p y

- El nivel de significación global es superior al establecido paraentrar y sacar variables debido a la realización simultánea deentrar y sacar variables debido a la realización simultánea devarios test de hipótesis

C á ti

caso práctico

Caso práctico.

1. Construir un modelo discriminante para el estado civil y otropara el género.

2. Construir el mismo modelo utilizando los factores.

3. Interpretar ambos modelos.p

1 Construir un modelo discriminante para la base de datos de1. Construir un modelo discriminante para la base de datos deovino-caprino dominicana.

2 Construir el mismo modelo utilizando los factores2. Construir el mismo modelo utilizando los factores.

3. Interpretar ambos modelos.