Análisis Multivariante en la Investigación Comercial

download Análisis Multivariante en la Investigación Comercial

of 201

Transcript of Análisis Multivariante en la Investigación Comercial

Anlisis Multivariante en la Investigacin ComercialAsignatura: Investigacin de Mercados II Centro: Universidad Autnoma de Madrid

...............................................................................................1 TEMA 1: EL ANALISIS MULTIVARIANTE EN INVESTIGACION COMERCIAL...............................................................................4 Introduccin..............................................................................................4 Definicin del AM......................................................................................4 Diseos y conceptos bsicos del AM........................................................5 Tratamientos previos de los datos. ..........................................................9 Supuestos del AM...................................................................................11 Clasificacin de los mtodos del AM.......................................................13 Programas Informticos..........................................................................14 Ejercicio 1...............................................................................................14 TEMA 2: EL ANALISIS FACTORIAL..............................................16 Definicin y objetivo del AF. ..................................................................16 Conceptos bsicos..................................................................................17 Distincin entre AF y ACP.......................................................................18 Supuestos del ACP. (Son especficos del ACP)........................................19 Diseo del ACP. (Procedimientos)...........................................................20 Caso practico..........................................................................................25 Tratamiento de los datos con DYANE y SPSS.........................................38 Ejercicio 2...............................................................................................45 TEMA 3: EL ANALISIS FACTORIAL DE CORRESPONDENCIAS ........50 Introduccin............................................................................................50 Definicin y objetivo del AFC. ................................................................51 Conceptos bsicos del AFC.....................................................................52 Supuestos del AFC. ................................................................................53 Diseo del AFC........................................................................................53 Casos prcticos con DYANE....................................................................54 Ejercicio 3...............................................................................................65 TEMA 4: EL ANALISIS CLUSTER.................................................69 Introduccin............................................................................................69 Definicin y objetivo del AC....................................................................70 Conceptos bsicos del AC.......................................................................70 Supuestos del AC. ..................................................................................70 Diseos del AC........................................................................................72 Casos prcticos con DYANE....................................................................76 Ejercicio 4...............................................................................................77 TEMA 5: LA REGRESIN MULTIPLE............................................82 Introduccin............................................................................................82 Definicin y objetivo de la RM................................................................84 Trminos y conceptos bsicos de la RM.................................................85 Supuestos de la RM. ..............................................................................88 Tamao muestral....................................................................................89 Diseo de la RM......................................................................................89

Casos prcticos con DYANE y SPSS........................................................90 Anlisis de Supuestos de la RM............................................................104 Ejercicio 5.............................................................................................116 TEMA 6: EL ANLSIS DISCRIMINANTE......................................119 Introduccin..........................................................................................119 Definicin y objetivo.............................................................................120 Conceptos y trminos bsicos del AD...................................................120 Supuestos del AD..................................................................................123 Diseo del AD.......................................................................................123 Casos prcticos.....................................................................................124 Ejercicio 6.............................................................................................155 TEMA 7: EL ANLSIS multivariante de la varianza (MANOVA)....160 Introduccin..........................................................................................160 Definicin y objetivo.............................................................................162 Trminos y conceptos bsicos del MANOVA.........................................164 Supuestos bsicos del MANOVA. .........................................................169 Diseo del estudio con el MANOVA......................................................170 Casos prcticos con SPSS.....................................................................171 Ejercicio 7.............................................................................................182 TEMA 9: LA REGRESIN LOGSTICA (MODELO LOGIT)................187 Introduccin..........................................................................................187 Objetivo de la RL..................................................................................187 Modelo de la RL....................................................................................187 Diseo del estudio con la RL. ...............................................................188 Medicin de la variable dependiente....................................................188 Estimacin del modelo.........................................................................188 Supuestos bsicos de la RL. ................................................................188 Bondad de ajuste..................................................................................189 Interpretacin de los resultados...........................................................190 Comparacin de los modelos: regresin, discriminante y logit............192 Casos prcticos con SPSS.....................................................................193 Ejercicio 9.............................................................................................199

TEMA 1: EL ANALISIS MULTIVARIANTE EN INVESTIGACION COMERCIAL

Estructura de la clase: 1. Introduccin. 2. Definicin del AM. 3. Diseos y conceptos bsicos del AM. 4. Tratamientos previos de los datos. 5. Supuestos del AM. 6. Clasificacin de los mtodos del AM. 7. Programas informticos. Introduccin. En primer lugar, cuando queremos examinar un sistema complejo de actividades comerciales, muchas veces no es suficiente utilizar tcnicas univariantes y hay que ir al empleo del AM. Cuando el nmero de variables que influyen simultneamente y de forma importante en el problema que queremos tratar es elevado (no solamente una o dos, sino un nmero elevado de variables), entonces tenemos que utilizar el AM. Debemos reflexionar que sera mejor emplear: anlisis univariante, anlisis bivariante o anlisis multivariante. Si queremos analizar por separado variables utilizaremos el anilisis univariante y bivariante. En el caso de necesitar un anlisis en conjunto, emplearemos tcnicas multivariantes. Con esta tcnica determinaremos si las variables estn influyendo en los grupos que estudiamos y por lo tanto nos sirve para analizar las relaciones mltiples. Si queremos utilizar /analizar mltiples variables simultneamente, tenemos que utilizar tcnicas multivariantes. Definicin del AM. El AM se puede definir como: Las tcnicas estadsticas utilizadas para tratar mltiples variables que se deben analizar simultneamente, y cuyos efectos no tienen sentido si se interpretan por separado. Son las tcnicas estadsticas que miden, explican y predicen relaciones entre ms de dos variables cuando sus efectos no tienen sentido si se interpretan por separado. Valor terico: Es el elemento esencial del AM. Combinacin de todas las variables. Debemos sintetizar todas las variables en un solo valor terico. (Muchas veces hay que ponderar mltiples variables de modo emprico).

Diseos y conceptos bsicos del AM. (Diseo de una investigacin de mercados---flujo del AM) Los pasos a seguir al realizar una investigacin se pueden resumir como sigue: Definir el objetivo a travs de un estudio previo. Establecer las hiptesis. Seleccionar variables y escalas. Establecer la metodologa (instrumentos, muestreo, etc.) Seleccionar la tcnica multivariante ms apropiada. Determinar el nivel de significacin (alpha). Coleccionar datos. Evaluar los supuestos bsicos de la tcnica multivariante. Estimacin del modelo multivariante y valoracin del ajuste del modelo. Interpretar el valor terico (rechazar o no las hiptesis). Validacin e interpretacin de los resultados. 1) Definir el objetivo a travs de un estudio previo Primeramente, tenemos que determinar el objetivo del estudio. A continuacin, investigaremos la literatura existente para establecer el estado del arte. Definir para qu queremos realizar el trabajo: objetivos. Para ello analizamos los estudios realizados anteriormente sobre el tema. Determinamos as qu queremos realizar en el trabajo, es decir, justificar la pretensin del trabajo. Hay dos cosas importantes Conocimiento y creatividad. Hay que establecer un objetivo pero justificarlo a travs de la revisin bibliogrfica. 2) Establecer las hiptesis Establecemos las hiptesis que queremos validar o rechazar mediante el estudio. 3) Seleccionar variables y escalas Despus, tenemos que determinar el tipo de variables y escalas a emplear. La palabra variable se refiere a una magnitud cuyos valores son objeto de estudio. Estos valores pueden tomar dos tipos bsicos de datos, no mtricos (cualitativos) o mtricos (cuantitativos). Segn el tipo de datos, tendremos que determinar el tipo de escalas que queremos utilizar para el estudio. Hay cuatro tipos de escalas. Escalas Nominal Caractersticas Identifica por categoras mutuamente excluyentes Los nmeros no tienen valor matemtico Ordenacin de las categoras. Los nmeros no dan informacin de la distancia

Ordinal

entre categoras. Intervalo Identifica una distancia constante entre categoras. Tiene un origen arbitrario. Razn Se puede realizar comparacin proporcional entre categoras. Tiene un origen absoluto. A la hora de determinar las preguntas del cuestionario, tener en cuenta los cuatro tipos de escalas porque cada tcnica multivariante requiere un determinado tipo de variables (mtricas y no mtricas). Respecto al primer trabajo, es aconsejable incluir entre 15-20 "atributos" que se puedan medir en una escala de intervalo que tenga 5 o 7 grados, para de esta manera poder utilizar el ACP o el AC. Tambin, os conviene incluir variables que se puedan medir en una escala nominal para poder utilizar el AFC. Finalmente, si incluimos variables mtricas con una escala de razn, tales como gastos mensuales (de una determinada marca, etc.), ingresos, tiempo, etc., podremos utilizar algunas tcnicas de dependencia, por ejemplo, regresin mltiple y anlisis discriminante, para el segundo trabajo. Para convertir valores no mtricos en mtricos:

Desacuerdo opiniones

1

2

3

4

Acuerdo

Ordenamos las

Escala de Likert: Con 5 grados, tambin lo hay con 7 grados. Siempre es mejor tener ms grados. Completamente en desacuerdo -2 Ms o menos en desacuerdo No sabe, no contesta Ms o menos de acuerdo Completamente de acuerdo -1 0 +1 +2

4) Establecer la metodologa (instrumentos, muestreo, etc.) Tras seleccionar variables y escalas, ahora tendremos que establecer la metodologa. 5) Seleccionar la tcnica multivariante ms apropiada. Despus, seleccionaremos la tcnica multivariante ms adecuada, y a continuacin, determinaremos el nivel de significacin.

6) Determinar el nivel de significacin (alpha). El nivel de significacin est fuertemente relacionado con el llamado error de medida. Debemos aumentar el nivel de significacin para aumentar el valor del estudio y para ello hay que disminuir el error de medida. Cuanto mayor nivel de significacin mejor. El error de medida es el grado en que los valores observados no son representativos de los valores verdaderos. (Se pueden cometer errores, no coincidiendo x con X). El error de medida es importante porque cuando calculamos correlaciones o medias, normalmente el efecto verdadero est parcialmente camuflado por este error de medida, causando la perdida de precisin. Es decir, la presencia del error de medida produce distorsiones en las relaciones observadas y debilita el poder de las tcnicas multivariantes. Para valorar el grado de error de medida, hay que considerar dos factores importantes, que son la fiabilidad y la validez. (conceptos que hay que incluir en trabajo) La fiabilidad es el grado en que la variable observada mide el valor verdadero y est libre de error. Si la misma medida se realiza muchas veces, las medidas fiables llegarn a los mismos resultados. La fiabilidad puede verse perjudicada por el error aleatorio. El error aleatorio es el sesgo transitorio que no es necesariamente idntico en todas las mediciones. Ejemplos de este tipo de error son errores de codificacin, sesgos de entrevistadores, caracteres de los entrevistados, etc. La validez se define como el grado en que la medida representa con precisin lo que se supone que representa. Por ejemplo, si queremos medir los gastos en actividades de ocio, no preguntaremos por los gastos totales de las economas domsticas. La validez puede verse perjudicada tanto por el error aleatorio como por el error sistemtico. El error sistemtico es el sesgo permanente en todas las mediciones. Por ejemplo, errores en los tems de la escala, ausencia de claridad en el cuestionario, etc. Por ello, el investigador debe minimizar el error de medida maximizando tanto la fiabilidad como la validez del instrumento de investigacin.

Todas las tcnicas multivariantes, excepto el anlisis cluster y el anlisis multidimensional, se basan en la inferencia estadstica de los valores de una poblacin o la relacin entre variables de una muestra. Si estamos realizando un censo de toda la poblacin, entonces no tenemos que preocuparnos de la inferencia estadstica por que lo que medimos es la media verdadera. Pero muchas veces no podemos utilizar la poblacin total, y por lo tanto, nos vemos obligados a hacer inferencias de una muestra y aceptar el nivel de error estadstico

Para interpretar las inferencias estadsticas, tenemos que determinar el nivel aceptable de error estadstico. Se tienen que establecer hiptesis nula Ho. Se suelen comparar las medias determinando que una o dos medias sean iguales o distintas. El modo de aproximacin ms comn es determinar el nivel de error de Tipo I, que tambin se llama alfa. El error de Tipo I es la probabilidad de rechazar la hiptesis nula cuando es cierta. O dicho de otra manera, la probabilidad de que la prueba estadstica muestre significacin estadstica cuando en realidad no est presente. Al determinar el nivel de error de Tipo I, tenemos que fijar tambin el segundo tipo de error, que es el error de Tipo II o beta. El error de Tipo II es la probabilidad de fallar en rechazar la hiptesis nula cuando es realmente falsa. Dicho de otra manera, nuestro objetivo es minimizar estos dos tipos de errores, el error de Tipo I y Tipo II, y maximizar el nivel de confianza (1-alfa) y la potencia (1-beta). Realidad Decisin Rechazar H0 No rechazar H0Aceptar H0

Cierta Error Tipo I Potencia 1-

Falsa Nivel de Confianza 1- Error Tipo II

Error tipo 1 : Probabilidad de rechazar la Ho cuando a es cierta al tener que rechazarse cuando es falsa Error tipo 2: Probabilidad en fallar en rechazar la Ho cuando es realmente falsa, es decir, no rechazar la Ho cuando es falsa. Debemos minimizar estos dos tipos de errores y al mismo tiempo estamos maximizando el nivel de confianza y potencia. Si no tenemos el suficiente nivel de confianza y potencia, el estudio no tiene valor. Establecer el nivel de significacin es importante y por ello, tenemos que seguir determinados pasos para poder determinarlo: a. Establecer la Ho (Hiptesis nula) y la H1 (Hiptesis alternativa) b. Elegir la prueba estadstica c. Fijar el nivel de significacin (alfa) d. Calcular estadstico. e. Se compara el estadstico calculado con el terico. Si es mayor se rechaza H0. Si es menor no se rechaza Ho. 7) Recopilar datos 8) Evaluar los supuestos bsicos de la tcnica multivariante.

9) Estimacin del modelo multivariante y valoracin del ajuste del modelo. 10) Interpretar el valor terico (rechazar o no las hiptesis). 11) Validacin e interpretacin de los resultados: (en el trabajo esta ltima parte debe tener implicaciones para el mundo real. Ej: para qu sirven los resultados para la empresa, para la vida real ----lo valorar mucho en el trabajo)

Tratamientos previos de los datos. Antes de procesar los datos es importante saber que hemos conseguido cumplir una serie de supuestos. Existen dos razones que explican la importancia de realizar un buen anlisis de los datos: - Cuanto ms cuidado tengamos en analizar los datos, mejor ser la prediccin y podremos determinar ms fcilmente las relaciones entre las variables. - Las tcnicas multivariantes requieren muchos ms datos y supuestos ms complejos que las tcnicas univariante o bivariantes. Hay que ver si cumplen una serie de supuestos. Muchas veces los efectos del incumplimiento de los supuestos no se representan directamente en los resultados, sino que tienen un efecto importante sobre la naturaleza e interpretacin de los datos. Es fundamental observar las variables individualmente, pero tambin hay que ver las relaciones entre las variables conjuntamente. Para ello. Hacemos los siguientes tratamientos: Examinar grficamente los datos para saber la forma de la distribucin, analizar las relaciones entre variables, y analizar las diferencias entre grupos. Tratar datos ausentes mediante mtodos de imputacin Detectar casos atpicos y eliminarlos si no son aleatorios. Examinar grficamente: Hay que examinar la forma de la distribucin y para ello podemos utilizar: Histograma: Representacin grfica de los datos que muestra la frecuencia de los datos en categoras. Es una forma muy til de averiguar si existe una distribucin normal, si los datos siguen una distribucin normal. Es el primer mtodo de examen grfico. Grfico de dispersin: Se analizan las relaciones bivariantes. Es un conjunto o representacin grfica de los puntos de datos basados en dos

variables. Se investiga si la relacin entre las dos variables es aproximadamente lineal. Grfico de cajas y bigotes: Se analiza las diferencias entre grupos, es el anlisis para detectar casos atpicos. Se transforma la distribucin normal en cajas y bigotes. La lnea de la caja representa el valor de la mediana La lnea de fuera de la caja se llama bigote y representa un cuartil. Con este podemos distinguir diferencias entre grupos. Es una forma til de identificar casos atpicos porque, al transformar la distribucin, los datos que queden fuera de un cuartil sern los casos atpicos. Se representan con asteriscos o crculos. Datos ausentes: Hay que determinar si existen datos ausentes, ya que son una molestia para nosotros. Tenemos dos opciones: Eliminar casos para evitar el sesgo. Por lo que eliminamos y no utilizamos esos datos. Hay que averiguar si los datos son decisorios o no. A veces, el eliminar datos no es bueno porque tendramos menos datos, y no conseguimos un nivel de significacin aceptable. No eliminar casos y sustituir datos ausentes. Tres mtodos: a) Sustitucin por la media: la media es el valor ms representativo de una poblacin, por ello sustituimos los datos por la media. b) Sustitucin por valor constante: hay que buscar algn valor que creamos que representa esta poblacin, igual es necesario buscar estudio semejante. c) Imputacin por regresin: para predecir el valor ms representativo

-

Casos atpicos: Hay que decidir si emplearlos o eliminarlos. Hay que eliminarlos si no son aleatorios. Podemos emplear: Procedimientos univariantes: el concepto de la distribucin normal para ello tenemos que tipificar o estandarizar los datos. Si podemos aplicar el proceso de estandarizacin de datos: media igual a cero, desviacin estndar igual a 1

Si el tamao de la muestra n< 80, podemos eliminar los datos fuera de 2.5 Si el tamao n>80: > 4 Procedimientos bivariantes: diagramas cajas y bigotes.

Procedimientos multivariantes: D2 Mahalanovis. Es una forma de medir la distancia con la media estandarizada. Si tenemos un conjunto de datos, en primer lugar hay que determinar el punto o centroide de todas las variables (x) y luego medir la distancia para cada variable con una media estandarizada. Por ello, cuando existe un caso atpico podemos medir su distancia y podemos decir en comparacin con otras distancias si es o no atpico.

-

Supuestos del AM. Para evitar los sesgos ms importantes, por qu debemos saber si los datos cumplen los supuestos. Hay dos razones principales: 1. Las relaciones entre una gran cantidad de variables son muy complejas, hablamos de muchos datos, y para estudiar estas relaciones utilizamos las tcnicas multivariantes. Y cuando no cumplen los supuestos, los sesgos sern ms potentes, al igual que las distorsiones. 2. Los procedimientos multivariantes estiman el modelo multivariante y producen resultados estadsticos an cuando no cumplen los supuestos. Podemos estar analizando cosas que no tienen que ver con la realidad. Las tcnicas multivariantes tienen que cumplir los supuestos doblemente: tienen que cumplir los supuestos como variables aisladas, y tienen que cumplir los supuestos de las variables multivariantes. Entonces, para poder aplicar las tcnicas multivariantes, se suponen las siguientes condiciones o supuestos: Normalidad: cumplirlo es importante porque muchas tcnicas multivariantes tiene que utilizar las estadsticas de la prueba T y la F, y para emplearlas es necesario que la distribucin sea normal.

Homocedasticidad: consiste en suponer que las variables dependientes tengan los mismos niveles de dispersin desde el punto de vista de la variable independiente. Es importante para muchas tcnicas multivariantes que utilizan las mtricas de varianza ya que es necesario que existan iguales niveles de dispersin ( como ejemplo anlisis discriminante )

Linealidad: Es importante porque muchas tcnicas multivariantes tienen que utilizar el concepto de correlacin. Es necesario que exista una relacin lineal entre las dos variables. En las tcnicas multivariantes hay que calcular las correlaciones, para lo cual se debe cumplir el supuesto de linealidad.

Ausencia de errores correlacionados: consiste en suponer que cualquiera de los errores de prediccin es independiente del resto. Son errores que no estn correlaciones, que son independientes.

Clasificacin de los mtodos del AM.TCNICAS DE DEPENDENCIA

C

U

A D

N e

T p

A e

S n

V d

A R I A B i e n t e s

L

E

S

S

E

U

T

I L

I Z

A

N

?

V

A R

R e

I A S D E P E l a c i n s i m

D p

I E l e

N

T

E

SU R

N e

A l a

D c

E P E N D i n s i m

I E N p l e

T

E

E

S

C

A

L

A

D

E

P

E

N

D

I E

N

TE

ES

SC

A

L

A

D

E

P

E

N

D

I E

N

T

E

S

M

E

T

R

I C

A

M

E

T

R

I C

A

N

O

M

E

T

R

I C

A

E

S

C

A

L

A

I N

D

E E P S E C N A D L IAE

NI N T D E

E SE P S E C N A D L I A E

NI N T D E

ES

P

E

N

D

I E

N

T

E

S

M

E

T

R

I NC

OA

M

E

T MR

EI C T A R

I NC

OA

M

E

T MR

EI C T A R

I NC

OA

M

E

T

R

I C

A

C

o

r r . c

a n M

A n

iN c Oa

VR

AE

G

R

E CS

OI O N N J U

ND T I S O C

R

I ML

O .

G

I T

TCNICAS DE INDEPENDENCIA

E

S

T

R

U

C

T

U

R

A

D

E

R

E

L

A

C

I O

N

E

S

V

A

R

I A

B

L

E

S

C

A

S

O

S

O

B

J E

T

O

S

A

N

A

L

I S

I S

F

A

C

T

O

R A I AN L A

L

I S

I S

C

L U

S T C E Rm

o

s e

m

i d

e n

l o s

a t r i b

u t o

M

E

T

R

I C NA O

M

E

T

R

I C

A

M

D

S

A

F C

Para realizar una investigacin comercial multivariante hay que realizar los siguientes preguntas: podemos dividir las variables en dependientes o independientes? cuntas de estas variables son tratadas como dependientes? cmo son las variables medidas ( el tipo de escala ) ?

Programas Informticos. Vamos a utilizar dos programas : SPSS y Dyane Ejercicio 1 1. Define el anlisis multivariante con sus propias palabras. 2. Por qu es importante el conocimiento de las escalas de medida para planificar una investigacin de datos multivariante? 3. Relaciona, distingue, y explica los siguientes trminos: nivel de significacin, potencia, error de Tipo I y error de Tipo II. 4. Cules son los mtodos bsicos para examinar las caractersticas de los datos en el anlisis multivariante? Por qu son necesarios e importantes? 5. Discute la siguiente afirmacin: para utilizar la mayora de las tcnicas multivariantes no es necesario que se cumplan todos los supuestos de normalidad, linealidad, homocedasticidad y ausencia de errores correlacionados. 1. Define el anlisis multivariante con sus propias palabras. Son aquellas tcnicas estadsticas que nos van a ayudar a analizar al mismo tiempo un conjunto de variables. El efecto de cada una de estas variables independiente de las otras no tiene sentido, pero analizadas simultneamente su efecto tiene interpretacin. 2. Por qu es importante el conocimiento de las escalas de medida para planificar una investigacin de datos multivariante? Existen dos tipos de escalas: mtricas y no mtricas. Si los datos son no mtricos, no dan valores matemticos, sin embargo, si son mtricos si que dan valores matemticos. Por tanto, es crucial conocer que escala para determinar que tcnica multivariante es ms apropiada en funcin de la escala.

3. Relaciona, distingue, y explica los siguientes trminos: nivel de significacin, potencia, error de Tipo I y error de Tipo II. Nivel de significacin: me indica en que medida el valor observado es representativo de la muestra. Error tipo I: se define como la probabilidad de que se rechace la hiptesis de un posible valor cundo este es cierto. Error tipo II: se define como la probabilidad de que se acepte la hiptesis de un posible valor cundo este es falso.

4. Cules son los mtodos bsicos para examinar las caractersticas de los datos en el anlisis multivariante? Por qu son necesarios e importantes? Existen tres mtodos: Primero hay que saber la forma de la distribucin, para ello hacemos un histograma que nos va a indicar la frecuencia de los datos, esto nos indicar si existe una distribucin normal. El segundo mtodo es el grfico de dispersin, este nos va a servir para indicar si la relacin entre dos variables es lineal. El tercer mtodo son los grficos de cajas y bigotes. Este grfico est dividido en cuartiles y nos sirve para detectar casos atpicos. 5. Discute la siguiente afirmacin: para utilizar la mayora de las tcnicas multivariantes no es necesario que se cumplan todos los supuestos de normalidad, linealidad, homocedasticidad y ausencia de errores correlacionados. Las tcnicas multivariantes nos sirven para estudiar la relacin simultnea entre el comportamiento de ms de dos variables. La afirmacin es falsa ya que esta relacin debe cumplir todos los supuestos: el supuesto de normalidad nos servir para poder usarse los estadsticos de la t- Student y de la f- Snedecor. Linealidad: nos indica la relacin existente entre las variables y nos permitir hallar correlaciones. Homocedasticidad: las variables dependientes deben exhibir igual nivel de dispersin de la varianza en todas las variables independientes. El ltimo supuesto que debe cumplir es que cualquier error de prediccin sea independiente del resto.

TEMA 2: EL ANALISIS FACTORIAL

Estructura de la clase: 1. Definicin y objetivo del AF. 2. Conceptos bsicos del AF. 3. Distincin entre el AFC y ACP. 4. Supuestos del ACP. 5. Diseo del ACP. Estimacin del nmero de factores a ser extrados. Mtodos de rotacin de los factores. Criterios para determinar el nivel de significacin de las cargas factoriales. 6. Caso prctico. 7. Tratamiento de los datos con DYANE y SPSS. Definicin y objetivo del AF. El anlisis factorial (AF) se puede definir como la tcnica estadstica multivariante (de interdependencia) cuyo objetivo principal es resumir las variables y extraer informacin (los factores ms importantes) de grandes bases de datos, procurando una mejor comprensin de la estructura de los mismos. El AF es una tcnica de interdependencia en la que se consideran todas las variables simultneamente, y que permite extraer un nmero reducido de los factores (es decir, los valores tericos) con los cuales se intenta explicar al mximo todo el conjunto de variables originales. Dichas variables deben ser mtricas. El AF tiene dos objetivos: La reduccin y sintetizacin de los datos para identificar sus estructuras bsicas (de las grandes BBDD). La creacin de una nueva serie de variables (los llamados factores) que pueden ser utilizados posteriormente en otros anlisis multivariantes (por ejemplo la regresin mltiple o el anlisis cluster). El AF se utiliza principalmente para los siguientes tipos de investigacin: Imagen de marca, imagen del establecimiento, imagen de los consumidores sobre una bebida, etc. En definitiva, se enmarca dentro de la segmentacin, factores principales y diferenciacin de nuestro producto, estudio de aptitudes, etc Para el AF buscaremos los ndices de correlacin entre variables, e identificaremos las correlaciones altas. Lo que haremos es juntar aquellas que tengan una correlacin alta entre ellas y formar un factor con ellas.

Conceptos bsicos. Conceptos Factor Definicin Es el valor terico que se extrae con el AF. Es una combinacin lineal (Y=1X1+ 2X2+...+ nXn)de las variables originales. Los factores representan las dimensiones subyacentes (extraccin del Factor1) que resumen la serie original de variables. El factor es una relacin lineal. Calcularemos 1, 2, ..., n para hallar el factor (Y=1X1+ 2X2+...+ nXn). Los factores no son directamente observables. Por ello usamos la tcnica del AF. Es la correlacin entre las variables originales (el peso de cada variable en el factor) y los factores, y la clave para entender la naturaleza de un factor especfico. Las cargas de los factores al cuadrado indican qu porcentaje de la varianza en una variable original se atribuye a un determinado factor. Dicho de un modo mejor, Las cargas son el peso de cada variable en el Factor. Las (Cargas)2 es la proporcin de varianza de la variable que contribuye a las correlaciones con otras variables. Las (Cargas)2 = Comunalidad Es una varianza compartida con otras variables. Es la proporcin de varianza de la variable que contribuye a su vez con correlaciones con otras variables. Es una medida de la cantidad de varianza contenida en la matriz de correlacin de tal forma que la suma de los autovalores debe ser igual al nmero de variables. Otra definicin- Es la cantidad de informacin explicada por el modelo AF y su varianza asociada con cada factor.

Cargas

Comunalidad Autovalor (eigenvalue)

Reglas de extraccin

1.- Factores con cargas > 50% 2.- Factores tipo autovalor > 1

Distincin entre AF y ACP. En investigacin comercial se suelen utilizar mtodos o modelos bsicos para obtener soluciones factoriales: anlisis factorial comn (AFC) y anlisis de componentes principales (ACP). La diferencia entre estos dos mtodos consiste en el tipo de varianza que analizan. En el AFC los factores se basan solamente en la varianza comn. En el ACP los factores se basan en la varianza total (que incluye la varianza comn y la varianza especfica y error).

Nota: En Investigacin de Mercados (IM), cuando se menciona AF, se est refiriendo en realidad al ACP.

AFC ACP

Varianza comn

Varianza especfica y error Distorsionan los procesos de extraccin Varianza total

La Varianza Total se divide en: 1.- Varianza Comn: es aquella varianza donde una variable se comparte con todas las dems variables. 2.- Varianza Especfica: es aquella varianza asociada nicamente con una variable especfica. 3.- Varianza del Error: es aquella varianza debida al error de medicin. En este curso, nos centramos slo en el ACP. En AFC no se usa la Varianza Especfica y la Varianza de Error porque se supone que distorsiona. Pero se supone que tiene varios inconvenientes: - Puede proporcionar mltiples soluciones en lugar de una, como sucede en el ACP. - Es muy difcil estimar slo la varianza comn. Por ello, los investigadores prefieren usar el ACP, ya que presenta menos inconvenientes. Este ser el que nosotros usemos.

Supuestos del ACP. (Son especficos del ACP) Supuestos generales: Normalidad, Linealidad y Homocedasticidad. Supuesto especfico: Se asume que existe un nivel suficientemente elevado de correlacin entre las variables (En caso contrario, no podemos extraer factores). Este nivel de correlacin se puede examinar de tres maneras: Examen visual de la matriz de correlaciones: Seleccionamos las correlaciones altas. Para considerar una correlacin alta, esta tiene que ser > 0,30. Contraste de esfericidad de Bartlett: Esta prueba es ms objetiva y eficaz. Es una prueba estadstica para examinar la existencia de correlaciones significativas. El resultado a esta prueba sera Significativo o No significativo. La prueba de Bartlett slo prueba la presencia de relaciones significativas, pero no indica el nivel de correlacin. Esto se consigue con el tercer anlisis: ndice KMO ndice K-M-O (la adecuacin muestral de Kaiser-MeyerOlkin): Es una prueba ms completa an que la anterior. Se trata de cuantificar, mediante un ndice estadstico, el grado de intercorrelacin entre variables, y la conveniencia del Anlisis de Componentes Principales (ACP). Examina la presencia de correlaciones significativas indicando solamente si existen, no cuales son. Los ndices obtenidos pueden ser: Si Si Si Si Si KMO KMO KMO KMO KMO es mayor que 0,80: Sobresaliente est entre 0,70 y 0,80: Regular est entre 0,60 y 0,70: Mediocre est entre 0,50 y 0,60: Despreciable, y es menor que 0,50: Inaceptable

Pero siempre ha de ser mayor de 0,50 para que sea conveniente hacer el ACP.

Diseo del ACP. (Procedimientos) Seleccin de variables Seleccionamos variables mtricas. En caso contrario, necesitamos realizar una transformacin de no mtricas a mtricas. Tamao muestral El criterio a seguir para determinar el tamao muestral ptimo a utilizar con ACP, la muestra no debe ser inferior a 50 observaciones. Lo aconsejable es que sea >= 100. Examen de los supuestos generales (y especficos) Concepto: Consistencia Interna. Est relacionado con la fiabilidad y se utiliza para asegurar la fiabilidad de la escala que estamos utilizando. Asegura que los items de las escalas o las preguntas de la escala estn midiendo las mismas contrucciones y stas estn altamente intercorrelacionadas entre s. Por ej: En el comportamiento de compra hacia una marca determinada, examinamos la actitud hacia el producto, precio, establecimiento, etc. Para ello creamos una serie de preguntas para cada dimensin. Estas preguntas deben estar altamente correlacionadas entre s. La consistencia interna se mide mediante el test de Cronbach (alpha de Cronbach) y tiene que ser superior a 0,60. Este test aparece en DYANE. Matriz de correlaciones Como ya se ha comentado, se considera que existen correlaciones altas cuando stas son > 0,30. Test de Bartlett Aplicamos el test de Bartlett y el ndice KMO. Estimacin del nmero de factores a ser extrados Ver pgina siguiente. Rotacin de factores Ver grfico. Interpretacin de los factores Proceso de etiquetacin de factores. Atribuir un significado a cada factor, es decir: poner un patrn de cargas a cada factor. Validacin Un mtodo para efectuar una validacin a nuestro ACP es dividir la muestra en dos partes independientes y aplicar a cada una de ellas el ACP. Si obtenemos los mismos factores/dimensiones, es decir: si coinciden ambas la muestra sera representativa y por tanto, el ACP sera vlido. Usos adicionales de los factores

Regresin mltiple o Cluster.

Estimacin del nmero de factores a ser extrados

Con el fin de decidir cuntos factores se deben extraer, el investigador empieza generalmente con alguno de los siguientes criterios predeterminados. Criterio de raz latente DYANE AUTOVALOR Criterio a priori Criterio de porcentaje de la varianza Slo se consideran los factores que tienen autovalores mayores que 1, ya que cualquier factor individual debera explicar por lo menos una variable. Ya se sabe de antemano cuntos factores hay que extraer sobre la base de un estudio previo. Resultado del Pre-Test. Se obtienen los factores que representan un porcentaje acumulado especificado de la varianza total extrada (aproximadamente un 60% de la varianza total en las ciencias sociales). Se suelen utilizar cargas y estas deben ser >50% del factor. Se identifica el nmero ptimo de factores que contienen una proporcin de la varianza comn sustancialmente alta.

Criterio de contraste de cada

CRITERIO DE CONTRATE DE CAIDA (Grfico realizado con SPSS)

Grfico de sedimentacin8

6

Curva con inclinacin descendente. Indica que la varianza comn domina la Pto. de corte. La curva se convierte en una lnea horizontal. Este sera el criterio de contraste de cada

4

2

0 1 3 5 7 9 11 13 15 17 19 21

Otra tcnica sera utilizar el criterio de Raz Latente o Autovalor y comprobar con valor 1 del Autovalor que punto corta del grfico. Sera otra forma obtener factores. Con esta tcnica se obtienen ms factores que con la de

Autovalor

Nmero de componente

Mtodos de rotacin de los factores. Consiste en rotar o girar los ejes de referencia de los factores para lograr un patrn de factores ms simple y ms significativo.

Si este fuera el pto. de corte elegido, tendramos que seleccionar 6 factores

Rotacin ortogonal: Es una rotacin ortogonal ya que se realiza en un ngulo de 90 (tipos) QUARTIMAX VARIMAXDYANE (utilizada en el curso) EQUIMAX

GRAFI CO DE ROTACI ONfactor II (no rotado) factor II (rotado)V1 V2

factor I (no rotado)

Al rotar los ejes, podemos captar ms variables que en un principio estaban alejadas de los ejes originales.

V3 V4

factor I (rotado)

Rotacin oblicua: Cuando nos es una rotacin con un ngulo de referencia de 90

Criterios para determinar el nivel de significacin de las cargas factoriales. (Interpretacin de los factores)

Al interpretar los factores, se debe determinar qu cargas factoriales merece la pena considerar. Para ello hay dos criterios importantes. a) Asegurar la significacin prctica. Muestra >= 100 observaciones, seleccionamos cargas factoriales>0,55

Muestra < 100 observaciones, seleccionamos cargas factoriales>0,75

b) Valorar la significacin estadstica. Utilizar un nivel de significacin de 0,5 y potencia de 0,8.

Caso practico. El caso TeleSake X1 : Velocidad de entrega X2 : Nivel de precios X3 : Presentacin de la comida X4 : Imagen del logotipo X5 : Eficacia del servicio X6 : Atencin al cliente X7 : Calidad de la comida El punto 6, Caso prctico, lo realizaremos con el SPSS y el Dyane, con lo que el punto 7 quedar cubierto. El punto 7 lo trataremos primero, pero slo con el Dyane y simplemente para ver los criterios a utilizar y la interpretacin y el anlisis de los datos. Hay que tener en cuenta que el programa Dyane ofrece tres opciones de aplicacin del AFC: (1) mdulo de tablas de frecuencias, (2) mdulo de tablas de medios, y (3) mdulo de tablas especficas (DYANE, pp.318-337). Si vuestros cuestionarios se basan en variables categricas, normalmente es recomendable utilizar el primer mdulo (es decir, las variables tanto filas como columnas son categricas). Sin embargo, si los cuestionarios usan variables numricas con escalas de Likert, podramos elegir el segundo mdulo (es decir, las variables filas son numricas mientras que las variables columnas son categricas). Si tenis alguna duda o pregunta, mandad un mensaje al foro o pasad por mi despacho con vuestros datos.

Haremos otra prctica con la BD de Telesake: 6.1 Con Dyane.

A N L I S I S D E C O M P O N E N T E S P R I N C I P A L E S ===================================================================== IDENTIFICACIN DE LAS VARIABLES ------------------------------VARIABLE VARIABLE VARIABLE VARIABLE VARIABLE VARIABLE VARIABLE 1 2 3 4 5 6 7 : : : : : : : X1 X2 X3 X4 X5 X6 X7 X1 X2 X3 X4 X5 X6 X7

Matriz de coeficientes de correlacin simple -------------------------------------------X1 -------1,0000 -0,3492 0,5093 0,0504 0,6119 0,0771 -0,4826 X2 --------0,3492 1,0000 -0,4872 0,2722 0,5130 0,1862 0,4697 X3 X4 X5 X6 -------- -------- -------- -------0,5093 0,0504 0,6119 0,0771 -0,4872 0,2722 0,5130 0,1862 1,0000 -0,1161 0,0666 -0,0343 -0,1161 1,0000 0,2987 0,7882 0,0666 0,2987 1,0000 0,2408 -0,0343 0,7882 0,2408 1,0000 -0,4481 0,2000 -0,0552 0,1773 X7 --------0,4826 0,4697 -0,4481 0,2000 -0,0552 0,1773 1,0000

X1 X2 X3 X4 X5 X6 X7

Test de Bartlett ---------------Determinante de la matriz de correlacin = 0,002679 Ji cuadrado con 21 grados de libertad = 567,5407 (p = 0,0000)

Segn el test de Bartlett me sale significativo

FACTOR 1 FACTOR 2 FACTOR 3 FACTOR 4 FACTOR 5 FACTOR 6 FACTOR 7 -------- -------- -------- -------- -------- -------- -------VALOR PROPIO: 2,5258 2,1204 1,1811 0,5412 0,4180 0,2044 0,0092 % DE VARIANZA: 36,08% 30,29% 16,87% 7,73% 5,97% 2,92% 0,13% % VAR.ACUMUL.: 36,08% 66,37% 83,25% 90,98% 96,95% 99,87% 100,00% CARGAS DE LOS FACTORES: X1 X2 X3 X4 X5 X6 X7 -0,5280 0,7924 -0,6920 0,5640 0,1858 0,4921 0,7386 0,7515 0,0931 0,3745 0,6020 0,7789 0,6040 -0,2698 -0,2024 -0,5081 0,1727 0,4524 -0,5949 0,5418 0,0054 -0,0312 -0,0055 -0,4761 0,1014 -0,0283 0,0248 -0,5494 -0,3340 0,3195 0,3512 0,0243 -0,0197 0,0238 -0,2820 -0,0047 -0,0255 0,0320 0,3225 -0,0075 -0,3135 0,0185 0,0541 0,0508 0,0010 0,0025 -0,0604 -0,0009 -0,0009 COMUNALIDAD ----------1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000

Tambin tenemos 7 factores con valores propios. En esta matriz consideramos todos los factores, por lo que tenemos la Comunalidad igual a1

COEFICIENTES DE PUNTUACIN DE LOS FACTORES: X1 X2 X3 X4 X5 X6 X7 -0,2090 0,3137 -0,2740 0,2233 0,0736 0,1948 0,2924 0,3544 0,0439 0,1766 0,2839 0,3673 0,2848 -0,1272 -0,1714 -0,4302 0,1462 0,3830 -0,5037 0,4587 0,0046 -0,0576 -0,0101 -0,8798 0,1873 -0,0522 0,0459 -1,0151 -0,7991 0,7643 0,8401 0,0582 -0,0470 0,0569 -0,6746 -0,0231 -0,1246 0,1566 1,5778 -0,0368 -1,5340 0,0905 5,9081 5,5418 0,1133 0,2730 -6,5904 -0,0946 -0,1034

Esta matriz, de momento, no tiene importancia

Cargas de los factores retenidos: --------------------------------FACTOR 1 FACTOR 2 -------- --------0,5280 0,7515 0,7924 0,0931 -0,6920 0,3745 0,5640 0,6020 0,1858 0,7789 0,4921 0,6040 0,7386 -0,2698 2,1204 30,29% 66,37% FACTOR 3 --------0,2024 -0,5081 0,1727 0,4524 -0,5949 0,5418 0,0054 1,1811 16,87% 83,25% COMUNALIDAD ----------0,8845 0,8947 0,6490 0,8851 0,9951 0,9005 0,6183

X1 X2 X3 X4 X5 X6 X7

VARIANZA: 2,5258 % DE VARIANZA: 36,08% % VAR.ACUMUL.: 36,08%

Hemos obtenido 3 factores ms importantes. Ahora la Comunalidad es menor que 1, pero bastante alta. Pero con esta matriz es difcil distinguir que variable es ms importante que las otras. Lo que podremos saber es cuanto varianza est explicada con el anlisis de componentes principales. Podemos ver que es muy elevada, y se pueden explicar casi todos los factores.

ROTACIN VARIMAX: ----------------Cargas de los factores retenidos (despus de la rotacin): ---------------------------------------------------------FACTOR 1 FACTOR 2 FACTOR 3 -------- -------- --------0,7524* 0,0711 0,5598 0,7539* 0,1081 0,5609 -0,8055* 0,0063 0,0095 0,1167 0,9210* 0,1525 -0,0620 0,1763 0,9799* 0,0341 0,9452* 0,0766 0,7596* 0,1930 -0,0644 1,8269 26,10% 60,08% 1,6215 23,16% 83,25% COMUNALIDAD ----------0,8845 0,8947 0,6490 0,8851 0,9951 0,9005 0,6183

X1 X2 X3 X4 X5 X6 X7

VARIANZA: 2,3788 % DE VARIANZA: 33,98% % VAR.ACUMUL.: 33,98%

La interpretacin es mucho ms fcil y significativa. La varianza explicada no ha cambiado. Se mantiene.

COEFICIENTES DE PUNTUACIN DE LOS FACTORES: X1 X2 X3 X4 X5 X6 X7 -0,3037 0,3452 -0,3487 -0,0189 0,0073 -0,0604 0,3094 0,0039 -0,0997 0,0694 0,5227 -0,0665 0,5582 0,0657 0,3262 0,3953 -0,0349 -0,0598 0,6242 -0,1194 -0,0407

Ahora tendremos que interpretar los factores. Tendremos que poner nombre o etiqueta a cada factor. Esto depender. Hay una regla general para atribuir significado a cada factor: Siempre hay que considerar las variables con mayores cargas.

Al final tenemos la interpretacin grfica.

REPRESENTACIN GRFICA DE LOS FACTORES -------------------------------------VARIABLES: Cdigo -----A B C D E F G Significado ---------------X1 X2 X3 X4 X5 X6 X7

FACTORES 1 y 2: FACTOR 2 | 1,0 + + | | |F | 0,9 + + D | | | | 0,8 + + | | | | 0,7 + + | | | | 0,6 + + | | | | 0,5 + + | | | | 0,4 + + | | | | 0,3 + + | | | | 0,2 + E + G | | | | 0,1 + + B | | A | | 0,0 +----+---C---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+----|FACTOR 1 | | | -0,1 + + | | | | -0,2 + + | | | | -0,3 + + | | | | -0,4 + + | | | | -0,5 + + | | | | -0,6 + + | | | | -0,7 + + | | | | -0,8 + + | | | | -0,9 + + | | | | -1,0 + + | |+++++++++++++++++++ -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0

6.2

Con SPSS.

Ahora veremos las opciones en el SPSS. Usaremos los mismos datos que antes, para el anlisis con el SPSS. Seleccionamos el elemento datos/Anlisis Factorial de men Analizar/Reduccin de

Y nos aparecer una ventana como la siguiente:

Ahora pulsamos Descriptivos

Matriz de correlaciones depender de lo que queramos, pero chequearemos KMO y prueba de esfericidad de Bartlett para asegurarnos un grado de significacin de variables

Pulsamos ahora Extraccin:

Autovalores mayores que: podemos cambiarlo a 0,8 por ejemplo. Tambin podemos cambiar el criterio a Nmero de factores, porque sepamos el nmero de factores que queremos extraer. Nosotros usaremos el primer criterio Nos interesa seleccionar tambin el Grfico de sedimentacin, y la Solucin factorial sin rotar.

Seleccionamos ahora Rotacin:

Seleccionamos ahora Puntuaciones: Guardar las puntuaciones factoriales para anlisis posteriores.

En botn opciones:

Para ACP podemos seleccionar varios mtodos para sustituir o tratar los valores ausentes. Nosotros usaremos Reemplazar por la media ya que es el valor tericamente mas representativo. En formato de utilizacin, usaremos ordenados por tamao, para ayudar en la visualizacin Suprimir valores absolutos menores que: Opcin muy importante a seleccionar. Pulsaremos Continuar y Aceptar, para pasar al anlisis de los resultados

6.2.1 Anlisis de los datos con SPSS.

A. factorialNotas Resultados creados Comentarios Entrada Datos 05-MAR-2004 17:48:02 C:\Documents and Settings\ecolab\Escritorio\Rafa\TeleSa ke.sav 100 MISSING=EXCLUDE: Los valores definidos como perdidos por el usuario son considerados como perdidos. MEAN SUBSTITUTION: Para cada variable utilizada, los valores perdidos son sustituidos por la media de las variables.

Filtro Peso Segmentar archivo Nm. de filas del archivo de trabajo Manipulacin de los valores perdidos Definicin de los perdidos

Casos utilizados.

Sintaxis FACTOR /VARIABLES x1 x2 x3 x4 x5 x6 x7 /MISSING MEANSUB /ANALYSIS x1 x2 x3 x4 x5 x6 x7 /PRINT INITIAL KMO EXTRACTION ROTATION /FORMAT SORT BLANK(.50) /PLOT EIGEN /CRITERIA MINEIGEN(1) ITERATE(25) /EXTRACTION PC /CRITERIA ITERATE(25) /ROTATION VARIMAX /METHOD=CORRELATION .

Recursos

Tiempo transcurrido Memoria mxima necesaria

0:00:00,16 7204 (7,035K) bytes

KMO y prueba de Bartlett Medida de adecuacin muestral de Kiser-MeyerOlkin. Prueba de esfericidad de Bartlett Chi-cuadrado aproximado gl Sig.

,446 567,541 21 ,000

Vemos que es inaceptable: segn KMO sale 0,446. Segn nuestro criterio, si KMO < 0,5 es inaceptable. Sin embargo la segunda prueba, Test de Bartlett, sale significativo. Para un estudio exploratorio, podemos aceptar este test, puesto que ha salido significativo para el test de Bartlett.

Comunalidades Inicial 1,000 1,000 1,000 1,000 1,000 1,000 Extraccin ,884 ,895 ,649 ,885 ,995 ,901

Velocidad de entrega Nivel de precios Presentacin de la comida Imagen del logotipo Eficacia del servicio Atencin al cliente Calidad de la comida

1,000 ,618 Mtodo de extraccin: Anlisis de Componentes principales.

Este cuadro muestra cuanta varianza esta explicada con este modelo. Inicialmente est a 1, porque tiene todos los factores. Despus de la extraccin, baja; pero podemos ver que estamos con niveles muy altos.

Varianza total explicada Sumas de las saturaciones al cuadrado de la extraccin Total 2,526 2,120 1,181 % de la varianza 36,082 30,291 16,873 % acumulado 36,082 66,374 83,246

Autovalores iniciales Componente 1 2 3 4 5 6 7 Total 2,526 2,120 1,181 ,541 ,418 ,204 ,009 % de la varianza 36,082 30,291 16,873 7,731 5,972 2,920 ,131 % acumulado 36,082 66,374 83,246 90,977 96,949 99,869 100,000

Suma de las saturacion la rotac Total 2,379 1,827 1,622

% de la varianza 33,984 26,098

23,165

Informacin de la varianza Informacin de antes de la rotacin despus de la roMtodo de extraccin: Anlisis de Componentes principales.

La varianza total explicada, tenemos autovalores iniciales.

Grfico de sedimentacin3,0

2,5

2,0

1,5

1,0

Autovalor

,5

0,0 1 2 3 4 5 6 7

Nmero de componenteEl grfico de sedimentacin. Para determinar factores, observamos la curva, y vemos el punto de corte donde cambia la inclinacin. Ms o menos a partir del punto 4 cambia la inclinacin. Segn este criterio podemos determinar 4 factores. Pero tambin hemos usado otro criterio para seleccionar factores.

Matriz de componentes(a) Componente 1 Nivel de precios Calidad de la comida Presentacin de la comida Eficacia del servicio Velocidad de entrega Atencin al cliente Imagen del logotipo ,564 -,528 ,792 ,739 -,692 ,779 ,752 ,604 ,602 -,542 ,595 2 3 ,508

Mtodo de extraccin: Anlisis de componentes principales. a 3 componentes extrados

Matriz de componentes rotados(a) Componente 1 Presentacin de la comida Calidad de la comida Nivel de precios Velocidad de entrega Atencin al cliente Imagen del logotipo Eficacia del servicio -,806 ,760 ,754 -,752 ,945 ,921 ,980 ,561 ,560 2 3

Mtodo de extraccin: Anlisis de componentes principales. Mtodo de rotacin: Normalizacin Varimax con Kaiser. a La rotacin ha convergido en 5 iteraciones.

Despus de la rotacin VARIMAX hemos obtenido 3 factores, y hemos seleccionado la opcin que ordena de mayor a menor; de este modo es mas fcil identificar la importancia de las variables. Hemos suprimido las variables con menor importancia, as solo salen las variables importantes.

Matriz de transformacin de las componentes Componente 1 2 3 1 ,865 -,452 ,218 2 ,477 ,602 -,641 3 ,159 ,658 ,736

Mtodo de extraccin: Anlisis de componentes principales. Mtodo de rotacin: Normalizacin Varimax con Kaiser.

Tratamiento de los datos con DYANE y SPSS.

7.1 Tratamiento de los datos con DYANE.

Vamos a ir viendo seleccionaremos.

las

opciones

que

tiene

el

Dyane

y

cules

Medias y desviaciones estndar de las variables no nos interesan Test de Bartlett si que nos interesa, para ver si existe un nivel significativo de correlacin de los factores. Valores propios mayores que 1 (tambin llamados autovalores).- Es el criterio para seleccionar las cargas. Representacin Grfica de los factores: representar 2 factores Rotacin VARIMAX.- Girar los ejes de referencias para captar mas variables o hacer la Interpretacin ms fcil. Es el mtodo mas frecuentemente utilizado. Ahora seleccionamos: Guardar los factores retenidos como variables.- Se guardarn para su uso posterior Y seleccionamos las variables a estudiar.

A N L I S I S D E C O M P O N E N T E S P R I N C I P A L E S ===================================================================== IDENTIFICACIN DE LAS VARIABLES ------------------------------VARIABLE 1 : EPU_OBEC - La empresa pblica puede cumplir los objetivos econmicos mejor que la privada. VARIABLE 2 : EPU_OBSO - La empresa pblica puede cumplir los objetivos sociales mejor que la privada VARIABLE 3 : DIRE_SUF - La direccin de la empresa debe ser elegida por sufragio universal, por todos los trabajadores de la empresa. VARIABLE 4 : ECME_PLA - La economa de mercado proporciona una asignacin de recursos mejor que la obtenida con la economa planificada por el estado. VARIABLE 5 : DESP_LIB - La posibilidad de despido libre, con indemnizacin, permitira la creacin de puestos de trabajo. VARIABLE 6 : LIBERAL - El liberalismo es la mejor doctrina econmica. VARIABLE 7 : ECSOLMER - La economa social de mercado es la mejor doctrina econmica. VARIABLE 8 : SOCIALIS - El socialismo es la mejor doctrina econmica. VARIABLE 9 : COMUNISM - El comunismo es la mejor doctrina econmica. VARIABLE 10: EMPR_CRE - El empresario debe ser admirado por la sociedad porque crea riqueza. VARIABLE 11: EMPR_EXP - El empresario slo explota a los trabajadores. VARIABLE 12: BEN_OBJ1 - El beneficio deber ser el primer objetivo de la empresa VARIABLE 13: BENSOLAC - En la distribucin de los beneficios deben participar slo los accionistas. VARIABLE 14: BAL_SOCI - Todas las empresas deberan realizar el balance social. VARIABLE 15: MARK_NEC - El marketing es slo un mtodo para vender ms, creando necesidades aparentes. Matriz de coeficientes de correlacin simple -------------------------------------------EPU_OBEC EPU_OBSO BENSOLAC BAL_SOCI MARK_NEC -------- --------------- -------- -------EPU_OBEC 1,0000 0,3784 -0,1036 0,2605 0,1421 EPU_OBSO 0,3784 1,0000 0,0630 0,2315 0,1735 DIRE_SUF 0,1999 0,1924 -0,2475 0,0956 0,0868 ECME_PLA -0,2255 -0,1953 0,2121 -0,1738 -0,0510 DESP_LIB -0,0908 0,0014 0,2368 -0,1042 -0,0474 LIBERAL -0,1247 -0,1089 0,1302 -0,0298 -0,1059 ECSOLMER -0,0758 0,0015 0,0728 0,0730 -0,0039 SOCIALIS 0,2727 0,3173 -0,1582 0,2379 0,1737 COMUNISM 0,2396 0,1915 -0,0565 0,1844 0,0425 EMPR_CRE -0,1537 -0,0873 0,2381 0,0103 -0,2078 EMPR_EXP 0,1265 0,2423 -0,1190 0,0427 0,2745 BEN_OBJ1 -0,1001 0,0438 0,2255 -0,0848 0,0044 BENSOLAC -0,1036 0,0630 1,0000 -0,2184 0,1432 BAL_SOCI 0,2605 0,2315 -0,2184 1,0000 0,0568 MARK_NEC 0,1421 0,1735 0,1432 0,0568 1,0000 DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1

-------- -------- -------- -------- -------- -------- -------- -------- -------- -------0,1999 0,1924 1,0000 -0,1988 -0,2233 -0,1370 -0,2437 0,2056 0,2433 -0,3528 0,0969 -0,2935 -0,2475 0,0956 0,0868 -0,2255 -0,1953 -0,1988 1,0000 0,2622 0,3202 0,1476 -0,3499 -0,2504 0,3204 -0,2196 0,1111 0,2121 -0,1738 -0,0510 -0,0908 0,0014 -0,2233 0,2622 1,0000 0,1614 -0,0097 -0,0722 0,0048 0,2775 -0,1296 0,1412 0,2368 -0,1042 -0,0474 -0,1247 -0,1089 -0,1370 0,3202 0,1614 1,0000 -0,0326 -0,2995 -0,0833 0,3533 -0,1459 0,1391 0,1302 -0,0298 -0,1059 -0,0758 0,0015 -0,2437 0,1476 -0,0097 -0,0326 1,0000 0,0671 -0,0438 0,0826 0,0802 0,1621 0,0728 0,0730 -0,0039 0,2727 0,3173 0,2056 -0,3499 -0,0722 -0,2995 0,0671 1,0000 0,3728 -0,1305 0,3378 0,0782 -0,1582 0,2379 0,1737 0,2396 0,1915 0,2433 -0,2504 0,0048 -0,0833 -0,0438 0,3728 1,0000 -0,1362 0,1437 -0,0371 -0,0565 0,1844 0,0425 -0,1537 -0,0873 -0,3528 0,3204 0,2775 0,3533 0,0826 -0,1305 -0,1362 1,0000 -0,2662 0,2522 0,2381 0,0103 -0,2078 0,1265 0,2423 0,0969 -0,2196 -0,1296 -0,1459 0,0802 0,3378 0,1437 -0,2662 1,0000 -0,0860 -0,1190 0,0427 0,2745 -0,1001 0,0438 -0,2935 0,1111 0,1412 0,1391 0,1621 0,0782 -0,0371 0,2522 -0,0860 1,0000 0,2255 -0,0848 0,0044

Test de Bartlett ---------------Determinante de la matriz de correlacin = 0,083411 Ji cuadrado con 105 grados de libertad = 385,4297

(p = 0,0000)

FACTOR 1 FACTOR 2 FACTOR 3 FACTOR 4 FACTOR 5 FACTOR 6 FACTOR 7 FACTOR 8 FACTOR 9 FACTOR 10FACTOR 11FACTOR 12FACTOR 13FACTOR 14FACTOR 15 -------- -------- -------- -------- -------- -------- -------- -------- -------- -------- -------- --------------- -------- -------VALOR PROPIO: 3,2405 1,7250 1,3244 1,2098 1,0196 0,8867 0,8399 0,7805 0,7488 0,6977 0,6449 0,5856 0,4829 0,4305 0,3830 % DE VARIANZA: 21,60% 11,50% 8,83% 8,07% 6,80% 5,91% 5,60% 5,20% 4,99% 4,65% 4,30% 3,90% 3,22% 2,87% 2,55% % VAR.ACUMUL.: 21,60% 33,10% 41,93% 50,00% 56,80% 62,71% 68,31% 73,51% 78,50% 83,15% 87,45% 91,36% 94,58% 97,45% 100,00% CARGAS DE LOS FACTORES: COMUNALIDAD ----------EPU_OBEC 0,5235 -0,2539 -0,3078 0,0583 -0,1261 -0,0672 1,0000 EPU_OBSO 0,4599 -0,5037 -0,1297 -0,0869 0,2857 0,0846 1,0000 DIRE_SUF 0,5558 0,3156 -0,2000 0,1921 -0,1694 -0,2282 1,0000 ECME_PLA -0,6326 -0,0655 -0,0066 -0,3768 -0,0358 0,1230 1,0000 DESP_LIB -0,3886 -0,3667 -0,1716 0,1676 -0,0666 -0,0680 1,0000 LIBERAL -0,4859 -0,0979 -0,3679 0,2381 -0,0248 0,1845 1,0000 ECSOLMER -0,1293 -0,3579 0,3078 0,2597 0,0423 -0,0689 1,0000

-0,1587 -0,2161 -0,3165 -0,1343 -0,2977 -0,1718 0,6023

0,2203 0,1656 0,0293 0,3373 -0,2463 0,3171 0,2343

0,3032 0,2151 -0,1671 -0,2615 -0,2601 -0,3404 -0,1425

-0,1221 -0,0248 0,0560 -0,1896 -0,4710 0,4629 -0,2820

-0,0158 -0,0679 0,3367 0,1941 -0,3336 0,0215 0,3566

-0,1707 -0,4190 -0,1606 -0,1253 0,0556 -0,0804 -0,1785

-0,0888 0,0512 0,3340 0,3251 0,1731 -0,1739 -0,0531

0,5343 -0,2850 -0,2229 0,0878 0,0756 0,0935 0,0370

-0,1992 0,1913 -0,0357 -0,1849 0,2433 0,1465 0,0767

SOCIALIS 0,6155 -0,4176 0,0023 0,1358 -0,1155 0,3621 1,0000 COMUNISM 0,4659 -0,2567 -0,3055 -0,2054 0,1879 -0,0644 1,0000 EMPR_CRE -0,5846 -0,3547 -0,3682 0,0744 0,1519 -0,2551 1,0000 EMPR_EXP 0,4822 -0,2042 0,4300 -0,1632 -0,1802 -0,1824 1,0000 BEN_OBJ1 -0,3065 -0,5474 0,1019 -0,1032 -0,0947 -0,1472 1,0000 BENSOLAC -0,3973 -0,4402 0,2320 -0,0095 -0,3004 0,0461 1,0000 BAL_SOCI 0,3693 -0,2191 -0,4648 -0,1529 -0,2128 -0,0306 1,0000 MARK_NEC 0,2894 -0,2858 0,4681 0,1179 0,2181 -0,0491 1,0000

0,1880 -0,0738 0,1180 0,0150 0,1645 -0,4285 0,3434 -0,3941

-0,2698 -0,3725 0,0106 0,1403 -0,2882 -0,0773 0,4072 0,3559

-0,1501 -0,3833 0,0046 -0,4342 0,1820 0,2299 0,0610 -0,0255

0,0423 -0,0276 0,0817 0,1567 0,4669 -0,0797 -0,0662 0,0850

-0,0571 0,3765 -0,1426 -0,3592 0,0961 0,2804 -0,0473 0,0344

0,0572 0,1497 0,0438 -0,2127 -0,0266 0,0452 0,3952 0,4789

0,2131 -0,2632 -0,0410 -0,1938 0,3418 -0,3367 0,0199 0,1499

-0,0855 0,1242 -0,2209 -0,0337 0,1750 -0,2389 -0,1953 0,0801

-0,3036 0,0362 -0,4579 -0,0508 0,1899 -0,0467 0,2028 -0,0472

Despus de esta matriz, salen coeficientes de puntuacin de los factores.

Se tienen que multiplicar cada coeficiente de correlacin por las variables originales para comprobar los resultados de los factoresCOEFICIENTES DE PUNTUACIN DE LOS FACTORES: EPU_OBEC 0,1615 -0,1472 0,1207 -0,2928 -0,1755 EPU_OBSO 0,1419 -0,2920 -0,1800 0,6636 0,2208 DIRE_SUF 0,1715 0,1829 0,3979 -0,3934 -0,5957 ECME_PLA -0,1952 -0,0379 -0,7803 -0,0831 0,3212 DESP_LIB -0,1199 -0,2126 0,3470 -0,1546 -0,1774 LIBERAL -0,1499 -0,0568 0,4932 -0,0575 0,4817 ECSOLMER -0,0399 -0,2075 0,5378 0,0983 -0,1799 SOCIALIS 0,1899 -0,2421 0,2812 -0,2684 0,9453 COMUNISM 0,1438 -0,1488 -0,4253 0,4363 -0,1681 EMPR_CRE -0,1804 -0,2056 0,1541 0,3527 -0,6659 EMPR_EXP 0,1488 -0,1184 -0,3379 -0,4185 -0,4763 BEN_OBJ1 -0,0946 -0,3174 -0,2137 -0,2200 -0,3843 BENSOLAC -0,1226 -0,2552 -0,0196 -0,6978 0,1204 BAL_SOCI 0,1140 -0,1270 -0,3167 -0,4941 -0,0799 MARK_NEC 0,0893 -0,1657 0,2442 0,5066 -0,1283 -0,2324 -0,0979 -0,1510 -0,0050 -0,1296 -0,2778 0,2324 0,0017 -0,2307 -0,2780 0,3247 0,0769 0,1752 -0,3509 0,3535 -0,1312 -0,1786 -0,2616 -0,1110 -0,2460 -0,1420 0,4978 0,1554 -0,0610 0,0975 0,0124 0,1359 -0,3542 0,2838 -0,3258 0,2161 0,1624 0,0287 0,3308 -0,2416 0,3110 0,2298 -0,2646 -0,3653 0,0104 0,1376 -0,2827 -0,0758 0,3994 0,3490 0,3419 0,2425 -0,1884 -0,2949 -0,2934 -0,3839 -0,1607 -0,1693 -0,4323 0,0052 -0,4897 0,2052 0,2593 0,0687 -0,0288 -0,1454 -0,0295 0,0667 -0,2258 -0,5607 0,5511 -0,3358 0,0504 -0,0329 0,0973 0,1865 0,5558 -0,0949 -0,0788 0,1012 -0,0202 -0,0870 0,4314 0,2487 -0,4275 0,0276 0,4569 -0,0731 0,4824 -0,1828 -0,4602 0,1231 0,3592 -0,0606 0,0441 -0,2280 -0,5596 -0,2144 -0,1673 0,0743 -0,1074 -0,2383 0,0764 0,2000 0,0585 -0,2840 -0,0355 0,0604 0,5278 0,6396 -0,1273 0,0733 0,4787 0,4659 0,2481 -0,2492 -0,0760 0,3054 -0,3772 -0,0588 -0,2777 0,4899 -0,4825 0,0285 0,2149 0,8284 -0,4420 -0,3457 0,1362 0,1172 0,1449 0,0574 -0,1326 0,1926 -0,3426 -0,0522 0,2714 -0,3705 -0,3029 0,1242 -0,3402 0,3267 -0,0610 -0,3158 0,4154 0,2502 0,1310 -0,5184 0,0618 -0,7819 -0,0868 0,3242 -0,0798 0,3463 -0,0806

Cargas de los factores retenidos: ---------------------------------

Aqu han salido 5 factores sin rotacin. Pero esta matriz es difcil de interpretar porque tiene las cargas muy altas para el factor 1 y para el factor 2. Aunque hemos extrado varios factores, como tienen elevados nmeros en las cargas, no sabemos que factor es ms importante que otro. Qu variable es ms importante que las otras?

EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC

FACTOR 1 -------0,5235 0,4599 0,5558 -0,6326 -0,3886 -0,4859 -0,1293 0,6155 0,4659 -0,5846 0,4822 -0,3065 -0,3973 0,3693 0,2894

FACTOR 2 --------0,2539 -0,5037 0,3156 -0,0655 -0,3667 -0,0979 -0,3579 -0,4176 -0,2567 -0,3547 -0,2042 -0,5474 -0,4402 -0,2191 -0,2858 1,7250 11,50% 33,10%

FACTOR 3 --------0,3078 -0,1297 -0,2000 -0,0066 -0,1716 -0,3679 0,3078 0,0023 -0,3055 -0,3682 0,4300 0,1019 0,2320 -0,4648 0,4681 1,3244 8,83% 41,93%

FACTOR 4 --------0,1587 -0,2161 -0,3165 -0,1343 -0,2977 -0,1718 0,6023 0,1880 -0,0738 0,1180 0,0150 0,1645 -0,4285 0,3434 -0,3941 1,2098 8,07% 50,00%

FACTOR 5 -------0,2203 0,1656 0,0293 0,3373 -0,2463 0,3171 0,2343 -0,2698 -0,3725 0,0106 0,1403 -0,2882 -0,0773 0,4072 0,3559 1,0196 6,80% 56,80%

COMUNALIDAD ----------0,5069 0,5561 0,5496 0,5363 0,4641 0,5111 0,6571 0,6613 0,5205 0,6172 0,4791 0,5142 0,5951 0,6842 0,6666

VARIANZA: 3,2405 % DE VARIANZA: 21,60% % VAR.ACUMUL.: 21,60%

Haremos la rotacin VARIMAX para ver que factor es ms importante. Vemos la carga de los factores retenidos despus de la rotacinROTACIN VARIMAX: ----------------Cargas de los factores retenidos (despus de la rotacin): ---------------------------------------------------------FACTOR 1 -------0,6423* 0,6071* 0,2243 -0,1229 0,0016 0,1713 0,0430 0,3894 0,3778 0,1379 0,1228 -0,0410 -0,1448 0,7363* 0,1288 FACTOR 2 --------0,2070 -0,0684 -0,5989* 0,1505 -0,0427 -0,0204 0,7964* 0,1308 -0,2174 0,2998 0,1348 0,4525 0,0489 0,1809 -0,0408 1,4793 9,86% 21,78% FACTOR 3 -------0,1735 0,3417 0,1106 -0,0201 -0,1408 -0,2113 0,1099 0,1344 -0,1094 -0,4190 0,5702* -0,0771 0,2802 -0,1301 0,8009* 1,5096 10,06% 31,84% FACTOR 4 --------0,0520 0,1791 -0,3031 0,2360 0,6551* 0,2424 -0,0929 0,0421 0,1771 0,4494* -0,1584 0,5322* 0,6738* -0,3038 0,0731 1,7740 11,83% 43,67% FACTOR 5 -------0,1368 0,1845 0,1910 -0,6652* -0,1158 -0,6147* -0,0163 0,6876* 0,5359* -0,3617 0,3091 0,1362 -0,1977 -0,0112 -0,0396 1,9690 13,13% 56,80% COMUNALIDAD ----------0,5069 0,5561 0,5496 0,5363 0,4641 0,5111 0,6571 0,6613 0,5205 0,6172 0,4791 0,5142 0,5951 0,6842 0,6666

EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC

VARIANZA: 1,7876 % DE VARIANZA: 11,92% % VAR.ACUMUL.: 11,92%

Tres efectos de la rotacin VARIMAX: La cantidad total de varianza es la misma. Con este modelo factorial hemos explicado un 56.80% de la varianza total. Ahora hemos mejorado la interpretacin de los datos y podemos distinguir que variable tiene mas peso en cada factor.

Sin embargo, la varianza es de cada factor es menor. Hemos redistribuido la varianza, para que cada factor tenga niveles semejantes de varianza. Tercer efecto de la rotacin es que hemos mejorado la interpretacin de los datos, Ahora podemos ver que variable tiene mas peso para cada factor (las que tienen *).

COEFICIENTES DE PUNTUACIN DE LOS FACTORES: EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC 0,3741 0,3335 0,0843 0,0629 0,0263 0,2499 0,0500 0,1054 0,1320 0,1950 -0,0122 -0,0419 -0,0738 0,4980 0,0440 -0,1147 -0,0433 -0,3752 0,0363 -0,1343 -0,0804 0,5974 0,1396 -0,1461 0,1332 0,1491 0,2583 -0,0735 0,1964 -0,0282 0,0637 0,1866 0,0237 0,1126 -0,0756 -0,0564 0,0906 -0,0401 -0,1957 -0,2445 0,3597 -0,0649 0,2591 -0,1385 0,5907 0,0151 0,1552 -0,0790 0,0240 0,4103 0,0559 -0,1776 0,1183 0,2286 0,1822 -0,0655 0,3009 0,4030 -0,2336 0,0566 -0,0909 -0,0352 -0,0170 -0,3779 0,0492 -0,3802 -0,0119 0,3777 0,3223 -0,1141 0,0678 0,2253 -0,0409 -0,1791 -0,1829

REPRESENTACIN GRFICA DE LOS FACTORES -------------------------------------VARIABLES: Cdigo -----A B C D E F G H I J K L M N O Significado ---------------EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC

FACTORES 1 y 2:

FACTOR 2 | 1,0 + + | | | | 0,9 + + | | | | 0,8 + + G | | | | 0,7 + + | | | | 0,6 + + | | | | 0,5 + + | | L | | 0,4 + + | | | | 0,3 + + J | | | | 0,2 + + N | | D | K H | 0,1 + + | | M | | 0,0 +----+---+---+---+---+---+---+---+---+---+---+--F+---+---+---+---+---+---+---+----|FACTOR 1 | E O B | -0,1 + + | | | | -0,2 + + I A | | | | -0,3 + + | | | | -0,4 + + | | | | -0,5 + + | | | | -0,6 + + C | | | | -0,7 + + | | | | -0,8 + + | | | | -0,9 + + | | | | -1,0 + + | |+++++++++++++++++++ -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0

Tenemos una representacin grfica para los factores 1 y 2 despus de la rotacin VARIMAX.

Ejercicio 2 1. Define y relaciona los siguientes trminos: factor, cargas, y comunalidad. 2. Cules son los criterios que podemos emplear para determinar el nmero de factores a extraer? 3. Para qu usaramos una rotacin ortogonal en el ACP? 4. Construye un diseo adecuado para el siguiente estudio con el ACP: La imagen juega un papel de gran importancia en el marketing. Una imagen de marca se puede examinar desde la interaccin de varias dimensiones o construcciones que caracterizan a dicha marca. En el presente estudio, nos centraremos en identificar la imagen de BMW que motiva a los consumidores potenciales hacia la compra... 5. Tras realizar una investigacin sobre la imagen de BMW, se consiguieron los siguientes resultados. Interpreta lo que indica la tabla y prepara un informe: ---------------------------------------------------------Cargas de los factores retenidos (despus de la rotacin): FACTOR 1 FACTOR 2 COMUNALIDAD Prestigio 0.6132* 0.2328 0.5302 Estatus social 0.4509* 0.0857 0.5106 Calidad 0.3287* 0.0595 0.4516 Sofisticacin 0.6605* -0.2364 0.5963 Tecnologa -0.0930 0.5690* 0.5477 Extravagancia -0.4916 -0.7263* 0.5692 VARIANZA: % DE VARIANZA: % VAR.ACUMUL.: 1.6780 27.97% 27.97% 1.5875 26.46% 54.43%

1. Define y relaciona los siguientes trminos: factor, cargas, y comunalidad.

2. Cules son los criterios que podemos determinar el nmero de factores a extraer?

emplear

para

Para el ltimo criterio es posible que se quiera explicar grficamente con el grafico de sedimentacin. Tendramos que explicar como determinar el punto de corte.

3. Para qu usaramos una rotacin ortogonal en el ACP? La rotacin es una manipulacin matemtica del ACP que facilita la interpretacin de factores. Se utiliza para lograr un patrn de factores ms simple y tericamente ms significativo. Tcnicamente, la rotacin consiste en girar los ejes de referencia de los factores hasta alcanzar una determinada posicin para redistribuir la varianza de los mismos. Si se mantiene un ngulo de 90 grados, se llama rotacin ortogonal, y sino se denomina rotacin oblicua. En el ACP, normalmente se usa la rotacin ortogonal. En el libro de AM, vienen explicados todos estos sistemas de rotacin 4. Construye un diseo adecuado para el siguiente estudio con el ACP: La imagen juega un papel de gran importancia en el marketing. Una imagen de marca se puede examinar desde la interaccin de varias dimensiones o construcciones que caracterizan a dicha marca. En el presente estudio, nos centraremos en identificar la imagen de BMW que motiva a los consumidores potenciales hacia la compra... En el apartado de objetivo del estudio se puede escribir algo como lo de arriba. En la introduccin habra que intentar convencer de porque el profesor tiene que leer ese trabajo. Normalmente la introduccin es para resumir las partes ms importantes y convencer de porque leer el trabajo. Primeramente, investigaremos la literatura existente para establecer el estado del arte. A continuacin, establecemos las hiptesis que queremos validar o rechazar mediante el estudio.

Por qu queremos efectuar este estudio? Es una de las preguntas a responder. Diferentes a objetivos. Ahora estableceremos y concretaremos las partes tcnicas: variables y escalas. En el ACP se pueden utilizar solo variables mtricas. Si tenemos variables categricas, las tenemos que convertir en variables mtricas. Este tipo de variables se llaman variables ficticias. Dependiendo de la tcnica multivariante, podemos utilizar estas variables ficticias para el anlisis. Ahora determinamos el tamao muestral. Como regla general, el tamao de la muestra debe ser por lo menos 50, y preferiblemente superior a 100 observaciones. Ventaja de realizar revisin bibliogrfica: saber como se disean los estudios, saber que variables, que escalas, que tcnicas multivariantes se han realizado. As tendremos mejor informacin para saber tipo de variables y tipo de escalas. Despus de determinar el tamao muestral, hay que concretar los mtodos de la investigacin, instrumentos, coleccin de datos, muestreo, etc. Ahora examinamos los supuestos. Ahora ya tenemos datos, y tenemos que examinar los supuestos. Hay dos tipos de supuestos a examinar: Aparte de los supuestos principales como la normalidad, la linealidad y la homocedasticidad, hay que examinar el supuesto especfico: ver si existe un alto nivel de correlacin entre las variables. Para examinarlo: Examen visual de la matriz de correlaciones, Test de Bartlett, Indice KMO Despus determinamos el nmero de factores a ser extrados. Ver el criterio: Criterio Criterio Criterio Criterio de raz latente a priori de porcentaje de la varianza de contraste de cada

Si seleccionamos varios criterios (como hoy), una regla general, emprica; cuando seleccionamos Criterio de contraste de cada, normalmente salen uno o dos factores ms que cuando se selecciona el Criterio de Valores Propios mayores que uno. Es lgico, ya que el Criterio de Contraste de Cada es un simple examen visual, y el otro es mucho ms emprico y objetivo.

Har una revisin bibliogrfica, y si salen los factores que espero despus de mi revisin bibliogrfica, me puedo quedar con ese criterio Tambin se realiza normalmente la rotacin ortogonal de los factores para su mejor interpretacin. Despus de esto, tenemos que atribuir significado a cada factor asignndole una etiqueta adecuada. Finalmente, realizaremos una interpretacin y validacin de los factores

5. Tras realizar una investigacin sobre la imagen de BMW, se consiguieron los siguientes resultados. Interpreta lo que indica la tabla y prepara un informe: ---------------------------------------------------------Cargas de los factores retenidos (despus de la rotacin): FACTOR 1 FACTOR 2 COMUNALIDAD Prestigio 0.6132* 0.2328 0.5302 Estatus social 0.4509* 0.0857 0.5106 Calidad 0.3287* 0.0595 0.4516 Sofisticacin 0.6605* -0.2364 0.5963 Tecnologa -0.0930 0.5690* 0.5477 Extravagancia -0.4916 -0.7263* 0.5692 VARIANZA: % DE VARIANZA: % VAR.ACUMUL.: 1.6780 27.97% 27.97% 1.5875 26.46% 54.43%

Dos puntos a tener en cuenta: 1. No se deben repetir, sino interpretar los datos Cuando ya se tienen los datos, no importan las respuestas que repiten datos: ya se pueden ver en la tabla! 2. Realizar recomendaciones: a) para la empresa, y b) para los investigadores Entonces: Diremos que variable tiene mayor importancia en cada factor. Pe Luego diremos como interpretar estos datos. En el cuadro no dice nada sobre la interpretacin. Entonces, para FACTOR 1 y FACTOR 2 tendremos que interpretar.

Para poner una etiqueta al FACTOR 1, pensaremos en alguna palabra que tenga que ver con sofisticacin, prestigio, estatus social y calidad. Los elementos determinantes de la imagen implican una relacin coherente entre todos los factores extrados. El primer factor se puede etiquetar como Estatus, e indica la imagen de prestigio que da la marca BMW. La Sofisticacin ha sido percibida como la imagen principal de dicha marca. Esta imagen parece ser una percepcin general de BMW. El segundo factor es ms difcil interpretar, ya que existen dos elementos contradictorios, es decir, Tecnologa y Extravagancia. Probablemente, la marca BMW ha sido evaluada de tal manera debido al elevado nivel de precio que no necesariamente compensa el nivel de tecnologa percibida..Shintaro. Uno de los peligros del ACP es la subjetividad a la hora de interpretar los factores. Con esta tcnica no se puede evitar la interpretacin subjetiva. Otro de los peligros es la interpretacin de las etiquetas. Deberamos explicar que significa cada etiqueta. Desde el punto de vista empresarial, nuestra recomendacin seria realizar acciones filantrpicas con el fin de aumentar su imagen social, tales como patrocinar partidos deportivos, llevar a cabo actividades culturales, etc. Tambin habra que hacer una publicidad comparativa entre la marca BMW y otras marcas competidoras para convencer a los consumidores de que la relacin entre precio y calidad es equilibrada o incluso superior a la de otras marcas. Metodolgicamente, hay dos advertencias que merecen nuestra atencin. Primero, el hecho de que el estudio ha extrado solo dos factores implica que el nmero de tems incluidos en el cuestionario probablemente no era suficiente. Segundo, como los factores explican solo la mitad (un 54%) de la varianza total, existiran otras dimensiones o construcciones que explican la otra mitad de la varianza. En un futuro estudio, se deben considerar e incorporar estas dos limitaciones para aumentar la significacin tanto prctica como estadstica.. Shintaro.

TEMA 3: EL ANALISIS FACTORIAL DE CORRESPONDENCIAS

Estructura de la clase: 1. Introduccin. 2. Definicin y objetivo del AFC. 3. Conceptos bsicos del AFC. 4. Supuestos del AFC. 5. Diseo del AFC. 6. Casos prcticos con DYANE.

Introduccin. En el pasado, las tcnicas de descomposicin del anlisis multidimensional (AM) han sido frecuentemente utilizadas. El AM es un conjunto de procedimientos para desplegar las relaciones (de similitud o preferencia) mediante un mapa perceptual. Sin embargo, en las ltimas pocas, se han combinado aspectos del anlisis factorial o del anlisis discriminante y del anlisis multidimensional para configurar una nueva tcnica llamada anlisis factorial de correspondencias. El AM es una tcnica de descomposicin de datos y stos se representan mediante un mapa perceptual, donde Es una tcnica para analizar tablas de contingencia. Requiere de una matriz de datos con entradas NO negativas. Se utilizan variables categricas nominales, de ah que no puedan haber datos negativos. Se tienen que identificar correctamente los objetos y los atributos. Ejemplo: Analizamos las cervezas ms representativas del mercado espaol. Queremos saber el posicionamiento de las marcas existentes en la actualidad para introducir una nueva marca de cerveza extranjera: SanMiguel A Amstel OBJETOS (marcas representativas) CruzCampo Heineken Mahou

Sabor Pr ecio ATRIBUTOS Envase

Otro ejemplo: Imaginemos que tenemos una serie de marcas de bebidas alcohlicas (A, B, C y D) y queremos saber la existencia de similitud entre marcas. Existen varios mtodos para medir la similitud entre marcas. Podramos por ejemplo, comparar por parejas, es decir A con B, luego A con C, etc.

Para poder realizar este estudio, creamos una tabla de doble entrada y determinamos un orden de similitudes, por ejemplo: Marca A Marca Marca Marca Marca A B C D Marca B 1 Marca C 3 4 Marca D 5 6 2

Una vez asignadas las similitudes, comprobamos que esta ordenacin es difcil de apreciar una vez dispuesta esta informacin en forma de tabla. Podramos utilizar un ndice estadstico para ordenar los datos, colocando el orden de similitud entre las marcas, midiendo stas de una forma ms objetiva mediante las distancias entre marcas: D -2 C -1 0 A 1 B 2

En el grfico anterior, si se puede apreciar mejor las distancias existentes entre similitud de marcas. Por ejemplo, la B y la D son las marcas mas distanciadas tal y como se puede comprobar en la tabla de doble entrada anterior, ya que tienen un valor igual a 6. En el grfico anterior, estaramos observando una nica dimensin al estar las marcas dispuestas horizontalmente. Si quisiramos utilizar dos dimensiones, podramos incluso mejorar el nivel de percepcin: Dimensin 2 A B Dimensin 1 C D Resumiendo: Encuesta con escala nominal (dicotmicas), es decir, mutuamente excluyentes Definicin y objetivo del AFC. Determinaci n de Atributos y Objetos Mapa de posicionamiento. Colocar atributos grficamente.

El anlisis factorial de correspondencias (AFC) es una tcnica de interdependencia descriptiva que representa grficamente mediante filas

y columnas una tabla de contingencia, basndose en la descomposicin de la Chi-cuadrado. Otra definicin: Es una representacin grfica y podemos ver esa representacin grfica entre objetos y atributos de una forma muy sencilla. La Chi-cuadrado (X2) es una medida estandarizada de las frecuencias observadas de cada celda con las frecuencias esperadas de celdas. Los valores de la X2 pueden convertirse en medidas de similitud. El objetivo principal del AFC es identificar afinidades entre categoras de filas y columnas presentadas en forma de tabla, tanto de frecuencias como de valores medios. Las ventajas principales del AFC son: 1. su capacidad para representar relaciones entre categoras de datos nominales con filas y columnas en un mismo espacio. 2. El AFC difiere de otras tcnicas de interdependencia en su capacidad para utilizar tanto datos no mtricos como relaciones no lineales. Conceptos bsicos del AFC. A partir de la tabla de contingencia, se calcula una matriz de covarianzas de las variables columna, que luego se factoriza aplicando el Anlisis de Componentes Principales. Las races y los vectores caractersticos que se obtienen permiten calcular las coordenadas de las variables filas y columnas. La correlacin de cada variable con cada uno de los ejes factoriales obtenidos depende del valor de la coordenada respecto del eje considerado y las restantes coordenadas con los dems ejes. La medida de la asociacin entre variables filas y columnas viene dada por la inercia (concepto del DYANE)(variacin explicada del modelo) total. La inercia es el resultado de dividir el valor de la X2 de la tabla por la suma total de frecuencias. Cada factor obtenido contribuye a la inercia en forma decreciente, de modo que el primer factor es el que mayor inercia explica, luego el segundo, y as sucesivamente. Dentro de cada eje o factor, la contribucin a la inercia de cada variable est en funcin de los valores de su coordenada y de la frecuencia total de la variable columna o fila correspondiente. Si dos filas (columnas) tienen perfiles prximos, es decir, los porcentajes de las filas (columnas) de ambas son parecidos, aparecern prximos sobre el grafico. Si aparecen alejados tienen perfiles diferentes.

Supuestos del AFC. El uso del AFC tiene una relativa libertad respecto a sus supuestos bsicos. Se pueden utilizar tanto datos no mtricos como relaciones no lineales. Los supuestos del AFC se centran principalmente en la comparabilidad y representatividad de los objetos que estn siendo evaluados y de los encuestados. El proceso de muestreo es clave (a la hora de seleccionar los objetos ms representativos) cuando se aplica en el mundo real. En el ejemplo de las marcas, tenemos siempre que seleccionar las ms representativas.

Diseo del AFC. Determinacin del objetivo del estudio. Comprobacin de los supuestos del AFC. Creacin de una tabulacin cruzada de entradas no negativas. Clculo de la X2 Identificacin del nmero apropiado de dimensiones. El nmero mximo de dimensiones es igual al nmero ms pequeo de filas o columnas menos uno. Por ejemplo, si una variable dispone de cinco categoras y la otra de cuatro, el nmero mximo de dimensiones es tres. Creacin del mapa perceptual. (Con dos ejes para realizar el posicionamiento) Interpretacin y validacin.

Mtodo de validacin: Los investigadores deben evaluar la sensibilidad de los resultados. Como? Con la adicin o sustraccin por ejemplo de un objeto, podemos saber si el anlisis es dependiente de ese objeto en concreto y no de la relacin de este con los dems. Si los datos cambian drsticamente, quiere decir que evidentemente que no hemos elegido los objetos correctamente.

Casos prcticos con DYANE.ANALISIS FACTORIAL DE CORRESPONDENCIAS AFC1

Para este ejercicio, se ha utilizado el fichero COMPORT.DYT, fichero de ejemplo del DYANE v2.0. Una vez abierto este fichero en DYANE, obtenemos el anlisis factorial por correspondencias (AFC)

Elegimos la opcin TABLA DE FRECUENCIAS:

Despus seleccionamos las variables fila y columna. Las variables fila tienen que seguir una ESCALA NOMINAL. En este caso las variables son DICOTNMICAS (SI o NO). Las variables columna, han de seguir una ESCALA CATEGRICA. El nmero de EJES (DIMENSIONES) difiere de la definicin dada por el profesor. Esto es debido a que DYANE tiene en cuenta otros factores para calcular dichos EJES. Por lo tanto, lo calculado en DYANE tambin es vlido.

En este caso, elegimos como variables fila TARJETA, AUTOMOV y VIVIENDA. Como variables columna, elegimos CLASSOC.

TABLA DE FRECUENCIAS:

1 2 3 4 5 6

TARJETA -S TARJETA -No AUTOMOV -S AUTOMOV -No VIVIENDA-S VIVIENDA-No

CLASSOC ----------------------------------Alta/me Med Me dia alta ia media dia baja Baja -------- -------- -------- -------87 110 54 2 74 198 384 91 94 135 135 17 67 173 303 76 112 183 219 31 49 125 219 62 JI-CUADRADO: EJE 1 EJE 2 EJE 3 249.2178

INERCIA TOTAL:

0.083073

Valores de la

Inercia y la Chi-Cuadrado Dimensiones o ejesAUTOVALORES

obtenidosVALORES PROPIOS: CONTRIBUCION A LA INERCIA: VECTORES PROPIOS: -------- -------- -------0.0818 0.0012 0.0000 98.5171 1.6915 0.5720 -0.6902 -1.5723 1.4241 -0.1901 -0.3584 0.8711 -2.5867 0.0588 -1.5211 1.3383 -0.2189 -0.7678

Los ejes 1 y 2 son losAUTOVECTORES

ms representativos. El eje 3 es ignorable.

Resumiendo: Los ejes 1 y 2 representan el 99,5% de la informacin. En este caso, se puede despreciar la informacin proporcionada por el eje 3, siempre que no se necesite verdaderamente esta informacin para el estudio que queramos elaborar.ESTUDIO DE LAS COLUMNAS ----------------------3 ----------------------

(% de inercia explicada para cada eje)E J E 1 E J E 2 E J E ----------------------

----------------------

% INER. EXPLIC. -----1. Alta/media alta 37.25 2. Media media 55.17 3. Media baja 2.10 4. Baja 5.48 ESTUDIO DE LAS FILAS -------------------3 ---------------------% INER. EXPLIC. -----1. TARJETA -S 6.23 2. TARJETA -No 2.11 3. AUTOMOV -S 43.40 4. AUTOMOV -No 26.71 5. VIVIENDA-S 9.80 6. VIVIENDA-No 11.74

COORDENADA -----0.484 0.164 -0.197 -0.450

CORRELACION -----0.999 0.991 0.977 0.962

% INER. EXPLIC. -----46.07 10.08 20.86 22.99

COORDENADA ------0.007 -0.012 0.030 -0.089

CORRELACION -----0.000 0.006 0.023 0.038

% INER. EXPLIC. -----0.58 3.96 33.24 62.23

COORDENADA ------0.011 0.009 -0.002 -0.005

CORRELACION -----0.000 0.003 0.000 0.000

E J E

1

E J E

2

E J E

---------------------COORDENADA -----0.671 -0.227 0.305 -0.188 0.173 -0.207 CORRELACION -----0.993 0.993 0.994 0.994 0.940 0.940 % INER. EXPLIC. -----46.35 15.70 14.47 8.90 6.64 7.95

---------------------COORDENADA ------0.056 0.019 0.019 -0.012 0.044 -0.052 CORRELACION -----0.007 0.007 0.004 0.004 0.059 0.059 % INER. EXPLIC. -----22.11 7.49 4.03 2.48 29.07 34.82 COORDENADA -----0.006 -0.002 -0.013 0.008 0.005 -0.006 CORRELACION -----0.000 0.000 0.002 0.002 0.001 0.001

(Codificacin o etiquetacin de las variables para su representacin grafica)REPRESENTACIN GRFICA DE LOS EJES FACTORIALES ---------------------------------------------VARIABLES COLUMNA: Cdigo Significado ------ ---------------A Alta/media alta B Media media C Media baja D Baja

VARIABLES FILA: Cdigo Significado ------ ---------------1 TARJETA -S 2 TARJETA -No 3 AUTOMOV -S 4 AUTOMOV -No 5 VIVIENDA-S 6 VIVIENDA-No

EJES 1 y 2: nicamente se miran los resultados de stos 2 ejes ya que la informacin proporcionada por el eje 3 es ignorable. En este grfico, medimos la similutud que puedan tener las variables aplicando un criterio

subjetivo, dado que somos nosotros los que tenemos elegir dicha simulitud, observando las variables directamente del grfico. No tenemos que olvidar que la tcnica del AFC mide el posicionamiento de las variables.EJE 2 | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | 5 | | 2 C | 3 | --------------------------------------4------------+-----------B---------------------A---------EJE 1 | | | | 6 | 1 | | D | | | La var. D est relacionada con la 6 | | | | | | | | | | | | | | | | | | | | | | | | | |

ANALISIS FACTORIAL DE CORRESPONDENCIAS AFC2

Este ejercicio se ha realizado utilizando el fichero ACTI_TEMP.DYT del DYANE v2.0. Escogemos la opcin de Tabla de Valores Medios del Anlisis Factorial por correspondencias en DYANE:

Escogemos 10 variables fila y 1 variable columna. Las variables fila siguen una escala de Likert. El nmero de ejes o dimensiones es 3.

TABLA DE VALORES MEDIOS: PROMOC_A ----------------------------------Tercera Cuarta Quinta Sexta (81/82) (82/83) (83/84) (84/85) -------- -------- -------- --------

1 2 3 4 5 6 7 8 9 10

LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC

2.38 3.62 2.66 1.45 2.21 2.10 2.90 2.14 4.31 2.76 0.007384

2.77 3.40 2.67 1.53 3.27 1.83 2.57 2.00 4.47 2.23

2.78 3.39 2.68 1.56 2.76 1.73 3.37 2.27 4.20 2.07

3.18 3.34 2.37 1.68 3.19 1.76 2.63 2.05 4.21 2.02 0.7862

INERCIA TOTAL:

JI-CUADRADO: EJE 1 EJE 2 EJE 3 -------- -------- -------0.0052 0.0017 0.0004 70.4465 1.5854 -0.5541 0.0608 -1.0923 23.6515 0.5292 0.9535 -1.6594 0.1877 5.9020 0.4711 -1.3292 -0.4635 1.3423

VALORES PROPIOS: CONTRIBUCION A LA INERCIA: VECTORES PROPIOS:

Se puede despreciar la

informacin del tercer eje

ESTUDIO DE LAS COLUMNAS ----------------------3 ---------------------% INER. EXPLIC. -----1. Tercera (81/82) 5.53 2. Cuarta (82/83) 44.36 3. Quinta (83/84) 5.41 4. Sexta (84/85) 44.71 ESTUDIO DE LAS FILAS -------------------3 ---------------------% INER. EXPLIC. -----1. LIBERAL 34.25 2. ECSOLMER 1.47 3. SOCIALIS 26.09 4. COMUNISM 10.30 5. EMPR_CRE 16.17 6. EMPR_EXP 3.61 7. BEN_OBJ1 1.14 8. BENSOLAC 0.57 9. BAL_SOCI 5.01 COORDENADA ------0.096 0.030 0.029 -0.047 -0.143 0.068 0.044 0.022 0.001