Factorial

download Factorial

of 13

description

Estadística, análisis factorial

Transcript of Factorial

2_7 FACTORIAL.PDF

ANLISISFACTORIAL

Autor:Ramn Maha Casado

1.- IDEA CONCEPTUAL BSICA

- (1) Parte de un conjunto amplio de variables que presentan interrelaciones importantes..

-(2) se asume que las relaciones existen porque las variables son manifestaciones comunes de factores no "observables" de forma directa...y

- (3) se pretende llegar a un clculo de esos factores:- (a)- resumiendo informacin- (b)- clarificando las relaciones entre ellas y- (c) sin prdida excesiva de informacin.

2.- DEFINICIN

-(1) Proporciona la estructura interna, las dimensiones subyacentes, el transformado de un conjunto amplio de variables, elaborando una estructura ms simple, con menos dimensiones, que proporcione la misma informacin y permita globalizar as el entendimiento del fenmeno.

-(2) Simplifica la modelizacin convirtiendo, por eliminacin de redundancias expresadas en altas correlaciones entre variables, un amplio conjunto de variables en factores "estructurales".

3.- DIFERENCIAS CON OTRAS TCNICAS

-No es una tcnica de dependencia (no hay seleccin a priori de dependiente y exgenas), es una Tcnica de Interdependencia

-No es una tcnica de agrupacin: Aunque puede aplicarse con fines de agrupacin sobre matrices de correlaciones entre objetos/sujetos (Factorial Q), lo habitual es su aplicacin sobre matrices de correlaciones entre variables (Factorial R).Anlisis Factorial

Anlisis Factorial

380

379

4.- MODELO FACTORIAL EXPLORATORIO (Un ejemplo):

Se desea extrapolar de la provincia al municipio, un modelo de regresin explicativo del nivel de renta disponible funcin de una serie de manifestaciones de esa renta. Para ello, se parte de un amplio conjunto de variables provinciales y para los 8.000 municipios espaoles.

Recaudacin de los distintos impuestos directos e indirectos Tasa de paro y actividad Generacin neta de empleo Kilmetros de carreteras de cada tipo en servicios Kilmetros de lnea frrea en servicio Nmero de vehculos de distintos tipos por habitante Lneas telefnicas por cada 100 habitantes Camas hospitalarias por cada 1000 habitantes Empresas creadas y cerradas en el ao ndice de precios al consumo ndice de precios industriales ndice de comercio al por menor Licencias fiscales concedidas .etc

Con el fin de poder abordar con grados de libertad suficiente la estimacin del modelo de renta, la informacin relativa a estas variables se intenta resumir en tres factores, sin perder excesiva informacin y logrando una incorrelacin muy conveniente. El factorial arroj tres factores cuyos significados se asociaron a:

Factor 1: Factor de renta y riqueza personal - familiar Factor 2: Factor de salud y desarrollo del mercado laboral Factor 3: Factor de desarrollo infraestructural

5.- MODELO FACTORIAL CONFIRMATORIO (ejemplo):

Se desea medir la capacidad de abstraccin, analtica y memoria de los alumnos.

Se observaron 10 notas de cada alumno de un determinado grupo de estudiantes universitarios. Entre estas notas, o al menos entre algunas de ellas, se observan correlaciones

elevadas que, en cierta medida, provienen de aptitudes globales del alumno que no se observan directamente:

Nota en lgebra Nota en clculo Nota en estadstica Nota en derecho mercantil Nota en derecho laboral Nota en contabilidad financiera y de sociedades Nota en anlisis de costes Nota en comunicacin comercial Nota en actuariales Nota en econometra

Un anlisis factorial permiti que la informacin relativa a estas variables se resumiese en tres nicos factores de fondo, sin prdida excesiva de informacin y logrando, de nuevo, una incorrelacin muy conveniente. Cada uno de estos tres factores se interpret como:

F2 - Factor de CAPACIDAD DE ABSTRACCIN F3 - Factor de MEMORIAF4 - Factor de CAPACIDAD ANLTICA

Independientemente de estos tres factores relacionados con grupos de variables (notas) se identific, claro est, una factor comn que podramos llamar inteligencia en general y un factor especfico para cada asignatura (su propia dificultad y componentes de tipos aleatorio relativos a las distintas formas de evaluacin).

6.- MODELO FACTORIAL TERICO

Xij = ai1 F1j + ai2 F2j + ai3 F3j + + diUij

Xij = Valor normalizado de la variable i para el sujeto jNota en Matemticas (i) del alumno (j)

F1j = Valor del Factor 1 para el sujeto jValor del factor CAPACIDAD DE ABSTRACCIN del alumno j

ai1 = Relacin entre variable i y factor 1

Relacin entre las Matemticas y la CAPACIDAD DE ABSTRACCIN

F2j = Valor del Factor 2 para el sujeto jValor del factor MEMORIA del alumno j

ai2 = Relacin entre variable i y factor 2Relacin entre las Matemticas y la MEMORIAdiUij = Parte aleatoria independiente de los factores: Donde:- Di es la/s particularidad/es de la nota en Matemticas-Uij es la forma en que esa peculiaridad afecta al alumno j. (P.ej. di puede hacer referencia a la concentracin que se requiere en un examen de matemticas y Uij a la capacidad de concentracin del alumno):

Si los factores estn normalizados (esperanza nla y varianza unitaria) y son independientes los unos de los otros pueden obtenerse los siguientes resultados:

A) aik SER EL COEFICIENTE DE CORRELACIN SIMPLE ENTRE LA VARIABLE i Y EL FACTOR k:1N

a ik

X ijj

F kj

-Cargas factoriales: Coeficientes bsicos para determinacin contenido conceptual de los factores en anlisis exploratorio.

-Matriz de cargas: Se denomina as a la matriz que recoge las cargas entre todas las variables originales y la seleccin final de factores.

B)LA VARIANZA DE LA VARIABLE OBSERVADA i PUEDE DESCOMPONERSE EN UNA PARTE EXPLICADA POR LOS FACTORES COMUNES AL RESTO DE VARIABLES Y OTRA EXPLICADA POR EL FACTOR ESPECFICO:

Var

( X i )

m2 2ad

ik i k 1

-Comunalidad: Uno de los trminos ms clsicos del anlisis factorial expresa la parte de cada variable (su variabilidad) que puede ser explicada por los factores comunes a todas ellas.

-Especificidad: Es el trmino opuesto a comunalidad ya que expresa la parte especfica de cada variable que escapa a los factores comunes.

C)EL COEFICIENTE DE CORRELACIN ENTRE DOS VARIABLES DEPENDER EXCLUSIVAMENTE DE LA FORMA EN QUE AMBAS VARIABLES COMPARTAN FACTORES COMUNES:

Cov

( X i X s )

ma ikk 1

a sk

7.- PASOS A COMPLETAR

7.1.- SELECCIN DE VARIABLES

Dimensin conceptual: Variables en relacin con el fenmeno de anlisis. An en el caso de un anlisis exploratorio, tener claro el modelo factorial terico ayuda a la seleccin conceptual de las mismas. "Basura dentro - Basura Fuera"

Dimensin tcnica:

(1)Deben ser mtricas, aunque se admite la presencia (no generalizada) de ficticias (0,1).

(2)Un nmero elevado no garantiza un mejor anlisis, es ms, debe optarse por la minimizacin del nmero inicial.

(3) Las correlaciones son la base del planteamiento.

3.A) Deben existir altas correlaciones en general para encontrar factores comunes.

3.B) Todas deben presentar, al menos, alguna relacin fuerte: variables aisladas del resto constituirn factores aislados.

7.2.- SELECCIN DE LA MUESTRA

Amplitud: Cuanto mayor ratio observaciones/variables, mejor. (receta: N observaciones 5 veces mayor que el de variables). Una ratio reducida aumenta las posibilidades de encontrar correlaciones espurias, propias de la muestra, no de la poblacin general.

Heterogeneidad: Evidente pero a veces se olvida: una muestra de objetos/sujetos homognea no contiene informacin.

7.3.- EXTRACCIN DE FACTORES:

Nos referimos al clculo analtico de los factores a partir de las variables originales. La extraccin implicar:(1) Decidir el mtodo analtico - matemtico de clculo de los mismos.

1.A) Factorial por componentes principales: El anlisis explora toda la varianza de cada variable: la comn al resto, la especfica y la debida a errores de observacin.- Recomendable para reduccin de datos- Recomendable en conjuntos con varianza comn elevada

1.B) Factorial Comn: El anlisis explora slo la parte comn al resto, de la varianza de cada variable.

- Recomendable en anlisis confirmatorio de dimensiones latentes(objetivo de reduccin en 2 plano)

-Recomendable cuando las puntuaciones factoriales no son importantes(no van a usarse); el mtodo adolece de indeterminacin de factores.

(2)Seleccionar el nmero de factores que son necesarios para captar una cantidad razonable de informacin de los datos originales.

2.A) Valor de los Autovalores o Races Latentes2.B) Seleccin a proiri (modelo terico conocido)2.C) Utilidad prctica (conceptual) de los factores2.D) % global varianza original explicada2.E) Contraste de cada en la comunalidad acumulada

7.4.- INTERPRETACIN Y ROTACIN:

La matriz de cargas, factorial o de componentes relacionarn factores y variables para aproximarnos a su significado. (Matriz de estructura: Matriz que contiene los coeficientes de correlacin entre factores y variables originales. Para factores ortogonales coincide con la de cargas).

-A la hora de valorar si una carga expresa relacin o no (es suficientemente elevada), deberemos ser tanto ms exigentes cuanto:

- Menor sea el tamao muestral- Menos variables se incluyan en el factorial- El factor analizado sea de los ltimos extrados

Si esta misin es difcil, la rotacin elimina ambigedades, ayudando a hacerlo:

-Rotaciones ortogonales (Varimax, Equamax, Cuartimax): Es conceptualmente menos realista, pero maximiza la varianza "explicada" y, en ocasiones, la ortogonalidad resulta til.

-Rotaciones oblicuas (Oblimin): Es ms realista (es difcil suponer ortogonalidad conceptualmente), suele ofrecer resultados ms claros y adems aporta informacin sobre la relacin entre factores.

8.- DETALLE TCNICO

8.1.- ALGO MS SOBRE EL ANLISIS DE CORRELACIONES Triple condicin de anlisis:A.- En general, la mayor parte de las variables deben estar relacionadas de formaimportanteB.- Todas las variables deben estar relacionadas con, al menos, otra del conjunto C.- Las correlaciones parciales no indican presencia de factores subyacenetes comunes.

Matriz Anti - Imagen: Matriz de correlaciones parciales.

Test de esfericidad de Bartlett: Test paramtrico basado en el determinante transformado de la matriz de correlaciones: permite contrastar la doble hiptesis de que los elementos de la diagonal principal de la matriz son la unidad y el resto cero.

Test Kaiser Mayer Olkin: Ratio sencilla entre correlaciones simples entre parciales + simples debe ser cercano a 1. La misma medida puede elaborarse para una sola variable atendiendo slo a sus relaciones con el resto de variables (Test MASi).

8.2.- ALGO MS SOBRE LA EXTRACCIN POR COMPONENTES PRINCIPALES (MARCO GENERAL)"P" variables iniciales:X = [X1, X2 ........Xp ]

Construiremos p componentes principales guiados por: (1) funcin lineal de las variables originales, (2) que absorban el mximo de variacin de las variables X y (3) que estn incorrelacionados.

Yij =

X 1 jbi1

X 2 jbi2

......... b

ip

X pj ; j = 1, 2, ....., n

Yi =b

Y i1Y i 2Y i . ;.

Y in

X i

X

b

X 11 X 21....... X p1 i1X 12 X 22 .......X p 2 bi 2

............................. ; .b

i.............................. .X 1n X 2n ....... X pn b

La variacin de la variable Yi, ser:Y i Y i

b S bi i

ip

donde S = XX

8.3.- DETALLE OBTENCIN 1ER Y 2 COMPONENTES PRINCIPALES

El primer componente es: Y 1

..... y debemos procurar que se maximice:

X b 1

Y 1Y 1

b S b1 1

Para abordar el proceso debemos exigir:

b'

1 b 1 1b

..... por tanto al final: Max Z1

Z

b '

S 111

l 1

( b ' b

1 ) ........ o sea:1

2S b

11b

2 l 1 b 0

S b

11

l 1 b 0

( S l 1b

I ) 01

Huyendo de la solucin trivial tenemos:

S l 1 I

0 ........

...... a partir de aqu, hallamos l 1 que sustituida en (S

l1

I )b1

0 nos da b

1

El segundo componente es: Y 2 X b2

..... y de nuevo debemos procurar maximizar: Y '2 Y 222

b ' S b

.... sujeto de nuevo a la22

b ' b

1 a la que ahora aadimos la ausencia de correlacin con el

primer componente: Y2Y1=0....o lo que es igual

' S

0 que puede escribirse tambin

como

b ' b 021

b 2 b 1

Por tanto, la funcin a maximizar queda:

Max Z

b '

S 2222bbb2m11

l2

( b ' 1)

( b' )

tras hallar la primera derivada y realizar una serie de reducciones, tenemos que:

S 0 b

2 l 2 b 2

o sea ..... ( S

l 2 I ) b 2 0

que se resuelve como para el 1er componente.