estratificacion_multivariada
-
Upload
andrei-rublev -
Category
Documents
-
view
3 -
download
0
description
Transcript of estratificacion_multivariada
-
Nota tcnicaEstratificacin multivariada
Censo de Poblacin y Vivienda 2010
Instituto Nacional de Estadstica y Geografa
-
1
NOTA TCNICA
ESTRATIFICACIN MULTIVARIADA
Con la finalidaddequeelusuariopueda realizar clasificacionesde lasunidadesgeogrficasdelpasconsiderandomltiplesvariablesalavez,sehaincorporadoalSistemaparalaConsultadelaInformacin Censal 2010 (SCINCE 2010) una herramienta de estratificacin multivariada. Esimportanteque elusuario analice los resultadosde la estratificacin cuidadosamente antesdeutilizarlaclasificacinobtenida.
Elobjetivodelaestratificacinmultivariadaesresumirlainformacindetodaslasvariablesqueseincluyenenelanlisis,enunamedidaunidimensionalquepermitaclasificarlasobservacionesengrupos homogneos internamente y dismiles entre s. El presente documento describebrevemente las tcnicas empleadas para la estratificacin; adicionalmente, se proporcionabibliografaparaaquellosusuariosinteresadosenunestudiodetalladodeestastcnicas.
1. MtododeComponentesprincipalesyDaleniusHodges
Estatcnicadeestratificacinmultivariadaconsisteenobtenerunamedidaunidimensionalen laqueseresumelainformacindelasvariablesconsideradasparalaestratificacin,llamadaprimeracomponenteprincipal,yaplicarastaelmtododeestratificacinunivariadadeDaleniusHodges.
1.1 Componentesprincipales
Pararealizarunanlisisexploratoriodedatosmultivariados,serecomiendaelusodelatcnicadecomponentes principales como primer paso. Esta tcnica permite observar las estructuras devariacin de los datos y, en algunos casos, identificar observaciones atpicas o variables cuyaaportacinesmnimaoredundantepararealizarlaclasificacin.
Elmtodo de componentes principales consiste bsicamente en resumir la informacin de unconjuntodevariablesmediante laconstruccindeunconjuntoconmenornmerodevariables.Elmtododeconstruccinde lascomponentesprincipalesgarantizaque laprimeracomponenteprincipal sea la que explique un mayor porcentaje de varianza de los datos, por ello, es estaprimeracomponenteprincipallaqueseutilizapararealizarlaestratificacin.Esimportantequeelusuario evale la pertinencia de aplicar este mtodo de estratificacin considerando que elporcentajedevarianzaexplicadapor laprimera componenteprincipaldebe ser loms cercanoposiblea100porciento.
Losresultadosqueseproporcionanpormediodelanlisisdecomponentesprincipalespermitenexplorar la estructura y comportamiento de los datos que se incluyan en el modelo deestratificacin. Al analizar los resultados numricos y las grficas que se presentan, el usuariopodrdeterminarsilasvariablesqueseincluyenenelestudiosonpertinentes,obienalgunassonredundantesoaportanpocainformacinparalaestratificacin.
-
2
Demanerams formal,elmtodode componentesprincipales consisteen ladescripcinde lavariacindeunconjuntode variablesentrminosdeunconjuntode ( )variablesnocorrelacionadas,queenrealidadsoncombinacioneslinealesdelasvariablesoriginales.
As,si , , , son lasvariablesoriginales,entonces lascomponentesprincipalestendrn laforma:
Las componentes principales estn construidas de tal modo que la varianza captada vadecreciendo, es decir , por ello, en un contexto dereduccin de dimensiones se seleccionan las primeras componentes principales pararepresentaralapoblacinoriginal.
Las componentes principales se obtienen mediante una tcnica algebraica llamadadescomposicinespectralqueseaplicaalamatrizdecovarianzasocorrelacin,segnseaelcaso.Alosresultadosdeladescomposicinespectralselesconocecomoeigenvaloresyeigenvectores.Losdetallessobreelclculodelascomponentesprincipalespuedenconsultarseenlasreferenciasbibliogrficasqueseproporcionan.
1.2 DaleniusHodges
Elmtodo deDaleniusHodges (1959) consiste en la formacin de estratos demanera que lavarianzaobtenida seamnimapara cadaestrato.Elprocedimientopara la conformacinde losestratoseselsiguiente:
Sean=nmerodeobservacionesyL=nmerodeestratos.
1.Ordenarlasobservacionesdemaneraascendente.
2.AgruparlasobservacionesenJclases,dondeJ=min(L*10,n).
3.Calcularloslmitesparacadaclasedelasiguientemanera:
liminf min 1 max minJ
limsup min max minJ
Los intervalos se tomarn abiertos por la izquierda y cerradospor la derecha, a excepcin delprimeroquesercerradoporamboslados.
4.Apartirdeestoslmites,obtenerlafrecuenciadecasosencadaclase 1, , .
-
3
5.Obtenerlarazcuadradadelafrecuenciadecadaclase.
6.Acumularlasumadelarazcuadradadelasfrecuencias.
1, . ,
7.Dividirelltimovaloracumuladoentreelnmerodeestratos.
1
8.Lospuntosdecortedecadaestratosetomarnsobreelacumuladodelarazcuadradadelasfrecuenciasencadaclasedeacuerdoa losiguiente: , 2 , , 1 . Sielvalorde Qquedaentredosclases,setomarcomopuntodecorteaquellaclasequepresentelamnimadistanciaaQ.Loslmitesdeloshestratosconformadossernaquelloscorrespondientesaloslmitesinferiorysuperiordelasclasescomprendidasencadaestrato.
Resultadosdelaestratificacin
AcontinuacinsedaunabrevedescripcindelassalidascorrespondientesalaestratificacinconelmtododeComponentesprincipalesyDaleniusHodges.Serecomiendaalusuarioconsultarelestudiodecasocontenidoenestaaplicacinascomolabibliografaproporcionada.
1.2.1 Resumenderesultados
En este apartado se muestran los resultados ms importantes del anlisis de componentesprincipales.
PorcentajedelavarianzaexplicadaporlaprimeracomponenteprincipalEsteesunodelosparmetrosmsimportantesaconsiderarparaunaeleccinadecuadadel modelo, ya que la estratificacin se realiza considerando nicamente la primeracomponenteprincipal.Esdeseablequeesteporcentajesealomscercanoposiblea100%paraquelaestratificacinarrojebuenosresultados. Modelo
Presentaunresumendelmodeloplanteadoporelusuario,elcualconsisteenlasvariablesincluidas y sus descriptores, el nmero de observaciones, el tipo de anlisis a realizar(covarianzaocorrelacin)yladesviacinestndarqueseobtieneparacadacomponenteprincipal.
-
4
Sielusuarioeligerealizarelanlisisutilizando lamatrizdecorrelaciones, lasvariablesseestandarizany lavarianzatotalser igualalnmerodevariables incluidasenelmodelo;en cambio, si el anlisis se hace utilizando la matriz de covarianza, las variablespermanecernensumtricaoriginal.Sinembargo,elusuariodebertenercuidadoquelas variables que incluya en el anlisis tengan mtricas similares. Para el caso de losindicadores incluidos en el SCINCE, el usuario deber prestar atencin de no incluirindicadoresenabsolutosyenporcentajesenunmismomodelo.
Importanciadelascomponentesprincipales
Paracadaunade lascomponentessepresentan losvalorescaractersticos, ladesviacinestndar y el porcentaje de varianza total explicada; adicionalmente se presenta elporcentajedevarianzatotalexplicadadeformaacumuladaparalascomponentes.Enesteapartado el usuario deber evaluar si la estratificacin por medio de la primeracomponenteprincipalyelmtododeDaleniusHodgesesadecuada. Vectoresdecoeficientesparalascomponentes
Por medio de estos coeficientes, el usuario puede identificar la importancia de lasvariablesconsideradasparalaestratificacin.Lasvariablesconcoeficientesmuypequeosen laprimera componenteprincipalno contribuirn en realidad a la estratificacin, sinembargoesposiblequeestasvariables s sean significativasen lasdemscomponentesprincipales. EstratificacindelaprimeracomponenteprincipalpormediodelmtododeDalenius
Hodges.
Se presentan los lmites de cada estrato obtenido mediante el mtodo de DaleniusHodges,esdecir,elvalormnimoymximoquesepermitenparaqueunaobservacin,alserevaluadaen laprimeracomponenteprincipal,quede incluidaenunestratodado.Seproporciona tambin el valor promedio de la primera componente principal en cadaestrato; este dato permite observar qu tan distantes se encuentran los centroides decadaestrato,esdecir,qutandiferenciadosestnlosestratosformados. PruebaKaiserMeyerOlkinLa prueba KaiserMeyerOlkin ayuda a determinar si los datos son adecuados para unanlisisdecomponentesprincipales.Elresultadodelapruebaarrojaunvalorentreceroyuno,esdeseablequeelvalorsealomscercanoposibleaunoysesugiere0.5comovalormnimo aceptable. Los detalles tcnicos de esta prueba pueden consultarse en labibliografaproporcionada.
-
5
1.2.2 Grficadesedimentacin
En el anlisis de componentes principales, la grfica de sedimentacin ayuda a seleccionar elnmerodecomponentesprincipalesquerepresentanmejoraundeterminadoconjuntodedatos.En este caso, es til para verificar, como ya se mencion anteriormente, que la primeracomponente explique lamayor cantidadposiblede varianza,por loqueesdeseablequeen lagrficaseobserveundesplomeabruptoentrelaprimeraysegundacomponente.
1.2.3 Biplot
Losgrficosbiplotrepresentanalmismotiempo lasobservacionesy lasvariablesdeunconjuntodedatos,respectoalasdosprimerascomponentesprincipales.Lasobservacionesovaloresdelasvariables estn representados por puntos en el plano y las variables estn representadas porvectores,conlassiguientescaractersticas:
Lalongituddecadavectorindicalaimportanciadecadavariableenelmodelo,deestamanera, vectores cortos indican que la variable es susceptible a eliminarse delmodelo.
Elnguloentredosvectores representaelgradodecorrelacinentredosvariables;cuantomenorseaelngulo,mayoreselgradodecorrelacinentrestasvariables.Deestamanera, si el ngulo entre dos vectores esmuy pequeo, puede optarse poreliminarunade lasdosvariablesdelmodelo,depreferenciaaquellacuyovectorseamscorto.
La distancia entre los puntos son una medida de disimilitud de las observacionesreales,asdospuntoscercanosenelplanoimplicandosobservacionessimilaressegnlasvariablesqueseusanparaclasificacin.Tambinpermiteidentificarobservacionesatpicasqueseubicaranmuyalejadasdelrestode lasobservaciones.Enestoscasosse puede considerar repetir el anlisis eliminando estas observaciones atpicas yanalizarlosresultadosobtenidos.
En el casodel SCINCE 2010, lasobservaciones se identifican en esta grficamediante su clavegeogrfica.
1.2.4 Grficodecentroides
Elgrficodecentroidesmuestraelvalorpromediodecadavariableencadaunode losestratosconformados.Estagrficapermitevisualizarelcomportamientodelasvariablesseleccionadasenlosestratos,observandoaslasdiferenciasentrestos.
-
6
2. Mtododekmedias2.1 kmedias
Elmtodode kmediasesunalgoritmode formacindeestratosqueasigna cadaelementoalestrato que tiene el centroide (punto medio) ms cercano. El mtodo se compone de lossiguientespasos:
1. Seleccionaralazarloskcentroidesinicialesdeentrelosdatos.2. Asignarcadaelementoalestratoconelcentroidemscercano.3. Recalcularloscentroidesdelosestratosresultantesenelpaso2.
Los pasos 2 y 3 se repiten hasta que los estratos conformados sean lo ms homogneosinternamenteylomsdisimilesentres.
Para medir las distancias entre los centroides y las observaciones, y entre cada uno de loscentroides,sepuedenutilizarvariasmedidas,aunquelamscomnesladistanciaeuclidianaqueeslaqueseempleaenelcasodeSCINCE2010.
Demanerams formal,elmtododekmediasbuscaminimizar lasumadecuadradosdelerrorintraestrato.As, si , , , son lasvariablesoriginales,elmtododekmediastienecomoobjetivo determinar la conformacin de un conjunto de k estratos S = {S1, S2, , Sk} queminimicelasumadecuadradosdelerrorintraestrato,esdecir
arg
donde eselvectordecentroidesdelestrato .
Uncriteriodejuicioparadeterminarsilosconglomeradosformadossonadecuados,escompararlas sumas de cuadrados dentro de cada conglomerado con la suma de cuadrados entre losconglomerados;seesperaquelasumadecuadradosdentrodelosconglomeradosseamenor.Losdetalles tcnicos sobre la conformacin de estratosmediante elmtodo kmedias pueden serconsultadosenlabibliografaproporcionada.
2.2 Resultadosdelaestratificacin
Acontinuacinsedaunabrevedescripcindelassalidascorrespondientesalaestratificacinconel mtodo de kmedias. Para el caso de la estratificacin por el mtodo de kmedias,adicionalmentealosresultadosdelaestratificacin,seproporcionanlassalidascorrespondientesa un anlisis de componentes principales con el fin que el usuario pueda realizar una anlisis
-
7
exploratoriodelasvariablesconsideradasenelmodelo.Esteanlisisdecomponentesprincipalesesindependientedelaestratificacinporelmtododekmedias,ladescripcindelassalidasdestepuedenconsultarseen laseccincorrespondientea laestratificacinpormediodelmtododecomponentesprincipalesyDaleniusHodges.Serecomiendaalusuarioconsultarelestudiodecasocontenidoenestaaplicacinascomolabibliografapresentada.
2.2.1 Estratificacinpormediodelmtodokmedias
Paracadaunadelasvariablesconsideradasenelmodelo,sepresentaelvalorpromedioparacadaestrato.De igualmanera, seproporcionan las sumasdecuadradosdelerroral interiordecadaestrato,lasumadecuadradosdelerrortotalylasumadecuadradosentreestratosylafrecuenciadeobservacionesobtenidaencadaestrato.
2.2.2 Dendograma
El dendograma tiene como objetivo facilitar la interpretacin de los resultados obtenidosmediante laestratificacin.Esencialmente,medianteestagrfica se representa la formacindeestratosascomoladistanciaentreellos.Pormediodeestagrficaenformaderbolinvertido,elusuariopuede identificarobservacionesatpicas,yenalgunoscasosestagrficaserdeutilidadparadeterminarselnmerodeestratospredefinidoseselmsadecuado.
2.2.3 Biplot
Esta grfica forma parte del anlisis de componentes principales, en sntesis se representan almismo tiempo las observaciones y las variables de un conjunto de datos, respecto a las dosprimeras componentes principales. Las observaciones o valores de las variables estnrepresentados por puntos en el plano y las variables estn representadas por vectores. En elapartadocorrespondientealaestratificacinpormediodelmtododecomponentesprincipalesyDaleniusHodgessepuedeconsultarunadescripcinunpocomsdetalladadeestagrfica.
2.2.4 Histograma
Elhistogramapermiteobservargrficamenteladistribucindelasobservacionesencadaunodelosestratos.Conesto,elusuariopodrdeterminarsi losestratossonhomogneosencuantoalnmerodeobservacionesquecontienen,obien,siunode losestratosresultantescontienemuypocasobservaciones,loquepudieraindicarlapresenciadeobservacionesatpicas.
-
8
ReferenciasBibliogrficas
DaleniusT.andHodgesJ.(1959)MinimumVarianceStratification.JournaloftheAmericanStatisticalAssociationVol.54,No.285p.88101
EverittB.(2001)AppliedMultivariateDataAnalysis.Arnold
EverittB.(2011)ClusterAnalysis5thedition.Wiley
JohnsonD.(1998)MtodosMultivariadosAplicadosalAnlisisdeDatos.ThomsonEditores
JoliffeI.T.(2002)PrincipalComponentAnalysis,SecondEdition.SpringerVerlag
LevyJ.P.(2005)AnlisisMultivariableparalasCienciasSociales.PearsonEducacin
MacQueenJ.B.(1967)SomeMethodsforclassificationandAnalysisofMultivariateObservations,Proceedingsof5thBerkeleySymposiumonMathematicalStatisticsandProbability,Berkeley,UniversityofCaliforniaPress,1:281297
MardiaK.V.(1979)MultivariateAnalysis.AcademicPress
MorrisonD.(1967)MultivariateStatisticalMethods.McGrawHill
SeberG.(1976)MultivariateObservations.Wiley