estratificacion_multivariada

9
Nota técnica Estratificación multivariada Censo de Población y Vivienda 2010 Instituto Nacional de Estadística y Geografía

description

vvasdfsa asdf

Transcript of estratificacion_multivariada

  • Nota tcnicaEstratificacin multivariada

    Censo de Poblacin y Vivienda 2010

    Instituto Nacional de Estadstica y Geografa

  • 1

    NOTA TCNICA

    ESTRATIFICACIN MULTIVARIADA

    Con la finalidaddequeelusuariopueda realizar clasificacionesde lasunidadesgeogrficasdelpasconsiderandomltiplesvariablesalavez,sehaincorporadoalSistemaparalaConsultadelaInformacin Censal 2010 (SCINCE 2010) una herramienta de estratificacin multivariada. Esimportanteque elusuario analice los resultadosde la estratificacin cuidadosamente antesdeutilizarlaclasificacinobtenida.

    Elobjetivodelaestratificacinmultivariadaesresumirlainformacindetodaslasvariablesqueseincluyenenelanlisis,enunamedidaunidimensionalquepermitaclasificarlasobservacionesengrupos homogneos internamente y dismiles entre s. El presente documento describebrevemente las tcnicas empleadas para la estratificacin; adicionalmente, se proporcionabibliografaparaaquellosusuariosinteresadosenunestudiodetalladodeestastcnicas.

    1. MtododeComponentesprincipalesyDaleniusHodges

    Estatcnicadeestratificacinmultivariadaconsisteenobtenerunamedidaunidimensionalen laqueseresumelainformacindelasvariablesconsideradasparalaestratificacin,llamadaprimeracomponenteprincipal,yaplicarastaelmtododeestratificacinunivariadadeDaleniusHodges.

    1.1 Componentesprincipales

    Pararealizarunanlisisexploratoriodedatosmultivariados,serecomiendaelusodelatcnicadecomponentes principales como primer paso. Esta tcnica permite observar las estructuras devariacin de los datos y, en algunos casos, identificar observaciones atpicas o variables cuyaaportacinesmnimaoredundantepararealizarlaclasificacin.

    Elmtodo de componentes principales consiste bsicamente en resumir la informacin de unconjuntodevariablesmediante laconstruccindeunconjuntoconmenornmerodevariables.Elmtododeconstruccinde lascomponentesprincipalesgarantizaque laprimeracomponenteprincipal sea la que explique un mayor porcentaje de varianza de los datos, por ello, es estaprimeracomponenteprincipallaqueseutilizapararealizarlaestratificacin.Esimportantequeelusuario evale la pertinencia de aplicar este mtodo de estratificacin considerando que elporcentajedevarianzaexplicadapor laprimera componenteprincipaldebe ser loms cercanoposiblea100porciento.

    Losresultadosqueseproporcionanpormediodelanlisisdecomponentesprincipalespermitenexplorar la estructura y comportamiento de los datos que se incluyan en el modelo deestratificacin. Al analizar los resultados numricos y las grficas que se presentan, el usuariopodrdeterminarsilasvariablesqueseincluyenenelestudiosonpertinentes,obienalgunassonredundantesoaportanpocainformacinparalaestratificacin.

  • 2

    Demanerams formal,elmtodode componentesprincipales consisteen ladescripcinde lavariacindeunconjuntode variablesentrminosdeunconjuntode ( )variablesnocorrelacionadas,queenrealidadsoncombinacioneslinealesdelasvariablesoriginales.

    As,si , , , son lasvariablesoriginales,entonces lascomponentesprincipalestendrn laforma:

    Las componentes principales estn construidas de tal modo que la varianza captada vadecreciendo, es decir , por ello, en un contexto dereduccin de dimensiones se seleccionan las primeras componentes principales pararepresentaralapoblacinoriginal.

    Las componentes principales se obtienen mediante una tcnica algebraica llamadadescomposicinespectralqueseaplicaalamatrizdecovarianzasocorrelacin,segnseaelcaso.Alosresultadosdeladescomposicinespectralselesconocecomoeigenvaloresyeigenvectores.Losdetallessobreelclculodelascomponentesprincipalespuedenconsultarseenlasreferenciasbibliogrficasqueseproporcionan.

    1.2 DaleniusHodges

    Elmtodo deDaleniusHodges (1959) consiste en la formacin de estratos demanera que lavarianzaobtenida seamnimapara cadaestrato.Elprocedimientopara la conformacinde losestratoseselsiguiente:

    Sean=nmerodeobservacionesyL=nmerodeestratos.

    1.Ordenarlasobservacionesdemaneraascendente.

    2.AgruparlasobservacionesenJclases,dondeJ=min(L*10,n).

    3.Calcularloslmitesparacadaclasedelasiguientemanera:

    liminf min 1 max minJ

    limsup min max minJ

    Los intervalos se tomarn abiertos por la izquierda y cerradospor la derecha, a excepcin delprimeroquesercerradoporamboslados.

    4.Apartirdeestoslmites,obtenerlafrecuenciadecasosencadaclase 1, , .

  • 3

    5.Obtenerlarazcuadradadelafrecuenciadecadaclase.

    6.Acumularlasumadelarazcuadradadelasfrecuencias.

    1, . ,

    7.Dividirelltimovaloracumuladoentreelnmerodeestratos.

    1

    8.Lospuntosdecortedecadaestratosetomarnsobreelacumuladodelarazcuadradadelasfrecuenciasencadaclasedeacuerdoa losiguiente: , 2 , , 1 . Sielvalorde Qquedaentredosclases,setomarcomopuntodecorteaquellaclasequepresentelamnimadistanciaaQ.Loslmitesdeloshestratosconformadossernaquelloscorrespondientesaloslmitesinferiorysuperiordelasclasescomprendidasencadaestrato.

    Resultadosdelaestratificacin

    AcontinuacinsedaunabrevedescripcindelassalidascorrespondientesalaestratificacinconelmtododeComponentesprincipalesyDaleniusHodges.Serecomiendaalusuarioconsultarelestudiodecasocontenidoenestaaplicacinascomolabibliografaproporcionada.

    1.2.1 Resumenderesultados

    En este apartado se muestran los resultados ms importantes del anlisis de componentesprincipales.

    PorcentajedelavarianzaexplicadaporlaprimeracomponenteprincipalEsteesunodelosparmetrosmsimportantesaconsiderarparaunaeleccinadecuadadel modelo, ya que la estratificacin se realiza considerando nicamente la primeracomponenteprincipal.Esdeseablequeesteporcentajesealomscercanoposiblea100%paraquelaestratificacinarrojebuenosresultados. Modelo

    Presentaunresumendelmodeloplanteadoporelusuario,elcualconsisteenlasvariablesincluidas y sus descriptores, el nmero de observaciones, el tipo de anlisis a realizar(covarianzaocorrelacin)yladesviacinestndarqueseobtieneparacadacomponenteprincipal.

  • 4

    Sielusuarioeligerealizarelanlisisutilizando lamatrizdecorrelaciones, lasvariablesseestandarizany lavarianzatotalser igualalnmerodevariables incluidasenelmodelo;en cambio, si el anlisis se hace utilizando la matriz de covarianza, las variablespermanecernensumtricaoriginal.Sinembargo,elusuariodebertenercuidadoquelas variables que incluya en el anlisis tengan mtricas similares. Para el caso de losindicadores incluidos en el SCINCE, el usuario deber prestar atencin de no incluirindicadoresenabsolutosyenporcentajesenunmismomodelo.

    Importanciadelascomponentesprincipales

    Paracadaunade lascomponentessepresentan losvalorescaractersticos, ladesviacinestndar y el porcentaje de varianza total explicada; adicionalmente se presenta elporcentajedevarianzatotalexplicadadeformaacumuladaparalascomponentes.Enesteapartado el usuario deber evaluar si la estratificacin por medio de la primeracomponenteprincipalyelmtododeDaleniusHodgesesadecuada. Vectoresdecoeficientesparalascomponentes

    Por medio de estos coeficientes, el usuario puede identificar la importancia de lasvariablesconsideradasparalaestratificacin.Lasvariablesconcoeficientesmuypequeosen laprimera componenteprincipalno contribuirn en realidad a la estratificacin, sinembargoesposiblequeestasvariables s sean significativasen lasdemscomponentesprincipales. EstratificacindelaprimeracomponenteprincipalpormediodelmtododeDalenius

    Hodges.

    Se presentan los lmites de cada estrato obtenido mediante el mtodo de DaleniusHodges,esdecir,elvalormnimoymximoquesepermitenparaqueunaobservacin,alserevaluadaen laprimeracomponenteprincipal,quede incluidaenunestratodado.Seproporciona tambin el valor promedio de la primera componente principal en cadaestrato; este dato permite observar qu tan distantes se encuentran los centroides decadaestrato,esdecir,qutandiferenciadosestnlosestratosformados. PruebaKaiserMeyerOlkinLa prueba KaiserMeyerOlkin ayuda a determinar si los datos son adecuados para unanlisisdecomponentesprincipales.Elresultadodelapruebaarrojaunvalorentreceroyuno,esdeseablequeelvalorsealomscercanoposibleaunoysesugiere0.5comovalormnimo aceptable. Los detalles tcnicos de esta prueba pueden consultarse en labibliografaproporcionada.

  • 5

    1.2.2 Grficadesedimentacin

    En el anlisis de componentes principales, la grfica de sedimentacin ayuda a seleccionar elnmerodecomponentesprincipalesquerepresentanmejoraundeterminadoconjuntodedatos.En este caso, es til para verificar, como ya se mencion anteriormente, que la primeracomponente explique lamayor cantidadposiblede varianza,por loqueesdeseablequeen lagrficaseobserveundesplomeabruptoentrelaprimeraysegundacomponente.

    1.2.3 Biplot

    Losgrficosbiplotrepresentanalmismotiempo lasobservacionesy lasvariablesdeunconjuntodedatos,respectoalasdosprimerascomponentesprincipales.Lasobservacionesovaloresdelasvariables estn representados por puntos en el plano y las variables estn representadas porvectores,conlassiguientescaractersticas:

    Lalongituddecadavectorindicalaimportanciadecadavariableenelmodelo,deestamanera, vectores cortos indican que la variable es susceptible a eliminarse delmodelo.

    Elnguloentredosvectores representaelgradodecorrelacinentredosvariables;cuantomenorseaelngulo,mayoreselgradodecorrelacinentrestasvariables.Deestamanera, si el ngulo entre dos vectores esmuy pequeo, puede optarse poreliminarunade lasdosvariablesdelmodelo,depreferenciaaquellacuyovectorseamscorto.

    La distancia entre los puntos son una medida de disimilitud de las observacionesreales,asdospuntoscercanosenelplanoimplicandosobservacionessimilaressegnlasvariablesqueseusanparaclasificacin.Tambinpermiteidentificarobservacionesatpicasqueseubicaranmuyalejadasdelrestode lasobservaciones.Enestoscasosse puede considerar repetir el anlisis eliminando estas observaciones atpicas yanalizarlosresultadosobtenidos.

    En el casodel SCINCE 2010, lasobservaciones se identifican en esta grficamediante su clavegeogrfica.

    1.2.4 Grficodecentroides

    Elgrficodecentroidesmuestraelvalorpromediodecadavariableencadaunode losestratosconformados.Estagrficapermitevisualizarelcomportamientodelasvariablesseleccionadasenlosestratos,observandoaslasdiferenciasentrestos.

  • 6

    2. Mtododekmedias2.1 kmedias

    Elmtodode kmediasesunalgoritmode formacindeestratosqueasigna cadaelementoalestrato que tiene el centroide (punto medio) ms cercano. El mtodo se compone de lossiguientespasos:

    1. Seleccionaralazarloskcentroidesinicialesdeentrelosdatos.2. Asignarcadaelementoalestratoconelcentroidemscercano.3. Recalcularloscentroidesdelosestratosresultantesenelpaso2.

    Los pasos 2 y 3 se repiten hasta que los estratos conformados sean lo ms homogneosinternamenteylomsdisimilesentres.

    Para medir las distancias entre los centroides y las observaciones, y entre cada uno de loscentroides,sepuedenutilizarvariasmedidas,aunquelamscomnesladistanciaeuclidianaqueeslaqueseempleaenelcasodeSCINCE2010.

    Demanerams formal,elmtododekmediasbuscaminimizar lasumadecuadradosdelerrorintraestrato.As, si , , , son lasvariablesoriginales,elmtododekmediastienecomoobjetivo determinar la conformacin de un conjunto de k estratos S = {S1, S2, , Sk} queminimicelasumadecuadradosdelerrorintraestrato,esdecir

    arg

    donde eselvectordecentroidesdelestrato .

    Uncriteriodejuicioparadeterminarsilosconglomeradosformadossonadecuados,escompararlas sumas de cuadrados dentro de cada conglomerado con la suma de cuadrados entre losconglomerados;seesperaquelasumadecuadradosdentrodelosconglomeradosseamenor.Losdetalles tcnicos sobre la conformacin de estratosmediante elmtodo kmedias pueden serconsultadosenlabibliografaproporcionada.

    2.2 Resultadosdelaestratificacin

    Acontinuacinsedaunabrevedescripcindelassalidascorrespondientesalaestratificacinconel mtodo de kmedias. Para el caso de la estratificacin por el mtodo de kmedias,adicionalmentealosresultadosdelaestratificacin,seproporcionanlassalidascorrespondientesa un anlisis de componentes principales con el fin que el usuario pueda realizar una anlisis

  • 7

    exploratoriodelasvariablesconsideradasenelmodelo.Esteanlisisdecomponentesprincipalesesindependientedelaestratificacinporelmtododekmedias,ladescripcindelassalidasdestepuedenconsultarseen laseccincorrespondientea laestratificacinpormediodelmtododecomponentesprincipalesyDaleniusHodges.Serecomiendaalusuarioconsultarelestudiodecasocontenidoenestaaplicacinascomolabibliografapresentada.

    2.2.1 Estratificacinpormediodelmtodokmedias

    Paracadaunadelasvariablesconsideradasenelmodelo,sepresentaelvalorpromedioparacadaestrato.De igualmanera, seproporcionan las sumasdecuadradosdelerroral interiordecadaestrato,lasumadecuadradosdelerrortotalylasumadecuadradosentreestratosylafrecuenciadeobservacionesobtenidaencadaestrato.

    2.2.2 Dendograma

    El dendograma tiene como objetivo facilitar la interpretacin de los resultados obtenidosmediante laestratificacin.Esencialmente,medianteestagrfica se representa la formacindeestratosascomoladistanciaentreellos.Pormediodeestagrficaenformaderbolinvertido,elusuariopuede identificarobservacionesatpicas,yenalgunoscasosestagrficaserdeutilidadparadeterminarselnmerodeestratospredefinidoseselmsadecuado.

    2.2.3 Biplot

    Esta grfica forma parte del anlisis de componentes principales, en sntesis se representan almismo tiempo las observaciones y las variables de un conjunto de datos, respecto a las dosprimeras componentes principales. Las observaciones o valores de las variables estnrepresentados por puntos en el plano y las variables estn representadas por vectores. En elapartadocorrespondientealaestratificacinpormediodelmtododecomponentesprincipalesyDaleniusHodgessepuedeconsultarunadescripcinunpocomsdetalladadeestagrfica.

    2.2.4 Histograma

    Elhistogramapermiteobservargrficamenteladistribucindelasobservacionesencadaunodelosestratos.Conesto,elusuariopodrdeterminarsi losestratossonhomogneosencuantoalnmerodeobservacionesquecontienen,obien,siunode losestratosresultantescontienemuypocasobservaciones,loquepudieraindicarlapresenciadeobservacionesatpicas.

  • 8

    ReferenciasBibliogrficas

    DaleniusT.andHodgesJ.(1959)MinimumVarianceStratification.JournaloftheAmericanStatisticalAssociationVol.54,No.285p.88101

    EverittB.(2001)AppliedMultivariateDataAnalysis.Arnold

    EverittB.(2011)ClusterAnalysis5thedition.Wiley

    JohnsonD.(1998)MtodosMultivariadosAplicadosalAnlisisdeDatos.ThomsonEditores

    JoliffeI.T.(2002)PrincipalComponentAnalysis,SecondEdition.SpringerVerlag

    LevyJ.P.(2005)AnlisisMultivariableparalasCienciasSociales.PearsonEducacin

    MacQueenJ.B.(1967)SomeMethodsforclassificationandAnalysisofMultivariateObservations,Proceedingsof5thBerkeleySymposiumonMathematicalStatisticsandProbability,Berkeley,UniversityofCaliforniaPress,1:281297

    MardiaK.V.(1979)MultivariateAnalysis.AcademicPress

    MorrisonD.(1967)MultivariateStatisticalMethods.McGrawHill

    SeberG.(1976)MultivariateObservations.Wiley