Análisis de Conglomerados

28
ANÁLISIS DE CONGLOMERADOS

description

Análisis y procesos químicos y físicos de los conglomerados.

Transcript of Análisis de Conglomerados

  • ANLISIS DE CONGLOMERADOS

  • ANLISIS DE CONGLOMERADOSOtros nombres son:En Ingls Cluster anlisisAnlisis de cmulos Anlisis de agrupacin

  • ANLISIS DE CONGLOMERADOSObjetivosEl objetivo del anlisis de conglomerados es agrupar las unidades en subgrupos SIGNIFICATIVOS. A partir de las distancias existentes entre los vectores de las observaciones

    La idea central es llegar a una organizacin ende grupos que desplieguen la mayor variacin ENTRE ellos y la menor variacin DENTRO de ellos.

    Al final todas las unidades pertenecen aun slo grupo.

  • ANLISIS DE CONGLOMERADOSAplicaciones en BiologaEn biologa se ha usado mucho sobre todo en taxonoma numrica, pero tambin en ecologa en la llamada Escuela de la clasificacin de las comunidades (opuesta a la ordenacin), tambin es muy usado en Biogeografa para determinar las relaciones entre ambientes o zonas. En general en todo proceso que requiera agrupacin de unidades a las que se le hayan medido varias variables.

  • ANLISIS DE CONGLOMERADOSDefinicinNo existe una definicin clara de lo que es un conglomerado o Cluster. En ingls se refiere a una agrupacin (en ocasiones informe) de unidades que slo se pueden visualizar en 2D o 3D Un ejemplo tpico sera un Mugano una bola formada por subunidades adheridas.

  • ANLISIS DE CONGLOMERADOSDefinicin Cont. No se imponen restricciones a priori ( como lo hace el Anlisis Discriminante). Se parte de la base que todas las unidades pueden ser independientes o bien todas las unidades pueden tener algo en comn para formar un solo cmulo.

  • ANLISIS DE CONGLOMERADOS

  • ANLISIS DE CONGLOMERADOSProblemas Por ser tan laxa la definicin de un cmulo existen muchos algoritmos que pretenden resolver e problema sin embargo la mayora de ellos slo se aboca a la bsqueda de conglomerado esfricos y es difcil detectar conglomerados no esfricos.

  • ANLISIS DE CONGLOMERADOSProblemas

  • ANLISIS DE CONGLOMERADOSCriterios Hay un sin-nmero de algoritmos la distancia ENTRE-CLUSTER se puede determinar por las distancia entre centroidesComo el objetivo es reducir de n unidades a g grupos donde

    n>g

  • ANLISIS DE CONGLOMERADOSSimilaridadesEl anlisis de cmulos esta ligado a las medidas de similaridad (que tan cerca o lejos se encuentran las unidades en el espacio n-dimensional.Cuando se trata de medidas mtricas (que siguen la distribucin normal) se usan las Medidas de distancia. Mientras que si se cuenta con distancias no- paramtricas los llamados tipos de acercamiento son mejores.

  • ANLISIS DE CONGLOMERADOSMedidas de distancia

  • ANLISIS DE CONGLOMERADOSDistancia Euclidiana Concepto. Ejemplo de dos dimensiones con p= 2 (similar al teorema de Pitgoras)

  • ANLISIS DE CONGLOMERADOSDistancia Euclidiana Concepto. Ejemplo de tres dimensiones con p= 3

  • ANLISIS DE CONGLOMERADOSDistancia de Manhatan . La distancia de Manhatan o distancia de cuadras se maneja como una distancia alternativa en la que la distancia se mide como unidades fijas de distancia. Como lo son las cuadras de una ciudad. Este es una medida que se encuentra disponible en el NCSS.

  • ANLISIS DE CONGLOMERADOSVariables Nominales En el caso de la variables nominales o dicotmicas se presentan varios ndices, llamados generalmente ndices de asociacin (estos son las bases de medidas de similaridad de Sorensen o Jacard entre otros).

  • ANLISIS DE CONGLOMERADOSVariables Nominales Specie

  • ANLISIS DE CONGLOMERADOSCoeficientes mas usados.

  • ANLISIS DE CONGLOMERADOSCoeficientes mas usados.

  • ANLISIS DE CONGLOMERADOSTcnicas de asociacin Jerrquica Las tcnicas jerrquicas desarrollan un fusin sucesiva (o divisiones) de los datos. Una de las principales ventajas es que la asignacin de una unidad es irrevocable (una vez que se asocian no tiene otra opcin)Mtodos aglomerativos proceden desarrollando una serie de fusionesMtodos Divisivos parten de un grupo de objetos y lo van dividiendo poco a poco. Ambos se presentan en forma de un dendrograma (diagrama de rbol)

  • ANLISIS DE CONGLOMERADOSMtodos aglomerativos 1 LIGA SIMPLE (Single Linkage) o VECINO MS PRXIMO:Este mtodo utiliza la DISTANCIA mnima procede encontrando las dos unidades que poseen la menor distancia. Estas conforman el primer conglomerado (cluster) y trabajan juntos como una sola unidad para los subsiguientes anlisis. En el siguiente ciclo dos cosas pueden pasar, que una tercera unidad se una al ciclo o bien que otras dos unidades independientes tengan la menor distancia restante. Este proceso continua hasta que todas las unidades se encuentran en un solo cluster.

  • ANLISIS DE CONGLOMERADOSMtodos aglomerativos 1

  • ANLISIS DE CONGLOMERADOSTcnicas de asociacin Jerrquica 1

  • ANLISIS DE CONGLOMERADOSMtodos aglomerativos 2 LIGA COMPLETA (Complete Linkage) o el MTODO DEL VECINO MS LEJANO:Este mtodo es exactamente lo opuesto del anterior en el sentido que la distancia buscado es la mayor que exista entre un par de unidades. A pesar de que los dendrogramas son similares las distancias pueden cambiar rpidamente.

  • ANLISIS DE CONGLOMERADOSMtodos aglomerativos 2

  • ANLISIS DE CONGLOMERADOSMtodos aglomerativos 3 MTODO DE LA LIGA PROMEDIO (Average Linkage) Otro mtodo alternativo a los anteriores es el mtodo promedio. Este algoritmo sigue la misma aproximacin excepto que la distancia entre los conglomeraos es definida por el promedio de la distancia entre dos conglomerados.

  • ANLISIS DE CONGLOMERADOSMtodos aglomerativos 4 Mtodo de Ward o de la Suma de cuadrados del Error: Este Mtodo (Desarrollado por Ward(1963) se basa en la prdida de informacin resultante de la agrupacin de individuos en conglomerados en medida como por el total de la suma de cuadrados a partir de las desviaciones de cada observacin a la media del conglomerado al que pertenece. La regla de asignacin procede por el incremento en la suma de cuadrados del error inducido por la combinacin de cada posible par de cluster. Este valor es usada como una funcin objetiva.

  • ANLISIS DE CONGLOMERADOSMtodos aglomerativos 4 Cont.El algoritmo desarrollado por Ward es usado como mtodo jerrquico. El proceso de agrupamiento procede de la siguiente manera,. Empieza por considerar K grupos de sujetos , un sujeto por grupo, el primer grupo es formado por la seleccin de dos de esos K grupos que, cuando se unen, producen el menor desapareamiento en el valor de la funcin objetiva. Estos K-1 grupos es reexaminados para determinar los siguientes dos de esos K-1 grupos para unirse mientras minimizan el incremento en la funcin objetiva. As se repite el proceso hasta tener un slo grupo. En cada paso se reevala funcin objetiva. Los cambios en esta funcin es importante para determinar cual es el nmero de grupos naturales.