Evaluación de resultados de agrupamiento de documentos en...

16
Evaluación de resultados de agrupamiento de documentos en formato XML H. J. Vázquez, C.K. Galindo-Durán M.J. Mathieu México–Francia Departamento de Sistemas Universidad Autónoma Metropolitana

Transcript of Evaluación de resultados de agrupamiento de documentos en...

Page 1: Evaluación de resultados de agrupamiento de documentos en …modelosysistemas.azc.uam.mx/jornadasdesistemas/Hector... · 2012-10-11 · "arbol1 1 1 ""arbol2 1 0 ""arbol3 0 1 ""arbol4

Evaluación de resultados de

agrupamiento de

documentos en formato XMLH. J. Vázquez, C.K. Galindo-Durán

M.J. MathieuMéxico–Francia

Departamento de SistemasUniversidad Autónoma Metropolitana

Page 2: Evaluación de resultados de agrupamiento de documentos en …modelosysistemas.azc.uam.mx/jornadasdesistemas/Hector... · 2012-10-11 · "arbol1 1 1 ""arbol2 1 0 ""arbol3 0 1 ""arbol4

Araucaria heterophylla (Salisb.) Franco araucaria, pino de la isla de Norfolk

ARAUCARIACEAE

Información Básica

Lugar de origen. Especie endémica de la isla de Norfolk, al este de Australia, en el océano Pacífico. En la actualidad se cultiva extensamente como árbol ornamental en zonas tropicales, subtropicales y templadas. Descripción. Árbol dioico perennifolio de hasta 30 m de altura; su tronco es recto y su copa cónica y simétrica, con ramas primarias horizontales dispuestas en un solo plano alrededor del tronco, en forma de estrella y en verticilos de 4 a 7. Puede vivir hasta 100 años. Hojas. Desarrollados tipos de follaje, de acuerdo con su edad. Las hojas jóvenes son delgadas y recurvadas, de 1.3cm de largo. Las hojas adultas son de forma ovado-triangular, de unos 0.6 mm de largo y de 0.3 a 0.6 mm de ancho; son de color verde intenso, curvadas, con la punta dura, y están sobrepuestas densamente sobre las ramillas. Conos. Los masculinos son estróbilos alargados, de aproximadamente 5 cm de largo; los femeninos miden de 10 a 13 cm de largo, y son de forma subglobosa, leñosos, erguidos y con numerosas escamas. Corteza. Rugosa, hendida, color marrón oscuro; con la edad se desprende en placas delgadas. Usos. En México se utiliza principalmente como planta de ornato, por lo atractivo de su porte cónico y la simetría de sus ramas horizontales o levemente oblicuas. Tiene la facultad de detener su crecimiento, por lo que se le puede cultivar en maceta. Distribución en la ciudad. Se encuentra con frecuencia en jardines privados, adornando algunos edificios, y en ocasiones en los parques antiguos de la ciudad.

Requerimientos de cultivo

Clima. Se cultiva en regiones templadas y subtropicales de México, pero es dañada por las heladas severas. Es tolerante a los Vientos. Suelo. Se desarrolla adecuadamente en texturas arcillosas o arenosas; pueden ser suelos de alcalinos a ácidos. Es tolerante a la salinidad, pero requiere buen drenaje. Exposición. Se desarrolla a pleno sol, pero es tolerante a la sombra, resistente a los vientos fuertes y a los rocíos salinos. Poda. No se debe podar, ya que pierde la forma característica por la que es valorada. Riego. Requiere riego abundante, al menos una vez al mes, cuando ya se ha establecido. Fertilización. Debe ser fertilizado al menos una vez al año, cuando el suelo es pobre en materia orgánica. Plantación. Debe plantarse a una distancia mínima de 8 metros de cualquier construcción o árbol. Es conveniente que se desarrolle en un espacio amplio que permita contemplar la belleza de su porte. Raíz. Las plántulas producen una raíz pivotante y numerosas raíces laterales fibrosas. Los árboles adultos no forman raíces laterales masivas cerca de la superficie, por lo que

Washingtonia robusta H. Wendl. palmera, palma de California, palma del desierto, palma washingtonia

ARFCACEAE

Información básica

Lugar de origen. Especie endémica del sur del estado de Sonora y Baja California. Descripción. Palmera dioica perennifolia mide de 9 a 15m de altura. Su copa simétrica, de hasta 3 m de ancho, da una sombra ligera. Su estípite es recto, cilíndrico y ensanchado en la base; está cubierto a lo largo por las hojas secas que, al caer, dejan marcas, que le dan una consistencia leñosa y áspera muy persistente. Es de rápido crecimiento y vive hasta 90 años. Hojas. El arreglo de las hojas es en espiral. Son palmatisectas, en forma de abanico, y de hasta 1.5 m de ancho y de 0.3 a 1.5m de largo. Están divididas hasta un tercio de lalámina, son de color verde oscuro grisáceo opaco, y con ninguno o muy pocos filamentos fibrosos en sus márgenes, lo que la diferencia de W.folofera. Sus pecíolos son de hasta 1m de largo, rígidos, café rojizos, y con espinas curvadas en los bordes. El envés de la lígula con tomento marrón tiene segmentos más estrechos, de 3 cm, y más divididos, lo que les da un aspecto colgante. Las hojas mueren cuando termina el verano y se quedan pegadas al tronco, formando una cubierta densa debajo de aquellas que están vivas. Flores. Sus inflorescencias tienen forma de racimos, con pedúnculos muy notorios, de 2 o 3m de largo, que surgen de la base de las hojas superiores. Las flores son unisexuales y diminutas, miden 1 cm, son de color blanco y algo fragante. Cada flor se forma de un cáliz tubular, pecíolo corto, 6 estambres y ovario con 3 lóbulos. Aparecen en primavera. Las palmas cultivadas tienen sus primeras floraciones casi a los 20 años. Frutos. Sus frutos son bayas ovaladas que se agrupan en racimos colgantes. Miden de 2 a 4 cm de largo y son de color negro. Son comestibles, de sabor azucarado y atractivos para la fauna silvestre, Cada baya contiene una semilla aplanada de color oscuro. Corteza. Su corteza se forma de estrías anulares, ya que al caer las hojas dejan un patrón de franjas leñosas entrecruzadas alrededor del tronco, que le dan una consistencia áspera; es de color marrón grisácea y su madera es suave, clara, esponjosa y fibrosa. Usos. Aunque en las últimas décadas su uso se ha reducido, son plantas ornamentales muy apropiadas para parques y jardines. Es apreciada en todo el mundo, ya que crea un ambiente muy atractivo cuando se planta en conjuntos. Tiene el potencial de ser utilizada con fines de protección de suelos en zonas secas y áridas, así como para fijación de dunas. En su lugar de origen, las hojas se emplean para hacer sombreros, cestos y otros artículos; los troncos se usan como material para cercas y como vigas. Las flores, frutos y yemas vegetativos son utilizados como alimento, y la madera sirve paro construir utensilios caseros. Sus hojas secas se emplean como sombra contra la insolación excesiva. Distribución en la Ciudad. Se encuentra en diferentes parques, jardines y camellones de la Ciudad de México, por ejemplo en la avenida Palmas, en el Parque Hundido y en el Parque Tezozómoc

Page 3: Evaluación de resultados de agrupamiento de documentos en …modelosysistemas.azc.uam.mx/jornadasdesistemas/Hector... · 2012-10-11 · "arbol1 1 1 ""arbol2 1 0 ""arbol3 0 1 ""arbol4
Page 4: Evaluación de resultados de agrupamiento de documentos en …modelosysistemas.azc.uam.mx/jornadasdesistemas/Hector... · 2012-10-11 · "arbol1 1 1 ""arbol2 1 0 ""arbol3 0 1 ""arbol4

MATRIZ DE FRECUENCIAS" pero lugar ""arbol1 4 1 ""arbol2 2 0 ""arbol3 0 1 ""arbol4 3 1 ""arbol5 1 1 ""arbol6 1 1 ""arbol7 1 0 ""arbol8 1 0 ""arbol9 2 2 ""arbol10 0 0 "

MATRIZ DE AUSENCIA PRESENCIA "arbol1 1 1 ""arbol2 1 0 ""arbol3 0 1 ""arbol4 1 1 ""arbol5 1 1 ""arbol6 1 1 ""arbol7 1 0 ""arbol8 1 0 ""arbol9 1 1 ""arbol10 0 0 "

Page 5: Evaluación de resultados de agrupamiento de documentos en …modelosysistemas.azc.uam.mx/jornadasdesistemas/Hector... · 2012-10-11 · "arbol1 1 1 ""arbol2 1 0 ""arbol3 0 1 ""arbol4
Page 6: Evaluación de resultados de agrupamiento de documentos en …modelosysistemas.azc.uam.mx/jornadasdesistemas/Hector... · 2012-10-11 · "arbol1 1 1 ""arbol2 1 0 ""arbol3 0 1 ""arbol4
Page 7: Evaluación de resultados de agrupamiento de documentos en …modelosysistemas.azc.uam.mx/jornadasdesistemas/Hector... · 2012-10-11 · "arbol1 1 1 ""arbol2 1 0 ""arbol3 0 1 ""arbol4

Muestra tamaño n yConteo de m

Tokens

Matriz (n,m)

DocumentosXML

Muestra aleatorian

ProcesamientoDocumentos

XML

Generación de clusters(cúmulos, grupos),

Tokensdiferentes

Validación

Objetivos del agrupamiento

Selección de tokens, verificación y

corrección de laMatriz

normalización

Selección de métricas y métodos

Muestra piloto

Selecciónde tokens

Page 8: Evaluación de resultados de agrupamiento de documentos en …modelosysistemas.azc.uam.mx/jornadasdesistemas/Hector... · 2012-10-11 · "arbol1 1 1 ""arbol2 1 0 ""arbol3 0 1 ""arbol4

Matriz (945,12543)

M(914,12481)

M(914,11916) M(914,11289)

Page 9: Evaluación de resultados de agrupamiento de documentos en …modelosysistemas.azc.uam.mx/jornadasdesistemas/Hector... · 2012-10-11 · "arbol1 1 1 ""arbol2 1 0 ""arbol3 0 1 ""arbol4

¿Cuántos agrupamientos?

¿Cuatro?

¿Dos?

¿Seis?

Page 10: Evaluación de resultados de agrupamiento de documentos en …modelosysistemas.azc.uam.mx/jornadasdesistemas/Hector... · 2012-10-11 · "arbol1 1 1 ""arbol2 1 0 ""arbol3 0 1 ""arbol4

Método Jerárquico:

¿Cómo medir la distancia entre clusters?

� MINsimple

� MAXcompleta

Page 11: Evaluación de resultados de agrupamiento de documentos en …modelosysistemas.azc.uam.mx/jornadasdesistemas/Hector... · 2012-10-11 · "arbol1 1 1 ""arbol2 1 0 ""arbol3 0 1 ""arbol4

k-Means

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 1

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

xy

Iteration 2

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 4

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 5

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

xy

Iteration 6

Page 12: Evaluación de resultados de agrupamiento de documentos en …modelosysistemas.azc.uam.mx/jornadasdesistemas/Hector... · 2012-10-11 · "arbol1 1 1 ""arbol2 1 0 ""arbol3 0 1 ""arbol4

Maximizar distancia

inter-cluster

Minimizar distancia

intra-cluster

Davies Bouldin

Page 13: Evaluación de resultados de agrupamiento de documentos en …modelosysistemas.azc.uam.mx/jornadasdesistemas/Hector... · 2012-10-11 · "arbol1 1 1 ""arbol2 1 0 ""arbol3 0 1 ""arbol4

Agrupamiento

Métricas (15) = manhattan", "euclidean", "canberra", "bray", "kulczynski", "jaccard", "gower", "altGower", "morisita", "horn", "mountford", "raup" , "binomial“, "chaonormalización (11)= distintas normalizaciones

Métodos Jerárquicos (7)= "ward", "single", "complete", "average", "mcquitty", "median" ,"centroid"clusters (2,10, 20, 30, 50, 75))=

Compacto

Conexión

Separación

Validación y

Objetivos

Compacto6930 combinaciones

Page 14: Evaluación de resultados de agrupamiento de documentos en …modelosysistemas.azc.uam.mx/jornadasdesistemas/Hector... · 2012-10-11 · "arbol1 1 1 ""arbol2 1 0 ""arbol3 0 1 ""arbol4

0

2

4

6

8

10

12

1 2 3 4 5 6

Título del eje

Indice de Dunn

e-s

j-s

j-w

K means

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1 2 3 4 5 6

Indice Davies Bouldin

single single ward K means

Page 15: Evaluación de resultados de agrupamiento de documentos en …modelosysistemas.azc.uam.mx/jornadasdesistemas/Hector... · 2012-10-11 · "arbol1 1 1 ""arbol2 1 0 ""arbol3 0 1 ""arbol4

clusters e-s j-s j-w K means

2 9.657936 7.1673892 7.0935031 9.657936

10 7.782547 0.1592864 0.1621816 1.6753263

20 6.230406 0.157715 0.11215897 1.6458254

30 5.755786 0.08041927 0.11215897 1.928777

50 4.441091 0.08041927 0.0894719 1.5848341

75 3.904634 0.06326137 0.0894719 1.7040053

euclidiana jaccard jaccard

clusters single single ward K means

2 0.103542 0.1395208 0.2097001 0.1035418

10 0.119803 0.1405597 0.7578515 0.5527422

20 0.141521 0.3460481 0.7908256 0.6158911

30 0.1525691 0.4945334 0.8373291 0.4374352

50 0.1800001 0.476655 0.8442814 0.5480018

75 0.2019422 0.592513 0.8532114 0.4980223

Page 16: Evaluación de resultados de agrupamiento de documentos en …modelosysistemas.azc.uam.mx/jornadasdesistemas/Hector... · 2012-10-11 · "arbol1 1 1 ""arbol2 1 0 ""arbol3 0 1 ""arbol4

n0 - without normalizationn1 - standardization ((x-mean)/sd)n2 - Weber standardization ((x-Me)/MAD)n3 - unitization ((x-mean)/range)n4 - unitization with zero minimum ((x-min)/range)n5 - normalization in range <-1,1> ((x-mean)/max(abs(x-mean)))n6 - quotient transformation (x/sd)n7 - quotient transformation (x/range)n8 - quotient transformation (x/max)n9 - quotient transformation (x/mean)n10 - quotient transformation (x/sum)n11 - quotient transformation(x/sqrt(SSQ))