Universidad Autónoma del Estado de Hidalgo … · Web view"ford galaxie 500" 11. 8. 318. 210....
Transcript of Universidad Autónoma del Estado de Hidalgo … · Web view"ford galaxie 500" 11. 8. 318. 210....
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Page 1
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Page 2
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Page 3
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Page 4
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Page 5
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Índice de figuras
Page 6
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Índice de tablas
Page 7
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
CAPITULO 1
Page 8
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
1.1 ESTUDIO DE LA POBLACIÓN:
La Base de datos Versa sobre diferentes tipos de autos que tienen ciertas características
individuales1, las cuales son representadas por ciertas variables que se describe a
continuación:
Variables:
- MPG (miles per gallon): Esta variable denota el consumo de combustible en
millas por galón de cada vehículo, tomando en cuento el resto de variables.
- CYLINDERS: Esta variable muestra el número de cilindros que pose cada
vehículo.
- DISPLACEMENT: En esta variable se muestra el desplazamiento del vehículo.
- HORSPOWER: Esta variable muestra los caballos de fuerza del vehículo, la cual
está relacionada con la aceleración.
- WEIGHT: Esta variable muestra el peso, la cual es muy importante para el
desplazamiento.
- ACCELERATION: Esta es la variable de la aceleración del vehículo.
- CAR NAME: Se denota el nombre del vehículo, la cual no será tomada en cuenta
para utilizar los métodos de reconocimiento no supervisado, debido a que son
valores de tipo STRING (string).
De estas variables, podemos representar la variable de cylinders como variable cualitativa,
y el resto de variables como variables de numéricas, excepto car name la cual es string y
que no la vamos a ocupar.
Se está considerando una Base de Datos total de 45 individuos, de los cuales se va a tomar
40 miembros para clasificarlos mediante métodos de reconocimiento no supervisado, de los
cuales se toma una pequeña cantidad de tuplas (individuos) para poderlas clasificar de
manera manual. De toda la población se toma 10 valores que a simple vista (sin estudio
previo) se considera que son los más representativos de la población, para trabajar sobre
ellos.
1 http://archive.ics.uci.edu/ml/
Page 9
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Y los otros 5 individuos los vamos a tomar para clasificarlos mediante métodos de
reconocimiento supervisado, lo cual se lo realizara en próximos proyectos, en este nos
vamos a enfocar en reconocimiento no supervisado.
La Base de datos (ordenada de mayor a menor por la columna tuplas) se denota a
continuación:
Tup
las
mpg
cylin
ders
disp
lace
me
nt
hors
epow
er
wei
ght
acce
lera
tio
n
car
nam
e
1 28 4 140 90 2264 15.5 "chevrolet vega 2300"
2 27 4 97 88 2130 14.5 "datsun pl510"
3 26 4 121 113 2234 12.5 "bmw 2002"
4 25 4 104 95 2375 17.5 "saab 99e"
5 19 6 250 88 3302 15.5 "ford torino 500"
6 21 6 200 85 2587 16 "ford maverick"
7 21 6 199 90 2648 15 "amc gremlin"
8 14 8 455 225 4425 10 "pontiac catalina"
9 14 8 351 153 4154 13.5 "ford galaxie 500"
10 11 8 318 210 4382 13.5 "dodge d200"
11 18 8 307 130 3504 12 "chevrolet chevelle malibu"
12 15 8 350 165 3693 11.5 "buick skylark 320"
13 18 8 318 150 3436 11 "plymouth satellite"
14 16 8 304 150 3433 12 "amc rebel sst"
15 17 8 302 140 3449 10.5 "ford torino"
16 15 8 429 198 4341 10 "ford galaxie 500"
17 14 8 454 220 4354 9 "chevrolet impala"
18 14 8 440 215 4312 8.5 "plymouth fury iii"
19 15 8 390 190 3850 8.5 "amc ambassador dpl"
20 15 8 383 170 3563 10 "dodge challenger se"
21 14 8 340 160 3609 8 "plymouth 'cuda 340"
Page 10
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
22 15 8 400 150 3761 9.5 "chevrolet monte carlo"
23 14 8 455 225 3086 10 "buick estate wagon (sw)"
24 24 4 113 95 2372 15 "toyota corona mark ii"
25 22 6 198 95 2833 15.5 "plymouth duster"
26 18 6 199 97 2774 15.5 "amc hornet"
27 26 4 97 46 1835 20.5 "volkswagen 1131 deluxe sedan"
28 25 4 110 87 2672 17.5 "peugeot 504"
29 24 4 107 90 2430 14.5 "audi 100 ls"
30 10 8 360 215 4615 14 "ford f250"
31 10 8 307 200 4376 15 "chevy c20"
32 9 8 304 193 4732 18.5 "hi 1200d"
33 12 8 400 167 4906 12.5 "datsun pl510"
34 25 4 113 95 2228 14 "toyota corona"
35 14 8 400 175 4464 11.5 "pontiac catalina brougham"
36 19 6 232 100 2634 13 "amc gremlin"
37 16 6 225 105 3439 15.5 "plymouth satellite custom"
38 17 6 250 100 3329 15.5 "chevrolet chevelle malibu"
39 18 6 232 100 3288 15.5 "amc matador"
40 14 8 350 165 4209 12 "chevrolet impala"
41 13 8 360 170 4654 13 "plymouth custom suburb"
42 12 8 350 180 4499 12.5 oldsmobile vista cruiser
43 18 6 232 100 2789 15 "amc gremlin"
44 20 4 97 88 2279 19 toyota carina
45 21 4 140 72 2401 19.5 "chevrolet vega"
Tabla 1.1 Base de Datos de toda la población
Los valores de las tuplas 41 a 45 serán utilizados para reconocimiento supervisado2, el resto
de la población será clasificado automáticamente por el programa SIRP.
De toda la población se utilizara ciertos individuos para reconocimiento no supervisado
manualmente:
2 Reconocimiento supervisado será utilizado en un próximo proyecto.
Page 11
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
mp
g
cylinders displacement horsepower weight acceleration car name
28 4 140 90 2264 15.5 "chevrolet vega 2300"
27 4 97 88 2130 14.5 "datsun pl510"
26 4 121 113 2234 12.5 "bmw 2002"
25 4 104 95 2375 17.5 "saab 99e"
19 6 250 88 3302 15.5 "ford torino 500"
21 6 200 85 2587 16 "ford maverick"
21 6 199 90 2648 15 "amc gremlin"
14 8 455 225 4425 10 "pontiac catalina"
14 8 351 153 4154 13.5 "ford galaxie 500"
11 8 318 210 4382 13.5 "dodge d200"
Tabla 1.2 Individuos más representativos de la población (a simple vista)
Page 12
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
CAPITULO 2
Page 13
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
2.1 ANÁLISIS MANUAL DE LOS DIEZ INDIVIDUOS
Éste capítulo versa sobre los métodos que se utilizó como las medidas de similaridad,
métodos de agrupamiento y clasificación que se utilizó manualmente en los 10 individuos
seleccionados de la población general.
2.1.1 Medidas
Dentro de las medidas utilizadas para encontrar la similaridad de individuos se aplicó tanto
la Semejanza de Gower y la distancia de La Cruz.
2.1.1.1 Semejanza de Gower
Para poder establecer una semejanza de Gower se utiliza el Coeficiente de Similaridad de
Gower, , Donde las puntuaciones Sxyi y pesos Wxyi son
asignados de la siguiente manera3:
Este es el procedimiento que se siguió para obtener la tabla de Similaridad de Gower, la
cual nos dio como resultado la siguiente tabla:
3 Esta Información es obtenida del curso formal de la Materia de Reconocimiento de Patrones.
Page 14
Sxy=∑i=1
mSxyi /∑i=1
mWxyi
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
s1 s2 s3 s4 s5 s6 s7 s8 s9 s10
s1 1 0.9358 0.8753 0.8954 0.6161 0.6963 0.6982 0.1096 0.3411 0.2427
s2 0.9358 1 0.8973 0.8843 0.5763 0.6565 0.6759 0.1095 0.3410 0.2426
s3 0.8753 0.8973 1 0.8395 0.5307 0.6108 0.6350 0.2122 0.3993 0.3009
s4 0.8954 0.8843 0.8395 1 0.5864 0.6888 0.6686 0.0918 0.3234 0.2249
s5 0.6161 0.5763 0.5307 0.5864 1 0.8905 0.8957 0.3220 0.5536 0.4551
s6 0.6963 0.6565 0.6108 0.6888 0.8905 1.0000 0.9669 0.2125 0.4441 0.3456
s7 0.6982 0.6759 0.6350 0.6686 0.8957 0.9669
1.000
0 0.2447 0.4762 0.3778
s8 0.1096 0.1095 0.2122 0.0918 0.3220 0.2125 0.2447 1.0000 0.7684 0.8081
s9 0.3411 0.3410 0.3993 0.3234 0.5536 0.4441 0.4762 0.7684
1.000
0 0.8708
s1
0 0.2427 0.2426 0.3009 0.2249 0.4551 0.3456 0.3778 0.8081 0.8708 1.0000
Tabla 2.1.1.1 Similaridad de Gower
En esta tabla se puede observar que los individuos, S6 y S7 son mas similares de la
población, y así mismo, S1 y S2 continuarían como mas semejantes de la población, esto
podemos deducirlo debido a que son los valores más altos de la tabla de similaridad de
Gower; por otro lado, también podemos observar que los individuos menos semejantes de
la población, como son S8 y S4, también se puede observar que los individuos S8 y S2 se
los considera como menos semejantes, porque podemos observar que estos individuos
obtuvieron los mínimos resultados de la tabla de similaridad de Gower.
2.1.1.2 Similaridad de datos Heterogéneos: Distancia de La Cruz
Para utilizar la distancia de La Cruz, que es la Similaridad de datos Heterogéneos, se utiliza
la siguientes fórmula4: , donde el valor de di se denota de la
siguiente manera5:
4 Esta Información es obtenida del curso formal de la Materia de Reconocimiento de Patrones.
5 Esta Información es obtenida del curso formal de la Materia de Reconocimiento de Patrones.
Page 15
d ( x , y )=∑i=1
m
1− 1
1+d i ( x i , y i)
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Page 16
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Después de realizar el procedimiento con las formulas anteriores se obtuvo la siguiente tabla:
s1 s2 s3 s4 s5 s6 s7 s8 s9 s10s1 0.0000 0.3497 0.5954 0.5325 1.4067 1.1556 1.1390 2.8186 2.2949 2.4841s2 0.3497 0.0000 0.5238 0.5542 1.5751 1.3380 1.2433 2.8029 2.2517 2.4451s3 0.5954 0.5238 0.0000 0.6727 1.8114 1.5262 1.4501 2.5793 2.1003 2.3341s4 0.5325 0.5542 0.6727 0.0000 1.5964 1.2198 1.2910 2.8412 2.3785 2.5911s5 1.4067 1.5751 1.8114 1.5964 0.0000 0.5488 0.5283 2.3376 1.7456 1.9758
s6 1.1556 1.3380 1.5262 1.2198 0.54880.000
0 0.1808 2.5968 2.0710 2.2788s7 1.1390 1.2433 1.4501 1.2910 0.5283 0.1808 0.0000 2.5359 1.9629 2.1784s8 2.8186 2.8029 2.5793 2.8412 2.3376 2.5968 2.5359 0.0000 0.9885 1.1030s9 2.2949 2.2517 2.1003 2.3785 1.7456 2.0710 1.9629 0.9885 0.0000 0.3248s10 2.4841 2.4451 2.3341 2.5911 1.9758 2.2788 2.1784 1.1030 0.3248 0.0000
Tabla 2.1.1.2 Distancia de La Cruz
En esta tabla se puede observar que los individuos, S6 y S7 son mas similares de la
población, y así mismo, S9 y S10 continuarían como mas semejantes de la población, esto
podemos deducirlo debido a que son los valores más bajos de la tabla de distancia de la
cruz, y debido a eso podemos decir que la distancia entre estos pares de individuos están
muy cerca si se ubicara los individuos dentro de un plano cartesiano de distancia; por otro
lado, también podemos observar que los individuos menos semejantes de la población o
más distantes, como son S8 y S1, también se puede observar que los individuos S8 y S4 se
los considera como más distantes de la población, esto es porque se observa que estos
individuos obtuvieron los máximos valores de la tabla de distancia de La Cruz.
2.1.2 Métodos de Conexión
Los Métodos de Conexión son Métodos Jerárquicos de reconocimiento no supervisado, en
esta parte se va utilizar los Métodos de Conexión Simple y Conexión Completa, los cuales
Page 17
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
estos métodos agrupan los individuos como un nuevo grupo y se recalcula de nuevo la
matriz de similaridad.
2.1.2.1 Conexión Simple
Para poder utilizar el método jerárquico de Conexión Simple nos basamos en las tablas de
semejanza, para poder utilizar éste método en la similaridad de Gower vamos siempre a
observar el valor máximo, y para distancia de La Cruz utilizamos el valor mínimo.
2.1.2.1.1 Conexión Simple Gower
Después de calcular el método de conexión simple de Gower se obtuvieron los siguientes
resultados y se agruparon de la siguiente manera:
Agrupamiento Individuos Agrupados Valor de agrupamiento
1 S6, S7 0.9669
2 S1, S2 0.9358
3 S1, S2, S3 0.8973
4 S6, S7, S5 0.8957
5 S1, S2, S3, S4 0.8954
6 S9, S10 0.8708
7 S9, S10, S8 0.8081
8 S1, S2, S3, S4, S6, S7, S8 0.6982
9 S1, S2, S3, S4, S6, S7, S5, S8, S9, S10 0.3993
Tabla 2.1.2.1.1 Conexión Simple Gower
Podemos observar la manera como se agrupan los individuos, a los cuales se los puede representar con un dendograma para una mejor visibilidad, el cual queda de la siguiente
Page 18
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
manera:
Fig 2.1.2.1.1. Dendograma Conexión Simple Gower Podemos observar el dendograma de la Fig 2.1.2.1.1 la manera como se agrupan
claramente los individuos, teniendo que en este método existen 3 grupos distribuidos de la
siguiente manera:
Grupo1 = S1, S2, S3, S4
Grupo2 = S5, S6, S7
Grupo3 = S8, S9, S10
2.1.2.1.2 Conexión Simple de La Cruz
Después de calcular el método de conexión simple de La Cruz se obtuvieron los siguientes
resultados y se agruparon de la siguiente manera:
Agrupamiento Individuos Agrupados Valor de agrupamiento
1 S6, S7 0.1808
2 S9, S10 0.3248
3 S1, S2 0.3497
4 S1, S2, S3 0.5238
5 S6, S7 0.5283
6 S1, S2, S3, S4 0.5325
7 S9, S10, S8 0.9885
8 S1, S2, S3, S4, S6, S7, S5 1.139
9 S1, S2, S3, S4, S6, S7, S5, S9, S10, S8 1.7456
Tabla 2.1.2.1.2 Conexión Simple Gower
Page 19
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Podemos observar la manera como se agrupan los individuos, a los cuales se los puede
representar con un dendograma para una mejor visibilidad, el cual queda de la siguiente
manera:
Fig. 2.1.2.1.2 Dendograma Conexión Simple de La Cruz
Podemos observar el dendograma de la Fig 2.1.2.1.2 la manera como se agrupan
claramente los individuos, teniendo que en este método también existen 3 grupos,
distribuidos de la siguiente manera:
Grupo1 = S1, S2, S3, S4
Grupo2 = S5, S6, S7
Grupo3 = S8, S9, S10
Y podemos observar que en cambio en el grupo 3 de este método el individuo S8 se agrupa
al final del grupo a una mayor distancia, pero sigue perteneciendo al grupo 3.
2.1.2.2 Conexión Completa
Para poder utilizar el método jerárquico de Conexión Completa nos basamos en las tablas
de semejanza, para poder utilizar éste método en la similaridad de Gower vamos siempre a
observar el valor mínimo, y para distancia de La Cruz utilizamos el valor máximo.
2.1.2.2.1 Conexión Completa Gower
Después de calcular el método de conexión completa de Gower se obtuvieron los siguientes
resultados:
Agrupamiento Individuos Agrupados Valor de agrupamiento
Page 20
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
1 S4, S8 0.0918
2 S4, S8, S2 0.1095
3 S4, S8, S2, S1 0.1096
4 S4, S8, S2, S1, S3 0.2122
5 S4, S8, S2, S1, S3, S6 0.2125
6 S4, S8, S2, S1, S3, S6, S10 0.2249
7 S4, S8, S2, S1, S3, S6, S10, S7 0.2447
8 S4, S8, S2, S1, S3, S6, S10, S7, S5 0.3220
9 S4, S8, S2, S1, S3, S6, S10, S7, S5, S9 0.3234
Tabla 2.1.2.2.1 Conexión Completa Gower
Podemos observar la manera como los individuos no se agrupan, a los cuales se los puede
representar con un dendograma para una mejor visibilidad, el cual queda de la siguiente
manera:
Fig. 2.1.2.2.1 Dendograma Conexión Completa de Gower
Podemos observar que al aplicar este método en nuestra población no es el apto para
nuestros datos, en el dendograma se muestra como los individuos forma una escalera, y el
cual se deduce que no existe agrupamiento entre los individuos.
2.1.2.2.2 Conexión Completa de La Cruz
Después de calcular el método de conexión completa de La Cruz se obtuvieron los
siguientes resultados:
Agrupamiento Individuos Agrupados Valor de agrupamiento
Page 21
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
1 S4, S8 2.8412
2 S4, S8, S1 2.8186
3 S4, S8, S1, S2 2.8029
4 S4, S8, S1, S2, S6 2.5968
5 S4, S8, S1, S2, S6, S10 2.5911
6 S4, S8, S1, S2, S6, S10, S3 2.5793
7 S4, S8, S1, S2, S6, S10, S3, S7 2.5359
8 S4, S8, S1, S2, S6, S10, S3, S7, S9 2.3785
9 S4, S8, S1, S2, S6, S10, S3, S7, S9,S5 2.3376
Tabla 2.1.2.2.2 Conexión Completa de La Cruz
Podemos observar la manera como los individuos no se agrupan, a los cuales se los puede
representar con un dendograma para una mejor visibilidad, el cual queda de la siguiente
manera:
Fig. 2.1.2.2.2 Dendograma Conexión Completa de La Cruz
Podemos observar que al aplicar este método en nuestra población no es el apto para
nuestros datos, en el dendograma se muestra como los individuos forma una escalera, y el
cual se deduce que no existe agrupamiento entre los individuos.
2.1.3 Método de Promediación
Page 22
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
En este método, la distancia entre dos grupos es considerado como el promedio de las
distancias de todos los posibles par de patrones, como si ellos formaran un solo grupo6.
Cada vez que se encuentra individuos semejantes se agrupan y se recalcula una nueva
matriz de semejanza.
2.1.3.1 Método de Promediacion de Gower
Después de calcular el método de promediacion de Gower se obtuvieron los siguientes
resultados y se agruparon de la siguiente manera:
Agrupamiento Individuos Agrupados Valor de agrupamiento
1 S6, S7 0.9669
2 S1, S2 0.9358
3 S6, S7, S5 0.8931
4 S1, S2, S4 0.8899
5 S9, S10 0.8708
6 S1, S2, S4, S3 0.8628
7 S9, S10, S8 0.7882
8 S1, S2, S4, S3, S6, S7, S5 0.6063
9 S1, S2, S4, S3, S6, S7, S5, S9, S10, S8 0.3386
Tabla 2.1.3.1 Promediacion de Gower
Podemos observar la manera como se agrupan los individuos, a los cuales se los puede
representar con un dendograma para una mejor visibilidad, el cual queda de la siguiente
manera:
6 Esta Información es obtenida del curso formal de la Materia de Reconocimiento de Patrones.
Page 23
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Fig. 2.1.3.1 Dendograma Promediacion de Gower
Podemos observar el dendograma de la Fig 2.1.3.1 la manera como se agrupan claramente
los individuos, teniendo que en este método también existen 3 grupos distribuidos de la
siguiente manera:
Grupo1 = S1, S2, S3, S4
Grupo2 = S5, S6, S7
Grupo3 = S8, S9, S10
2.1.3.2 Método de Promediacion de La Cruz
Después de calcular el método de promediacion de La Cruz se obtuvieron los siguientes
resultados y se agruparon de la siguiente manera:
Agrupamiento Individuos Agrupados Valor de agrupamiento
1 S6, S7 0.1808
2 S9, S10 0.3248
3 S1, S2 0.3497
4 S6, S7, S5 0.5385
5 S1, S2, S4 0.5433
6 S1, S2, S4, S3 0.6161
7 S9, S10, S8 1.0457
8 S1, S2, S4, S3, S6, S7, S5 1.5200
9 S1, S2, S4, S3, S6, S7, S5, S9, S10, S8 2.3671
Tabla 2.1.3.2 Promediacion de La Cruz
Page 24
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Podemos observar la manera como se agrupan los individuos, a los cuales se los puede
representar con un dendograma para una mejor visibilidad, el cual queda de la siguiente
manera:
Fig. 2.1.3.2 Dendograma Promediacion de La CruzPodemos observar el dendograma de la Fig 2.1.3.2 la manera como se agrupan claramente
los individuos, teniendo que en este método también existen 3 grupos distribuidos de la
siguiente manera:
Grupo1 = S1, S2, S3, S4
Grupo2 = S5, S6, S7
Grupo3 = S8, S9, S10
2.1.4 Método de Centroide
Este método trata en buscar los elementos más semejantes e irlos agrupando, luego
fundirlos en un solo grupo, formando entre ellos un nuevo centroide, y después de eso
recalcular la matriz de semejanza.
2.1.4.1 Centroide de Gower
Una vez realizado todos los procedimientos del algoritmo del centroide se llego a la
siguiente tabla de agrupamiento de individuos:
Page 25
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Agrupamiento Individuos Agrupados Valor de agrupamiento
1 S6, S7 0.9669
2 S1, S2 0.9358
3 S6, S7, S5 0.9065
4 S1, S2, S3 0.8962
5 S1, S2, S3, S4 0.8714
6 S9, S10 0.8708
7 S9, S10, S8 0.7539
8 S1, S2, S3, S4, S6, S7, S5 0.6445
9 S1, S2, S3, S4, S6, S7, S5, S9, S10, S8 0
Tabla 2.1.4.1 Centroide de Gower
Se puede observar que en la Tabla 2.1.4.1 la manera como se van agrupando los individuos,
y, para una mejor observación se presenta el dendograma:
Fig. 2.1.4.1 Dendograma del Centroide de Gower
En este dendograma es muy apreciable los grupos que se forman de los individuos, y se
puede observar que termina en una similaridad de 0, queriendo decir que ya no existe
similaridad entre grupos, quedando establecido y clasificado de la siguiente manera:
Grupo1: S1, S2, S3, S4
Grupo2: S5, S6, S7
Grupo3: S8, S9, S10
Page 26
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
2.1.4.2 Centroide de La Cruz
Una vez realizado todos los procedimientos del algoritmo del centroide para la distancia de
La Cruz se llego a la siguiente tabla de agrupamiento de individuos:
Agrupamiento Individuos Agrupados Valor de agrupamiento
1 S6, S7 0.1808
2 S9, S10 0.3247
3 S1, S2 0.3496
4 S6, S7, S5 0.4622
5 S1, S2, S3 0.5129
6 S1, S2, S3, S4 0.5948
7 S9, S10, S8 0.9626
8 S1, S2, S3, S4, S6, S7, S5 1.3817
9 S1, S2, S3, S4, S6, S7, S5, S9, S10, S8 3
Tabla 2.1.4.2 Centroide de La Cruz
Se puede observar que en la Tabla 2.1.4.2 la manera como se van agrupando los individuos,
y, para una mejor observación se presenta el dendograma:
Fig. 2.1.4.2 Dendograma del Centroide de La Cruz
En este dendograma es muy apreciable los grupos que se forman de los individuos, y se
puede observar que termina en una distancia de 3, queriendo decir que ya no existe
similaridad entre grupos, debido a que está relativamente lejos quedando establecido y
clasificado de la siguiente manera:
Page 27
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Grupo1: S1, S2, S3, S4
Grupo2: S5, S6, S7
Grupo3: S8, S9, S10
2.1.5 Método de Ward
La idea básica de éste método es tratar de ir agrupando de forma jerárquica elementos de
modo que se minimice una determinada función objetivo.
El método de Ward es uno de los más utilizados en la práctica; posee casi todas las ventajas
del método de la media y suele ser más discriminativo en la determinación de los niveles de
agrupación7.
Para aplicar este método se utilizó la similaridad de Gower que nos dio como resultado la
siguiente tabla:
Agrupamiento Individuos Agrupados Valor de agrupamiento
1 S1, S2 901.5
2 S6, S7 1874
3 S1, S3, S2 8437.5
4 S8, S10 10432.13
5 S1, S3, S2, S4 23549
6 S8, S10, S9 45118
7 S1, S2, S3, S4, S6, S7 197342
8 S8, S9, S10, S5 853743.44
9 S1, S2, S3, S4, S6, S7, S8, S9, S10, S5 9447870.725
Tabla 2.1.5 Método de Ward con Gower
Se puede observar la manera como se agrupan los individuos con la utilización de este
método, para una mejor visualización se presenta el dendograma:
7 http://www.uv.es/ceaces/multivari/cluster/met_ward.htm
Page 28
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Fig. 2.1.5 Dendograma del Método de Ward con Gower
Observando el dendograma podemos concluir que se clasifican 3 grupos, la diferencia de
este grupo es que el individuo S5 lo agrupó en un grupo diferente, esto es debido a que los
valores de este individuo son elevados en algunas variables que son representativas y se
aproxima a los valores del grupo 3, y por esta razón se puede considerar que se lo agrupa, y
así podemos definir los grupos de la siguiente manera:
Grupo1: S1, S3, S2, S4Grupo2: S7, S6Grupo3: S8, S10, S9, S5
Page 29
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones 2010
2.1.6 Análisis de Dendogramas
Dendogramas Dendograma
Dendograma Conexión
Simple Gower
Dendograma Conexión
Simple de La Cruz
Page 30
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones 2010
Dendograma Conexión
Completa de Gower
Dendograma Conexión
Completa de La Cruz
Dendograma
Promediacion de Gower
Page 31
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones 2010
Dendograma
Promediacion de La
Cruz
Dendograma del
Centroide de Gower
Page 32
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones 2010
Dendograma del
Centroide de La Cruz
Dendograma del Método
de Ward con Gower
Tabla 2.1.6 Conclusión de los Dendogramas manuales
Page 33
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Conclusión:
Podemos observar todos los resultados obtenidos de los Dendogramas y visualizar que
estos métodos clasifican a los individuos de igual manera en tres grupos, con excepción del
método de conexión completa que este método no es aconsejable utilizar para estos tipos de
datos, debido a que forma una especie de escalera, y por lo tanto no existe agrupamiento; y
se puede también observar en el método de Ward a pesar de que es una de los métodos más
utilizados, clasifica los individuos en tres grupos, pero no es igual a los otro métodos, esto
es por el individuo S5 que se clasifica en el grupo3, debido a que sus valores de las
variables que son elevados.
Una vez revisado y estudiado los Dendogramas podemos concluir, que, uno de los mejores
métodos para esta población es el método del Centroide, esto es debido a que la semejanza
de los individuos se realizan en distancias pequeñas, y por otro lado se puede observar que
al final del dendograma en Gower llega a un nivel de 0, y en de La Cruz en nivel de 3, esto
nos indica que ya no existe similaridad de grupos, es por esas razones que el mejor método
estudiando para esta población es el Centroide.
2.1.7 Caracterización
Caracterización las variables
GRUPO 1
Valores Bajos: weight, displacement, cylinders, horspower, acceleration
Valores Medio: horsepower, acceleration
Valores Altos: mpg, acceleration
GRUPO 2
Valores Bajos: horspower
Valores Medio:mpg, diplacement, weight,
acceleration, cylinders, horspower
GRUPO 3
Valores Bajos: acceleration, mpg
Page 34
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Valores Altos: horspower, displacement, weight, cylinders
Tabla. 2.1.7.1 Caracterización de variables
Grupo1: A menor culinders se tiene un menor desplacement y por lo tanto una mayor
cantidad de millas por galor (mpg)
Grupo2: A menor horsepower se tiene una accleration y un desplacement medio
Grupo3: A mayor horsepower y mas cylinders se tiene un mayor displacement y un menor
consumo de mpg.
Caracterización de IndividuosGRUPOS VARIABLE
MPG1 25-282 19-213 11-14. CYLINDERS1 42 63 8 DISPLACEMENT1 97-1402 199-2503 318-455 HORSEPOWER1 88-1132 88-903 153-225 WEIGHT1 2130-23752 2587-33023 4154-4425 ACCELERATION1 12.5-17.52 15-163 10-13.5
Tabla. 2.1.7.2 Caracterización de individuos
Page 35
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
2.1.8 Métodos de Búsqueda de densidad
Este método se trata de buscar un factor de densidad, tomando en cuenta la matriz de
semejanza y el número de grupos que forman los métodos jerárquicos, donde este factor
esta denotado entre 1 – 0, donde 0 Indica que la densidad exigida es tan pequeña que todos
los individuos, por alejados que estén formarán un grupo y 1 es un nivel de densidad tal,
que solamente dos individuos iguales pueden cumplirlo.
Para calcular este método se toma en cuenta diferentes criterios (Individuo más
Semejante, Promediacion dentro del Grupo Actual, Promediacion dentro del nuevo
grupo, Media de la Densidad, Semejanza Total, Promediacion con Restricción)8, en
este proyecto se va a tratar sobre los criterios de Promediacion dentro del nuevo grupo y
Semejanza Total, los cuales utilizan las siguientes formulas:
y, respectivamente.
Donde los resultados dieron los siguientes:
Para el Criterio de Promediacion dentro del nuevo grupo, se obtuvieron los siguientes
resultados:
Gower De la Cruz
Factor de densidad: 0.5 Factor de densidad: 0.3
Grupo1: S5, S6, S7
Grupo2: S1, S2, S3, S4
Grupo3: S8, S9, S10
Para el Criterio de Semejanza Total, se obtuvieron los siguientes resultados:
Gower De la Cruz
Factor de densidad: 0.7 Factor de densidad: 0.47
Grupo1: S5, S6, S7
Grupo2: S1, S2, S3, S4
Grupo3: S8, S9, S10
8 Esta Información es obtenida del curso formal de la Materia de Reconocimiento de Patrones.
Page 36
X ′GA=∑
i=1
N GA
∑j=i+1
N GA+1 2 S ' ijN GA (N GA +1 )S IcI j≥F ∀ I j∈G A
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Podemos observar que el proceso de agrupamiento con el método de densidad, es más
estricto en el criterio de Semejanza Total, y más aun, si se lo utiliza para Gower, sabiendo
que para este el factor es 0.7
2.1.9 Métodos de Partición
Este método de partición brinda como resultado una clasificación completa en términos de
las clases y la pertenencia de los individuos a éstas. Necesitan cierta información de
partida, que se utiliza como vía para inicializar los grupos: La cantidad de grupos, una
partición inicial, los puntos semillas o centroides.9
2.1.9.1 Método de K-Media
Al aplicar el método de partición del K-Medias se obtuvo los siguientes resultados:
Miembros Grupo 11
1,227.5 4 118.5 89 2197 15
0.349685777
1,2,326.75 4 119.75 101 2215.5 13.75
0.503082473
1,2,3,425.875 4 111.875 98 2295.25 15.625
0.584701996
1,2,3,4,623.4375 5 155.9375 91.5 2441.125 15.8125
1.21545729
1,2,3,4,723.4375 5 155.4375 94 2471.625 15.3125
1.23982233
1,2,3,4,919.9375 6 231.4375 125.5 3224.625 14.5625
2.36423359
1,2,3,4,1018.4375 6 214.9375 154 3338.625 14.5625
2.576168369Miembro
s Grupo 2
5
5,223 5 173.5 88 2716 15
1.5751043935,3 22.5 5 185.5 100.5 2768 14
9 Esta Información es obtenida del curso formal de la Materia de Reconocimiento de Patrones.
Page 37
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
1.827880904
5,422 5 177 91.5 2838.5 16.5
1.623322375
5,620 6 225 86.5 2944.5 15.75
0.594946814
5,6,720.5 6 212 88.25 2796.25 15.375
0.395666522
5,6,7,920.5 6 212 88.25 2796.25 15.375
2.053059488
5,6,7,1015.75 7 265 149.125 3589.125 14.4375
2.414539356Miembro
s Grupo 3
8
8,220.5 6 276 156.5 3277.5 12.25
2.802918171
8,320 6 288 169 3329.5 11.25
2.598901849
8,419.5 6 279.5 160 3400 13.75
2.87397358
8,617.5 7 327.5 155 3506 13
2.209567119
8,717.5 7 327 157.5 3536.5 12.5
2.660861318
8,914 8 403 189 4289.5 11.75
1.073950363
8,9,1012.5 8 360.5 199.5 4335.75 12.625
0.894488108Tabla 2.1.9.1 Método de K-Medias
En el cual podemos observar, que, para conocer si un individuo candidato pertenece al
grupo, se calcula la distancia a todos los grupos, y se lo conforma con el nuevo candidato
siempre y cuando la distancia sea menor, y se recalcula el centroide.
En la Tabla 2.1.8.1 se aprecia que los individuos se clasifican en tres grupos, y los
miembros de cada grupo serian de la siguiente manera:
Grupo1: S1, S2, S3, S4 Centroide: (25.875, 4, 111.875, 98, 2295.25, 15.625).
Grupo2: S5, S6, S7 Centroide: (20.5, 6, 212, 88.25, 2796.25, 15.375).
Page 38
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Grupo3: S8, S9, S10 Centroide: (12.5, 8, 360.5, 199.5, 4335.75, 12.625).
Page 39
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
2.1.9.2 Método de Forgy
Al aplicar el método de Forgy se obtuvieron los siguientes resultados:
Semillas Fijas Grupo1 26.5 4 115.5 96.5 2250.75 15Grupo2 20.333333 6 216.3333 87.666667 2845.667 15.5Grupo3 13 8 374.6667 196 4320.333 12.33333
Miembros Grupo 1 Miembros Grupo 2 Miembros Grupo 3
1 0.257742249 1 1.205152 1 2.565045
2 0.247431749 2 1.389421 2 2.536379
3 0.406379006 3 1.609668 3 2.218171
4 0.424163819 4 1.384702 4 2.630085
5 1.513115592 5 0.326916 5 2.05886
6 1.25675052 6 0.263855 6 2.348785
7 1.12549418 7 0.242108 7 2.263885
8 2.775542917 8 2.497337 8 0.691328
9 2.228069594 9 1.936568 9 0.554731
10 2.434108467 10 2.15345 10 0.493611
Tabla 2.1.9.2 Método de Forgy
En este método la diferencia radique en que se utiliza semillas fijas para cada grupo, y para saber si un candidato pertenece a un grupo se compara las distancias a cada grupo tomando en cuenta las semillas fijas.
El agrupamiento de individuos para este método queda de la siguiente manera:
Grupo1: S1, S2, S3, S4
Grupo2: S5, S6, S7
Grupo3: S8, S9, S10
Page 40
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
2.2 Análisis automatizado de los 10 individuos (Sirp)
El SIRP es un Sistema Integrado para Reconocimiento de Patrones, se vamos a utilizar este vSoftware para automatizar los mismos 10 individuos que se utilizaron en el Capitulo 1.
Una vez cargada la Base de Datos al SIRP este nos muestra los siguientes datos:
BASE de DATOS: autos
PARAMETROS GENERALES de la BASE
Total de Individuos: 40
Seleccionados: 10
Total de Variables: 6
Seleccionadas: 5
Numéricas: 5
Numéricas Seleccionadas: 5
Cualitativas: 1
Cualitativas Seleccionadas: 0
Total de Categorías: 3
Binarias: 0
2.2.1 Medidas
2.2.1.1 Semejanza de Gower
Una vez cargada la Base de Datos al SIRP, la Semejanza de Gower nos muestra el siguiente
resultado:
Fig. 2.2.1.1 Semejanza de Gower
Page 41
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
En esta tabla se puede observar que los individuos, S6 y S7 son mas similares de la
población, y así mismo, S1 y S2 continuarían como mas semejantes de la población, esto
podemos deducirlo debido a que son los valores más altos de la tabla de similaridad de
Gower; por otro lado, también podemos observar que los individuos menos semejantes de
la población, como son S8 y S4, también se puede observar que los individuos S8 y S2 se
los considera como menos semejantes, porque podemos observar que estos individuos
obtuvieron los mínimos resultados de la tabla de similaridad de Gower.
Y si nos referiremos a la Tabla 2.1.1.1 Similaridad de Gower nos podemos dar cuenta que
son los mismo resultados.
2.2.1.2 Similaridad de datos Heterogéneos: Distancia de La Cruz
Una vez cargada la Base de Datos al SIRP, la Similaridad de datos Heterogéneos nos
muestra el siguiente resultado:
Fig. 2.2.1.2 Distancia de la Cruz
En esta tabla se puede observar que los individuos, S6 y S7 son mas similares de la
población, y así mismo, S1 y S2 continuarían como mas semejantes de la población, esto
podemos deducirlo debido a que son los valores más bajos de la tabla de distancia de la
cruz, y debido a eso podemos decir que la distancia entre estos pares de individuos están
muy cerca si se ubicara los individuos dentro de un plano cartesiano de distancia; por otro
lado, también podemos observar que los individuos menos semejantes de la población o
más distantes, como son S8 y S1, también se puede observar que los individuos S8 y S4 se
los considera como más distantes de la población, esto es porque se observa que estos
individuos obtuvieron los máximos valores de la tabla de distancia de La Cruz.
Page 42
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Y si nos referiremos a la Tabla 2.1.1.2 Distancia de la Cruz nos podemos dar cuenta que
son los mismo resultados en la mayoría de datos, algunos varían debido al redondeo, pero
el criterio es el mismo.
2.2.2 Métodos de Conexión
2.2.2.1 Conexión Simple
2.2.2.1.1 Conexión Simple Gower
Ejecutando el programa SIRP tenemos los siguientes resultados de la Conexión Simple de
Gower a estos individuos.
Fig. 2.2.2.1.1 Conexión Simple Gower
Podemos observar que la Fig. 2.2.2.1.1 clasifica los individuos en tres grupos; ubicándolos
de la siguiente manera:
Grupo1: {6, 7, 8}
Grupo2: {1, 2, 3, 4}
Grupo1: {9, 10, 8}
En conclusión, son los mismos individuos pertenecientes a cada grupo que se obtiene con el
mismo método de manera manual en el capitulo 1.
Page 43
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
2.2.2.1.2 Conexión Simple de La Cruz
Este método en el SIRP nos muestra el siguiente resultado:
Fig. 2.2.2.1.2 Conexión Simple de La Cruz
Podemos observar la manera como se clasifican los individuos en 3 grupos de la siguiente
manera:
Grupo1: {6, 7, 5}
Grupo2: {1, 2, 3, 4}
Grupo3: {9, 10, 8}
Si observamos el dendograma de la Fig. 2.1.2.1.2 Dendograma Conexión Simple de La
Cruz del capítulo, podemos apreciar tanto el método manual como automatizado nos
clasifica de igual manera tres grupos y con los mismos individuos.
2.2.2.2 Conexión Completa
2.2.2.2.1 Conexión Completa Gower
Ejecutando el programa SIRP tenemos los siguientes resultados de la Conexión Completa
de Gower a estos individuos.
Page 44
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Fig. 2.2.2.2.1 Conexión Completa Gower
Para este método podemos observar que ser forma una especie de escalera en los grupos, y
debido a esto no existe clasificación.
2.2.2.2.2 Método de conexión completa de La Cruz
Ejecutando el programa SIRP tenemos los siguientes resultados de la Conexión Completa
de La Cruz a estos individuos.
Fig. 2.2.2.2.2 Conexión Completa de La Cruz
Para este método podemos observar que ser forma una especie de escalera en los grupos, y
debido a esto no existe clasificación.
2.2.3 Método de Promediacion
2.2.3.1 Método de Promediacion de Gower
Ejecutando el programa SIRP tenemos los siguientes resultados del método de
promediación a estos individuos.
Page 45
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Fig. 2.2.3.1 Método de Promediacion Gower
Podemos observar que la Fig. 2.2.3.1 clasifica los individuos en tres grupos, también se
observa que ya en el nivel 13 se unen los dos grupos, queriendo decir que estos ya no son
similares; ubicándolos de la siguiente manera:
Grupo1: {6, 7, 8}
Grupo2: {1, 2, 3, 4}
Grupo1: {9, 10, 8}
En conclusión, son los mismos individuos pertenecientes a cada grupo que se obtiene con el
mismo método de manera manual en el capítulo 1.
2.2.3.2 Método de Promediacion de La Cruz
El resultado de Promediacion de la Cruz nos muestra el siguiente dendograma:
Fig.2.2.3.2 Método de Promediacion de La Cruz
Podemos la manera como se califican los individuos en 3 grupos, y la distancia de
agrupamiento entre el grupo 1 y grupo 2 es mínima con respecto al grupo 3; el
agrupamiento se muestra de la siguiente manera:
Page 46
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Grupo1: {6, 7, 5}
Grupo1: {1, 2, 4, 3}
Grupo1: {9, 10, 8}
Éste es el mismo agrupamiento con el método de Promediacion de la cruz en el capitulo1.
2.2.4 Método de Centroide
2.2.4.1 Centroide de Gower
Ejecutando el programa SIRP tenemos los siguientes resultados del método de centroide a
estos individuos.
Fig. 2.2.4.1 Centroide de Gower
Podemos observar que la Fig. 2.2.4.1 como se clasifica los individuos en tres grupos;
ubicándolos de la siguiente manera:
Grupo1: {6, 7, 8}
Grupo2: {1, 2, 3, 4}
Grupo1: {9, 10, 8}
En conclusión, son los mismos individuos pertenecientes a cada grupo que se obtiene con el
mismo método de manera manual en el capítulo 1.
Page 47
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
2.2.4.2 Centroide de La Cruz
El programa SIRP después de generar el método con la base de datos de los individuos
seleccionados se muestra el siguiente dendograma.
Fig. 2.2.4.2 Centroide de La Cruz
Podemos observar que la Fig. 2.2.4.2 como se clasifica los individuos en tres grupos;
ubicándolos de la siguiente manera:
Grupo1: {6, 7, 8}
Grupo2: {1, 2, 3, 4}
Grupo1: {9, 10, 8}
En conclusión, son los mismos individuos pertenecientes a cada grupo que se obtiene con el
mismo método de manera manual en el capítulo 1.
2.2.5 Método de Ward
En éste método el programa SIRP nos muestra el siguiente resultado:
Page 48
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Fig. 2.2.5 Método de Ward
Si observamos el dendograma la manera como se clasifican los individuos en tres grupos,
especificados de la siguiente manera:
Grupo1: {6, 7, 5}
Grupo2: {1, 2, 4, 3}
Grupo3: {9, 10, 8}
Este dendograma de Ward en SIRP resulto de la matriz de la similaridad de datos
heterogéneos, y, si nos referimos al método de Ward que se realizó de manera manual en el
capítulo 1, se lo realizó con la Similaridad de Gower; está puede ser la razón principal por
la cual no se percibe la misma clasificación de individuos.
Page 49
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones 2010
2.2.6 Análisis de Dendogramas
Método Dendograma
Conexión Simple Gower
Conexión Simple de La Cruz
Page 50
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones 2010
Conexión Completa Gower
Método de conexión
completa de La Cruz
Método de Promediacion
Gower
Page 51
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones 2010
Método de Promediacion de
La Cruz
Centroide de Gower
Centroide de La Cruz
Page 52
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones 2010
Método de Ward
Fig. 2.2.6 Análisis de Dendogramas
Conclusión:
Para poder establecer el mejor método de reconocimiento no supervisado, nos tenemos que fijar en la forma de cómo se van agrupando los individuos y tomando en cuenta la distancia de agrupamiento, en estos casos podemos observar que los mejores métodos y las mejores agrupaciones son los métodos Promediacion de Gower y el método de Ward con datos heterogéneos.
Page 53
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
2.2.7 Caracterización
Caracterización las variables
GRUPO 1
Valores Bajos: weight, displacement, cylinders, horspower, acceleration
Valores Medio: horsepower, acceleration
Valores Altos: mpg, acceleration
GRUPO 2
Valores Bajos: horspower
Valores Medio:mpg, diplacement, weight,
acceleration, cylinders, horspower
GRUPO 3
Valores Bajos: acceleration, mpg
Valores Altos: horspower, displacement, weight, cylinders
Tabla. 2.2.7.1 Caracterización de variables
Grupo1: A menor culinders se tiene un menor desplacement y por lo tanto una mayor
cantidad de millas por galor (mpg)
Grupo2: A menor horsepower se tiene una accleration y un desplacement medio
Grupo3: A mayor horsepower y mas cylinders se tiene un mayor displacement y un menor
consumo de mpg.
Caracterización de IndividuosGRUPOS VARIABLE
MPG1 25-282 19-213 11-14. CYLINDERS1 42 63 8
Page 54
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
DISPLACEMENT1 97-1402 199-2503 318-455 HORSEPOWER1 88-1132 88-903 153-225 WEIGHT1 2130-23752 2587-33023 4154-4425 ACCELERATION1 12.5-17.52 15-163 10-13.5
Tabla. 2.2.7.2 Caracterización de individuos
2.2.8 Métodos de Búsqueda de densidad
Dentro del software SIRP también nos permite encontrar un factor de densidad, el cual nos
queda de la siguiente manera:
Número de Grupos encontrados 3 Factor de densidad Criterio 3 = 0.700 y 0.6 con el
Criterio 5
Grupo 1 con 3 Individuos
------------------------------
5 6 7
Grupo 2 con 4 Individuos
------------------------------
1 2 3 4
Page 55
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Grupo 3 con 3 Individuos
------------------------------
8 9 10
Este resultado podemos compararlo con el mismo método realizado manualmente en el
Capítulo 1, podemos revisas estos factores de densidad, los cuales se aproximan y los
cuales forman los mismos grupos.
2.2.9 Métodos de Partición
Después de haber cargado nuestra población al SIRP, vamos a generar los métodos de
partición.
2.2.9.1 Método de K-Medias
El método de partición de K-Medias del SIRP nos da el siguiente resultado:
Cantidad de elementos por Grupos:
Grupo 1 con 3 Elementos.
Grupo 2 con 4 Elementos.
Grupo 3 con 3 Elementos.
Lista de los Integrantes del Grupo 1 (Total de Elementos 3)
8 9 10
Centroide del Grupo
13 374.6667 196 4320.333 12.3333
Lista de los Integrantes del Grupo 2 (Total de Elementos 4)
1 2 3 4
Page 56
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Centroide del Grupo
26.5 115.5 96.5 2250.75 15
Lista de los Integrantes del Grupo 3 (Total de Elementos 3)
5 6 7
Centroide del Grupo
20.3333 201.3333 87.6666 2845.667 15.5.
Podemos observar que el SIRP para el método de K-Medias también agrupa nuestra
población de individuos igual al Método de K-Medias de manera manual aplicado en el
Capitulo 1.
2.2.9.2 Método de Forgy
El método de partición de Forgy del SIRP nos da el siguiente resultado:
Número de Iteraciones dadas para la convergencia = 5
Cantidad de elementos por Grupos:
Grupo 1 con 3 Elementos.
Grupo 2 con 4 Elementos.
Grupo 3 con 3 Elementos.
Lista de los Integrantes del Grupo 1 (Total de Elementos 3)
8 9 10
Centroide del Grupo
13 374.6667 196 4320.333 12.3333
Page 57
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Lista de los Integrantes del Grupo 2 (Total de Elementos 4)
1 2 3 4
Centroide del Grupo
26.5 115.5 96.5 2250.75 15
Lista de los Integrantes del Grupo 3 (Total de Elementos 3)
5 6 7
Centroide del Grupo
20.3333 201.3333 87.6666 2845.667 15.5
Podemos observar que el SIRP para el método de Forgy también agrupa nuestra población
de individuos igual al Método de Forgy de manera manual aplicado en el Capitulo 1.
Page 58
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Capitulo 3
Page 59
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
3.1 Análisis automatizado de toda la población
3.1.1 Medidas
3.1.1.1 Semejanza de Gower
Una vez cargados todos los individuos de la población en el programa SIRP, la semejanza
de Gower da como resultado lo siguiente:
Total de Individuos: 40
Seleccionados: 10
Total de Variables: 6
Seleccionadas: 5
Numéricas: 5
Numéricas Seleccionadas: 5
Cualitativas: 1
Cualitativas Seleccionadas: 0
Total de Categorías: 3
Binarias: 0
Page 60
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Page 61
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Page 62
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Tabla 3.1.1.1 Semejanza de Gower
Observando la matriz de semejanza de Gower podemos observar los individuos mas
semejantes como son el elemento 29 y 24, y los menos semejantes se los considera a los
valores que tiende a 0, como son los elementos 27 y 8.
3.1.1.2 Distancia de La Cruz
Una vez cargados todos los individuos de la población en el programa SIRP, la semejanza
de Gower da como resultado lo siguiente:
Total de Individuos: 40
Seleccionados: 10
Total de Variables: 6
Seleccionadas: 5
Numéricas: 5
Numéricas Seleccionadas: 5
Cualitativas: 1
Cualitativas Seleccionadas: 0
Total de Categorías: 3
Binarias: 0
Page 63
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Page 64
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Page 65
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Tabla 3.1.1.2 Distancia de La Cruz
Observando la matriz de distancia de la Cruz podemos observar los individuos más
semejantes o menos distantes como son el elemento 29 y 24, y los menos semejantes se los
considera a los valores mayores, como son los elementos 27 y 8.
Y si observamos la tabla de similaridad de Gower podemos observar que estos elementos
coinciden como mas semejantes y menos semejantes respectivamente.
3.2 Método de Conexión
3.2.1 Conexión Simple
3.2.1.1 Conexión Simple Gower
El método de conexión simple de Gower con toda la población en el programa SIRP mostro
los siguientes resultados:
Obtenida con: Todos los Individuos y Todas las Variables
Page 66
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Fig. 3.2.1.1 Conexión Simple Gower
En este dendograma podemos apreciar claramente como se clasifica la población en 3
grupos, quedando de la siguiente manera:
Grupo1: {24, 29, 34, 2, 4, 28, 3, 1, 27}
Grupo2: {38, 39, 33, 37, 5, 6, 7, 25, 26, 36}
Grupo3: {17, 18, 8, 16, 13, 15, 14, 11, 20, 22, 9, 40, 12, 35, 19, 21, 23, 10, 31, 30, 32}
Se podría tomar los individuos 10, 31, 30 y 32 como otro grupo, siempre y cuando la
distancia de agrupamiento sea mayor, pero considerando en el grupo 1 todavía los
Page 67
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
individuos se agrupan en el nivel 11, entonces a estos individuos se los considera dentro del
grupo3.
3.2.1.2 Conexión Simple de la Cruz
El método de conexión simple de La Cruz con toda la población en el programa SIRP
mostro los siguientes resultados:
Fig. 3.2.1.2 Conexión Simple de la Cruz
Observando el dendograma podemos observar que los individuos se clasifican en tres
grupos:
Page 68
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Grupo1: {24, 29,34, 2, 4, 28, 3, 1, 27}
Grupo2: {38, 38, 33, 37, 5, 6, 7, 25, 26, 36}
Grupo3: {17, 18, 8, 16, 13, 15, 14, 11, 20, 22, 9, 40, 12, 35, 19, 21, 23, 10, 31, 30, 32}
3.2.2 Conexión Completa
3.2.2.1 Conexión Completa Gower
El método de conexión Completa de Gower con toda la población en el programa SIRP
muestra los siguientes resultados:
Fig. 3.2.2.1 Conexión Completa Gower
Page 69
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Analizando el dendograma nos podemos dar cuenta que no existe clasificación, todos los
individuos forman una especie de escalera, y por esa razón no existe agrupamiento.
3.2.2.2 Conexión Completa de la Cruz
El método de conexión Completa de Gower con toda la población en el programa SIRP
muestra los siguientes resultados:
Fig. 3.2.2.2 Conexión Completa de La Cruz
Analizando el dendograma nos podemos dar cuenta que no existe clasificación, todos los
individuos forman una especie de escalera, y por esa razón no existe agrupamiento.
Page 70
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
3.3 Método de Promediacion
3.3.1 Método de Promediacion de Gower
El método de Promediacion con toda la población en el programa SIRP mostró los
siguientes resultados:
Fig. 3.3.1 Método de Promediacion de GowerObservando el dendograma podemos observar que los individuos se clasifican en tres
grupos:
Grupo1: {24, 29,34, 2, 4, 28, 3, 1, 27}
Grupo2: {38, 38, 33, 37, 5, 6, 7, 25, 26, 36}
Page 71
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Grupo3: {17, 18, 8, 16, 13, 15, 14, 11, 20, 22, 9, 40, 12, 35, 19, 21, 23, 10, 31, 30, 32}
3.3.2 Método de Promediacion de La Cruz
El método de Promediacion de La Cruz con toda la población en el programa SIRP mostró
los siguientes resultados:
Fig. 3.3.2 Método de Promediacion de La Cruz
Observando el dendograma podemos observar que los individuos se clasifican en tres
grupos:
Grupo1: {24, 29,34, 2, 4, 28, 3, 1, 27}
Grupo2: {38, 38, 33, 37, 5, 6, 7, 25, 26, 36}
Page 72
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Grupo3: {17, 18, 8, 16, 13, 15, 14, 11, 20, 22, 9, 40, 12, 35, 19, 21, 23, 10, 31, 30, 32}
3.4 Método de Centroide
3.4.1 Centroide de Gower
El método de Centroide de Gower con toda la población en el programa SIRP mostró el
siguiente dendograma:
Fig. 3.4.1 Centroide de GowerObservando el dendograma podemos observar que los individuos se clasifican en tres
grupos:
Grupo1: {24, 29,34, 2, 4, 28, 3, 1, 27}
Page 73
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Grupo2: {38, 38, 33, 37, 5, 6, 7, 25, 26, 36}
Grupo3: {17, 18, 8, 16, 13, 15, 14, 11, 20, 22, 9, 40, 12, 35, 19, 21, 23, 10, 31, 30, 32}
También en este dendograma podemos apreciar que los individuos se van agrupando a una
mayor distancia, por esta razón se puede considerar que este método no es uno de los
apropiados para este tipo de datos.
3.4.2 Centroide de La Cruz
El método de Centroide de La Cruz con toda la población en el programa SIRP mostró el
siguiente dendograma:
Fig. 3.4.2 Centroide de La Cruz
Page 74
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Observando el dendograma podemos observar que los individuos se clasifican en tres
grupos:
Grupo1: {24, 29,34, 2, 4, 28, 3, 1, 27}
Grupo2: {38, 38, 33, 37, 5, 6, 7, 25, 26, 36}
Grupo3: {17, 18, 8, 16, 13, 15, 14, 11, 20, 22, 9, 40, 12, 35, 19, 21, 23, 10, 31, 30, 32}
También en este dendograma podemos apreciar que los individuos 17, 18, 8, 16, 9, 40, 20,
22, 12, 21, 35, 19 y 23 se lo puede considerar como un nuevo grupo.
3.5 Método de WARD
Fig. 3.5 Método de WARD
Page 75
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Éste método es una de los más en reconocimiento de patrones no supervisado, en éste
dendograma podemos observar que los individuos se clasifican en 4 grupos, como son:
Grupo1: {24, 29, 34, 2, 4, 28, 3, 1, 27}
Grupo2: {38, 39, 33, 37, 5, 6, 7, 25, 26, 36}
Grupo3: {13, 15, 14, 11, 20, 22, 12, 19, 21, 9, 40, 35}
Grupo4: {17, 18, 8, 16, 23, 10, 31, 30, 32}
3.6 Método de búsqueda de densidad
Para el método de búsqueda de densidad con el criterio de Promediacion, el programa SIRP
muestra el siguiente resultado:
Criterio de semejanza total
Factor de densidad: 0.4000
Número de Grupos encontrados: 3
Factor de densidad = 0.400
Grupo 1 con 9 Individuos
1 2 3 4 24 27 28 29 34
Grupo 2 con 10 Individuos
5 6 7 25 26 33 36 37 38 39
Grupo 3 con 21 Individuos
8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 30 31 32 35 40
Page 76
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Criterio de Promediacion dentro del nuevo grupo
Factor de densidad: 0.5800
Numero de Grupos encontrados 3
Grupo 1 con 13 Individuos
------------------------------
1 2 3 4 6 7 24 25 26 27 28 29 34
Grupo 2 con 10 Individuos
------------------------------
5 11 13 14 15 33 36 37 38 39
Grupo 3 con 17 Individuos
------------------------------
8 9 10 12 16 17 18 19 20 21 22 23 30 31 32 35 40
Podemos observar que al utilizar el primer criterio para encontrar la búsqueda de densidad
por medio del programa SIRP, éste forma los grupos de acuerdo a la mayor parte de
Dendogramas, esto es debido a que el criterio se trata de encontrar una semejanza total no
solo con el promedio del grupo, si no con cada uno de los integrantes del mismo.
Y en cambio, el otro criterio solamente encuentra que exista similaridad entre el nuevo
grupo, por esta razón es que este criterio clasifica de la siguiente manera.
Page 77
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
3.7 Método de partición
3.7.1 Método de k-medias
El método de K-Medias Convergente del programa SIRP, no muestra el siguiente resultado:
Cantidad de elementos por Grupos:
Grupo 1 con 11 Elementos.
Grupo 2 con 14 Elementos.
Grupo 3 con 15 Elementos.
Lista de los Integrantes del Grupo 1
8 9 10 16 17 18 30 31 32 35 40
Centroide del Grupo
12.6363 378.9091 197.1818 4396.727 12.3181
Lista de los Integrantes del Grupo 2
1 2 3 4 6 7 24 25 26 27 28 29 34 36
Centroide del Grupo
23.6428 145 90.4285 2429.714 15.4642
Lista de los Integrantes del Grupo 3
5 11 12 13 14 15 19 20 21 22 23 33 37 38 39
Centroide del Grupo
16.4 314.0667 141.5333 3468.267 12
Page 78
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
3.7.2 Método de Forgy
El método de Forgy del programa SIRP, no muestra el siguiente resultado:
Cantidad de elementos por Grupos:
Grupo 1 con 11 Elementos.
Grupo 2 con 14 Elementos.
Grupo 3 con 15 Elementos.
Lista de los Integrantes del Grupo 1
8 9 10 16 17 18 30 31 32 35 40
Centroide del Grupo
12.6363 378.9091 197.1818 4396.727 12.3181
Lista de los Integrantes del Grupo 2
1 2 3 4 6 7 24 25 26 27 28 29 34 36
Centroide del Grupo
23.6428 145 90.4285 2429.714 15.4642
Lista de los Integrantes del Grupo 3
5 11 12 13 14 15 19 20 21 22 23 33 37 38 39
Centroide del Grupo
16.4 314.0667 141.5333 3468.267 12
Page 79
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
3.8 Conclusiones
Una vez utilizado algunos métodos de reconocimiento de patrones no supervisado,
podemos concluir que algunos métodos no son los adecuados para ciertos tipos de
datos, como son los métodos de conexión completa.
Los métodos Jerárquicos son muy útiles para clasificar individuos, con estos se
puede visualizar un agrupamiento.
Al momento de sacar una cierta cantidad de individuos, debemos revisar que sean
los más representativos de la población.
Tener en cuenta que al momento de utilizar los métodos pueden existir individuos
atípicos o que puedan estar metiendo ruido en el agrupamiento.
Al momento de hacer la clasificación de variables e individuos, podemos darnos
cuenta, que pueden existir variables que no son buenas de la Base de Datos, debido
a que la misma puede pertenecer a todos los grupos.
Page 80
Universidad Autónoma del Estado de Hidalgo Reconocimiento de Patrones
2010
Bibliografía
- Reconocimiento de patrones, Laboratorio de computo de ingeniería de la
Universidad La Salle A.C., Benjamín Hill No. 47, Col. Hipódromo Condesa,
México D.F., C.P. 05140
- Reconocimiento de Patrones, Jesús Ariel Carrasco Ochoa Instituto Nacional de
Astrofísica Óptica y Electrónica, [email protected]
- http://es.wikipedia.org/wiki/Reconocimiento_de_patrones
- http://www.dcc.uchile.cl/~cbedrega/publications
- http://archive.ics.uci.edu/ml/
Page 81