INFORME FINAL ESCRITO - eio.uva.esvalentin/ad3g/2014/TFA/Javier_Merino_moviles.pdf · Informe Final...
Transcript of INFORME FINAL ESCRITO - eio.uva.esvalentin/ad3g/2014/TFA/Javier_Merino_moviles.pdf · Informe Final...
Javier Merino Mozo
Análisis de Datos
Grado en Estadística
INFORME FINAL ESCRITO
Informe Final Escrito Análisis de Datos Javier Merino Mozo
1
Índice 1. Introducción al problema .................................................................................................. 2
2. Descripción de los individuos y las variables ..................................................................... 2
3. Análisis de las Componentes Principales .......................................................................... 5
3.1. Elección entre ACP normado y ACP sin normar............................................................. 5
3.2. Información del análisis ................................................................................................. 5
3.2.1. Valores propios ...................................................................................................... 5
3.2.2. Correlación Variables-Ejes ...................................................................................... 6
3.3. Proyección de los individuos ......................................................................................... 9
4. Clasificación de los individuos ......................................................................................... 10
4.1. Construcción y corte del dendograma ......................................................................... 10
4.2. Estabilización por centros móviles .............................................................................. 12
4.3. Composición y caracterización de las clases................................................................ 13
4.3.1. Clase 1 .................................................................................................................. 15
4.3.2. Clase 2 .................................................................................................................. 16
4.3.3. Clase 3 .................................................................................................................. 17
4.3.4. Clase 4 .................................................................................................................. 18
4.3.5. Clase 5 .................................................................................................................. 18
5. Conclusiones.................................................................................................................... 19
6. Informe final .................................................................................................................... 21
Informe Final Escrito Análisis de Datos Javier Merino Mozo
2
1. Introducción al problema En los últimos años el auge de la tecnología móvil ha sido evidente, hemos pasado en los
últimos dos lustros de los teléfonos en blanco y negro a los famosos Smartphones (teléfonos
inteligentes). Este rápido cambio ha sido producido en gran parte por el desarrollo de la
tecnología en general, pues no solo en la comunicación se ha producido este “boom”, pero
más exclusivamente en la de la telefonía.
El salto más grande ha sido, sin duda, la aparición de las redes inalámbricas, destacando la más
importante, la red WIFI, que han provocado que en casi cualquier situación una persona pueda
estar “conectada con el mundo”.
Toda esta conectividad hace que el interés acerca de las características de los teléfonos
móviles haya cambiado, antes el objetivo de la compra de un teléfono era estar disponible por
si se recibía una llamada o un mensaje de texto (término casi obsoleto en la actualidad), y sin
embargo ahora los teléfonos son usados para utilizar las redes sociales, escuchar música por
internet, comprar artículos, y un largo etcétera.
Por tanto, ahora la compra de un móvil se ha convertido en una tarea casi desquiciante. Hay
cientos de modelos, cada uno de ellos con unas características diferentes aunque a la vez con
características similares a otros móviles, lo que hace que la decisión roce lo imposible.
Es por ello que se decide acudir a un ACP para facilitar esta búsqueda del teléfono óptimo,
pues la reducción de la dimensión del problema es muy beneficiosa, es decir, no es lo mismo
comparar móviles en función de quince características que hacerlo sobre dos o tres, aunque
siempre con la consciencia de la pérdida (intentando que sea mínima) de información.
Es necesario dejar muy claro que no se va a realizar un ranking de los mejores y los peores
móviles, sino que se va a intentar describirlos en función de sus características agrupando, si es
posible, aquellos que las presenten similares.
2. Descripción de los individuos y las variables En el informe que se presenta a continuación se han tomado una serie de características de un
conjunto de teléfonos de nueva generación.
Obviamente no se puede incluir todos los Smartphones del mercado, pues probablemente
superen la decena de millar. Por esta razón se decide tomar una muestra de ellos, con
características diferentes, sacados al mercado en épocas distintas, con el fin de tener un
mínimo de variabilidad entre las características que poseen. Es por ello que se decide fijar la
muestra en 69 teléfonos que abarcan una antigüedad no superior a los cinco años.
Nota: la codificación de los nombres de los teléfonos se encuentra en el anexo.
Informe Final Escrito Análisis de Datos Javier Merino Mozo
3
Sobre estos 69 teléfonos se miden un total de 11 variables, que serán las que los
caracterizarán.
Las variables medidas se definen a continuación:
Pulgadas: mide el tamaño de la pantalla del teléfono. Se utiliza la unidad de medida
anglosajona por ser esta la más reconocida en las medidas de las pantallas.
Densidad de píxeles: mide las pulgadas por píxel que presenta la pantalla del
Smartphone. Tiene que ver con la resolución.
Resolución: El nombre lo dice todo, mide la resolución de la pantalla. A más resolución
mejor visión de la misma. Se divide en dos:
o Alto: píxeles de la pantalla a lo alto.
o Ancho: píxeles de la pantalla a lo ancho.
Amperaje: mide los amperios que tiene la batería, en mAh (mili amperios por hora). A
mayor valor de esta variable mayor duración de la batería.
Peso: el peso del teléfono. [g]
Alto: la altura del Smartphone. [cm]
Ancho: la anchura del teléfono. [cm]
Profundo: la profundidad del móvil. [cm]
Cámara: mide los Megapíxeles que tiene la cámara principal del teléfono.
RAM: da una medida de la memoria RAM del teléfono. Cuanto mayor valor mejor.
Media en MB.
A la hora de trabajar con el programa estadístico SPAD no resulta operativo utilizar los, en
algunos casos, largos nombres de las variables, razón por la cual se realiza una codificación de
las mismas. El resultado se muestra en la tabla siguiente.
Variable Pulgadas Densidad de
píxeles Resolución
alto Resolución
ancho Amperaje
Codificación PUL PPP R_AL R_AN AMP Tabla 1. Codificaciones de las variables
Variable Peso Alto Ancho Profundo Cámara RAM
Codificación PES ALT ANC PRO CAM RAM Tabla 2. Codificaciones de las variables
En las 11 variables medidas se puede observar como en ningún caso son cualitativas, es decir,
se ha decidido centrarse en aquellas que presentan valores continuos.
Se procede a continuación a un análisis descriptivo de las mismas.
En primer lugar se cuantifican las medias y las desviaciones típicas de las 11 variables:
Informe Final Escrito Análisis de Datos Javier Merino Mozo
4
Variable Media Desviación típica Mínimo Máximo
PUL 4,2439 0,6699 2,8 6,1
PPP 273,5652 82,3548 125 468
R_AL 1029,3043 436,7427 320 1920
R_AN 598,1449 235,6923 240 1080
AMP 1905,8986 622,5534 1000 4050
PES 132,0217 22,0058 93 198
ALT 12,6310 1,2319 10,2 16,3
ANC 6,5542 0,8193 3 9
PRO 0,9470 0,2108 0,11 1,6
CAM 7,5384 3,8558 2 20,7
RAM 1062,9565 668,8299 128 3072 Tabla 3. Media y desviación típica de las variables
Se puede ver una enorme heterogeneidad entre las diferentes variables que se manejan, tanto
en la media como en la desviación típica. Por ejemplo, la variable PUL presenta una media de
4,2439 con una desviación típica de 0,6699 mientras que la variable AMP tiene una media de
1905,8986 con una desviación típica de 622,5534, valores mucho más amplios que en un
futuro pueden dar problemas a la hora de realizar el ACP que se quiere llevar a cabo.
También se decide realizar la matriz de correlaciones con el fin de ver qué variables pueden
estar más “unidas” a otras:
PUL PPP R_AL R_AN AMP PES ALT ANC PRO CAM RAM
PUL 1
PPP 0,6428 1
R_AL 0,8204 0,9579 1
R_AN 0,7939 0,9505 0,9848 1
AMP 0,8578 0,5674 0,7326 0,7196 1
PES 0,6837 0,4695 0,5784 0,5799 0,7023 1
ALT 0,9672 0,6621 0,8178 0,8060 0,8565 0,6980 1
ANC 0,7423 0,4014 0,5468 0,5464 0,6424 0,6610 0,7701 1
PRO -0,4915 -0,3817 -0,4269 -0,4145 -0,3267 -0,1309 -0,4751 -0,3954 1
CAM 0,6430 0,7414 0,7864 0,7518 0,6373 0,5146 0,6386 0,4513 -0,3720 1
RAM 0,7779 0,7537 0,8426 0,8281 0,7553 0,5559 0,7852 0,5730 -0,3964 0,7341 1
Tabla 4. Correlaciones entre las variables
Realizando un pequeño análisis sobre la tabla anterior se puede observar una tendencia hacia
correlaciones altas en todas las variables, pues solo en 6 de los 55 casos posibles ésta baja de
0,4, y solo en un caso baja de 0,15, siendo esta la correlación entre las variables PES y PRO, con
un valor de -0,1309. El promedio de las correlaciones es 0,5112, un valor bastante alto.
Las correlaciones más altas parecen verse distribuidas de forma uniforme a lo largo y ancho de
Informe Final Escrito Análisis de Datos Javier Merino Mozo
5
la tabla, pero es en las primeras variables donde muestra los valores más extremos, con
valores como 0,9672 entre PUL y ALT, o 0,9579 y 0,9505 que presenta la variable PPP respecto
a R_AL y R_AN, respectivamente. Estas dos últimas variables tienen la correlación más alta de
la tabla, con un valor de 0,9848.
3. Análisis de las Componentes Principales
3.1. Elección entre ACP normado y ACP sin normar
Como se dijo en el primer apartado, el objeto de realizar un Análisis de Componentes
Principales es la reducción del problema, es decir, se intentará que únicamente con dos o tres
nuevas variables se recoja la mayor parte de la información.
La primera decisión a tomar será la elección del tipo de ACP que se va a realizar, esto es,
decidir entre un ACP normado o ACP sin normar. En caso de realizar un ACP sin normar, la
variabilidad pequeña será absorbida por la grande, es decir, las variables en las que exista una
variabilidad mayor tendrán más importancia que aquellas que presenten un valor pequeño. En
nuestro caso, AMP y RAM serán esas variables con mayor importancia mientras que PUL y PRO
serán las que menos protagonismo presenten. Es posible que el profundo de un móvil no sea
importante a la hora de adquirirlo, pues es medianamente indiferente un teléfono de 0.7cm o
de 1.2cm de profundo, pero si se habla de las pulgadas de la pantalla el interés cambia mucho.
Existe una tendencia de los fabricantes a diseñar pantallas cada vez más grandes llegando, en
algunos casos, a tamaños de tablets (los famosos phablets), y la gente busca móviles de
grandes pantallas, por lo que a la hora de clasificar los teléfonos no se puede despreciar la
variabilidad de la variable PUL.
Por tanto, se toma la decisión de realizar un ACP normado.
3.2. Información del análisis
3.2.1. Valores propios
Una vez ejecutado el análisis en componentes principales con el programa estadístico SPAD se
procede con su análisis.
En primer lugar, es necesario fijarse en
los valores propios obtenidos de la
matriz y cuantificar el porcentaje
que representan respecto a sus
“compañeros”, pues se estableció que
solo era necesario fijarse en aquellos
ejes factoriales que tuviesen un valor
propio cuyo porcentaje fuese más que el
esperado.
Numéro Valeur propre Pourcentage Pourcentage
cumulé
1 7,6639 69,67 69,67
2 1,0892 9,90 79,57
3 0,8803 8,00 87,58
4 0,3580 3,25 90,83
5 0,3577 3,25 94,08
6 0,2761 2,51 96,59
7 0,1925 1,75 98,34
8 0,1236 1,12 99,47
9 0,0338 0,31 99,77
10 0,0216 0,20 99,97
11 0,0034 0,03 100,00
Tabla 5. Valores propios, porcentaje sobre el total y porcentaje acumulado
Informe Final Escrito Análisis de Datos Javier Merino Mozo
6
Sabiendo que en un ACP normado la suma de los valores propios es igual al número de
variables, el valor esperado que estos tienen es 1, razón por la cual solo interesarán los dos
primeros ejer factoriales (valores propios 7.6639 y 1.0892, respectivamente).
Es importante destacar como se obtiene un primer eje factorial muy bueno, recogiendo casi el
70% de la información (69.67%), y como con el plano factorial 1-2 se recoge casi el 80% de
dicha información. Hay ocho ejes que apenas recogen, pues no superan ni el 4%.
No obstante, dado que solo existen 11 variables, parece lógico usar toda la información posible
a la hora de calcular, por ejemplo, las diferentes clases de una partición.
3.2.2. Correlación Variables-Ejes
Es importante tener en cuenta la correlación existente entre las distintas variables y los ejes
factoriales, pues no solo informarán del grado de relación, sino que también darán una medida
de la calidad de representación de las variables en los ejes, pues se sabe que la coordenada de
una variable en un eje es la raíz de la contribución relativa de la misma. Esto es lo que permitía
definir las direcciones intermedias, aún más interesantes que los propios ejes.
Ilustración 1. Grafico puntos variables en el plano 1-2
Informe Final Escrito Análisis de Datos Javier Merino Mozo
7
Se puede ver la correlación de las variables con el primer plano factorial en el gráfico de
puntos variable en el plano 1-2, apreciando una correlación alta con el primer eje de casi la
totalidad de las variables, a excepción de PRO, que la presenta negativa y no demasiado
amplia.
Se pueden observar varias relaciones entre las variables en este gráfico. La más llamativa es la
correlación altísima existente entre las variables R_AL y R_AN, y entre PUL y ALT (ya se vio en
la matriz de correlaciones que estas dos relaciones eran las más altas).
Además, se puede intuir como la variable PPP no estará demasiado correlada con PES y ANC,
pues el ángulo que forman se acerca a los 90 grados, aunque es necesario decir que en ese
gráfico solo se está tratando con aproximadamente el 80% de la información, por lo que es
posible que la información de aleje un poco de la realidad.
Esto también dependerá de la calidad de representación de cada variable que, como se ha
dicho, tiene que ver con la coordenada. Así, la variable PRO es la peor representada en el plano
1-2 y R_AL la mejor.
Todas estas calidades de representación (coordenadas en el plano) se observan mejor en la
tabla de coordenadas de las variables:
Tabla 6. Coordenadas de las variables y Antiguos ejes unitarios
Nota: no se incluye el apartado correlaciones con los factores por coincidir con las coordenadas.
Distinguiendo por ejes:
Primer eje:
0.93 PUL + 0.84 PPP +………+ 0.80 CAM + 0.89 RAM
Coordonnées des variables actives Anciens axes unitaires
Libellé de la
variable Axe 1 Axe 2 Axe 3 Axe 4 Axe 5 Axe 1 Axe 2 Axe 3 Axe 4 Axe 5
PUL 0,93 -0,21 0,11 -0,17 -0,06 0,33 -0,20 0,11 -0,28 -0,10
PPP 0,84 0,47 -0,13 -0,01 0,22 0,30 0,45 -0,14 -0,01 0,38
R_AL 0,94 0,28 -0,09 -0,07 0,11 0,34 0,27 -0,10 -0,12 0,18
R_AN 0,93 0,28 -0,10 -0,09 0,16 0,34 0,26 -0,11 -0,14 0,26
AMP 0,86 -0,26 -0,09 -0,15 -0,30 0,31 -0,25 -0,09 -0,25 -0,50
PES 0,72 -0,45 -0,30 0,26 0,13 0,26 -0,43 -0,32 0,44 0,21
ALT 0,93 -0,22 0,09 -0,16 -0,01 0,34 -0,21 0,09 -0,27 -0,02
ANC 0,73 -0,50 0,17 0,12 0,24 0,26 -0,48 0,19 0,21 0,40
PRO -0,50 -0,15 -0,83 -0,12 0,01 -0,18 -0,14 -0,88 -0,20 0,01
CAM 0,80 0,27 -0,11 0,40 -0,28 0,29 0,26 -0,11 0,68 -0,46
RAM 0,89 0,12 -0,06 -0,09 -0,17 0,32 0,11 -0,06 -0,15 -0,29
Informe Final Escrito Análisis de Datos Javier Merino Mozo
8
Las correlaciones positivas vistas anteriormente hacen que el primer eje muestre la
izquierda los valores más pequeños de 10 variables, y los valores más grandes de la
restante. En su mayor medida, y dado que sabemos la interpretación de los datos se
puede decir el eje 1 es un factor “modernidad”, pues los fabricantes con el paso del
tiempo han ido aumentando las características de los teléfonos, cada vez son más
grandes, con más RAM, mayor número de Megapíxeles, etc. y lo único que se ha ido
reduciendo es el grosor. Por tanto, menos características y más profundidad conllevan
más antigüedad, y viceversa, pero también hay que tener en cuenta que esto ocurre
para la mayoría de los teléfonos, pero no para todos, pues existen casos, como los
modelo “mini” (teléfonos similares a los modelos originales pero con características
reducidas), o modelos de baja gama, etc. que hacen que esta afirmación del eje uno
como factor modernidad haya que utilizarla con cuidado y sabiendo en todo momento
de que tipo de dispositivo se habla.
Por último, añadir que este eje es, con mucho, la mayor fuente de variabilidad (70%).
Segundo eje:
-0.21 PUL + 0.47 PPP +………+ 0.27 CAM + 0.12 RAM
En el caso del segundo eje las correlaciones son bajas (la mayor vale 0.5), razón por la
cual el análisis no es todo lo bueno que se podría esperar. No obstante, se puede
observar como en este eje las variables que presentan correlaciones negativas son
aquellas que se refieren a aspectos físicos del teléfono (altura, batería, etc.), y las que
presentan correlaciones positivas son las relacionadas con la potencia del teléfono (las
dos de resolución, la cámara, etc.), por tanto, se puede afirmar, con cierto grado de
inseguridad, que el eje distingue entre los grandes en “físico” y los grandes en
“rendimiento”. El eje es la segunda fuente de variabilidad (10%), muy por debajo de la
primera.
El tercer eje no parece ser una fuente de variabilidad lo suficientemente grande como para
tenerlo en cuenta (8%). Todas las variables presentan correlaciones muy bajas, a excepción de
PRO, una variable de escaso interés (se ha explicado antes que es bastante indiferente un
móvil de 0.7 o de 1.2 centímetros de profundidad) y de variabilidad muy baja. Es por ello que
se decide no tener en cuenta este eje.
Se puede hacer una interpretación conjunta de los dos primeros ejes factoriales, es decir, del
plano factorial, el 1-2. En este plano se puede decir que:
Lo individuos situados en la parte superior derecha son móviles modernos, con
características elitistas dentro del mercado, salvo en la duración de la batería, donde
cojean un poco, pero ni mucho menos presentando valores malos.
En la parte inferior derecha están los dispositivos de gama un poco inferior, con
Informe Final Escrito Análisis de Datos Javier Merino Mozo
9
buenas características de tamaño y de duración de la batería, aunque con la cámara y
la resolución inferior a los antes comentados.
Más a la izquierda se van encontrando teléfonos con menores características, en
muchos casos más antiguos, y si se distingue entre la parte superior e inferior del se
vuelve a diferenciar entre lo mencionado con anterioridad, en la parte de arriba
mejores características técnicas y en la parte de abajo mejores características físicas.
3.3. Proyección de los individuos
A continuación se muestra la proyección de los individuos (representando su contribución
relativa) en el plano 1-2, que contiene casi el 80% de la información.
La tónica general es la buena representación de los individuos en el plano 1-2, sobre todo
hacia las zonas extremas, pues tanto a la derecha como a la izquierda se observan individuos
con una gran contribución relativa. Según se va mirando hacia las zonas centrales se va
observando una disminución de esa calidad de representación.
Se observa también una zona vacía en torno al origen de coordenadas, aunque ésta no está
muy remarcada.
Es curioso lo que ocurre a lo largo del primer eje factorial, pues a la izquierda de este la gran
mayoría de los Smartphones están más cercanos al eje de abscisas, mientras que en la parte
derecha parece existir una mayor dispersión. Esto quiere decir que cuantas más características
Ilustración 2. Gráfico de las proyecciones de los individuos en el plano 1-2
Informe Final Escrito Análisis de Datos Javier Merino Mozo
10
tiene el teléfono más diferencia hay entre las que son físicas y las que son de rendimiento, es
decir, de los 12 elementos que se sitúan más a la derecha, y hablando de forma general (no es
absolutamente estricto en esos 12 móviles) en algunos de ellos los fabricantes se han
decantado más por la optimización en ámbitos como la resolución o la cámara, y en otro más
por la batería y el tamaño. Tiene sentido, pues, por ejemplo, cuanto mayor es el tamaño de la
pantalla más difícil es conseguir una buena resolución, y aunque en estos momentos se está
empezando a lograr, todavía no se ha llegado a ese punto de poseer las dos características en
conjunto.
4. Clasificación de los individuos Terminado el ACP de los individuos se pasa a la clasificación de los mismos. En esta
clasificación se buscará agrupar los teléfonos que posean características similares para
después, mediante la caracterización de dichas clases, tener los teléfonos divididos en función
de las diferencias entre sus propiedades.
Los teléfonos quedarán caracterizados por los valores medios de la clase a la que pertenecen,
es decir, por el centro de gravedad de la misma.
Dado el número no excesivamente alto de individuos y de variables, lo más lógico es empezar
con una clasificación jerárquica (utilizando el método de la inercia de Ward), pues no parece
que el algoritmo vaya a “sufrir” al realizar el proceso.
Tras realizar dicha clasificación, y con el corte en el dendograma, se procederá a realizar una
estabilización por centros móviles, para mejorar en la medida que se pueda la calidad de la
partición que se había obtenido.
Finalmente, tras la estabilización, se realizarán diferentes comentarios sobre las clases, sus
características, las variables originales más significativas, etc.
4.1. Construcción y corte del dendograma
En los parámetros que ofrece el programa estadístico SPAD únicamente hay que seleccionar
que se desea un método jerárquico y que se desea realizar con todas las variables disponibles.
Los demás parámetros se dejan por defecto. Ejecutado el método se obtiene el dendograma:
Ilustración 3. Dendograma y corte del mismo
Informe Final Escrito Análisis de Datos Javier Merino Mozo
11
Realizar el corte en 2 o 3 clases es del todo inadecuado, pues apenas se verían las diferencias
entre los teléfonos. El corte del dendograma en 7 o más clases, además de provocar que los
índices de agregación disten muy poco, hará que existan demasiadas clases para los individuos
que se tienen.
Por tanto, la elección queda reducida a tres posibilidades, 4, 5 o 6 clases.
Para 4 clases, no se vería la distinción entre las dos clases que se ven en la parte derecha del
dendograma, y analizando qué teléfonos son los que forman esas clases se ve que no se
diferenciarían aquellos que, presentando unas buenas características, tienen buenos aspectos
en cuanto al rendimiento y aquellos que tienen buena “calificación” en cuanto a lo físico, la
memoria, etc., es decir, estaríamos juntando en una misma clase los teléfonos dedicados más
al ocio (buena resolución, cámara, etc.) y los dedicados más a la funcionalidad ( aguante de la
batería, pulgadas, escritura más cómoda, etc.). Se toma la decisión de descartar este corte.
Si se habla de 6 clases, el primer problema que aparece es el índice de agregación entre clases,
pues la diferencia entre dos índices es relativamente pequeña comparada con el que aparece
al hacer el corte en 5 clases. Además, al ver el gráfico de los individuos divididos en clases, si se
hace el corte en 6 las dos nuevas clases que han salido de cortar aquella que tiene el 42% de
los móviles aparecen bastante próximas, con los centros de gravedad relativamente juntos.
Observado esto, se concluye que los teléfonos de estas dos clases son lo suficientemente
similares como para dejarlos en una misma clase.
Se puede ver en el gráfico
de índices de agregación
como para las 6 primeras
clases el corte puede
aceptarse como bueno,
pero queda claro como para
5 clases queda mejorado el
corte para 6.
Por tanto, tras analizar el
dendograma y los posibles
cortes que se pueden hacer
en este, se decide realizar
una partición con 5 clases.
Ilustración 4. Índices de agregación
Informe Final Escrito Análisis de Datos Javier Merino Mozo
12
4.2. Estabilización por centros móviles
Una vez decidido que el corte en el dendograma se realizará para obtener 5 clases, el siguiente
paso es realizar una estabilización por centros móviles. Mediante el proceso de centros
móviles (búsqueda del centro de gravedad y asignación de individuos más cercanos…., ya se
conoce de sobra cómo funciona) se buscarán unas clases un poco más precisas. Tras realizar el
proceso se pasará a la caracterización de cada clase, individuos que las forman, etc.
El algoritmo mide en cada iteración la inercia que existe entre las clases y dentro de cada clase,
intentando maximizar la primera y minimizar la segunda. Por ello, es adecuado visualizar la
inercia que resulta de finalizar el proceso y compararla con la que existía antes de él, para
poder ver si esta estabilización ha mejorado los resultados.
Viendo los resultados del proceso se observa que con 3 iteraciones el proceso se ha detenido,
pues ya no se podía maximizar o minimizar las inercias correspondientes.
ITERATION I.TOTALE I.INTER QUOTIENT
0 10,99663 7,96765 0,72455
1 10,99663 8,09873 0,73647
2 10,99663 8,09873 0,73647
3 10,99663 8,09873 0,73647 Tabla 7. Evolución de la Inercia interclases respecto a la iteración
Nota: la columna “QUOTIENT” se forma de dividir la inercia interclases entre la inercia total, de ahí que suba cuando lo hace la
inercia interclases.
Se puede observar como la inercia interclases (entre las 5 clases) va aumentando con el paso
de las iteraciones, signo de que el proceso está funcionando bien.
INERTIES INERTIES EFFECTIFS DISTANCES
AVANT APRES AVANT APRES AVANT APRES
INTER-CLASSES 7,9676 8,0987
INTRA-CLASSE
CLASSE 1/5 0,5001 0,6763 13 14 13,6771 13,1223
CLASSE 2/5 1,4666 0,9647 29 27 1,3077 1,5145
CLASSE 3/5 0,4901 0,6847 15 16 2,2734 2,1417
CLASSE 4/5 0,1067 0,1067 3 3 26,3394 26,3394
CLASSE 5/5 0,4655 0,4655 9 9 24,5469 24,5469
TOTALE 10,9966 10,9966
Tabla 8. Inercia interclases, intraclases, nº de individuos y distancias antes y despúes del algoritmo
En dos de las cinco clases la inercia interna aumenta, provocado por el aumento de individuos
Informe Final Escrito Análisis de Datos Javier Merino Mozo
13
(de 13 a 14 y de 15 a 16) que hay en ellas, pero el aumento en estas dos clases es
contrarrestado por la disminución de inercia en la clase 2, que gana los dos individuos que se
perdían en estas clases.
No se puede dictaminar a simple vista qué clase es mejor, pues aunque en un principio la que
tenga menor inercia será la que posea mayor calidad, ésta dependerá del número de
individuos que tenga. Por tanto, para medir la calidad de una clase ha de observarse la inercia
dividida por el número de individuos.
AVANT APRES
INERTIES EFFECTIFS INERTIES EFFECTIFS
Clase 1/5 0,50001 13 0,0385 0,6763 14 0,0483
Clase 2/5 1,4666 29 0,0506 0,9647 27 0,0357
Clase 3/5 0,4901 15 0,0327 0,6847 16 0,0428
Clase 4/5 0,1067 3 0,0356 0,1067 3 0,0356
Clase 5/5 0,4655 9 0,0517 0,4655 9 0,0517 Tabla 9. División Inercia-Nº individuos.
Tras realizar el corte en el dendograma, la clase más favorecida era la 3, pero tras el proceso
de estabilización se ha convertido en la tercera mejor, un empeoramiento que también
comparte la clase 1, que pasa del tercer al cuatro puesto (las dos clases que sumaron un
individuo). El caso contrario ocurre con la clase 2, que pasa de ser la segunda peor a ser la
segunda mejor, y a solo una milésima de la mejor.
Más importante que los cambios de posición entre el antes y el después es la calidad tras el
algoritmo, así que solo se debe tener en cuenta esta última para establecer qué clase es más
precisa. En este caso, la más precisa es la 4 (tan solo 3 teléfonos), seguida muy de cerca por la
2 (27 teléfonos). Tras ellas van las clases 3 (16), 1(14) y 5(9).
Es curioso, y por tanto digno de señalar, que las dos mejores clases sean las más opuestas en
cuanto al tamaño
4.3. Composición y caracterización de las clases
En este epígrafe se estudiará cada una de las cinco clases por separado, indicando los
individuos que las componen y sus características, que vendrán en función de las que
presenten las clases a las que pertenecen. Antes de entrar en cada clase, es importante
analizar aquellos aspectos generales que den una primera visión de cómo van a ser dichas
clases. Dos aspectos importantes que se pueden analizar son: la ubicación de los centros de
cada clase y la posible heterocedasticidad que una variable pueda tener dentro del conjunto
de los individuos, es decir, es importante ver qué variables presentan las mayores diferencias
entre una clase y otra, para ello se utilizará una análisis normal de la varianza (ANOVA).
Informe Final Escrito Análisis de Datos Javier Merino Mozo
14
Situación de los centros
COORDONNEES
IDEN - LIBELLE EFF. 1 2 3 4 5 DISTO.
aa1a 13 -3,63 -0,11 -0,55 -0,01 -0,35 13,68
aa2a 29 -1,05 0 0,4 0,05 0,16 1,31
aa3a 15 1,49 0,1 0,09 0,07 -0,05 2,27
aa4a 3 4,06 -3,07 -0,27 -0,4 -0,06 26,34
aa5a 9 4,81 1,02 -0,55 -0,14 0,08 24,55 Tabla 10. Coordenadas de los centros de las clases.
Las clases 2 y 3 son las más cercanas al origen de coordenadas, por lo que tendrán una
tendencia a estar constituidas por teléfonos de características en torno a la media, de estas
dos clases, una de ellas presentará teléfonos un poco mejores que la otra, pues su coordenada
en el primer eje es positiva (clase 3). Las otras tres clases están más alejadas, situándose dos
de ellas (clases 4 y 5) a la derecha de la línea vertical que dibuja el eje de la ‘Y’ y la restante
(clase 1) a la izquierda de dicho eje, es decir, habrá dos clases con teléfonos con grandes
características y una clase con teléfonos de ‘gama’ baja y más antiguos. Todos estos aspectos
se analizarán más en profundidad clase por clase.
ANOVA para las variables
En la tabla que se muestra a continuación se puede ver, en orden descendente, las variables
que son más diferentes entre las cinco clases, es decir, la que esté situada más arriba será
aquella variable cuya media sea lo más divergente de una clase a otra. Por otro lado, la
variable que esté situada más abajo (valor FISHER más bajo) será una variable que presente las
cinco medias muy parecidas. Así se podrá observar qué variables son aquellas que pueden
diferenciar unas clases de otras, y en las que hay que fijarse de un modo más detallado.
V.TEST PROBA. VARIABLE DEG.LIB.DEN FISHER
12,17 0,000 R_AN 64 184,95
12,15 0,000 R_AL 64 183,5
10,45 0,000 ALT 64 92,37
9,97 0,000 PPP 64 76,63
9,9 0,000 PUL 64 74,64
8,61 0,000 RAM 64 45,96
8,3 0,000 AMP 64 40,94
6,91 0,000 ANC 64 24,5
6,78 0,000 CAM 64 23,35
6,68 0,000 PES 64 22,53
5,9 0,000 PRO 64 16,79
Tabla 11. ANOVA para las variables.
Informe Final Escrito Análisis de Datos Javier Merino Mozo
15
Las variables que más se diferencian entre clases son las referidas a la resolución (R_AN, R_AL
y PPP), pues las tres están entre las cuatro más heterogéneas. Según se va bajando se van
viendo diferentes variables de mayor o menor interés, hasta llegar a la última, que resulta de
gran interés, pues PRO era aquella variable que presentaba una correlación muy alta con el
tercer eje factorial, y el hecho de que sea la más homogénea hace que la decisión de no tener
en cuenta este eje sea, si cabe, un poco más acertada, ya que entre otras cosas este eje
factorial podía ayudar a distinguir entre profundidades de los móviles, pero dado el escaso
interés de esta variable (hecho que ya se mencionó) y la poca variabilidad que presenta hace
que sea innecesario incluirlo.
Analizados estos dos elementos se pasa a cada clase en particular.
4.3.1. Clase 1
La clase 1 está formada por los siguientes 13 teléfonos:
CLASE 1
AC_L HU_M920 LG_O_L3 N_C5 N_C6
SA_G_A SA_G_F SA_G_S1m SA_G_S2m SA_Y
SO_X_PL SO_X_T_D SO_X_U ZTE_C
Tabla 12. Móviles clase 1.
Entendiendo de qué va el problema planteado y conociendo mínimamente las características
de los teléfonos, ya se puede intuir que esta clase está conformada por los móviles de más
baja gama, aunque para ello es mejor observar la tabla que nos ofrece SPAD, y que muestra
qué variables de esta clase están significativamente por encima de la media general y qué
variables están significativamente por debajo.
CLASSE 1 / 5 ( POIDS = 14.00 EFFECTIF = 14 ) aa1a
V.TEST PROBA MOYENNES ECARTS TYPES
CLASSE GENERALE CLASSE GENERAL IDEN
5,85 0,000 1,24 0,95 0,14 0,21 PRO
-2,92 0,002 116,66 132,02 19,59 21,85 PES
-3,62 0,000 4,21 7,54 1,46 3,83 CAM
-3,62 0,000 1367,86 1905,9 212,94 618,03 AMP
-3,74 0,000 466,29 1062,96 141,94 663,97 RAM
-4,5 0,000 185,14 273,57 42,8 81,76 PPP
-4,58 0,000 5,66 6,55 0,82 0,81 ANC
-4,64 0,000 337,14 598,14 67,13 233,98 R_AN
-4,76 0,000 533,43 1029,3 156,34 433,57 R_AL
-5,33 0,000 3,39 4,24 0,22 0,67 PUL
-5,51 0,000 11,01 12,63 0,5 1,22 ALT Tabla 13. Tabla de variables clase 1.
Informe Final Escrito Análisis de Datos Javier Merino Mozo
16
Se confirma lo dicho anteriormente, los móviles de esta clase presentan valores más bajos
para todas las variables de estudio salvo para PRO, que es la única que en un principio se desea
que sea menor que la media (aunque siempre habrá a quien le guste un móvil más “gordo”). La
variable que, siendo menor que la media, presenta un valor más cercano es PES, otra
característica que se pretende que sea lo menor posible, así que se puede decir que, por poco,
estos móviles son más ligeros que la media (hecho que puede tener su explicación en el
reducido tamaño de los mismos).
Si se observa qué teléfonos forman esta clase, se puede ver que mayoritariamente estos son
los NOKIA, SAMSUNG y SONY de más baja gama (con entre 3 y 4 años de antigüedad),
acompañados de algunos Smartphones de otras marcas, y de pobres características.
4.3.2. Clase 2
La clase 2 es la más numerosa, y está formada por los siguientes 27 móviles:
CLASE 2
BB_B HTC_O_S HTC_O_SV HU_A_P1 HU_A_W1
HU_M886 iP_4S iP_5 LG_O_L5 LG_O_L7
LG_O_L9 M_R_i M_R_X N_L_620 N_L_720
SA_G_A2 SA_G_S1 SA_G_S2 SA_G_S3m SA_G_S4m
SA_T SO_X_J SO_X_P SO_X_SO T_TG
U_QU ZTE_G_X
Tabla 14. Móviles clase 2.
Esta clase es la que se hubiera dividido en dos si se hubiese tomado la decisión de construir 6
clases, hecho que podría haber incidido en la calidad de la misma, pero ya se vio que era la
segunda que más calidad tenía.
CLASSE 2 / 5 ( POIDS = 27.00 EFFECTIF = 27 ) aa2a
V.TEST PROBA MOYENNES ECARTS TYPES
CLASSE GENERALE CLASSE GENERAL IDEN
-2,59 0,005 6,04 7,54 1,62 3,83 CAM
-2,67 0,004 503,7 598,14 57,87 233,98 R_AN
-2,73 0,003 850,15 1029,3 120,14 433,57 R_AL
-2,91 0,002 122,41 132,02 9,16 21,85 PES
-2,94 0,002 768 1062,96 278,7 663,97 RAM
-3,16 0,001 1610,26 1905,9 267,75 618,03 AMP Tabla 15. Tabla de variables clase 2.
La mitad de las variables de esta clase no son significativamente distintas de la media general,
razón por la que no se puede considerar a esta clase una clase atípica, más bien lo contrario, es
una clase con móviles de gama media, con una cámara y una resolución inferior, pero no
Informe Final Escrito Análisis de Datos Javier Merino Mozo
17
demasiado baja, y una memoria RAM y una duración de la batería que dejan bastante que
desear respecto a los demás teléfonos del mercado. En cuanto al peso, también es inferior,
pero ya se ha dicho que eso es un punto a favor.
Es curioso que los dos modelos más modernos de la compañía APPLE aparezcan es esta clase,
como teléfonos de gama media-baja, por lo que sería razonable ver su representación en el
plano factorial 1-2. Viendo dicha representación, se puede observar cómo estos dos
Smartphones están en torno al 0 en el eje de abscisas pero presentan los valores más altos en
el de ordenadas, significando esto que son teléfonos medios pero con buenos índices en
términos de rendimiento (resolución de la pantalla, cámara). En conclusión, esto móviles
pertenecen a esta clase, pero seguramente estén alejados del centro de gravedad de la misma
(observando la salida de SPAD se puede ver como son el 24 y el 25 más alejados).
4.3.3. Clase 3
La clase 3 está formada por 16 Smartphones:
CLASE 3
AL_O AS_P BB_Z HTC_O_X HU_A_P2
LG_O_F7 LG_O_G M_R_HD M_R_R N_4
N_L_820 N_L_920 SA_A SA_G_S3 SO_X_S
SO_X_T
Tabla 16. Móviles clase 3.
Se ve una gran diversidad de marcas, hasta 11 están representadas en 16 individuos, y ya
empiezan a atisbarse modelos más modernos y de mejor gama, aunque todavía lejos de los
mejores teléfonos. Se verá mejor después del análisis de la tabla.
CLASSE 3 / 5 ( POIDS = 16.00 EFFECTIF = 16 ) aa3a
V.TEST PROBA MOYENNES ECARTS TYPES
CLASSE GENERALE CLASSE GENERAL IDEN
2,38 0,009 9,55 7,54 2,22 3,83 CAM
Tabla 17. Tabla de variables clase 3.
Solo una de las once variables es significativamente distinta de la media, lo que confirma que
son teléfonos regulares, no son un lujo pero desde luego no están nada mal. La única mejora
respecto a la media viene dada por CAM, hecho que podría explicarse por el interés que
muestran NOKIA y SONY por este elemento (con 2 móviles en esta clase cada uno. La media de
los cuatro teléfonos es 10,45 Mpx respecto al 9,55 de la clase). No existe mucho más que decir
acerca de esta clase, pues su “tendencia” a la media lo dice todo.
Informe Final Escrito Análisis de Datos Javier Merino Mozo
18
4.3.4. Clase 4
La clase 4 contiene únicamente 3 teléfonos.
CLASE 4
HU_A_M SA_N1 SA_N2
Tabla 18. Móviles clase 4.
En caso de hacer el corte del dendograma en 4 clases, esta se hubiera adherido a la clase 5,
pero ya se explicó cuando se cortó dicho dendograma porqué se optó por separarlas. Ahora
adquiere más importancia distinguir qué variables con las que presentan más diferencias con
la media general, para poder compararlas con las que lo hacen en la clase 5.
CLASSE 4 / 5 ( POIDS = 3.00 EFFECTIF = 3 ) aa4a
V.TEST PROBA MOYENNES ECARTS TYPES
CLASSE GENERALE CLASSE GENERAL IDEN
4,37 0,000 186,33 132,02 8,5 21,85 PES
3,92 0,000 15,36 12,63 0,69 1,22 ALT
3,73 0,000 8,28 6,55 0,18 0,81 ANC
3,73 0,000 3216,67 1905,9 638,14 618,03 AMP
3,72 0,000 5,65 4,24 0,33 0,67 PUL Tabla 19. Tabla de variables clase 4.
Por supuesto, lo primero es señalar que se trata de móviles de alta gama, pues las
características que son significativamente distintas de la media lo son en la buena dirección (a
excepción de peso, pero inevitablemente ocurre por el gran tamaño de esto móviles). Las tres
variables relativas al tamaño también presentan un valor mayor que la media, y además de
estas también lo hace la variable AMP, demostrando que estos móviles están más ligados con
los negocios, por el aguante de la batería de los mismos, su facilidad para escribir gracias al
tamaño de su teclado, etc.
4.3.5. Clase 5
La clase 5 está compuesta por 9 Smartphones.
CLASE 5
HTC_O HU_A_D2 N_5 SA_G_S4 SA_G_S5
SA_N3 SO_X_Z SO_X_Z1 SO_X_Z2
Tabla 20. Móviles clase 5.
Al igual que ocurría con la clase 1, solo con ver los nombres de los teléfonos que conforman
esta clase ya se puede deducir que será la clase con los mejores móviles del mercado.
Compuesta en su mayor media por SAMSUNG y SONY, esta clase recoge teléfonos con una
Informe Final Escrito Análisis de Datos Javier Merino Mozo
19
antigüedad no mayor a 2 años y con unas características muy superiores a la media. Esto se ve
mejor en la siguiente tabla.
CLASSE 5 / 5 ( POIDS = 9.00 EFFECTIF = 9 ) aa5a
V.TEST PROBA MOYENNES ECARTS TYPES
CLASSE GENERALE CLASSE GENERAL IDEN
6,58 0,000 1080 598,14 0 233,98 R_AN
6,4 0,000 1897,78 1029,3 41,57 433,57 R_AL
6,26 0,000 433,78 273,57 24,82 81,76 PPP
5,83 0,000 2275,56 1062,96 425,72 663,97 RAM
4,96 0,000 13,49 7,54 5,07 3,83 CAM
4,35 0,000 2747,78 1905,9 355,33 618,03 AMP
4,01 0,000 14,17 12,63 0,46 1,22 ALT
3,98 0,000 5,07 4,24 0,26 0,67 PUL
2,87 0,002 151,67 132,02 15,48 21,85 PES
2,61 0,005 7,22 6,55 0,3 0,81 ANC Tabla 21. Tabla de variables clase 5.
10 variables presentan un valor mayor que la media, y la única que no lo hace es PRO, la única
que se quiere que sea lo menor posible. La otra variable que se pretende que sea pequeña
(PES) es significativamente mayor que la media, pero es la segunda más cercana a ser igual, es
decir, hasta en eso estos móviles están cerca de ser los mejores. Son muy buenos en
resolución, y también en la cámara y la memoria RAM (aspectos relacionados con el ocio, es
decir, grabación y visualización de vídeo, buen soporte de aplicaciones, etc.), además, son
bastante amplios respecto a la media, y tienen buen amperaje, pero estas últimas
características son menores aquí en comparación con la clase 4, y de ahí la decisión de
separarlas.
5. Conclusiones Como primera y más importante conclusión, se obtiene que, con el paso del tiempo, las
marcas han ido mejorando sus teléfonos, pero se ve como esa mejora se acerca a un
comportamiento exponencial, es decir, en 3 años se pasó de una memoria RAM del orden de
512MB a 1024MB, pero en el siguiente año se pasó de 1024MB a 3096MB.
Otro aspecto a destacar es que aunque la tendencia de mejora con los años es visible, las
empresas han decidido optar por teléfonos de media y baja gama (y que resultaban ser
similares a los teléfonos antiguos en cuanto características) para seguir atrayendo a
compradores que no desean gastarse mucho dinero.
Por otro lado, la división en cinco clases parece la óptima, aunque 4, y sobre todo 6 clases
también podían ser decisiones acertadas.
Informe Final Escrito Análisis de Datos Javier Merino Mozo
20
Todo lo dicho anteriormente se aprecia mucho mejor en el gráfico de las clases en el eje
factorial 1-2.
En el primer eje, las clases 4 y 5 parecen alejarse bastante (aquellas clases que se juntaban
para formar solo 4 clases).
La clase 2 posee muchos individuos, y aunque parecen ser todos bastante similares. La división
en una clase más tampoco habría sido descabellada.
Como conclusión, se tienen dos clases muy buenas en cuanto a características, seguidas por
otra que presenta móviles de gama media-alta. Más a la izquierda se encuentra una clase con
móviles de gama media-baja, aunque cercanos a los valores medios. Por último se encuentra
una clase con los peores teléfonos del mercado, con características que resultan ser muy bajas.
Ilustración 5. Plano 1-2 con la división en clases
Informe Final Escrito Análisis de Datos Javier Merino Mozo
21
6. Informe final Objetivo
Clasificar 69 móviles en clases que los agrupen por semejanzas en sus características.
Datos
Se tiene una muestra de 69 teléfonos de entre todos lo que existen en el mercado. Se miden
las siguientes características:
Pulgadas (pulgadas), Píxeles por pulgada (píxeles y pulgadas), Resolución alto (píxeles),
Resolución ancho (píxeles), Amperaje (mAh), Peso (g), Alto (cm), Ancho (cm), Profundo (cm),
Cámara (Mpx) y RAM (MB).
ACP
Se decide realizar un ACP normado debido a la heterogeneidad en la variabilidad de las
variables.
La mayor fuente de variabilidad (70%) es la calidad y antigüedad del móvil.
La segunda mayor fuente de variabilidad (10%) es la distinción entre ocio y físico.
Móviles a la derecha en el plano 1-2 tienen valores altos de todas las variables salvo de PRO. A
la izquierda el caso contrario. Móviles en la parte alta presentan valores altos para las variables
tipo rendimiento (PPP, R_AL, R_AN, CAM y RAM), y móviles en la parte baja valores alto en
variables tipo físico (PUL, AMP, PES, ALT, ANC y PRO).
En conclusión, los mejores móviles se encuentran a la derecha y los peores a la izquierda.
Clasificación
Se decide que haya cinco clases. La clase 1 es la que está más a la izquierda en el plano 1-2
(20% de los individuos), móviles de muy baja gama. La clase 2 está a la izquierda del eje de la
“Y”, pero menos escorada (39%), móviles de gama media-baja. La clase 3 está ligeramente a la
derecha del plano (23%), móviles de gama media-alta. Las clases 4 (13%) y 5 (4%) están muy a
la derecha del gráfico, es decir, presentan móviles muy buenos. La primera se sitúa por encima
del eje de la “X” por lo que estará más destinada al ocio, y la segunda, que está por debajo de
dicho eje, estará relacionada con temas más de trabajo (aguante de la batería, gran teclado,
etc.).
Las variables más heterogéneas dentro de la partición son R_AL, R_AN y ALT, y las más
homogéneas PES y PRO (variables con apenas importancia). Las variables con mayor
importancia a la hora de elegir un teléfono tienen una variabilidad moderada entre las cinco
clases que han surgido.