INFORME FINAL ESCRITO - eio.uva.esvalentin/ad3g/2014/TFA/Javier_Merino_moviles.pdf · Informe Final...

22
Javier Merino Mozo Análisis de Datos Grado en Estadística INFORME FINAL ESCRITO

Transcript of INFORME FINAL ESCRITO - eio.uva.esvalentin/ad3g/2014/TFA/Javier_Merino_moviles.pdf · Informe Final...

Page 1: INFORME FINAL ESCRITO - eio.uva.esvalentin/ad3g/2014/TFA/Javier_Merino_moviles.pdf · Informe Final Escrito Análisis de Datos Javier Merino Mozo 2 1. Introducción al problema En

Javier Merino Mozo

Análisis de Datos

Grado en Estadística

INFORME FINAL ESCRITO

Page 2: INFORME FINAL ESCRITO - eio.uva.esvalentin/ad3g/2014/TFA/Javier_Merino_moviles.pdf · Informe Final Escrito Análisis de Datos Javier Merino Mozo 2 1. Introducción al problema En

Informe Final Escrito Análisis de Datos Javier Merino Mozo

1

Índice 1. Introducción al problema .................................................................................................. 2

2. Descripción de los individuos y las variables ..................................................................... 2

3. Análisis de las Componentes Principales .......................................................................... 5

3.1. Elección entre ACP normado y ACP sin normar............................................................. 5

3.2. Información del análisis ................................................................................................. 5

3.2.1. Valores propios ...................................................................................................... 5

3.2.2. Correlación Variables-Ejes ...................................................................................... 6

3.3. Proyección de los individuos ......................................................................................... 9

4. Clasificación de los individuos ......................................................................................... 10

4.1. Construcción y corte del dendograma ......................................................................... 10

4.2. Estabilización por centros móviles .............................................................................. 12

4.3. Composición y caracterización de las clases................................................................ 13

4.3.1. Clase 1 .................................................................................................................. 15

4.3.2. Clase 2 .................................................................................................................. 16

4.3.3. Clase 3 .................................................................................................................. 17

4.3.4. Clase 4 .................................................................................................................. 18

4.3.5. Clase 5 .................................................................................................................. 18

5. Conclusiones.................................................................................................................... 19

6. Informe final .................................................................................................................... 21

Page 3: INFORME FINAL ESCRITO - eio.uva.esvalentin/ad3g/2014/TFA/Javier_Merino_moviles.pdf · Informe Final Escrito Análisis de Datos Javier Merino Mozo 2 1. Introducción al problema En

Informe Final Escrito Análisis de Datos Javier Merino Mozo

2

1. Introducción al problema En los últimos años el auge de la tecnología móvil ha sido evidente, hemos pasado en los

últimos dos lustros de los teléfonos en blanco y negro a los famosos Smartphones (teléfonos

inteligentes). Este rápido cambio ha sido producido en gran parte por el desarrollo de la

tecnología en general, pues no solo en la comunicación se ha producido este “boom”, pero

más exclusivamente en la de la telefonía.

El salto más grande ha sido, sin duda, la aparición de las redes inalámbricas, destacando la más

importante, la red WIFI, que han provocado que en casi cualquier situación una persona pueda

estar “conectada con el mundo”.

Toda esta conectividad hace que el interés acerca de las características de los teléfonos

móviles haya cambiado, antes el objetivo de la compra de un teléfono era estar disponible por

si se recibía una llamada o un mensaje de texto (término casi obsoleto en la actualidad), y sin

embargo ahora los teléfonos son usados para utilizar las redes sociales, escuchar música por

internet, comprar artículos, y un largo etcétera.

Por tanto, ahora la compra de un móvil se ha convertido en una tarea casi desquiciante. Hay

cientos de modelos, cada uno de ellos con unas características diferentes aunque a la vez con

características similares a otros móviles, lo que hace que la decisión roce lo imposible.

Es por ello que se decide acudir a un ACP para facilitar esta búsqueda del teléfono óptimo,

pues la reducción de la dimensión del problema es muy beneficiosa, es decir, no es lo mismo

comparar móviles en función de quince características que hacerlo sobre dos o tres, aunque

siempre con la consciencia de la pérdida (intentando que sea mínima) de información.

Es necesario dejar muy claro que no se va a realizar un ranking de los mejores y los peores

móviles, sino que se va a intentar describirlos en función de sus características agrupando, si es

posible, aquellos que las presenten similares.

2. Descripción de los individuos y las variables En el informe que se presenta a continuación se han tomado una serie de características de un

conjunto de teléfonos de nueva generación.

Obviamente no se puede incluir todos los Smartphones del mercado, pues probablemente

superen la decena de millar. Por esta razón se decide tomar una muestra de ellos, con

características diferentes, sacados al mercado en épocas distintas, con el fin de tener un

mínimo de variabilidad entre las características que poseen. Es por ello que se decide fijar la

muestra en 69 teléfonos que abarcan una antigüedad no superior a los cinco años.

Nota: la codificación de los nombres de los teléfonos se encuentra en el anexo.

Page 4: INFORME FINAL ESCRITO - eio.uva.esvalentin/ad3g/2014/TFA/Javier_Merino_moviles.pdf · Informe Final Escrito Análisis de Datos Javier Merino Mozo 2 1. Introducción al problema En

Informe Final Escrito Análisis de Datos Javier Merino Mozo

3

Sobre estos 69 teléfonos se miden un total de 11 variables, que serán las que los

caracterizarán.

Las variables medidas se definen a continuación:

Pulgadas: mide el tamaño de la pantalla del teléfono. Se utiliza la unidad de medida

anglosajona por ser esta la más reconocida en las medidas de las pantallas.

Densidad de píxeles: mide las pulgadas por píxel que presenta la pantalla del

Smartphone. Tiene que ver con la resolución.

Resolución: El nombre lo dice todo, mide la resolución de la pantalla. A más resolución

mejor visión de la misma. Se divide en dos:

o Alto: píxeles de la pantalla a lo alto.

o Ancho: píxeles de la pantalla a lo ancho.

Amperaje: mide los amperios que tiene la batería, en mAh (mili amperios por hora). A

mayor valor de esta variable mayor duración de la batería.

Peso: el peso del teléfono. [g]

Alto: la altura del Smartphone. [cm]

Ancho: la anchura del teléfono. [cm]

Profundo: la profundidad del móvil. [cm]

Cámara: mide los Megapíxeles que tiene la cámara principal del teléfono.

RAM: da una medida de la memoria RAM del teléfono. Cuanto mayor valor mejor.

Media en MB.

A la hora de trabajar con el programa estadístico SPAD no resulta operativo utilizar los, en

algunos casos, largos nombres de las variables, razón por la cual se realiza una codificación de

las mismas. El resultado se muestra en la tabla siguiente.

Variable Pulgadas Densidad de

píxeles Resolución

alto Resolución

ancho Amperaje

Codificación PUL PPP R_AL R_AN AMP Tabla 1. Codificaciones de las variables

Variable Peso Alto Ancho Profundo Cámara RAM

Codificación PES ALT ANC PRO CAM RAM Tabla 2. Codificaciones de las variables

En las 11 variables medidas se puede observar como en ningún caso son cualitativas, es decir,

se ha decidido centrarse en aquellas que presentan valores continuos.

Se procede a continuación a un análisis descriptivo de las mismas.

En primer lugar se cuantifican las medias y las desviaciones típicas de las 11 variables:

Page 5: INFORME FINAL ESCRITO - eio.uva.esvalentin/ad3g/2014/TFA/Javier_Merino_moviles.pdf · Informe Final Escrito Análisis de Datos Javier Merino Mozo 2 1. Introducción al problema En

Informe Final Escrito Análisis de Datos Javier Merino Mozo

4

Variable Media Desviación típica Mínimo Máximo

PUL 4,2439 0,6699 2,8 6,1

PPP 273,5652 82,3548 125 468

R_AL 1029,3043 436,7427 320 1920

R_AN 598,1449 235,6923 240 1080

AMP 1905,8986 622,5534 1000 4050

PES 132,0217 22,0058 93 198

ALT 12,6310 1,2319 10,2 16,3

ANC 6,5542 0,8193 3 9

PRO 0,9470 0,2108 0,11 1,6

CAM 7,5384 3,8558 2 20,7

RAM 1062,9565 668,8299 128 3072 Tabla 3. Media y desviación típica de las variables

Se puede ver una enorme heterogeneidad entre las diferentes variables que se manejan, tanto

en la media como en la desviación típica. Por ejemplo, la variable PUL presenta una media de

4,2439 con una desviación típica de 0,6699 mientras que la variable AMP tiene una media de

1905,8986 con una desviación típica de 622,5534, valores mucho más amplios que en un

futuro pueden dar problemas a la hora de realizar el ACP que se quiere llevar a cabo.

También se decide realizar la matriz de correlaciones con el fin de ver qué variables pueden

estar más “unidas” a otras:

PUL PPP R_AL R_AN AMP PES ALT ANC PRO CAM RAM

PUL 1

PPP 0,6428 1

R_AL 0,8204 0,9579 1

R_AN 0,7939 0,9505 0,9848 1

AMP 0,8578 0,5674 0,7326 0,7196 1

PES 0,6837 0,4695 0,5784 0,5799 0,7023 1

ALT 0,9672 0,6621 0,8178 0,8060 0,8565 0,6980 1

ANC 0,7423 0,4014 0,5468 0,5464 0,6424 0,6610 0,7701 1

PRO -0,4915 -0,3817 -0,4269 -0,4145 -0,3267 -0,1309 -0,4751 -0,3954 1

CAM 0,6430 0,7414 0,7864 0,7518 0,6373 0,5146 0,6386 0,4513 -0,3720 1

RAM 0,7779 0,7537 0,8426 0,8281 0,7553 0,5559 0,7852 0,5730 -0,3964 0,7341 1

Tabla 4. Correlaciones entre las variables

Realizando un pequeño análisis sobre la tabla anterior se puede observar una tendencia hacia

correlaciones altas en todas las variables, pues solo en 6 de los 55 casos posibles ésta baja de

0,4, y solo en un caso baja de 0,15, siendo esta la correlación entre las variables PES y PRO, con

un valor de -0,1309. El promedio de las correlaciones es 0,5112, un valor bastante alto.

Las correlaciones más altas parecen verse distribuidas de forma uniforme a lo largo y ancho de

Page 6: INFORME FINAL ESCRITO - eio.uva.esvalentin/ad3g/2014/TFA/Javier_Merino_moviles.pdf · Informe Final Escrito Análisis de Datos Javier Merino Mozo 2 1. Introducción al problema En

Informe Final Escrito Análisis de Datos Javier Merino Mozo

5

la tabla, pero es en las primeras variables donde muestra los valores más extremos, con

valores como 0,9672 entre PUL y ALT, o 0,9579 y 0,9505 que presenta la variable PPP respecto

a R_AL y R_AN, respectivamente. Estas dos últimas variables tienen la correlación más alta de

la tabla, con un valor de 0,9848.

3. Análisis de las Componentes Principales

3.1. Elección entre ACP normado y ACP sin normar

Como se dijo en el primer apartado, el objeto de realizar un Análisis de Componentes

Principales es la reducción del problema, es decir, se intentará que únicamente con dos o tres

nuevas variables se recoja la mayor parte de la información.

La primera decisión a tomar será la elección del tipo de ACP que se va a realizar, esto es,

decidir entre un ACP normado o ACP sin normar. En caso de realizar un ACP sin normar, la

variabilidad pequeña será absorbida por la grande, es decir, las variables en las que exista una

variabilidad mayor tendrán más importancia que aquellas que presenten un valor pequeño. En

nuestro caso, AMP y RAM serán esas variables con mayor importancia mientras que PUL y PRO

serán las que menos protagonismo presenten. Es posible que el profundo de un móvil no sea

importante a la hora de adquirirlo, pues es medianamente indiferente un teléfono de 0.7cm o

de 1.2cm de profundo, pero si se habla de las pulgadas de la pantalla el interés cambia mucho.

Existe una tendencia de los fabricantes a diseñar pantallas cada vez más grandes llegando, en

algunos casos, a tamaños de tablets (los famosos phablets), y la gente busca móviles de

grandes pantallas, por lo que a la hora de clasificar los teléfonos no se puede despreciar la

variabilidad de la variable PUL.

Por tanto, se toma la decisión de realizar un ACP normado.

3.2. Información del análisis

3.2.1. Valores propios

Una vez ejecutado el análisis en componentes principales con el programa estadístico SPAD se

procede con su análisis.

En primer lugar, es necesario fijarse en

los valores propios obtenidos de la

matriz y cuantificar el porcentaje

que representan respecto a sus

“compañeros”, pues se estableció que

solo era necesario fijarse en aquellos

ejes factoriales que tuviesen un valor

propio cuyo porcentaje fuese más que el

esperado.

Numéro Valeur propre Pourcentage Pourcentage

cumulé

1 7,6639 69,67 69,67

2 1,0892 9,90 79,57

3 0,8803 8,00 87,58

4 0,3580 3,25 90,83

5 0,3577 3,25 94,08

6 0,2761 2,51 96,59

7 0,1925 1,75 98,34

8 0,1236 1,12 99,47

9 0,0338 0,31 99,77

10 0,0216 0,20 99,97

11 0,0034 0,03 100,00

Tabla 5. Valores propios, porcentaje sobre el total y porcentaje acumulado

Page 7: INFORME FINAL ESCRITO - eio.uva.esvalentin/ad3g/2014/TFA/Javier_Merino_moviles.pdf · Informe Final Escrito Análisis de Datos Javier Merino Mozo 2 1. Introducción al problema En

Informe Final Escrito Análisis de Datos Javier Merino Mozo

6

Sabiendo que en un ACP normado la suma de los valores propios es igual al número de

variables, el valor esperado que estos tienen es 1, razón por la cual solo interesarán los dos

primeros ejer factoriales (valores propios 7.6639 y 1.0892, respectivamente).

Es importante destacar como se obtiene un primer eje factorial muy bueno, recogiendo casi el

70% de la información (69.67%), y como con el plano factorial 1-2 se recoge casi el 80% de

dicha información. Hay ocho ejes que apenas recogen, pues no superan ni el 4%.

No obstante, dado que solo existen 11 variables, parece lógico usar toda la información posible

a la hora de calcular, por ejemplo, las diferentes clases de una partición.

3.2.2. Correlación Variables-Ejes

Es importante tener en cuenta la correlación existente entre las distintas variables y los ejes

factoriales, pues no solo informarán del grado de relación, sino que también darán una medida

de la calidad de representación de las variables en los ejes, pues se sabe que la coordenada de

una variable en un eje es la raíz de la contribución relativa de la misma. Esto es lo que permitía

definir las direcciones intermedias, aún más interesantes que los propios ejes.

Ilustración 1. Grafico puntos variables en el plano 1-2

Page 8: INFORME FINAL ESCRITO - eio.uva.esvalentin/ad3g/2014/TFA/Javier_Merino_moviles.pdf · Informe Final Escrito Análisis de Datos Javier Merino Mozo 2 1. Introducción al problema En

Informe Final Escrito Análisis de Datos Javier Merino Mozo

7

Se puede ver la correlación de las variables con el primer plano factorial en el gráfico de

puntos variable en el plano 1-2, apreciando una correlación alta con el primer eje de casi la

totalidad de las variables, a excepción de PRO, que la presenta negativa y no demasiado

amplia.

Se pueden observar varias relaciones entre las variables en este gráfico. La más llamativa es la

correlación altísima existente entre las variables R_AL y R_AN, y entre PUL y ALT (ya se vio en

la matriz de correlaciones que estas dos relaciones eran las más altas).

Además, se puede intuir como la variable PPP no estará demasiado correlada con PES y ANC,

pues el ángulo que forman se acerca a los 90 grados, aunque es necesario decir que en ese

gráfico solo se está tratando con aproximadamente el 80% de la información, por lo que es

posible que la información de aleje un poco de la realidad.

Esto también dependerá de la calidad de representación de cada variable que, como se ha

dicho, tiene que ver con la coordenada. Así, la variable PRO es la peor representada en el plano

1-2 y R_AL la mejor.

Todas estas calidades de representación (coordenadas en el plano) se observan mejor en la

tabla de coordenadas de las variables:

Tabla 6. Coordenadas de las variables y Antiguos ejes unitarios

Nota: no se incluye el apartado correlaciones con los factores por coincidir con las coordenadas.

Distinguiendo por ejes:

Primer eje:

0.93 PUL + 0.84 PPP +………+ 0.80 CAM + 0.89 RAM

Coordonnées des variables actives Anciens axes unitaires

Libellé de la

variable Axe 1 Axe 2 Axe 3 Axe 4 Axe 5 Axe 1 Axe 2 Axe 3 Axe 4 Axe 5

PUL 0,93 -0,21 0,11 -0,17 -0,06 0,33 -0,20 0,11 -0,28 -0,10

PPP 0,84 0,47 -0,13 -0,01 0,22 0,30 0,45 -0,14 -0,01 0,38

R_AL 0,94 0,28 -0,09 -0,07 0,11 0,34 0,27 -0,10 -0,12 0,18

R_AN 0,93 0,28 -0,10 -0,09 0,16 0,34 0,26 -0,11 -0,14 0,26

AMP 0,86 -0,26 -0,09 -0,15 -0,30 0,31 -0,25 -0,09 -0,25 -0,50

PES 0,72 -0,45 -0,30 0,26 0,13 0,26 -0,43 -0,32 0,44 0,21

ALT 0,93 -0,22 0,09 -0,16 -0,01 0,34 -0,21 0,09 -0,27 -0,02

ANC 0,73 -0,50 0,17 0,12 0,24 0,26 -0,48 0,19 0,21 0,40

PRO -0,50 -0,15 -0,83 -0,12 0,01 -0,18 -0,14 -0,88 -0,20 0,01

CAM 0,80 0,27 -0,11 0,40 -0,28 0,29 0,26 -0,11 0,68 -0,46

RAM 0,89 0,12 -0,06 -0,09 -0,17 0,32 0,11 -0,06 -0,15 -0,29

Page 9: INFORME FINAL ESCRITO - eio.uva.esvalentin/ad3g/2014/TFA/Javier_Merino_moviles.pdf · Informe Final Escrito Análisis de Datos Javier Merino Mozo 2 1. Introducción al problema En

Informe Final Escrito Análisis de Datos Javier Merino Mozo

8

Las correlaciones positivas vistas anteriormente hacen que el primer eje muestre la

izquierda los valores más pequeños de 10 variables, y los valores más grandes de la

restante. En su mayor medida, y dado que sabemos la interpretación de los datos se

puede decir el eje 1 es un factor “modernidad”, pues los fabricantes con el paso del

tiempo han ido aumentando las características de los teléfonos, cada vez son más

grandes, con más RAM, mayor número de Megapíxeles, etc. y lo único que se ha ido

reduciendo es el grosor. Por tanto, menos características y más profundidad conllevan

más antigüedad, y viceversa, pero también hay que tener en cuenta que esto ocurre

para la mayoría de los teléfonos, pero no para todos, pues existen casos, como los

modelo “mini” (teléfonos similares a los modelos originales pero con características

reducidas), o modelos de baja gama, etc. que hacen que esta afirmación del eje uno

como factor modernidad haya que utilizarla con cuidado y sabiendo en todo momento

de que tipo de dispositivo se habla.

Por último, añadir que este eje es, con mucho, la mayor fuente de variabilidad (70%).

Segundo eje:

-0.21 PUL + 0.47 PPP +………+ 0.27 CAM + 0.12 RAM

En el caso del segundo eje las correlaciones son bajas (la mayor vale 0.5), razón por la

cual el análisis no es todo lo bueno que se podría esperar. No obstante, se puede

observar como en este eje las variables que presentan correlaciones negativas son

aquellas que se refieren a aspectos físicos del teléfono (altura, batería, etc.), y las que

presentan correlaciones positivas son las relacionadas con la potencia del teléfono (las

dos de resolución, la cámara, etc.), por tanto, se puede afirmar, con cierto grado de

inseguridad, que el eje distingue entre los grandes en “físico” y los grandes en

“rendimiento”. El eje es la segunda fuente de variabilidad (10%), muy por debajo de la

primera.

El tercer eje no parece ser una fuente de variabilidad lo suficientemente grande como para

tenerlo en cuenta (8%). Todas las variables presentan correlaciones muy bajas, a excepción de

PRO, una variable de escaso interés (se ha explicado antes que es bastante indiferente un

móvil de 0.7 o de 1.2 centímetros de profundidad) y de variabilidad muy baja. Es por ello que

se decide no tener en cuenta este eje.

Se puede hacer una interpretación conjunta de los dos primeros ejes factoriales, es decir, del

plano factorial, el 1-2. En este plano se puede decir que:

Lo individuos situados en la parte superior derecha son móviles modernos, con

características elitistas dentro del mercado, salvo en la duración de la batería, donde

cojean un poco, pero ni mucho menos presentando valores malos.

En la parte inferior derecha están los dispositivos de gama un poco inferior, con

Page 10: INFORME FINAL ESCRITO - eio.uva.esvalentin/ad3g/2014/TFA/Javier_Merino_moviles.pdf · Informe Final Escrito Análisis de Datos Javier Merino Mozo 2 1. Introducción al problema En

Informe Final Escrito Análisis de Datos Javier Merino Mozo

9

buenas características de tamaño y de duración de la batería, aunque con la cámara y

la resolución inferior a los antes comentados.

Más a la izquierda se van encontrando teléfonos con menores características, en

muchos casos más antiguos, y si se distingue entre la parte superior e inferior del se

vuelve a diferenciar entre lo mencionado con anterioridad, en la parte de arriba

mejores características técnicas y en la parte de abajo mejores características físicas.

3.3. Proyección de los individuos

A continuación se muestra la proyección de los individuos (representando su contribución

relativa) en el plano 1-2, que contiene casi el 80% de la información.

La tónica general es la buena representación de los individuos en el plano 1-2, sobre todo

hacia las zonas extremas, pues tanto a la derecha como a la izquierda se observan individuos

con una gran contribución relativa. Según se va mirando hacia las zonas centrales se va

observando una disminución de esa calidad de representación.

Se observa también una zona vacía en torno al origen de coordenadas, aunque ésta no está

muy remarcada.

Es curioso lo que ocurre a lo largo del primer eje factorial, pues a la izquierda de este la gran

mayoría de los Smartphones están más cercanos al eje de abscisas, mientras que en la parte

derecha parece existir una mayor dispersión. Esto quiere decir que cuantas más características

Ilustración 2. Gráfico de las proyecciones de los individuos en el plano 1-2

Page 11: INFORME FINAL ESCRITO - eio.uva.esvalentin/ad3g/2014/TFA/Javier_Merino_moviles.pdf · Informe Final Escrito Análisis de Datos Javier Merino Mozo 2 1. Introducción al problema En

Informe Final Escrito Análisis de Datos Javier Merino Mozo

10

tiene el teléfono más diferencia hay entre las que son físicas y las que son de rendimiento, es

decir, de los 12 elementos que se sitúan más a la derecha, y hablando de forma general (no es

absolutamente estricto en esos 12 móviles) en algunos de ellos los fabricantes se han

decantado más por la optimización en ámbitos como la resolución o la cámara, y en otro más

por la batería y el tamaño. Tiene sentido, pues, por ejemplo, cuanto mayor es el tamaño de la

pantalla más difícil es conseguir una buena resolución, y aunque en estos momentos se está

empezando a lograr, todavía no se ha llegado a ese punto de poseer las dos características en

conjunto.

4. Clasificación de los individuos Terminado el ACP de los individuos se pasa a la clasificación de los mismos. En esta

clasificación se buscará agrupar los teléfonos que posean características similares para

después, mediante la caracterización de dichas clases, tener los teléfonos divididos en función

de las diferencias entre sus propiedades.

Los teléfonos quedarán caracterizados por los valores medios de la clase a la que pertenecen,

es decir, por el centro de gravedad de la misma.

Dado el número no excesivamente alto de individuos y de variables, lo más lógico es empezar

con una clasificación jerárquica (utilizando el método de la inercia de Ward), pues no parece

que el algoritmo vaya a “sufrir” al realizar el proceso.

Tras realizar dicha clasificación, y con el corte en el dendograma, se procederá a realizar una

estabilización por centros móviles, para mejorar en la medida que se pueda la calidad de la

partición que se había obtenido.

Finalmente, tras la estabilización, se realizarán diferentes comentarios sobre las clases, sus

características, las variables originales más significativas, etc.

4.1. Construcción y corte del dendograma

En los parámetros que ofrece el programa estadístico SPAD únicamente hay que seleccionar

que se desea un método jerárquico y que se desea realizar con todas las variables disponibles.

Los demás parámetros se dejan por defecto. Ejecutado el método se obtiene el dendograma:

Ilustración 3. Dendograma y corte del mismo

Page 12: INFORME FINAL ESCRITO - eio.uva.esvalentin/ad3g/2014/TFA/Javier_Merino_moviles.pdf · Informe Final Escrito Análisis de Datos Javier Merino Mozo 2 1. Introducción al problema En

Informe Final Escrito Análisis de Datos Javier Merino Mozo

11

Realizar el corte en 2 o 3 clases es del todo inadecuado, pues apenas se verían las diferencias

entre los teléfonos. El corte del dendograma en 7 o más clases, además de provocar que los

índices de agregación disten muy poco, hará que existan demasiadas clases para los individuos

que se tienen.

Por tanto, la elección queda reducida a tres posibilidades, 4, 5 o 6 clases.

Para 4 clases, no se vería la distinción entre las dos clases que se ven en la parte derecha del

dendograma, y analizando qué teléfonos son los que forman esas clases se ve que no se

diferenciarían aquellos que, presentando unas buenas características, tienen buenos aspectos

en cuanto al rendimiento y aquellos que tienen buena “calificación” en cuanto a lo físico, la

memoria, etc., es decir, estaríamos juntando en una misma clase los teléfonos dedicados más

al ocio (buena resolución, cámara, etc.) y los dedicados más a la funcionalidad ( aguante de la

batería, pulgadas, escritura más cómoda, etc.). Se toma la decisión de descartar este corte.

Si se habla de 6 clases, el primer problema que aparece es el índice de agregación entre clases,

pues la diferencia entre dos índices es relativamente pequeña comparada con el que aparece

al hacer el corte en 5 clases. Además, al ver el gráfico de los individuos divididos en clases, si se

hace el corte en 6 las dos nuevas clases que han salido de cortar aquella que tiene el 42% de

los móviles aparecen bastante próximas, con los centros de gravedad relativamente juntos.

Observado esto, se concluye que los teléfonos de estas dos clases son lo suficientemente

similares como para dejarlos en una misma clase.

Se puede ver en el gráfico

de índices de agregación

como para las 6 primeras

clases el corte puede

aceptarse como bueno,

pero queda claro como para

5 clases queda mejorado el

corte para 6.

Por tanto, tras analizar el

dendograma y los posibles

cortes que se pueden hacer

en este, se decide realizar

una partición con 5 clases.

Ilustración 4. Índices de agregación

Page 13: INFORME FINAL ESCRITO - eio.uva.esvalentin/ad3g/2014/TFA/Javier_Merino_moviles.pdf · Informe Final Escrito Análisis de Datos Javier Merino Mozo 2 1. Introducción al problema En

Informe Final Escrito Análisis de Datos Javier Merino Mozo

12

4.2. Estabilización por centros móviles

Una vez decidido que el corte en el dendograma se realizará para obtener 5 clases, el siguiente

paso es realizar una estabilización por centros móviles. Mediante el proceso de centros

móviles (búsqueda del centro de gravedad y asignación de individuos más cercanos…., ya se

conoce de sobra cómo funciona) se buscarán unas clases un poco más precisas. Tras realizar el

proceso se pasará a la caracterización de cada clase, individuos que las forman, etc.

El algoritmo mide en cada iteración la inercia que existe entre las clases y dentro de cada clase,

intentando maximizar la primera y minimizar la segunda. Por ello, es adecuado visualizar la

inercia que resulta de finalizar el proceso y compararla con la que existía antes de él, para

poder ver si esta estabilización ha mejorado los resultados.

Viendo los resultados del proceso se observa que con 3 iteraciones el proceso se ha detenido,

pues ya no se podía maximizar o minimizar las inercias correspondientes.

ITERATION I.TOTALE I.INTER QUOTIENT

0 10,99663 7,96765 0,72455

1 10,99663 8,09873 0,73647

2 10,99663 8,09873 0,73647

3 10,99663 8,09873 0,73647 Tabla 7. Evolución de la Inercia interclases respecto a la iteración

Nota: la columna “QUOTIENT” se forma de dividir la inercia interclases entre la inercia total, de ahí que suba cuando lo hace la

inercia interclases.

Se puede observar como la inercia interclases (entre las 5 clases) va aumentando con el paso

de las iteraciones, signo de que el proceso está funcionando bien.

INERTIES INERTIES EFFECTIFS DISTANCES

AVANT APRES AVANT APRES AVANT APRES

INTER-CLASSES 7,9676 8,0987

INTRA-CLASSE

CLASSE 1/5 0,5001 0,6763 13 14 13,6771 13,1223

CLASSE 2/5 1,4666 0,9647 29 27 1,3077 1,5145

CLASSE 3/5 0,4901 0,6847 15 16 2,2734 2,1417

CLASSE 4/5 0,1067 0,1067 3 3 26,3394 26,3394

CLASSE 5/5 0,4655 0,4655 9 9 24,5469 24,5469

TOTALE 10,9966 10,9966

Tabla 8. Inercia interclases, intraclases, nº de individuos y distancias antes y despúes del algoritmo

En dos de las cinco clases la inercia interna aumenta, provocado por el aumento de individuos

Page 14: INFORME FINAL ESCRITO - eio.uva.esvalentin/ad3g/2014/TFA/Javier_Merino_moviles.pdf · Informe Final Escrito Análisis de Datos Javier Merino Mozo 2 1. Introducción al problema En

Informe Final Escrito Análisis de Datos Javier Merino Mozo

13

(de 13 a 14 y de 15 a 16) que hay en ellas, pero el aumento en estas dos clases es

contrarrestado por la disminución de inercia en la clase 2, que gana los dos individuos que se

perdían en estas clases.

No se puede dictaminar a simple vista qué clase es mejor, pues aunque en un principio la que

tenga menor inercia será la que posea mayor calidad, ésta dependerá del número de

individuos que tenga. Por tanto, para medir la calidad de una clase ha de observarse la inercia

dividida por el número de individuos.

AVANT APRES

INERTIES EFFECTIFS INERTIES EFFECTIFS

Clase 1/5 0,50001 13 0,0385 0,6763 14 0,0483

Clase 2/5 1,4666 29 0,0506 0,9647 27 0,0357

Clase 3/5 0,4901 15 0,0327 0,6847 16 0,0428

Clase 4/5 0,1067 3 0,0356 0,1067 3 0,0356

Clase 5/5 0,4655 9 0,0517 0,4655 9 0,0517 Tabla 9. División Inercia-Nº individuos.

Tras realizar el corte en el dendograma, la clase más favorecida era la 3, pero tras el proceso

de estabilización se ha convertido en la tercera mejor, un empeoramiento que también

comparte la clase 1, que pasa del tercer al cuatro puesto (las dos clases que sumaron un

individuo). El caso contrario ocurre con la clase 2, que pasa de ser la segunda peor a ser la

segunda mejor, y a solo una milésima de la mejor.

Más importante que los cambios de posición entre el antes y el después es la calidad tras el

algoritmo, así que solo se debe tener en cuenta esta última para establecer qué clase es más

precisa. En este caso, la más precisa es la 4 (tan solo 3 teléfonos), seguida muy de cerca por la

2 (27 teléfonos). Tras ellas van las clases 3 (16), 1(14) y 5(9).

Es curioso, y por tanto digno de señalar, que las dos mejores clases sean las más opuestas en

cuanto al tamaño

4.3. Composición y caracterización de las clases

En este epígrafe se estudiará cada una de las cinco clases por separado, indicando los

individuos que las componen y sus características, que vendrán en función de las que

presenten las clases a las que pertenecen. Antes de entrar en cada clase, es importante

analizar aquellos aspectos generales que den una primera visión de cómo van a ser dichas

clases. Dos aspectos importantes que se pueden analizar son: la ubicación de los centros de

cada clase y la posible heterocedasticidad que una variable pueda tener dentro del conjunto

de los individuos, es decir, es importante ver qué variables presentan las mayores diferencias

entre una clase y otra, para ello se utilizará una análisis normal de la varianza (ANOVA).

Page 15: INFORME FINAL ESCRITO - eio.uva.esvalentin/ad3g/2014/TFA/Javier_Merino_moviles.pdf · Informe Final Escrito Análisis de Datos Javier Merino Mozo 2 1. Introducción al problema En

Informe Final Escrito Análisis de Datos Javier Merino Mozo

14

Situación de los centros

COORDONNEES

IDEN - LIBELLE EFF. 1 2 3 4 5 DISTO.

aa1a 13 -3,63 -0,11 -0,55 -0,01 -0,35 13,68

aa2a 29 -1,05 0 0,4 0,05 0,16 1,31

aa3a 15 1,49 0,1 0,09 0,07 -0,05 2,27

aa4a 3 4,06 -3,07 -0,27 -0,4 -0,06 26,34

aa5a 9 4,81 1,02 -0,55 -0,14 0,08 24,55 Tabla 10. Coordenadas de los centros de las clases.

Las clases 2 y 3 son las más cercanas al origen de coordenadas, por lo que tendrán una

tendencia a estar constituidas por teléfonos de características en torno a la media, de estas

dos clases, una de ellas presentará teléfonos un poco mejores que la otra, pues su coordenada

en el primer eje es positiva (clase 3). Las otras tres clases están más alejadas, situándose dos

de ellas (clases 4 y 5) a la derecha de la línea vertical que dibuja el eje de la ‘Y’ y la restante

(clase 1) a la izquierda de dicho eje, es decir, habrá dos clases con teléfonos con grandes

características y una clase con teléfonos de ‘gama’ baja y más antiguos. Todos estos aspectos

se analizarán más en profundidad clase por clase.

ANOVA para las variables

En la tabla que se muestra a continuación se puede ver, en orden descendente, las variables

que son más diferentes entre las cinco clases, es decir, la que esté situada más arriba será

aquella variable cuya media sea lo más divergente de una clase a otra. Por otro lado, la

variable que esté situada más abajo (valor FISHER más bajo) será una variable que presente las

cinco medias muy parecidas. Así se podrá observar qué variables son aquellas que pueden

diferenciar unas clases de otras, y en las que hay que fijarse de un modo más detallado.

V.TEST PROBA. VARIABLE DEG.LIB.DEN FISHER

12,17 0,000 R_AN 64 184,95

12,15 0,000 R_AL 64 183,5

10,45 0,000 ALT 64 92,37

9,97 0,000 PPP 64 76,63

9,9 0,000 PUL 64 74,64

8,61 0,000 RAM 64 45,96

8,3 0,000 AMP 64 40,94

6,91 0,000 ANC 64 24,5

6,78 0,000 CAM 64 23,35

6,68 0,000 PES 64 22,53

5,9 0,000 PRO 64 16,79

Tabla 11. ANOVA para las variables.

Page 16: INFORME FINAL ESCRITO - eio.uva.esvalentin/ad3g/2014/TFA/Javier_Merino_moviles.pdf · Informe Final Escrito Análisis de Datos Javier Merino Mozo 2 1. Introducción al problema En

Informe Final Escrito Análisis de Datos Javier Merino Mozo

15

Las variables que más se diferencian entre clases son las referidas a la resolución (R_AN, R_AL

y PPP), pues las tres están entre las cuatro más heterogéneas. Según se va bajando se van

viendo diferentes variables de mayor o menor interés, hasta llegar a la última, que resulta de

gran interés, pues PRO era aquella variable que presentaba una correlación muy alta con el

tercer eje factorial, y el hecho de que sea la más homogénea hace que la decisión de no tener

en cuenta este eje sea, si cabe, un poco más acertada, ya que entre otras cosas este eje

factorial podía ayudar a distinguir entre profundidades de los móviles, pero dado el escaso

interés de esta variable (hecho que ya se mencionó) y la poca variabilidad que presenta hace

que sea innecesario incluirlo.

Analizados estos dos elementos se pasa a cada clase en particular.

4.3.1. Clase 1

La clase 1 está formada por los siguientes 13 teléfonos:

CLASE 1

AC_L HU_M920 LG_O_L3 N_C5 N_C6

SA_G_A SA_G_F SA_G_S1m SA_G_S2m SA_Y

SO_X_PL SO_X_T_D SO_X_U ZTE_C

Tabla 12. Móviles clase 1.

Entendiendo de qué va el problema planteado y conociendo mínimamente las características

de los teléfonos, ya se puede intuir que esta clase está conformada por los móviles de más

baja gama, aunque para ello es mejor observar la tabla que nos ofrece SPAD, y que muestra

qué variables de esta clase están significativamente por encima de la media general y qué

variables están significativamente por debajo.

CLASSE 1 / 5 ( POIDS = 14.00 EFFECTIF = 14 ) aa1a

V.TEST PROBA MOYENNES ECARTS TYPES

CLASSE GENERALE CLASSE GENERAL IDEN

5,85 0,000 1,24 0,95 0,14 0,21 PRO

-2,92 0,002 116,66 132,02 19,59 21,85 PES

-3,62 0,000 4,21 7,54 1,46 3,83 CAM

-3,62 0,000 1367,86 1905,9 212,94 618,03 AMP

-3,74 0,000 466,29 1062,96 141,94 663,97 RAM

-4,5 0,000 185,14 273,57 42,8 81,76 PPP

-4,58 0,000 5,66 6,55 0,82 0,81 ANC

-4,64 0,000 337,14 598,14 67,13 233,98 R_AN

-4,76 0,000 533,43 1029,3 156,34 433,57 R_AL

-5,33 0,000 3,39 4,24 0,22 0,67 PUL

-5,51 0,000 11,01 12,63 0,5 1,22 ALT Tabla 13. Tabla de variables clase 1.

Page 17: INFORME FINAL ESCRITO - eio.uva.esvalentin/ad3g/2014/TFA/Javier_Merino_moviles.pdf · Informe Final Escrito Análisis de Datos Javier Merino Mozo 2 1. Introducción al problema En

Informe Final Escrito Análisis de Datos Javier Merino Mozo

16

Se confirma lo dicho anteriormente, los móviles de esta clase presentan valores más bajos

para todas las variables de estudio salvo para PRO, que es la única que en un principio se desea

que sea menor que la media (aunque siempre habrá a quien le guste un móvil más “gordo”). La

variable que, siendo menor que la media, presenta un valor más cercano es PES, otra

característica que se pretende que sea lo menor posible, así que se puede decir que, por poco,

estos móviles son más ligeros que la media (hecho que puede tener su explicación en el

reducido tamaño de los mismos).

Si se observa qué teléfonos forman esta clase, se puede ver que mayoritariamente estos son

los NOKIA, SAMSUNG y SONY de más baja gama (con entre 3 y 4 años de antigüedad),

acompañados de algunos Smartphones de otras marcas, y de pobres características.

4.3.2. Clase 2

La clase 2 es la más numerosa, y está formada por los siguientes 27 móviles:

CLASE 2

BB_B HTC_O_S HTC_O_SV HU_A_P1 HU_A_W1

HU_M886 iP_4S iP_5 LG_O_L5 LG_O_L7

LG_O_L9 M_R_i M_R_X N_L_620 N_L_720

SA_G_A2 SA_G_S1 SA_G_S2 SA_G_S3m SA_G_S4m

SA_T SO_X_J SO_X_P SO_X_SO T_TG

U_QU ZTE_G_X

Tabla 14. Móviles clase 2.

Esta clase es la que se hubiera dividido en dos si se hubiese tomado la decisión de construir 6

clases, hecho que podría haber incidido en la calidad de la misma, pero ya se vio que era la

segunda que más calidad tenía.

CLASSE 2 / 5 ( POIDS = 27.00 EFFECTIF = 27 ) aa2a

V.TEST PROBA MOYENNES ECARTS TYPES

CLASSE GENERALE CLASSE GENERAL IDEN

-2,59 0,005 6,04 7,54 1,62 3,83 CAM

-2,67 0,004 503,7 598,14 57,87 233,98 R_AN

-2,73 0,003 850,15 1029,3 120,14 433,57 R_AL

-2,91 0,002 122,41 132,02 9,16 21,85 PES

-2,94 0,002 768 1062,96 278,7 663,97 RAM

-3,16 0,001 1610,26 1905,9 267,75 618,03 AMP Tabla 15. Tabla de variables clase 2.

La mitad de las variables de esta clase no son significativamente distintas de la media general,

razón por la que no se puede considerar a esta clase una clase atípica, más bien lo contrario, es

una clase con móviles de gama media, con una cámara y una resolución inferior, pero no

Page 18: INFORME FINAL ESCRITO - eio.uva.esvalentin/ad3g/2014/TFA/Javier_Merino_moviles.pdf · Informe Final Escrito Análisis de Datos Javier Merino Mozo 2 1. Introducción al problema En

Informe Final Escrito Análisis de Datos Javier Merino Mozo

17

demasiado baja, y una memoria RAM y una duración de la batería que dejan bastante que

desear respecto a los demás teléfonos del mercado. En cuanto al peso, también es inferior,

pero ya se ha dicho que eso es un punto a favor.

Es curioso que los dos modelos más modernos de la compañía APPLE aparezcan es esta clase,

como teléfonos de gama media-baja, por lo que sería razonable ver su representación en el

plano factorial 1-2. Viendo dicha representación, se puede observar cómo estos dos

Smartphones están en torno al 0 en el eje de abscisas pero presentan los valores más altos en

el de ordenadas, significando esto que son teléfonos medios pero con buenos índices en

términos de rendimiento (resolución de la pantalla, cámara). En conclusión, esto móviles

pertenecen a esta clase, pero seguramente estén alejados del centro de gravedad de la misma

(observando la salida de SPAD se puede ver como son el 24 y el 25 más alejados).

4.3.3. Clase 3

La clase 3 está formada por 16 Smartphones:

CLASE 3

AL_O AS_P BB_Z HTC_O_X HU_A_P2

LG_O_F7 LG_O_G M_R_HD M_R_R N_4

N_L_820 N_L_920 SA_A SA_G_S3 SO_X_S

SO_X_T

Tabla 16. Móviles clase 3.

Se ve una gran diversidad de marcas, hasta 11 están representadas en 16 individuos, y ya

empiezan a atisbarse modelos más modernos y de mejor gama, aunque todavía lejos de los

mejores teléfonos. Se verá mejor después del análisis de la tabla.

CLASSE 3 / 5 ( POIDS = 16.00 EFFECTIF = 16 ) aa3a

V.TEST PROBA MOYENNES ECARTS TYPES

CLASSE GENERALE CLASSE GENERAL IDEN

2,38 0,009 9,55 7,54 2,22 3,83 CAM

Tabla 17. Tabla de variables clase 3.

Solo una de las once variables es significativamente distinta de la media, lo que confirma que

son teléfonos regulares, no son un lujo pero desde luego no están nada mal. La única mejora

respecto a la media viene dada por CAM, hecho que podría explicarse por el interés que

muestran NOKIA y SONY por este elemento (con 2 móviles en esta clase cada uno. La media de

los cuatro teléfonos es 10,45 Mpx respecto al 9,55 de la clase). No existe mucho más que decir

acerca de esta clase, pues su “tendencia” a la media lo dice todo.

Page 19: INFORME FINAL ESCRITO - eio.uva.esvalentin/ad3g/2014/TFA/Javier_Merino_moviles.pdf · Informe Final Escrito Análisis de Datos Javier Merino Mozo 2 1. Introducción al problema En

Informe Final Escrito Análisis de Datos Javier Merino Mozo

18

4.3.4. Clase 4

La clase 4 contiene únicamente 3 teléfonos.

CLASE 4

HU_A_M SA_N1 SA_N2

Tabla 18. Móviles clase 4.

En caso de hacer el corte del dendograma en 4 clases, esta se hubiera adherido a la clase 5,

pero ya se explicó cuando se cortó dicho dendograma porqué se optó por separarlas. Ahora

adquiere más importancia distinguir qué variables con las que presentan más diferencias con

la media general, para poder compararlas con las que lo hacen en la clase 5.

CLASSE 4 / 5 ( POIDS = 3.00 EFFECTIF = 3 ) aa4a

V.TEST PROBA MOYENNES ECARTS TYPES

CLASSE GENERALE CLASSE GENERAL IDEN

4,37 0,000 186,33 132,02 8,5 21,85 PES

3,92 0,000 15,36 12,63 0,69 1,22 ALT

3,73 0,000 8,28 6,55 0,18 0,81 ANC

3,73 0,000 3216,67 1905,9 638,14 618,03 AMP

3,72 0,000 5,65 4,24 0,33 0,67 PUL Tabla 19. Tabla de variables clase 4.

Por supuesto, lo primero es señalar que se trata de móviles de alta gama, pues las

características que son significativamente distintas de la media lo son en la buena dirección (a

excepción de peso, pero inevitablemente ocurre por el gran tamaño de esto móviles). Las tres

variables relativas al tamaño también presentan un valor mayor que la media, y además de

estas también lo hace la variable AMP, demostrando que estos móviles están más ligados con

los negocios, por el aguante de la batería de los mismos, su facilidad para escribir gracias al

tamaño de su teclado, etc.

4.3.5. Clase 5

La clase 5 está compuesta por 9 Smartphones.

CLASE 5

HTC_O HU_A_D2 N_5 SA_G_S4 SA_G_S5

SA_N3 SO_X_Z SO_X_Z1 SO_X_Z2

Tabla 20. Móviles clase 5.

Al igual que ocurría con la clase 1, solo con ver los nombres de los teléfonos que conforman

esta clase ya se puede deducir que será la clase con los mejores móviles del mercado.

Compuesta en su mayor media por SAMSUNG y SONY, esta clase recoge teléfonos con una

Page 20: INFORME FINAL ESCRITO - eio.uva.esvalentin/ad3g/2014/TFA/Javier_Merino_moviles.pdf · Informe Final Escrito Análisis de Datos Javier Merino Mozo 2 1. Introducción al problema En

Informe Final Escrito Análisis de Datos Javier Merino Mozo

19

antigüedad no mayor a 2 años y con unas características muy superiores a la media. Esto se ve

mejor en la siguiente tabla.

CLASSE 5 / 5 ( POIDS = 9.00 EFFECTIF = 9 ) aa5a

V.TEST PROBA MOYENNES ECARTS TYPES

CLASSE GENERALE CLASSE GENERAL IDEN

6,58 0,000 1080 598,14 0 233,98 R_AN

6,4 0,000 1897,78 1029,3 41,57 433,57 R_AL

6,26 0,000 433,78 273,57 24,82 81,76 PPP

5,83 0,000 2275,56 1062,96 425,72 663,97 RAM

4,96 0,000 13,49 7,54 5,07 3,83 CAM

4,35 0,000 2747,78 1905,9 355,33 618,03 AMP

4,01 0,000 14,17 12,63 0,46 1,22 ALT

3,98 0,000 5,07 4,24 0,26 0,67 PUL

2,87 0,002 151,67 132,02 15,48 21,85 PES

2,61 0,005 7,22 6,55 0,3 0,81 ANC Tabla 21. Tabla de variables clase 5.

10 variables presentan un valor mayor que la media, y la única que no lo hace es PRO, la única

que se quiere que sea lo menor posible. La otra variable que se pretende que sea pequeña

(PES) es significativamente mayor que la media, pero es la segunda más cercana a ser igual, es

decir, hasta en eso estos móviles están cerca de ser los mejores. Son muy buenos en

resolución, y también en la cámara y la memoria RAM (aspectos relacionados con el ocio, es

decir, grabación y visualización de vídeo, buen soporte de aplicaciones, etc.), además, son

bastante amplios respecto a la media, y tienen buen amperaje, pero estas últimas

características son menores aquí en comparación con la clase 4, y de ahí la decisión de

separarlas.

5. Conclusiones Como primera y más importante conclusión, se obtiene que, con el paso del tiempo, las

marcas han ido mejorando sus teléfonos, pero se ve como esa mejora se acerca a un

comportamiento exponencial, es decir, en 3 años se pasó de una memoria RAM del orden de

512MB a 1024MB, pero en el siguiente año se pasó de 1024MB a 3096MB.

Otro aspecto a destacar es que aunque la tendencia de mejora con los años es visible, las

empresas han decidido optar por teléfonos de media y baja gama (y que resultaban ser

similares a los teléfonos antiguos en cuanto características) para seguir atrayendo a

compradores que no desean gastarse mucho dinero.

Por otro lado, la división en cinco clases parece la óptima, aunque 4, y sobre todo 6 clases

también podían ser decisiones acertadas.

Page 21: INFORME FINAL ESCRITO - eio.uva.esvalentin/ad3g/2014/TFA/Javier_Merino_moviles.pdf · Informe Final Escrito Análisis de Datos Javier Merino Mozo 2 1. Introducción al problema En

Informe Final Escrito Análisis de Datos Javier Merino Mozo

20

Todo lo dicho anteriormente se aprecia mucho mejor en el gráfico de las clases en el eje

factorial 1-2.

En el primer eje, las clases 4 y 5 parecen alejarse bastante (aquellas clases que se juntaban

para formar solo 4 clases).

La clase 2 posee muchos individuos, y aunque parecen ser todos bastante similares. La división

en una clase más tampoco habría sido descabellada.

Como conclusión, se tienen dos clases muy buenas en cuanto a características, seguidas por

otra que presenta móviles de gama media-alta. Más a la izquierda se encuentra una clase con

móviles de gama media-baja, aunque cercanos a los valores medios. Por último se encuentra

una clase con los peores teléfonos del mercado, con características que resultan ser muy bajas.

Ilustración 5. Plano 1-2 con la división en clases

Page 22: INFORME FINAL ESCRITO - eio.uva.esvalentin/ad3g/2014/TFA/Javier_Merino_moviles.pdf · Informe Final Escrito Análisis de Datos Javier Merino Mozo 2 1. Introducción al problema En

Informe Final Escrito Análisis de Datos Javier Merino Mozo

21

6. Informe final Objetivo

Clasificar 69 móviles en clases que los agrupen por semejanzas en sus características.

Datos

Se tiene una muestra de 69 teléfonos de entre todos lo que existen en el mercado. Se miden

las siguientes características:

Pulgadas (pulgadas), Píxeles por pulgada (píxeles y pulgadas), Resolución alto (píxeles),

Resolución ancho (píxeles), Amperaje (mAh), Peso (g), Alto (cm), Ancho (cm), Profundo (cm),

Cámara (Mpx) y RAM (MB).

ACP

Se decide realizar un ACP normado debido a la heterogeneidad en la variabilidad de las

variables.

La mayor fuente de variabilidad (70%) es la calidad y antigüedad del móvil.

La segunda mayor fuente de variabilidad (10%) es la distinción entre ocio y físico.

Móviles a la derecha en el plano 1-2 tienen valores altos de todas las variables salvo de PRO. A

la izquierda el caso contrario. Móviles en la parte alta presentan valores altos para las variables

tipo rendimiento (PPP, R_AL, R_AN, CAM y RAM), y móviles en la parte baja valores alto en

variables tipo físico (PUL, AMP, PES, ALT, ANC y PRO).

En conclusión, los mejores móviles se encuentran a la derecha y los peores a la izquierda.

Clasificación

Se decide que haya cinco clases. La clase 1 es la que está más a la izquierda en el plano 1-2

(20% de los individuos), móviles de muy baja gama. La clase 2 está a la izquierda del eje de la

“Y”, pero menos escorada (39%), móviles de gama media-baja. La clase 3 está ligeramente a la

derecha del plano (23%), móviles de gama media-alta. Las clases 4 (13%) y 5 (4%) están muy a

la derecha del gráfico, es decir, presentan móviles muy buenos. La primera se sitúa por encima

del eje de la “X” por lo que estará más destinada al ocio, y la segunda, que está por debajo de

dicho eje, estará relacionada con temas más de trabajo (aguante de la batería, gran teclado,

etc.).

Las variables más heterogéneas dentro de la partición son R_AL, R_AN y ALT, y las más

homogéneas PES y PRO (variables con apenas importancia). Las variables con mayor

importancia a la hora de elegir un teléfono tienen una variabilidad moderada entre las cinco

clases que han surgido.