Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

57
Dr. Francisco J. Mata 1 Exploración y preparación de datos Tema 6

Transcript of Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Page 1: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 1

Exploración y preparación de datos

Tema 6

Page 2: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 2

Objetivos

Presentar la importancia de la exploración de los datos

Discutir la necesidad de preparar los datos

Page 3: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 3

Explorar

Obtener estadísticas básicas Valores extremos Valores perdidos

Distribuciones Histogramas

Comparar valores con descripciones ¿Aparecen todos los códigos para una variable categórica? ¿Distribución de valores es esperada para variables

categóricas? ¿Valores mínimos y máximos para una variable son

razonables?Relaciones entre variables

Page 4: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 4

Explorar

Haga lista de asuntos sorprendentes o que no estén claros

Pregunte al proveedor de los datos

Page 5: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Explorar

ObservarNúmero de registros (observaciones)Número de variables (columnas)

Dr. Francisco J. Mata 5

Page 6: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 6

Ver la tabla de datos es otra buena forma de iniciar la exploración

Page 7: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 7

Explorar una variable

Penetración de producto

Page 8: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 8

Explorar relaciones

Ingreso por hogar 1999Ingreso por familia 1999

Page 9: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 9

Ejemplo

Archivo de datos de censo sobre adultos de los Estados Unidos

Page 10: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 10

Estadísticas descriptivas para variables continuas

Variable Label Mean Std Dev Range x1 age 38.582 13.640 73.000 x5 education-num 10.081 2.573 15.000 x11 capital-gain 1077.650 7385.290 99999.000 x12 capital-loss 87.304 402.960 4356.000 x13 hour-per-week 40.437 12.347 98.000

Page 11: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Minería de datosDr. Francisco J. Mata

11

Age

AGE

88.0084.00

80.0076.00

72.0068.00

64.0060.00

56.0052.00

48.0044.00

40.0036.00

32.0028.00

24.0020.00

Missing

Co

un

t1000

800

600

400

200

0

Page 12: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Minería de datosDr. Francisco J. Mata

12

Education-number

EDUCN

16.00

15.00

14.00

13.00

12.00

11.00

10.00

9.00

8.00

7.00

6.00

5.00

4.00

3.00

2.00

1.00

Missing

Co

un

t

12000

10000

8000

6000

4000

2000

0

Page 13: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Minería de datosDr. Francisco J. Mata

13

Gain

GAIN

25124.00

15020.00

10566.00

7896.00

6767.00

6097.00

5013.00

4650.00

3942.00

3471.00

3325.00

2964.00

2653.00

2414.00

2290.00

2062.00

1797.00

1409.00

991.00

Missing

Co

un

t40000

30000

20000

10000

0

Page 14: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Minería de datosDr. Francisco J. Mata

14

Loss

LOSS

3770.00

2603.00

2467.00

2377.00

2258.00

2205.00

2149.00

2042.00

1974.00

1848.00

1755.00

1721.00

1651.00

1594.00

1539.00

1380.00

974.00

419.00

Missing

Co

un

t40000

30000

20000

10000

0

Page 15: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Minería de datosDr. Francisco J. Mata

15

Hours

HOURS

95.0089.00

84.0077.00

72.0065.00

60.0055.00

50.0045.00

40.0035.00

30.0025.00

20.0015.00

10.005.00

Missing

Co

un

t20000

10000

0

Page 16: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 16

Estadísticas Descriptivas para Variables Discretas

Workclass Cumulative Cumulative x2 Frequency Percent Frequency Percent

Federal-gov 960 3.12 960 3.12 Local-gov 2093 6.81 3053 9.94 Never-worked 7 0.02 3060 9.96 Private 22696 73.87 25756 83.83 Self-emp-inc 1116 3.63 26872 87.46 Self-emp-not-inc 2541 8.27 29413 95.73 State-gov 1298 4.22 30711 99.95 Without-pay 14 0.05 30725 100.00

  Frequency Missing = 1836   Chi-Square 107220.7383 DF 7 Pr > ChiSq <.0001

Page 17: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata

17

Estadísticas Descriptivas para Variables Discretas

Education  Cumulative Cumulative x4 Frequency Percent Frequency Percent

10th 933 2.87 933 2.87 11th 1175 3.61 2108 6.47 12th 433 1.33 2541 7.80 1st-4th 168 0.52 2709 8.32 5th-6th 333 1.02 3042 9.34 7th-8th 646 1.98 3688 11.33 9th 514 1.58 4202 12.91 Assoc-acdm 1067 3.28 5269 16.18 Assoc-voc 1382 4.24 6651 20.43 Bachelors 5355 16.45 12006 36.87 Doctorate 413 1.27 12419 38.14 HS-grad 10501 32.25 22920 70.39 Masters 1723 5.29 24643 75.68 Preschool 51 0.16 24694 75.84 Prof-school 576 1.77 25270 77.61 Some-college 7291 22.39 32561 100.00

Chi-Square 66643.3355 DF 15 Pr > ChiSq <.0001

Page 18: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 18

education*education-num

Page 19: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 19

education*education-num

Page 20: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 20

Estadísticas Descriptivas para Variables Discretas

Race 

Cumulative Cumulative x9 Frequency Percent Frequency Percent

Amer-Indian-Eskimo 311 0.96 311 0.96 Asian-Pac-Islander 1039 3.19 1350 4.15 Black 3124 9.59 4474 13.74 Other 271 0.83 4745 14.57 White 27816 85.43 32561 100.00

  

Chi-Square 87941.8892 DF 4 Pr > ChiSq <.0001

Page 21: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 21

Estadísticas Descriptivas para Variables Discretas

Sex 

Cumulative Cumulative x10 Frequency Percent Frequency Percent

Female 10771 33.08 10771 33.08 Male 21790 66.92 32561 100.00

  

Chi-Square 3728.9506 DF 1 Pr > ChiSq <.0001

Page 22: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 22

Estadísticas Descriptivas para Variables Discretas

Native-country Cumulative Cumulative

x14 Frequency Percent Frequency Percent Cambodia 19 0.06 19 0.06 Canada 121 0.38 140 0.44 China 75 0.23 215 0.67 Columbia 59 0.18 274 0.86 Cuba 95 0.30 369 1.15 Dominican-Republic 70 0.22 439 1.37 Ecuador 28 0.09 467 1.46 El-Salvador 106 0.33 573 1.79 England 90 0.28 663 2.07 France 29 0.09 692 2.16 Germany 137 0.43 829 2.59 Greece 29 0.09 858 2.68 Guatemala 64 0.20 922 2.88 Haiti 44 0.14 966 3.02 Holand-Netherlands 1 0.00 967 3.02 Honduras 13 0.04 980 3.06

Page 23: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata23

Estadísticas Descriptivas para Variables Discretas

Native-country  Cumulative Cumulative

x14 Frequency Percent Frequency Percent Hong 20 0.06 1000 3.13 Hungary 13 0.04 1013 3.17 India 100 0.31 1113 3.48 Iran 43 0.13 1156 3.61 Ireland 24 0.08 1180 3.69 Italy 73 0.23 1253 3.92 Jamaica 81 0.25 1334 4.17 Japan 62 0.19 1396 4.37 Laos 18 0.06 1414 4.42 Mexico 643 2.01 2057 6.43 Nicaragua 34 0.11 2091 6.54 Outlying-US(Guam-USVI-etc) 14 0.04 2105 6.58 Peru 31 0.10 2136 6.68 Philippines 198 0.62 2334 7.30 Poland 60 0.19 2394 7.49 Portugal 37 0.12 2431 7.60 Puerto-Rico 114 0.36 2545 7.96 Scotland 12 0.04 2557 8.00

Page 24: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 24

Estadísticas Descriptivas para Variables Discretas

Native-country 

Cumulative Cumulative x14 Frequency Percent Frequency Percent Scotland 12 0.04 2557 8.00 South 80 0.25 2637 8.25 Taiwan 51 0.16 2688 8.41 Thailand 18 0.06 2706 8.46 Trinadad&Tobago 19 0.06 2725 8.52 United-States 29170 91.22 31895 99.74 Vietnam 67 0.21 31962 99.95 Yugoslavia 16 0.05 31978 100.00  Frequency Missing = 583  Chi-Square 1059744.4599 DF 40 Pr > ChiSq <.0001

Page 25: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 25

Preparación de datos

Datos pueden serIncompletos: valores para una variable

perdidosRuidosos: contienen errores o valores

extremosInconsistentes: esquemas de codificación

diferentes

Page 26: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 26

Preparación de datos

ActividadesLimpieza de datosIntegración de datosTransformación de datosReducción de datos

Page 27: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 27

Limpieza de datos

Dar valores a datos perdidosSuavizar el ruido en los datos

identificando valores extremosCorregir inconsistencias

Page 28: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 28

Valores perdidos

Valores para una variable no fueron registrados

Page 29: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 29

Valores perdidos

OpcionesEliminar registros con valores perdidos: puede sesgar la

muestraReemplazar valores perdidos por un valor especial -

999.99: modelos no pueden distinguir este valor de uno perdido

Utilizar la media, mediana o moda: puede cambiar la distribución de los datos

Generar un valor aleatoriamente: puede ser difícil conocer la distribución de los valores particularmente si existe un patrón en los valores perdidos

Page 30: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 30

Valores perdidos

OpcionesPredecir el valor utilizando árboles de decisión

o redes neuronalesParticionar los registros y construir varios

modelos: posible cuando se puede conocer la causa de la falta de registro de los datos

Utilizar procedimientos que puedan manipular datos perdidos

Page 31: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 31

Suavizar el ruido en los datos identificando valores extremos

Utilizar las distribuciones de valores para identificar valores extremos

Utilizar técnicas automáticas de detección de grupos (“clustering”)

Utilizar métodos de regresión

Page 32: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Minería de datosDr. Francisco J. Mata

32

Distribuciones para identificar valores extremos

AGE

88.0084.00

80.0076.00

72.0068.00

64.0060.00

56.0052.00

48.0044.00

40.0036.00

32.0028.00

24.0020.00

Missing

Co

un

t1000

800

600

400

200

0

Valor extremo

Page 33: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 33

Técnicas automáticas para detectar grupos

Page 34: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 34

Métodos de regresión

Page 35: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 35

Corregir inconsistencias

Inconsistencias pueden existir debido a la forma en que fueron registrados lo datos

CorrecciónErrores de entrada de datos pueden ser

corregidos buscando los registros originalesUso de dependencias funcionales

Page 36: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 36

Integración de datos

Combinación de datos de múltiples fuentes para crear nuevos registros

Problemas Identificación de entidades

Claves para hacer unionesRedundancia

Valores que pueden ser derivados de otras variables o atributos

• Algunas redundancias se pueden detectar mediante análisis de correlación o tablas de contingencia

Duplicación de registros o tuplesDetección y corrección de conflictos en valores de

datosPesos en kilos y libras

Page 37: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 37

education*education-num

Page 38: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 38

education*education-num

Page 39: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 39

Transformación de datos

Datos son transformados o consolidados en formas apropiadas para minería de datos

MétodosDiscretizaciónGeneralizaciónNormalizaciónConstrucción de atributos o variables

Page 40: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 40

Discretización

Tomar un valor continúo y representarlo en valores discretos

Ejemplo: transformar edad enJovenEdad medioAdulto mayor

Page 41: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata41

Generalización

Tomar un valor más detallado y generalizarlo de acuerdo con una jerarquía

País

Provincia o estado

Ciudad

Calle674,339 valores

3,567 valores

365 valores

15 valores

Page 42: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 42

Normalización

Valores de una variable o atributo se convierten para que caigan en un intervalo pequeño -1.0 a 1.0 0.0 a 1.0

o tengan cierta media y desviación estándard

Page 43: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 43

Normalización

MétodosNormalización min-maxNormalización “z-score”

Page 44: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 44

Normalización

Normalización min-maxv´ = ((v – minA) / (maxA-minA)) (new_maxA-

new_minA) + new_minA

Ejemplo:Mínimo y máximo para ingreso es $12,000 y

$98,000, respectivamenteSe quiere transformar ingreso al intervalo [0.0,1.0]El valor 73,600 se convierte en

• ((73,600-12,000) / (98,000-12,000)) (1.0-0) + 0 = 0.716

Page 45: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 45

Normalización

Normalización “z-score”v´ = (v – media_A) / dev_est_AEjemplo:

Media y desviación estándar para ingreso es $54,000 y $16,000, respectivamente

El valor 73,600 se convierte en• (73,600-54,000) / 16,000 = 1.225

Page 46: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 46

Construcción de atributos

Nuevos atributos son construidos a partir de atributos existentesEjemplo: venta = cantidad * precio

Page 47: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 47

Reducción de datos

Obtener una representación reducida del conjunto de datos que es mucho más pequeña en volumen pero mantiene la integridad de los datos originales

Page 48: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 48

Reducción de datos

TécnicasMuestreoAgregaciónReducción de dimensión

Page 49: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 49

Reducción de datos

MuestreoSeleccionar un subconjunto de registros o

tuples pequeño pero representativo de la población

Existen técnicas estadísticas para seleccionar muestras representativas

Page 50: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 50

Reducción de datos

AgregaciónSumarizar información usualmente sobre

períodos de tiempoEjemplo: sumar las ventas por trimestre para

obtener ventas anuales

Asociado con cubos OLAP

Page 51: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 51

Reducción de datos

Reducción de dimensiónEliminar atributos o variables irrelevantes o

redundantes o reducir el número de estos mediante rotación de ejes

Técnicas“Decision tree induction”Análisis de componentes principales

Page 52: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 52

Análisis de componentes principales

Medir tresespecies X1 (S1),X2 (S2) y X3 (S3)en diferentes puntosespaciales

Tomado de http://ordination.okstate.edu/PCA.htm

Page 53: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 53

Análisis de componentes principales

Se estandarizan los datos:se resta la media y divide pordesviación estándar

Page 54: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 54

Análisis de componentes principales

Se rotan los ejes ortogonal-mente de acuerdo con los valores principales

Valor Varianza principal explicada

1 1.8907 63%2 0.9951 33%3 0.1142 4%

Total 3.0063 100%

Page 55: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata55

Análisis de componentes principales

Representación del96 % de varianzaen dos dimensiones

Page 56: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 56

Análisis de componentes principales

Factores de carga

Especie PCA1 PCA2 PCA3

X1-S1 0.9688 0.0664 -0.2387

X2-S2 0.9701 0.0408 0.2391

X3-S3 -0.1045  0.9945 0.0061

Page 57: Dr. Francisco J. Mata1 Exploración y preparación de datos Tema 6.

Dr. Francisco J. Mata 57

Análisis de componentes principales

Curvas hipotéticasde respuesta de las especies algradiente ambiental