Sesión 3 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/4/Sesión_03.pdf-...

14
Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 3 - Juan Alfonso Lara Torralbo 1 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Transcript of Sesión 3 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/4/Sesión_03.pdf-...

Page 1: Sesión 3 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/4/Sesión_03.pdf- Sesión 3 - Juan Alfonso Lara Torralbo 1 2014 Juan Alfonso Lara Torralbo. Todos

Fundamentos y Aplicaciones Prácticas

del Descubrimiento de Conocimiento

en Bases de Datos

- Sesión 3 -

Juan Alfonso Lara Torralbo1

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 2: Sesión 3 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/4/Sesión_03.pdf- Sesión 3 - Juan Alfonso Lara Torralbo 1 2014 Juan Alfonso Lara Torralbo. Todos

Índice de contenidos• Actividad. Tratamiento de erróneos y faltantes

• Tratamiento de erróneos

• Tratamiento de faltantes

• Actividad. Técnicas de transformación

• Técnicas de transformación de datos

• Actividad. Transformación de una tabla sencilla

• Ejemplo

• Introducción a Weka

• Actividad. Problema de transformación completo a mano2

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 3: Sesión 3 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/4/Sesión_03.pdf- Sesión 3 - Juan Alfonso Lara Torralbo 1 2014 Juan Alfonso Lara Torralbo. Todos

Actividad. Tratamiento de erróneos y faltantes

Pensar en qué se puede hacer cuando hay valores erróneos o faltantes en una tabla (en grupo, sin Internet)

Puesta en común

3

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 4: Sesión 3 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/4/Sesión_03.pdf- Sesión 3 - Juan Alfonso Lara Torralbo 1 2014 Juan Alfonso Lara Torralbo. Todos

Tratamiento de erróneos

• Pasar por alto el valor erróneo y continuar con el análisis.

• Filtrar toda la columna asociada al valor erróneo.

• Filtrar el registro que contiene el valor erróneo.

• Reemplazar el valor erróneo por un valor correcto. En este caso, se puede intentar predecir el valor correcto mediante el uso de alguna técnica específica de predicción.

4

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 5: Sesión 3 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/4/Sesión_03.pdf- Sesión 3 - Juan Alfonso Lara Torralbo 1 2014 Juan Alfonso Lara Torralbo. Todos

Tratamiento de faltantes

• Pasar por alto el valor faltante y continuar con el análisis.

• Filtrar toda la columna asociada a dicho atributo.

• Filtrar el registro que contiene el valor faltante.

• Asignar un valor al atributo en cuestión. En este caso, se puede intentar “adivinar” el valor que falta sustituyéndolo, por ejemplo, por el valor medio que para dicho atributo manifiestan el resto de registros.

5

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 6: Sesión 3 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/4/Sesión_03.pdf- Sesión 3 - Juan Alfonso Lara Torralbo 1 2014 Juan Alfonso Lara Torralbo. Todos

Actividad. Técnicas de transformación de datos

Pensar en qué técnicas de transformación puede ser necesario aplicar a unos datos (filas, columnas, celdas, …)

Puesta en común

6

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 7: Sesión 3 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/4/Sesión_03.pdf- Sesión 3 - Juan Alfonso Lara Torralbo 1 2014 Juan Alfonso Lara Torralbo. Todos

Técnicas de transformación de datos (I)

• Numerización . Consiste en transformar un atributo de tipo cualitativo en un atributo equivalente de tipo cuantitativo. Por ejemplo, un atributo de tipo booleano se puede numerizar transformando cada aparición del valor Falso a 0, y del valor Cierto a 1.

• Discretización . Consiste en transformar un atributo cuantitativo en un atributo cualitativo ordinal. Por ejemplo, la altura de una persona en centímetros se puede discretizar en los intervalos Alto (≥180 cm), Medio (entre 150 cm y 180 cm) y Bajo (≤150 cm).

7

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 8: Sesión 3 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/4/Sesión_03.pdf- Sesión 3 - Juan Alfonso Lara Torralbo 1 2014 Juan Alfonso Lara Torralbo. Todos

Técnicas de transformación de datos (II)

• Creación de características . Consiste en la creación de un nuevo atributo en los datos, normalmente calculado como función de otros atributos ya existentes. Por ejemplo, si se tiene el atributo Sueldo_Bruto_Mensual y el atributo Número_Pagas, se puede crear un nuevo atributo, Sueldo_Bruto_Anual, mediante la función siguiente:

Sueldo_Bruto_Anual =Sueldo_Bruto_Mensual*Número_Pagas

8

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 9: Sesión 3 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/4/Sesión_03.pdf- Sesión 3 - Juan Alfonso Lara Torralbo 1 2014 Juan Alfonso Lara Torralbo. Todos

Técnicas de transformación de datos (III)

9

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 10: Sesión 3 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/4/Sesión_03.pdf- Sesión 3 - Juan Alfonso Lara Torralbo 1 2014 Juan Alfonso Lara Torralbo. Todos

Técnicas de transformación de datos (IV)

• Reducción de dimensionalidad. Las técnicas de reducción de dimensionalidad buscan reducir el número de atributos sobre los que realizar el análisis posterior.

• La más conocida es la técnica de Análisis de Componentes Principales (PCA, Principal Components Analysis). Esta técnica proyecta los atributos iniciales en un espacio de dimensionalidad mucho menor (menor número de atributos), de forma que en los nuevos atributos recogen la mayor parte de la información relevante de los originales, pero con la ventaja adicional de que se eliminan las posibles redundancias y dependencias que había. 10

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 11: Sesión 3 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/4/Sesión_03.pdf- Sesión 3 - Juan Alfonso Lara Torralbo 1 2014 Juan Alfonso Lara Torralbo. Todos

Actividad. Aplicar técnicas de transformación a una tabla

Aplicar varias técnicas de transformación a una tabla de datos de ejemplo y poner en común el resultado obtenido

11

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 12: Sesión 3 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/4/Sesión_03.pdf- Sesión 3 - Juan Alfonso Lara Torralbo 1 2014 Juan Alfonso Lara Torralbo. Todos

Ejemplo de tabla más compleja de datos con la que

trabajar

12

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 13: Sesión 3 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/4/Sesión_03.pdf- Sesión 3 - Juan Alfonso Lara Torralbo 1 2014 Juan Alfonso Lara Torralbo. Todos

Introducción a Weka - DEMO

13

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 14: Sesión 3 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/4/Sesión_03.pdf- Sesión 3 - Juan Alfonso Lara Torralbo 1 2014 Juan Alfonso Lara Torralbo. Todos

Actividad. Problema completo de transformación a

mano

Aplicar varias técnicas de transformación a una tabla de datos compleja

Supervisión del profesor14

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.