ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE...

32
CURSO DE DOCTORADO ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE FORMAS CURSO 2007-2008 JOSE FRANCISCO BERNABEU BRIONES

Transcript of ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE...

Page 1: ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE …grfia.dlsi.ua.es/repositori/grfia/otros/bernabeuRFdoctor... · 2016-01-26 · Datos Tenemos cinco ficheros .arff que contienen

CURSO DE DOCTORADO

ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE FORMAS

CURSO 2007-2008

JOSE FRANCISCO BERNABEU BRIONES

Page 2: ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE …grfia.dlsi.ua.es/repositori/grfia/otros/bernabeuRFdoctor... · 2016-01-26 · Datos Tenemos cinco ficheros .arff que contienen

Implementaciones

Algoritmo kNN

Algoritmo kNCN

Edición de Wilson kNN

Edición de Wilson kNCN

Condensado de Hart

Page 3: ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE …grfia.dlsi.ua.es/repositori/grfia/otros/bernabeuRFdoctor... · 2016-01-26 · Datos Tenemos cinco ficheros .arff que contienen

EDICION WILSON kNCN

EDICION WILSON kNN

Page 4: ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE …grfia.dlsi.ua.es/repositori/grfia/otros/bernabeuRFdoctor... · 2016-01-26 · Datos Tenemos cinco ficheros .arff que contienen

Datos

Tenemos cinco ficheros .arff que contienen muestras con 28 características.

9400 muestras en total.

Extraídas de la colección de ficheros midi jvc1+2.

Generadas con el script MWE (MidiWindowsExtractor):

Ancho de ventana w = 30

Desplazamiento d = 1

Page 5: ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE …grfia.dlsi.ua.es/repositori/grfia/otros/bernabeuRFdoctor... · 2016-01-26 · Datos Tenemos cinco ficheros .arff que contienen

Datos

Una vez obtenemos los datos:

Se rellenan (con la media) los valores de atributo que se hayan perdido.(Weka)

Se normalizan los valores de los atributos en el intervalo [0,1]. (Weka)

Se hace una selección de características con Weka:

Evaluador (CfsSubsetEval)Evalua el valor de un subconjunto de atributos teniendo en cuenta la habilidad predictiva individual de cada característica por medio del grado de redundancia entre ellas. Se da mayor valor a los subconjuntos que tienen una mayor correlación con la clase mientras que tienen menor intercorrelación entre clases.

Método de búsqueda (BestFirst)Busca el subconjunto de atributos mediante un algoritmo voraz con backtraking.Empieza con el conjunto vacío y va incorporando características.

Page 6: ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE …grfia.dlsi.ua.es/repositori/grfia/otros/bernabeuRFdoctor... · 2016-01-26 · Datos Tenemos cinco ficheros .arff que contienen

Datos

Las características obtenidas son:

• WindowNumNotes_Overall

• AvgRelative_Pitch

• TypicalDeviation_Pitch

• Range_IOI

• NumSyncopations_IOI

Range_Pitch

Range_PitchInterval

Page 7: ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE …grfia.dlsi.ua.es/repositori/grfia/otros/bernabeuRFdoctor... · 2016-01-26 · Datos Tenemos cinco ficheros .arff que contienen

Datos

Se generan 4 conjuntos de datos:

Con 28 características

Con 28 características pero cogiendo 1 de cada 4 muestras (d = 4)

Con 5 características

Con 5 características pero cogiendo 1 de cada 4 muestras (d = 4)

Cada conjunto de datos consta de cinco particiones verificando que no haya muestras de una misma canción en particiones diferentes.

Page 8: ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE …grfia.dlsi.ua.es/repositori/grfia/otros/bernabeuRFdoctor... · 2016-01-26 · Datos Tenemos cinco ficheros .arff que contienen

Pruebas

Se realiza 5-fold cross-validation.

Clasificación con el vecino más cercano:

● Datos sin editar

● Datos editados con Wilson kNN

● Datos editados con Wilson kNCN

Para la edición

● Se prueba con diferentes valores de k, k= 1,3,..,19

Page 9: ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE …grfia.dlsi.ua.es/repositori/grfia/otros/bernabeuRFdoctor... · 2016-01-26 · Datos Tenemos cinco ficheros .arff que contienen

Edición

Representamos las distintas técnicas de edición para cada conjunto de datos.

Número de muestras eliminadas es pequeño.De 2 a 120 muestras de unas 6000 en total, dependiendo de k

Afecta a la clasificación aumentando la tasa de acierto.

Elimina las muestras que pueden ocasionar una mala clasificación.

Page 10: ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE …grfia.dlsi.ua.es/repositori/grfia/otros/bernabeuRFdoctor... · 2016-01-26 · Datos Tenemos cinco ficheros .arff que contienen
Page 11: ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE …grfia.dlsi.ua.es/repositori/grfia/otros/bernabeuRFdoctor... · 2016-01-26 · Datos Tenemos cinco ficheros .arff que contienen

80

82

84

86

88

90

92

94

0 5 10 15 20

Tas

a de

aci

erto

k

28 características

Sin edicion

Wilson knn

Wilson ncn

Desviación Típica

Page 12: ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE …grfia.dlsi.ua.es/repositori/grfia/otros/bernabeuRFdoctor... · 2016-01-26 · Datos Tenemos cinco ficheros .arff que contienen

80

82

84

86

88

90

92

94

0 5 10 15 20

Tas

a de

aci

erto

k

28 características

Sin edicion

Wilson knn

Wilson ncn

Desviación Típica

Page 13: ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE …grfia.dlsi.ua.es/repositori/grfia/otros/bernabeuRFdoctor... · 2016-01-26 · Datos Tenemos cinco ficheros .arff que contienen

Puede que haya un error aquí

Page 14: ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE …grfia.dlsi.ua.es/repositori/grfia/otros/bernabeuRFdoctor... · 2016-01-26 · Datos Tenemos cinco ficheros .arff que contienen
Page 15: ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE …grfia.dlsi.ua.es/repositori/grfia/otros/bernabeuRFdoctor... · 2016-01-26 · Datos Tenemos cinco ficheros .arff que contienen
Page 16: ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE …grfia.dlsi.ua.es/repositori/grfia/otros/bernabeuRFdoctor... · 2016-01-26 · Datos Tenemos cinco ficheros .arff que contienen
Page 17: ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE …grfia.dlsi.ua.es/repositori/grfia/otros/bernabeuRFdoctor... · 2016-01-26 · Datos Tenemos cinco ficheros .arff que contienen

Edición

Representamos los distintos conjuntos de datos para cada una de las técnicas utilizadas.

Page 18: ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE …grfia.dlsi.ua.es/repositori/grfia/otros/bernabeuRFdoctor... · 2016-01-26 · Datos Tenemos cinco ficheros .arff que contienen

Tasa de acierto varía muy poco, con una desviación alrededor de una unidad.

Page 19: ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE …grfia.dlsi.ua.es/repositori/grfia/otros/bernabeuRFdoctor... · 2016-01-26 · Datos Tenemos cinco ficheros .arff que contienen
Page 20: ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE …grfia.dlsi.ua.es/repositori/grfia/otros/bernabeuRFdoctor... · 2016-01-26 · Datos Tenemos cinco ficheros .arff que contienen
Page 21: ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE …grfia.dlsi.ua.es/repositori/grfia/otros/bernabeuRFdoctor... · 2016-01-26 · Datos Tenemos cinco ficheros .arff que contienen

Condensado

Tras estas pruebas se aplica el algoritmo de condensado de Hart a los diferentes conjuntos de datos.

Tras el condensado:

Nos quedamos con el 57 % de las muestras en promedio para los diferentes conjuntos..

El número de muestras eliminadas no varia prácticamente nada al aplicar la técnica de condensado en los datos sin editar y en los datos editados con kNN y kNCN.

Page 22: ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE …grfia.dlsi.ua.es/repositori/grfia/otros/bernabeuRFdoctor... · 2016-01-26 · Datos Tenemos cinco ficheros .arff que contienen

Condensado

Existen diferencias en la estimación de la tasa de acierto como podemos ver en las gráficas siguientes:

La tasa de acierto es menor que en los casos donde no se aplica condensado.

Al aplicar condensado disminuimos el tiempo de proceso ya que disponemos de un menor número de muestras.

Page 23: ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE …grfia.dlsi.ua.es/repositori/grfia/otros/bernabeuRFdoctor... · 2016-01-26 · Datos Tenemos cinco ficheros .arff que contienen
Page 24: ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE …grfia.dlsi.ua.es/repositori/grfia/otros/bernabeuRFdoctor... · 2016-01-26 · Datos Tenemos cinco ficheros .arff que contienen
Page 25: ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE …grfia.dlsi.ua.es/repositori/grfia/otros/bernabeuRFdoctor... · 2016-01-26 · Datos Tenemos cinco ficheros .arff que contienen
Page 26: ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE …grfia.dlsi.ua.es/repositori/grfia/otros/bernabeuRFdoctor... · 2016-01-26 · Datos Tenemos cinco ficheros .arff que contienen

A partir de k = 10 si que aumenta la tasa de acierto

Page 27: ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE …grfia.dlsi.ua.es/repositori/grfia/otros/bernabeuRFdoctor... · 2016-01-26 · Datos Tenemos cinco ficheros .arff que contienen

Características

Ranking proporcionado por el test de Welch para la selección de características.

NumSyncopations_IOIWindowNumNotes_OverallAvgRelative_Pitch

Range_PitchRange_PitchInterval

TypicalDeviation_PitchTypicalDeviation_PitchIntervalNumSignificant_SilencesNormality_PitchIntervalTypicalDeviation_IOITypicalDeviation_NonDiatonicNumNonSignificant_SilencesNormality_SilenceDurationAvgRelative_IOI

Normality_DurationAvg_NonDiatonicTypicalDeviation_DurationNormality_NonDiatonicRange_SilenceDuration

Range_IOIAvgRelative_PitchIntervalNum_NonDiatonicTypicalDeviation_SilenceDurationAvgRelative_SilenceDurationAvgRelative_DurationNormality_IOIRange_DurationNormality_Pitch

Page 28: ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE …grfia.dlsi.ua.es/repositori/grfia/otros/bernabeuRFdoctor... · 2016-01-26 · Datos Tenemos cinco ficheros .arff que contienen

Características

Clasificamos mediante la regla kNN para diferentes valores de k y para diferente número de características escogidas según el orden que nos proporciona el ranking.

Page 29: ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE …grfia.dlsi.ua.es/repositori/grfia/otros/bernabeuRFdoctor... · 2016-01-26 · Datos Tenemos cinco ficheros .arff que contienen

- Con pocas características (entre 2 y 4).- Funcionan mejor los valores pequeños de k.- Mejor tasa de acierto para k = 1 y 4 características.

Page 30: ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE …grfia.dlsi.ua.es/repositori/grfia/otros/bernabeuRFdoctor... · 2016-01-26 · Datos Tenemos cinco ficheros .arff que contienen

- A partir de 4 características:- Mejores resultados a medida que aumenta k- Máximo en k = 27 y 13 características.- Para valores superiores de k y nº de características la tasa de acierto disminuye

Page 31: ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE …grfia.dlsi.ua.es/repositori/grfia/otros/bernabeuRFdoctor... · 2016-01-26 · Datos Tenemos cinco ficheros .arff que contienen

Representación del valor medio de los diferentes valores de k

Page 32: ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE …grfia.dlsi.ua.es/repositori/grfia/otros/bernabeuRFdoctor... · 2016-01-26 · Datos Tenemos cinco ficheros .arff que contienen

Conclusiones

Aplicando técnicas de edición obtenemos un mejor resultado en la estimación de la tasa de acierto al eliminar algunos puntos conflictivos.

Para valores pequeños de k apenas se eliminan muestras.

Aplicando condensado nos quedamos solo con el 57 % de las muestras.Aumentando la eficiencia.En general la tasa de acierto disminuye.

- Al aplicar el condensado después de la edición observamos que la tasa de acierto aumenta cuando la edición se ha realizado con valores de k superiores a 10 (pero no llega a superar a los datos sin condensar)

Observamos que la mejor tasa de acierto se produce cuando cogemos las 13 primeras características ordenadas según el test de Welch.

Para mayor número de características la tasa de acierto disminuye.