ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE...

Post on 21-Jul-2020

2 views 0 download

Transcript of ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE...

CURSO DE DOCTORADO

ESTUDIO Y APLICACIÓN DE TÉCNICAS DE RECONOCIMIENTO DE FORMAS

CURSO 2007-2008

JOSE FRANCISCO BERNABEU BRIONES

Implementaciones

Algoritmo kNN

Algoritmo kNCN

Edición de Wilson kNN

Edición de Wilson kNCN

Condensado de Hart

EDICION WILSON kNCN

EDICION WILSON kNN

Datos

Tenemos cinco ficheros .arff que contienen muestras con 28 características.

9400 muestras en total.

Extraídas de la colección de ficheros midi jvc1+2.

Generadas con el script MWE (MidiWindowsExtractor):

Ancho de ventana w = 30

Desplazamiento d = 1

Datos

Una vez obtenemos los datos:

Se rellenan (con la media) los valores de atributo que se hayan perdido.(Weka)

Se normalizan los valores de los atributos en el intervalo [0,1]. (Weka)

Se hace una selección de características con Weka:

Evaluador (CfsSubsetEval)Evalua el valor de un subconjunto de atributos teniendo en cuenta la habilidad predictiva individual de cada característica por medio del grado de redundancia entre ellas. Se da mayor valor a los subconjuntos que tienen una mayor correlación con la clase mientras que tienen menor intercorrelación entre clases.

Método de búsqueda (BestFirst)Busca el subconjunto de atributos mediante un algoritmo voraz con backtraking.Empieza con el conjunto vacío y va incorporando características.

Datos

Las características obtenidas son:

• WindowNumNotes_Overall

• AvgRelative_Pitch

• TypicalDeviation_Pitch

• Range_IOI

• NumSyncopations_IOI

Range_Pitch

Range_PitchInterval

Datos

Se generan 4 conjuntos de datos:

Con 28 características

Con 28 características pero cogiendo 1 de cada 4 muestras (d = 4)

Con 5 características

Con 5 características pero cogiendo 1 de cada 4 muestras (d = 4)

Cada conjunto de datos consta de cinco particiones verificando que no haya muestras de una misma canción en particiones diferentes.

Pruebas

Se realiza 5-fold cross-validation.

Clasificación con el vecino más cercano:

● Datos sin editar

● Datos editados con Wilson kNN

● Datos editados con Wilson kNCN

Para la edición

● Se prueba con diferentes valores de k, k= 1,3,..,19

Edición

Representamos las distintas técnicas de edición para cada conjunto de datos.

Número de muestras eliminadas es pequeño.De 2 a 120 muestras de unas 6000 en total, dependiendo de k

Afecta a la clasificación aumentando la tasa de acierto.

Elimina las muestras que pueden ocasionar una mala clasificación.

80

82

84

86

88

90

92

94

0 5 10 15 20

Tas

a de

aci

erto

k

28 características

Sin edicion

Wilson knn

Wilson ncn

Desviación Típica

80

82

84

86

88

90

92

94

0 5 10 15 20

Tas

a de

aci

erto

k

28 características

Sin edicion

Wilson knn

Wilson ncn

Desviación Típica

Puede que haya un error aquí

Edición

Representamos los distintos conjuntos de datos para cada una de las técnicas utilizadas.

Tasa de acierto varía muy poco, con una desviación alrededor de una unidad.

Condensado

Tras estas pruebas se aplica el algoritmo de condensado de Hart a los diferentes conjuntos de datos.

Tras el condensado:

Nos quedamos con el 57 % de las muestras en promedio para los diferentes conjuntos..

El número de muestras eliminadas no varia prácticamente nada al aplicar la técnica de condensado en los datos sin editar y en los datos editados con kNN y kNCN.

Condensado

Existen diferencias en la estimación de la tasa de acierto como podemos ver en las gráficas siguientes:

La tasa de acierto es menor que en los casos donde no se aplica condensado.

Al aplicar condensado disminuimos el tiempo de proceso ya que disponemos de un menor número de muestras.

A partir de k = 10 si que aumenta la tasa de acierto

Características

Ranking proporcionado por el test de Welch para la selección de características.

NumSyncopations_IOIWindowNumNotes_OverallAvgRelative_Pitch

Range_PitchRange_PitchInterval

TypicalDeviation_PitchTypicalDeviation_PitchIntervalNumSignificant_SilencesNormality_PitchIntervalTypicalDeviation_IOITypicalDeviation_NonDiatonicNumNonSignificant_SilencesNormality_SilenceDurationAvgRelative_IOI

Normality_DurationAvg_NonDiatonicTypicalDeviation_DurationNormality_NonDiatonicRange_SilenceDuration

Range_IOIAvgRelative_PitchIntervalNum_NonDiatonicTypicalDeviation_SilenceDurationAvgRelative_SilenceDurationAvgRelative_DurationNormality_IOIRange_DurationNormality_Pitch

Características

Clasificamos mediante la regla kNN para diferentes valores de k y para diferente número de características escogidas según el orden que nos proporciona el ranking.

- Con pocas características (entre 2 y 4).- Funcionan mejor los valores pequeños de k.- Mejor tasa de acierto para k = 1 y 4 características.

- A partir de 4 características:- Mejores resultados a medida que aumenta k- Máximo en k = 27 y 13 características.- Para valores superiores de k y nº de características la tasa de acierto disminuye

Representación del valor medio de los diferentes valores de k

Conclusiones

Aplicando técnicas de edición obtenemos un mejor resultado en la estimación de la tasa de acierto al eliminar algunos puntos conflictivos.

Para valores pequeños de k apenas se eliminan muestras.

Aplicando condensado nos quedamos solo con el 57 % de las muestras.Aumentando la eficiencia.En general la tasa de acierto disminuye.

- Al aplicar el condensado después de la edición observamos que la tasa de acierto aumenta cuando la edición se ha realizado con valores de k superiores a 10 (pero no llega a superar a los datos sin condensar)

Observamos que la mejor tasa de acierto se produce cuando cogemos las 13 primeras características ordenadas según el test de Welch.

Para mayor número de características la tasa de acierto disminuye.