reparaciones del habla en el corpus...

11
1 Reparaciones del habla Reparaciones del habla en el corpus DIME en el corpus DIME Iván Iván Moreno Moreno Ávila Ávila Dr. Luis A. Pineda Dr. Luis A. Pineda IIMAS, UNAM IIMAS, UNAM Mayo, 2006 El Proyecto DIME, DCC-IIMAS, UNAM 2006 Contenido Contenido Introducción Introducción Trabajo empírico Trabajo empírico Detección de las reparaciones del habla Detección de las reparaciones del habla Corrección de las reparaciones del habla Corrección de las reparaciones del habla El Proyecto DIME, DCC-IIMAS, UNAM 2006 Contenido Contenido Introducción Introducción Trabajo empírico Trabajo empírico Detección de las reparaciones del habla Detección de las reparaciones del habla Corrección de las reparaciones del habla Corrección de las reparaciones del habla El Proyecto DIME, DCC-IIMAS, UNAM 2006 El caso ideal … El caso ideal … Sistema Reconocedor del Habla ¿me puedes mostrar los gabinetes? “¿me puedes mostrar los gabinetes?” El Proyecto DIME, DCC-IIMAS, UNAM 2006 La La realidad realidad … SRH a donde está las alacenas los gabinetes a donde está los gabinetesParser ¿Mejor? El Proyecto DIME, DCC-IIMAS, UNAM 2006 Forma estándar Forma estándar puedo puedo eh eh puedes puedes borrar el fregadero borrar el fregadero reparandum Punto de interrupción Término de edición Alteración (Allen & Heeman)

Transcript of reparaciones del habla en el corpus...

Page 1: reparaciones del habla en el corpus DIMEturing.iimas.unam.mx/~luis/DIME/presentaciones/pres-Corpus-DIME/... · Construcción de un árbol de decisión para detectar las reparaciones

1

Reparaciones del habla Reparaciones del habla

en el corpus DIMEen el corpus DIMEIvánIván Moreno Moreno ÁvilaÁvilaDr. Luis A. PinedaDr. Luis A. Pineda

IIMAS, UNAMIIMAS, UNAMMayo, 2006

El Proyecto DIME, DCC-IIMAS, UNAM 2006

ContenidoContenido

�� IntroducciónIntroducción

�� Trabajo empíricoTrabajo empírico

�� Detección de las reparaciones del hablaDetección de las reparaciones del habla

�� Corrección de las reparaciones del hablaCorrección de las reparaciones del habla

El Proyecto DIME, DCC-IIMAS, UNAM 2006

ContenidoContenido

�� IntroducciónIntroducción

�� Trabajo empíricoTrabajo empírico

�� Detección de las reparaciones del hablaDetección de las reparaciones del habla

�� Corrección de las reparaciones del hablaCorrección de las reparaciones del habla

El Proyecto DIME, DCC-IIMAS, UNAM 2006

El caso ideal …El caso ideal …

Sistema

Reconocedor

del Habla

¿me puedes mostrar los gabinetes?

“¿me puedes mostrar los gabinetes?”

El Proyecto DIME, DCC-IIMAS, UNAM 2006

La La realidadrealidad ……

SRH

a donde está las alacenas los gabinetes

“a donde está los gabinetes”

Parser ¿Mejor?

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Forma estándarForma estándar

puedopuedo eh eh puedespuedes borrar el fregaderoborrar el fregadero

reparandum

Punto de interrupción

Término de edición

Alteración

(Allen & Heeman)

Page 2: reparaciones del habla en el corpus DIMEturing.iimas.unam.mx/~luis/DIME/presentaciones/pres-Corpus-DIME/... · Construcción de un árbol de decisión para detectar las reparaciones

2

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Clasificación de las reparaciones del Clasificación de las reparaciones del

hablahabla

�� Fresh startsFresh starts

�� Modification repairsModification repairs

�� Abridged repairsAbridged repairs

(Heeman, 1997)

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Fresh startsFresh starts

Ocurre cuando el hablante abandona la elocución Ocurre cuando el hablante abandona la elocución y comienza de nuevo.y comienza de nuevo.

el tercero pareceel tercero parece <<bnbn> > a vera ver fregadero con fregadero con lavatrasteslavatrastes

reparandum

Punto de interrupción

Alteración

(Heeman, 1997)

Término de

edición

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Modification repairsModification repairs

Esta clase toma el resto de las reparaciones que Esta clase toma el resto de las reparaciones que tienen un tienen un reparandumreparandum no vacío.no vacío.

entonces entonces el primeroel primero <<bnbn> > el terceroel tercero

reparandum

Punto de interrupción

Alteración

(Heeman, 1997)

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Abridged repairsAbridged repairs

Estas reparaciones sólo tiene término de edición, Estas reparaciones sólo tiene término de edición, sin sin reparandumreparandum ni alteración.ni alteración.

ahora <ahora <silsil> quiero ver <> quiero ver <silsil> > eheh los fregaderoslos fregaderos

Punto de interrupción

Término de edición

(Heeman, 1997)

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Relación con las reparaciones del Relación con las reparaciones del

habla: segmentaciónhabla: segmentación

Cuando una reparación del habla aparece es Cuando una reparación del habla aparece es difícil el diálogo en elocuciones porque es fácil difícil el diálogo en elocuciones porque es fácil de confundir un punto de interrupción con un de confundir un punto de interrupción con un límite límite entonativoentonativo de frase.de frase.

En particular este problema ocurre in los En particular este problema ocurre in los freshfreshstartsstarts..

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Relación con las reparaciones del Relación con las reparaciones del

habla: marcadores del discursohabla: marcadores del discurso

Los marcadores del discurso pueden ser útiles Los marcadores del discurso pueden ser útiles para determinar cuando una reparación del para determinar cuando una reparación del habla ocurre. En general, el término de edición habla ocurre. En general, el término de edición está formado por marcadores del discurso. está formado por marcadores del discurso.

Los marcadores del discurso podrían ayudar a Los marcadores del discurso podrían ayudar a identificar a los identificar a los abridgedabridged repairrepair, por estar , por estar formados por términos de ediciónformados por términos de edición

Page 3: reparaciones del habla en el corpus DIMEturing.iimas.unam.mx/~luis/DIME/presentaciones/pres-Corpus-DIME/... · Construcción de un árbol de decisión para detectar las reparaciones

3

El Proyecto DIME, DCC-IIMAS, UNAM 2006

ContenidoContenido

�� IntroducciónIntroducción

�� Trabajo empíricoTrabajo empírico

�� Detección de las reparaciones del hablaDetección de las reparaciones del habla

�� Corrección de las reparaciones del hablaCorrección de las reparaciones del habla

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Trabajo empíricoTrabajo empírico

�� Definición de niveles de etiquetación y del Definición de niveles de etiquetación y del conjunto de etiquetasconjunto de etiquetas

�� Trabajo de trascripciónTrabajo de trascripción

�� Identificación de variables útiles para identificar Identificación de variables útiles para identificar las reparaciones del hablalas reparaciones del habla

�� Construcción de un árbol de decisión para Construcción de un árbol de decisión para detectar las reparacionesdetectar las reparaciones

�� Construcción de un programa heurístico para Construcción de un programa heurístico para corregir algunas de las reparaciones más comunescorregir algunas de las reparaciones más comunes

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Niveles de etiquetaciónNiveles de etiquetación

�� Reparaciones del hablaReparaciones del habla

�� Identificación de las categorías léxicas Identificación de las categorías léxicas –– POS POS ((PartPart--OfOf--SpeechSpeech))

�� Marcadores del DiscursoMarcadores del Discurso

�� Índices de separación de palabras (Índices de separación de palabras (Break indicesBreak indices))

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Niveles de etiquetaciónNiveles de etiquetación

�� Reparaciones del hablaReparaciones del habla

�� Identificación de las categorías léxicas Identificación de las categorías léxicas –– POS POS ((PartPart--OfOf--SpeechSpeech))

�� Marcadores del DiscursoMarcadores del Discurso

�� Índices de separación de palabras (Índices de separación de palabras (Break indicesBreak indices))

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Niveles de las reparaciones del hablaNiveles de las reparaciones del habla

Niveles de etiquetación de las reparaciones del Niveles de etiquetación de las reparaciones del habla:habla:

�� EstructuraEstructura

�� TipoTipo

�� RelacionesRelaciones

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Reparaciones del habla: EstructuraReparaciones del habla: Estructura

Estructura

Page 4: reparaciones del habla en el corpus DIMEturing.iimas.unam.mx/~luis/DIME/presentaciones/pres-Corpus-DIME/... · Construcción de un árbol de decisión para detectar las reparaciones

4

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Reparaciones del habla: TipoReparaciones del habla: Tipo

Tipo

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Etiquetas de las reparaciones del Etiquetas de las reparaciones del

hablahabla�� srrsrr<<

�� mimi

�� riri

�� xrxr

�� pipi

�� etet

Se usa para marcar el principio del Se usa para marcar el principio del reparandumreparandum de un de un freshfresh startstart..

Se usa cuando 2 palabras son similares.Se usa cuando 2 palabras son similares.

Se usa cuando una palabra reemplaza a otra.Se usa cuando una palabra reemplaza a otra.

Se usa cuando una palabra es eliminada o insertada.Se usa cuando una palabra es eliminada o insertada.

Se usa para marcar la correspondencia de varias Se usa para marcar la correspondencia de varias palabras, como es el reemplazo de un pronombre palabras, como es el reemplazo de un pronombre por una descripción más larga.por una descripción más larga.

Se usa para marcar el término de edición.Se usa para marcar el término de edición. (Heeman, 1997)

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Reparaciones del habla: RelacionesReparaciones del habla: Relaciones

Relación

El Proyecto DIME, DCC-IIMAS, UNAM 2006

El esquema de etiquetado El esquema de etiquetado

completo…completo…

Tipo

Estructura

Relación

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Elocuciones con más de una Elocuciones con más de una

reparaciónreparación

Cada reparación es etiquetada individualmente:Cada reparación es etiquetada individualmente:

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Niveles de etiquetaciónNiveles de etiquetación

�� Reparaciones del hablaReparaciones del habla

�� Identificación de las categorías léxicas Identificación de las categorías léxicas –– POS POS ((PartPart--OfOf--SpeechSpeech))

�� Marcadores del DiscursoMarcadores del Discurso

�� Índices de separación de palabras (Índices de separación de palabras (Break indicesBreak indices))

Page 5: reparaciones del habla en el corpus DIMEturing.iimas.unam.mx/~luis/DIME/presentaciones/pres-Corpus-DIME/... · Construcción de un árbol de decisión para detectar las reparaciones

5

El Proyecto DIME, DCC-IIMAS, UNAM 2006

El conjunto de etiquetasEl conjunto de etiquetas

�� Referencia de etiquetados:Referencia de etiquetados:�� PennPenn treetree bankbank

�� Tesis de Montserrat Tesis de Montserrat CivitCivit

�� Tesis de Tesis de HeemanHeeman

�� Trabajo Trabajo enmpíricoenmpírico del corpus DIMEdel corpus DIME

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Conjunto de etiquetasConjunto de etiquetas�� NN

�� VV

�� VAMVAM

�� VCVC

�� AA

�� ADAD

�� TDTD

�� TITI

�� RR

�� RIRI

�� RRRR

�� RNRN

�� RARA

�� PP

�� PDPD

�� PRPR

�� PIPI

�� PCPC

�� SS

�� CC

SustantivoSustantivoVerboVerboVerbo Auxiliar Verbo Auxiliar –– ModalModalVerbo con Verbo con clíticoclíticoAdjetivoAdjetivoAdjetivo DemostrativoAdjetivo DemostrativoArtículo DefinidoArtículo DefinidoArtículo IndefinidoArtículo IndefinidoAdverbioAdverbioAdverbio InterrogativoAdverbio InterrogativoAdverbio RelativoAdverbio RelativoAdverbio de NegaciónAdverbio de NegaciónAdverbio de AfirmaciónAdverbio de AfirmaciónPronombrePronombrePronombre DemostrativoPronombre DemostrativoPronombre RelativoPronombre RelativoPronombre InterrogativoPronombre InterrogativoPronombre con Pronombre con clíticoclíticoPreposiciónPreposiciónConjunciónConjunción

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Nivel de POSNivel de POS

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Niveles de etiquetaciónNiveles de etiquetación

�� Reparaciones del hablaReparaciones del habla

�� Identificación de las categorías léxicas Identificación de las categorías léxicas –– POS POS ((PartPart--OfOf--SpeechSpeech))

�� Marcadores del DiscursoMarcadores del Discurso

�� Índices de separación de palabras (Índices de separación de palabras (Break indicesBreak indices))

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Etiquetas de los marcadores del Etiquetas de los marcadores del

discursodiscursoCuando una palabra es un marcador del discurso Cuando una palabra es un marcador del discurso se etiqueta utilizando la etiqueta que le se etiqueta utilizando la etiqueta que le correspondería en POS anteponiendo le el prefijo correspondería en POS anteponiendo le el prefijo “MD”:“MD”:

SustantivoSustantivoVerboVerboAdjetivoAdjetivoAdverbioAdverbioConjunciConjuncióónnInterjecciInterjeccióónnAcknowledgmentAcknowledgment““esteeste””

�� MDNMDN�� MDVMDV�� MDAMDA�� MDRMDR�� MDCMDC�� MDIMDI�� MDKMDK�� MDesteMDeste

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Nivel de marcadores del discursoNivel de marcadores del discurso

Page 6: reparaciones del habla en el corpus DIMEturing.iimas.unam.mx/~luis/DIME/presentaciones/pres-Corpus-DIME/... · Construcción de un árbol de decisión para detectar las reparaciones

6

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Niveles de etiquetaciónNiveles de etiquetación

�� Reparaciones del hablaReparaciones del habla

�� Identificación de las categorías léxicas Identificación de las categorías léxicas –– POS POS ((PartPart--OfOf--SpeechSpeech))

�� Marcadores del DiscursoMarcadores del Discurso

�� Índices de separación de palabras (Índices de separación de palabras (Break indicesBreak indices))

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Nivel de Nivel de break indicesbreak indices

�� 00

�� 11

�� 22

�� 33

�� 44

SinalefaSinalefa

Límite de palabraLímite de palabra

Punto de interrupciónPunto de interrupción

EnumeracionesEnumeraciones

límite límite entonativoentonativo de frasede frase(Isabel López, 2006)

El Proyecto DIME, DCC-IIMAS, UNAM 2006

NivelNivel de break indicesde break indices

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Todos los niveles…Todos los niveles…

Reparaciones del habla (Tipo)

Reparaciones del habla (Estructura)

Reparaciones del habla (Relaciones)

Marcadores del discurso

POS

Break indices

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Corpus DIMECorpus DIME

Hasta el momento se Hasta el momento se han etiquetado 8 han etiquetado 8 diálogos del corpus diálogos del corpus DIME:DIME:

11051105TOTALTOTAL

8181d23d23

105105d19d19

237237d17d17

9090d15d15

191191d13d13

117117d12d12

168168d03d03

116116d01d01

No. elocucionesNo. elocucionesDiálogoDiálogo

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Etiquetación por nivelEtiquetación por nivel

1085108543143110510511051105TotalTotal

8181404011118181d23d23

105105474777105105d19d19

2362361041041919237237d17d17

838300559090d15d15

189189626266191191d13d13

11511536361212117117d12d12

16116193931919168168d03d03

11511549492626116116d01d01

POSPOSMarcadores del Marcadores del

discursodiscurso

Reparaciones Reparaciones

del habladel habla

No. No.

elocucioneselocuciones

DiálogoDiálogo

Page 7: reparaciones del habla en el corpus DIMEturing.iimas.unam.mx/~luis/DIME/presentaciones/pres-Corpus-DIME/... · Construcción de un árbol de decisión para detectar las reparaciones

7

El Proyecto DIME, DCC-IIMAS, UNAM 2006

ContenidoContenido

�� IntroducciónIntroducción

�� Trabajo empíricoTrabajo empírico

�� Detección de las reparaciones del hablaDetección de las reparaciones del habla

�� Corrección de las reparaciones del hablaCorrección de las reparaciones del habla

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Reparaciones del habla en el corpus Reparaciones del habla en el corpus

DIMEDIME

A pesar de que las elocuciones con reparaciones del habla A pesar de que las elocuciones con reparaciones del habla son un poco menos del 10% de la información actual, son un poco menos del 10% de la información actual, éstas presentan características similares las cuales son:éstas presentan características similares las cuales son:

�� DuraciónDuración

�� Número de palabrasNúmero de palabras

�� SilenciosSilencios

�� Acto del DiálogoActo del Diálogo

El Proyecto DIME, DCC-IIMAS, UNAM 2006

DuraciónDuración

0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 11000 12000 13000 14000 15000 16000 17000 18000 19000 20000

Todas las elocuciones Elocuciones con r epar aciones El Proyecto DIME, DCC-IIMAS, UNAM 2006

Duración: RangosDuración: Rangos

0

100

200

300

400

500

600

700

800

900

0 - 2000 2001 -

4000

4001 -

6000

6001 -

8000

8001 -

10000

10001 -

12000

12001 -

14000

14001 -

……..

All Utt's Utt's with speech repairs

Es el 76.72% de la información y sólo el

0.96% presenta reparación del habla

El Proyecto DIME, DCC-IIMAS, UNAM 2006

0

50

100

150

200

250

300

350

400

450

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 >31

Todas las elocuciones Elocuciones con reparaciones

Número de PalabrasNúmero de Palabras

R1 R2 R3

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Número de palabras en R1Número de palabras en R1

0

50

100

150

200

250

300

350

400

450

1 2 3 4 5 6

Todas las elocuciones Elocuciones con reparaciones

Es el 78.46% de las elocuciones y sólo el

2.34% tiene reparaciones

Page 8: reparaciones del habla en el corpus DIMEturing.iimas.unam.mx/~luis/DIME/presentaciones/pres-Corpus-DIME/... · Construcción de un árbol de decisión para detectar las reparaciones

8

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Número de palabras en R2Número de palabras en R2

0

5

10

15

20

25

30

35

40

45

7 8 9 10 11 12 13 14 15

Todas las elocuciones Elocuciones con reparaciones

Tiene el 18.52% y el

30.69% presenta reparaciones

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Número de palabras en R3Número de palabras en R3

0

1

2

3

4

5

6

7

8

9

10

16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 >31

All utt's Utt's with Speech Repair

Es el 3.02% de las elocuciones y casi el

70% presenta reparaciones

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Duración y número de palabrasDuración y número de palabras

0

5

10

15

20

25

30

35

40

0 2000 4000 6000 8000 10000 12000 14000 16000 18000 20000

R3

R2

R1

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Duración y número de palabrasDuración y número de palabras

624362435568346834991515

549754975552665266991414

57895789664902490211111313

70397039665378537816161212

50635063774289428919191111

3622362212123507350732321010

445644566629022902333399

297829787728182818343488

293929398824612461393977

Duración Duración promediopromedio

Elocuciones Elocuciones con con

reparacionesreparaciones

Duración Duración promediopromedio

Número de Número de elocucioneselocuciones

Número Número de palabrasde palabras

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Duración y número de palabrasDuración y número de palabras

13%

57%

30%Duración de una

elocución sin disfluencia

es mayor

Duración de una

elocución con disfluencia

es mayor

Anbas son iguales

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Duración de un silencioDuración de un silencio

0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 6000 6500 7000 7500 8000 8500 9000

Todas las elocuciones Si lencios en una r epar aci on

Page 9: reparaciones del habla en el corpus DIMEturing.iimas.unam.mx/~luis/DIME/presentaciones/pres-Corpus-DIME/... · Construcción de un árbol de decisión para detectar las reparaciones

9

El Proyecto DIME, DCC-IIMAS, UNAM 2006

SilenciosSilencios

0

50

100

150

200

250

300

350

400

450

500

0 - 500 500 -

1000

1000 -

1500

1500 -

2000

2000 -

2500

2500 -

3000

3000 -

……

All silences Silence in Speech Repairs

El Proyecto DIME, DCC-IIMAS, UNAM 2006

SilencioSilencio

En este caso la duración del silencio no es tan En este caso la duración del silencio no es tan significante, sin embargo, la presencia del silencio significante, sin embargo, la presencia del silencio sí lo es: 85.71 % de las elocuciones con al menos sí lo es: 85.71 % de las elocuciones con al menos una reparación presentan un silencio.una reparación presentan un silencio.

Elocucione

s con

silencio

Elocucione

s sin

silencio

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Reparaciones del habla Reparaciones del habla vsvs acto del acto del

diálogodiálogo

64%

30%

4%

1%

1%

6%

Directiva de acción

Afirmación

Solicitud de

información

Opción abierta

Monólogo

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Construcción del árbol de decisiónConstrucción del árbol de decisión

�� Atributos de entrenamiento:Atributos de entrenamiento:�� Duración de la elocuciónDuración de la elocución

�� Presencia de silencioPresencia de silencio

�� Número de palabrasNúmero de palabras

�� Tipo de acto de diálogoTipo de acto de diálogo

�� Objetivo: Sí o No!Objetivo: Sí o No!

�� Herramienta: Árboles estilo CART (J.48) Herramienta: Árboles estilo CART (J.48) utilizando el software WEKAutilizando el software WEKA

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Construcción del árbol de decisiónConstrucción del árbol de decisión

�� Datos de entrenamiento:Datos de entrenamiento:�� 105 elocuciones con reparaciones105 elocuciones con reparaciones

�� 105 elocuciones sin reparaciones105 elocuciones sin reparaciones

�� La relación de elocuciones con y sin La relación de elocuciones con y sin reparaciones es uno en cada diálogoreparaciones es uno en cada diálogo

El Proyecto DIME, DCC-IIMAS, UNAM 2006

ExperimentoExperimento

Duración

Acto del diálogo

Silencio

No. palabras

No. palabras

Duración DuraciónDuración

Duración

Page 10: reparaciones del habla en el corpus DIMEturing.iimas.unam.mx/~luis/DIME/presentaciones/pres-Corpus-DIME/... · Construcción de un árbol de decisión para detectar las reparaciones

10

El Proyecto DIME, DCC-IIMAS, UNAM 2006

EstadísticasEstadísticas

Casos correctamente clasificados: 86.73%

Kappa: 0.73

0.950.82Tiene reparación

0.760.94No tiene reparación

RecallPrecisión

El Proyecto DIME, DCC-IIMAS, UNAM 2006

ContenidoContenido

�� IntroducciónIntroducción

�� Trabajo empíricoTrabajo empírico

�� Detección de las reparaciones del hablaDetección de las reparaciones del habla

�� Corrección de las reparaciones del hablaCorrección de las reparaciones del habla

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Distribución de las reparaciones del Distribución de las reparaciones del

hablahabla

79%

12%

9%

modif ication repair

abridged repair

freshstart

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Repetición enRepetición en modification repairsmodification repairs

Elocucione

s con

repetición

Elocucione

s sin

repetición

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Modification repair: Modification repair: repeticiónrepetición

Con el propósito de corregir las elocuciones Con el propósito de corregir las elocuciones con con modification repairsmodification repairs, en especial las , en especial las repeticiones, otras variables pueden ser de repeticiones, otras variables pueden ser de utilidad: la repetición de palabras y la utilidad: la repetición de palabras y la separación (en palabras) entre palabras separación (en palabras) entre palabras repetidas.repetidas.

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Separación entre palabras repetidasSeparación entre palabras repetidas

0

5

10

15

20

25

30

35

40

45

50

0 1 2 3 4 5 6 7 8 9

Todas las elocuciones Sin reparación Con modification repair

Page 11: reparaciones del habla en el corpus DIMEturing.iimas.unam.mx/~luis/DIME/presentaciones/pres-Corpus-DIME/... · Construcción de un árbol de decisión para detectar las reparaciones

11

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Experimento: corregir una Experimento: corregir una

reparación del hablareparación del habla

1.1. Se toma el nivel de palabrasSe toma el nivel de palabras

2.2. Se Se identificanidentifican laslas palabraspalabras repetidasrepetidas y se y se obtieneobtiene la la separaciónseparación entreentre ellasellas

estufaestufalalaconconla la conconigualigualeheh

1111

estufaestufalalaconconla la conconigualigualeheh

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Experimento: corregir una Experimento: corregir una

reparación del hablareparación del habla

3.3. Group words and fix distance per group:Group words and fix distance per group:

4.4. All groups with a distance less or equal to 2 are All groups with a distance less or equal to 2 are removed:removed:

00

estufaestufala la conconigualigualeheh

estufaestufalalaconconla la conconigualigualeheh

00

1111

estufaestufalalaconconla la conconigualigualeheh

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Experimento: corregir una Experimento: corregir una

reparación del hablareparación del habla

�� Corrección de Corrección de modification repairsmodification repairs: si la : si la distancia distancia ≤≤ 2, remover hasta la palabra repetida2, remover hasta la palabra repetida

terceroterceroelelentoncesentonces

1111

1111

terceroterceroelelprimeroprimeroelelentoncesentonces

El Proyecto DIME, DCC-IIMAS, UNAM 2006

ResultadosResultados

�� Precisión: 0.94Precisión: 0.94

�� Recall: 0.75Recall: 0.75

23%23%4%4%No se debía corregirNo se debía corregir

18%18%55%55%Se debía corregirSe debía corregir

No se corrigióNo se corrigióSe corrigióSe corrigió

El Proyecto DIME, DCC-IIMAS, UNAM 2006

Trabajo futuro…Trabajo futuro…

�� Para mejorar la detección de las reparaciones del Para mejorar la detección de las reparaciones del habla un estudio del tono puede llevarse acabo habla un estudio del tono puede llevarse acabo usando el modelo INTSINT.usando el modelo INTSINT.

�� Para detectar y corregir las reparaciones del Para detectar y corregir las reparaciones del habla restantes es necesario que todo el corpus habla restantes es necesario que todo el corpus sea etiquetado para obtener más información.sea etiquetado para obtener más información.

�� Un análisis de los marcadores del discurso puede Un análisis de los marcadores del discurso puede ser elaborado para corregir losser elaborado para corregir los abridged repairs.abridged repairs.

GraciasGracias