Similitud fontica entre palabras para mejorar la Recuperacin de … · 2010-01-25 · Similitud...

Similitud fonética entre palabras para mejorar la Recuperación de

Información en Documentos Orales

Propuesta de Tesis Doctoral

por

Manuel Alejandro Reyes Barragán

Instituto Nacional de Astrofísica, O ptica y Electro nica Enero 2009

Tonantzintla, Puebla

Supervisada por:

Dr. Luis Villaseñor Pineda Investigador Titular del INAOE

Dr. Manuel Montes y Gómez Investigador Titular del INAOE

Índice

INTRODUCCIÓN ......................................................................................................................................... 1

1.1 PROBLEMÁTICA ............................................................................................................................................. 2 1.2 IMPACTO DEL RAH EN LA RECUPERACIÓN DE INFORMACIÓN .................................................................................. 4

PRELIMINARES .......................................................................................................................................... 7

2.1 RECUPERACIÓN DE INFORMACIÓN ..................................................................................................................... 7 2.1.1 Modelo de espacio vectorial ............................................................................................................. 7 2.1.2 Evaluación de un sistema de recuperación de información .............................................................. 9

2.2 EL RECONOCIMIENTO AUTOMÁTICO DE HABLA .................................................................................................. 11 2.2.1 Componentes de un reconocedor de habla..................................................................................... 11 2.2.2 Evaluación de un reconocedor de habla ......................................................................................... 12

TRABAJO RELACIONADO ......................................................................................................................... 15

3.1 ENFOQUE DEPENDIENTE DE LA TRANSCRIPCIÓN: NIVEL PALABRAS .......................................................................... 15 3.2 ENFOQUE INDEPENDIENTE DE LA TRANSCRIPCIÓN: NIVEL FONEMAS........................................................................ 18 3.3 ENFOQUE A NIVEL FONEMAS, DEPENDIENTE DE LA TRANSCRIPCIÓN ........................................................................ 19

PROPUESTA DE INVESTIGACIÓN .............................................................................................................. 22

4.1 OBJETIVOS ................................................................................................................................................. 25 4.2 METODOLOGÍA ........................................................................................................................................... 25 4.3 CONTRIBUCIONES ........................................................................................................................................ 27 4.4 PLAN DE TRABAJO ........................................................................................................................................ 28

RESULTADOS PRELIMINARES ................................................................................................................... 29

5.1 DESCRIPCIÓN DEL CORPUS ...................................................................................................................... 29 5.2 EXPERIMENTOS REALIZADOS .................................................................................................................. 31

CONCLUSIONES ....................................................................................................................................... 37

BIBLIOGRAFÍA ......................................................................................................................................... 38

APÉNDICE A ............................................................................................................................................ 42

Capítulo I

Introducción

La recuperación de información (RI) consiste en encontrar por medios automáticos

una determinada pieza de información dentro de una colección de documentos a partir de

una petición o consulta. Los buscadores actuales en Internet son un claro ejemplo de esta

tarea. Los cuales permiten el acceso a la información contenida en esa gran colección de

documentos escritos que es la Web. Actualmente, dado el reducido costo de los dispositivos

que almacenan los contenidos Web, se han incorporado otros tipos de documentos:

imágenes, videos, grabaciones, etc. De ahí la necesidad de abordar otras variantes de la RI.

En el caso particular de este trabajo, la RI se desea realizar sobre una colección de

grabaciones de habla (o documentos orales) en las cuales una o varias personas intervienen.

Algunos ejemplos de documentos orales son: las emisiones de noticias por radio y

televisión, discursos políticos, debates, conferencias, reuniones de negocios, lecciones en

un salón de clases, entrevistas a celebridades, testigos, personas afectadas en accidentes,

etc. Para llevar a cabo la búsqueda en este tipo de colecciones, un primer paso, consiste en

la transformación del habla a texto con ayuda de un reconocedor automático de habla

(RAH). Posteriormente, una vez que se tienen las transcripciones de los documentos orales,

se aplican las técnicas hasta ahora desarrolladas para recuperación en texto. No obstante,

dadas las condiciones de la grabación (ruido ambiental, interposición de hablantes, etc.) y el

tipo de expresión oral (conferencia, entrevista, conversación telefónica) la transcripción

final dista de ser una representación fidedigna del contenido de la grabación. Así es que

nuevos métodos de recuperación son necesarios para abordar este problema.

2

1.1 Problemática

Los avances en el reconocimiento automático de habla nos permiten la búsqueda en

grandes colecciones orales usando los métodos tradicionales de recuperación de

información. Por supuesto, la calidad de las transcripciones y, por ende, el éxito de la

recuperación está fuertemente ligado al rendimiento del reconocedor de habla. Por el

momento, para el inglés (la lengua más investigada y con el mayor número de

herramientas) es posible obtener transcripciones casi correctas siempre y cuando se trate de

elocuciones limpias y bien formadas. Por ejemplo, una computadora puede realizar la

transcripción de un lector del Wall Street Journal con tan sólo un 5% de error a nivel de

palabra (WER) (i. e. 1 error cada 20 palabras). Sin embargo, el WER empieza a elevarse en

cuanto las condiciones son más cercanas a una conversación real. En el caso de una

conversación en una transmisión radiofónica podemos tener del 15% al 20% de error. Y en

el caso de una conversación telefónica entre 30% y 40% de error. Estos datos nos dan una

idea del reto en la recuperación de información en grabaciones de conversaciones

espontáneas.

El origen de los errores en una transcripción de habla es de muy variada naturaleza.

A continuación se presentan brevemente los principales motivos que impactan en el

desempeño de un reconocedor actual para posteriormente discutir su impacto en la RI.

• Las palabras fuera del vocabulario. Uno de los principales motivos de errores en la

transcripción del habla es la constante aparición de nuevas palabras. Este constante

fenómeno de la evolución del lenguaje impacta seriamente el desempeño de un RAH ya

que es prácticamente imposible contar con un diccionario completo, el cual enumere

todos los posibles nombres de empresas, personas, lugares, organizaciones, etc. Al no

existir la entrada correcta en el diccionario de pronunciaciones, el reconocedor

intentará aproximar el habla a una (o varias) palabras contenidas dentro del diccionario.

Así la transcripción de una palabra fuera del diccionario será substituida por una

palabra fonéticamente similar, o peor aún, por un grupo de palabras cuya pronunciación

conjunta sea fonéticamente similar. Diversos trabajos han abordado especialmente el

RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES

3

problema de palabras fuera del vocabulario como [1,2], en especial los experimentos de

Witbrock and Hauptmann [3], mostraron que existe una caída del 31% en la efectividad

de la recuperación la cual puede ser atribuida a las palabras fuera del vocabulario.

• La segmentación en palabras. Otro problema es la correcta segmentación de la cadena

de fonemas en las palabras que representa. Un reconocedor elige probabilísticamente

los cortes más apropiados, lo que puede provocar una transcripción incorrecta. El

modelo de lenguaje ayuda en la segmentación asignando probabilidades a secuencias de

palabras, donde la probabilidad de una palabra viene condicionada por las palabras

precedentes. De esta manera se incorpora información lingüística al proceso de

decodificación mejorando las transcripciones propuestas. Desafortunadamente, un

modelo de lenguaje genera probabilidades altas para secuencias de palabras comunes

(tales como preposiciones, artículos, etc.). Estas partículas fácilmente podemos

encontrarlas como parte de una palabra más grande. Por ejemplo, la secuencia de

fonemas que dan origen a la palabra “elocuente”, también puede reinterpretarse como

las palabras “el lo cuente”, y donde dada la alta probabilidad de las palabras frecuentes

“el” y “lo” el reconocedor se inclinará por esta última opción.

Fenómeno Ejemplo

Repeticiones Presiona el botón… el botón derecho

Auto correcciones Cierra el escaparate... la ventana

Comentarios Dibuja una línea ... eso es... a la derecha

Expresión idiomática Genial!!! No tiene nada que hacer

“Pausas llenas” Es mmm el que está mmm a la izquierda Tabla 1.1. Ejemplos de fenómenos lingüísticos del habla espontánea

• Fenómenos del habla espontánea. Finalmente, existen otro tipo de errores generados

por el tipo de grabaciones a tratar, es diferente tener grabaciones cuyo contenido son

noticias, las cuales mantienen una temática, buena entonación y repetición de los

acontecimientos, que tener grabaciones cuyo contenido son entrevistas donde se tienen

diversos fenómenos lingüísticos propios del habla espontánea (véase la Tabla 1.1).


4

Estos fenómenos pasan inadvertidos para una persona, pero son fuente de error para un

RAH. Cabe recordar que un reconocedor intentará llevar a texto cualquier sonido

presente en la grabación, de esta forma una risa será transformada a una palabra que

podrá alterar significativamente el contenido de la transcripción.

Figure 1.1: Extracto del documento em970915.4 del TREC-7 SDR. El primer párrafo corresponde a la transcripción realizada por una persona y ha sido editada incluyendo puntuación para su legibilidad. Los otros tres pasajes son la salida de un RAH, convertido todo a minúsculas y con signos de puntuación manualmente insertados para su legibilidad. Corresponden a errores a nivel palabra de 30%, 45% y 65% en ese orden [4].

Manual transcription. In Massachusetts a common bacteria has turned into a killer. Children’s Hospital in Boston says a new and aggressive strain of pseudomonas is to blame for the deaths of four newborns this summer in its neo-natal intensive care unit. All the babies had been critically ill before they were infected. That neo-natal unit has been closed since last month, but is it is expected to reopen sometime this week. Researchers continue to investigate the bacteria outbreak there. 30% errors. in massachusetts a common bacteria has turned into a killer. children’s hospital in boston says the new and aggressive strain of sue lawless is to blame for the deaths of four newborns this summer in its neonatal intensive care you. all the babies had been critically ill before they were infected. and neonatal unit has been closed since last month but is it is expected to reopen sometime this week. researchers contain investigate the bacteria outbreak their. 45% errors. in massachusetts the common bacteria has turned into a killer. children’s hospital in boston says a new one and aggressive strain of somalis used to blame for the deaths of four new boards this summer and steel nato intent security that. all the babies had been critically ill before they were infected. did you build unity has been closed since last month but it is expected to reopen sometime this week. researchers continue to investigate the bacteria up with their. 65% errors. it in massachusetts and common bank syria has turned in school killer. children’s hospital and boston says the new and west slate of civil list is only the deaths for new ones this summer women’s neo middle instances here you life. all the babies had been critically killed before they were effective. in new unit has been close since last month with israel is expected to wield some time this week. researchers continue to investigate the bacteria with enough.

1.2 Impacto del RAH en la recuperación de Información

La calidad de una transcripción tiene un claro impacto en la tarea de recuperación.

La Figura 1.1 ilustra el problema que produce una transcripción errónea. En la figura se

presenta el pasaje original (transcripción manual) y tres transcripciones automáticas con

diferentes RAH, con diferentes tasas de error. Estos datos fueron obtenidos del TREC-7

SDR [5] y hablan sobre la muerte de infantes por una cepa mortal de una bacteria.

Suponiendo que se realiza una consulta para buscar artículos que hablen sobre

pseudomonas, este pasaje será imposible de recuperar. En ningún caso los RAH

reconocieron esta palabra (probablemente esta palabra está fuera de su vocabulario) y fue

substituida por la aquella con una pronunciación similar. Como es de suponer mientras más


5

alta la tasa de error del RAH mayor en el número de palabas más transcritas. Por ejemplo,

si la consulta también incluyera la palabra bacteria sería posible encontrar el pasaje, al

menos para las dos primeras transcripciones, pero serían menores las posibilidades para la

tercera transcripción.

Por otro lado, si la consulta fuera totalmente otra que incluyera el término Syria, se

llegaría a recuperar un pasaje totalmente inadecuado (el caso de la tercera transcripción),

que a pesar de contener el término deseado éste no sería relevante para el usuario.

Ahora bien, durante los primeros años de investigación en la recuperación de

información en colecciones orales, en específico dentro del TREC y hace poco más de una

década, se dio por sentado que la búsqueda en colecciones orales era un problema resuelto.

Tres factores influyeron para llegar a esta afirmación: (i) la tarea se realizó sobre

grabaciones de noticias radiofónicas, las cuales cuentan con una estructura clara que se

asemeja fuertemente a los documentos escritos; (ii) la redundancia presente en el lenguaje

usado – dada la naturaleza de las grabaciones– permitía que la efectividad de la búsqueda

no fuera seriamente afectada por el error introducido por el reconocedor de habla; y (iii) se

construyeron sistemas de reconocimiento de habla eficaces para la transcripción de habla

como la practicada por los locutores de radio (conocida como habla planeada o leída).

Fueron estas tres condiciones las que permitieron obtener resultados satisfactorios en la

recuperación de información. Sin embargo, en la actualidad cuando se abordaron otras

fuentes orales mucho más complejas la situación cambió drásticamente. Estas nuevas

condiciones han estimulado la investigación en la recuperación de información en

colecciones orales tales como: materiales orales de patrimonio cultural (e.g. entrevistas,

debates parlamentarios), conversaciones multipartitas (e.g. reuniones de negocios,

discusiones académicas), conversaciones emitidas por medios de comunicación (e.g.

programas de entrevista y análisis, en radio o televisión).

En este nuevo escenario las diferencias entre el lenguaje escrito y el lenguaje

hablado son más evidentes. El lenguaje hablado difiere del escrito en términos de factores

estilísticos así como en términos de qué información se transmitió explícitamente. Por

ejemplo, el lenguaje hablado no contiene signos de puntuación, capitalización o formato,

que ayudan a estructurar el mensaje a transmitir. Además, como se vio en párrafos

anteriores el habla espontánea involucra fenómenos difíciles de solucionar.


6


A diferencia de la recuperación de información en texto, donde el indexado y la

búsqueda son los retos principales, la recuperación en documentos orales es un proceso con

un número mayor de retos. Entre ellos podemos mencionar los siguientes:

• Convertir el habla en símbolos discretos que puedan ser indexados y buscados. Hasta

ahora se ha trabajado con sistemas de reconocimiento de habla y reconocedores de

fonemas (el segundo permite tratar el problema de las palabras fuera del vocabulario

que no pueden ser tratadas por el primero).

• Considerar los errores inherentes al reconociendo de habla –o de fonemas. Mientras

más libre es la conversación más difícil es su correcta transcripción. Entre las

soluciones propuestas para abordar este problema es el almacenamiento y búsqueda –a

nivel de palabras o fonemas– usando todas las transcripciones candidatas generadas por

el reconocedor (normalmente representadas gracias a un grafo), evitando restringir la

recuperación al usar sólo la transcripción más probable.

• Procesar de consultas multi-palabra. Es posible realizar una búsqueda simple con una

consulta de una sola palabra (keyword spotting) así como consultas complejas (tal y

como se realiza tradicionalmente en texto). En el primer caso, la búsqueda puede

suscribirse al grafo de reconocimiento, sin embargo, para el segundo caso una consulta

de varias palabras da una información contextual valiosa que puede ser aprovechada

para determinar el documento relevante.

• Proveer un mecanismo eficiente de búsqueda. El proceso de búsqueda debe realizarse

en tiempos razonables aún para grandes colecciones de documentos orales.

El presente trabajo aborda los tres primeros retos al proponer nuevas

representaciones de los documentos orales para mejorar su recuperación a pesar de los

errores introducidos en el proceso de reconocimiento. Antes de detallar la propuesta de tesis

se presentan a continuación conceptos preliminares sobre la recuperación de información y

el reconocimiento del habla; posteriormente se discute el trabajo relacionado a la presente

tesis, para finalmente presentar los objetivos y contribuciones del presente trabajo.

Capítulo II

Preliminares

2.1 Recuperación de información

La tarea de recuperación de información (IR) consiste en dada una colección de

documentos, obtener documentos relevantes a las necesidades de información (consultas)

formuladas en lenguaje natural por un usuario [5].

El término relevantes se refiere a que los documentos recuperados deberán estar

semánticamente relacionados a la necesidad de información del usuario, además los

documentos deberán estar ordenados de acuerdo a la relevancia que cada uno de estos tenga

con respecto a la consulta dada. Nótese que la relevancia sólo puede ser evaluada por el

usuario que formula la consulta, por lo que la evaluación de la efectividad de un sistema de

recuperación de información no puede ser del todo objetiva; aunque actualmente se han

creado colecciones de documentos estándar y desarrollado protocolos para la evaluación y

comparación de este tipo de sistemas [5, 6, 7, 8]. Tampoco se especifica el tipo de

colección ni la modalidad de los documentos, por lo que por documento nos referiremos

indistintamente a documentos de texto (transcripciones del audio), imágenes, audio, etc.

Para poder realizar la recuperación de información, es necesaria una forma de

representar los documentos, para aplicar algún modelo de recuperación. El más sencillo y

usado es el modelo de espacio vectorial.

2.1.1 Modelo de espacio vectorial

El modelo de espacio vectorial (VSM), propuesto por Salton et al [9], se basa en la

idea de que el significado de un documento está dado por las palabras que éste contiene.

Propone llevar los documentos y la consulta a una representación vectorial, obtenida por las

8

palabras contenidas en los documentos y consulta, donde la comparación de los vectores

nos indique la similitud semántica entre consulta y documentos.

En el VSM cada documento d es representado por un vector ( ) de longitud igual

al tamaño del vocabulario | |. El vocabulario de la colección es el conjunto de todos los

términos (e.g., palabras) diferentes que ocurren en la colección. Cada elemento j del vector

indica la contribución del término j en el documento representado por el vector . El

conjunto de vectores que representan a los documentos contenidos en la colección generan

un espacio vectorial donde los documentos pueden ser comparados a través de sus

representaciones. Este espacio vectorial se representa por la matriz ( ), denominada

término-documento (TD), de dimensiones , donde N es el tamaño del vocabulario de

la colección, | , y M es el número de documentos en la colección. Cada entrada

indica el peso o contribución del término tj en el documento di. Diversos esquemas de

pesado han sido propuestos, aunque el más utilizado es el denominado tf-idf (por, term-

frequency inverse-document-frequency). La forma en que se determina el valor de cada

entrada se muestra en la fórmula (2.2.1).

(2.1.1)

Donde indica el número de ocurrencias del término j en el documento di, |D| es

el número total de documentos en la colección y es el número de documentos que

contienen el término j.

Las consultas en el VSM son especificadas por sentencias de texto que son

consideradas un documento. Este documento es transformado a la misma representación

vectorial que la colección. Una vez que consulta y documentos se encuentran en la misma

representación es posible comparar el vector que representa la consulta y cada uno de los

vectores en la colección. La medida de similitud más utilizada en el VSM es la denominada

medida del coseno, descrita en la fórmula 2.1.2,


9

,∑| |

∑| | ∑| | (2.1.2)

donde sim(q; di) indica la similitud entre la consulta (q) y el documento di. es el vector

construido con los términos contenidos en la consulta q y es el vector que representa al

documento d. Con esta fórmula estamos midiendo el ángulo en el espacio |V| dimensional

entre dos vectores; considerando una normalización para que la magnitud de los vectores

no afecte el proceso de recuperación. Los documentos más similares a la consulta son

regresados como relevantes a la consulta.

2.1.2 Evaluación de un sistema de recuperación de información

En la Figura 2.1 se muestran las diferentes categorías en las que se clasifica a los

documentos para cualquier consulta, en ella es posible observar que existen documentos

recuperados y documentos que son relevantes. En un sistema perfecto, esos dos conjuntos

deberían ser iguales, i.e., sólo se recuperarían documentos relevantes. Aunque en la

realidad, los sistemas recuperan muchos documentos que no son relevantes. Para medir la

efectividad, existen dos medidas comunes: precisión y recuerdo.

La precisión es la razón del número de documentos relevantes recuperados entre el

total de documentos recuperados. La precisión es un indicador de la calidad del conjunto de

documentos entregados como respuesta a la consulta del usuario. Sin embargo, esto no

considera el número total de documentos relevantes. Un sistema podría tener una muy

buena precisión recuperando diez documentos de los cuales nueve sean relevantes (i.e., 0.9

de precisión), pero también es necesario tomar en cuenta el número total de documentos

relevantes. Si solamente hubiera nueve documentos relevantes, el sistema tendría en efecto

mucho éxito en el desempeño de su tarea, sin embargo si existieran millones de

documentos relevantes, éste no seria tan buen resultado.


10

Figura 2.1: Conjunto de Documentos Recuperados, Relevantes y Relevantes Recuperados

El recuerdo considera el número total de documentos relevantes; es la razón del

número de documentos relevantes recuperados entre en número total de documentos

relevantes existentes en la colección.

La Precisión Promedio o Average Precision (AveP) descrita en la fórmula 2.1.3, se

refiere al promedio de las precisiones calculadas en varios niveles de recuerdo para una

consulta dada.

∑ (2.1.3)

donde P(r) es la precisión del sistema a los r-documentos considerados y rel(r) es una

función binaria que nos indica si el documento recuperado, r , es relevante a la consulta o

no. Intuitivamente, esta medida indica que tan bien el sistema regresa documentos

relevantes en las primeras posiciones. En muchos foros actuales, encargados de evaluar el

desempeño de los sistemas de recuperación de información, se hace uso de colecciones

cerradas de documentos. Lo cual permite a los diferentes grupos de investigación reportar

sus resultados en términos del AveP, y de la medida MAP. Donde el MAP sólo es el

promedio de las AveP obtenidas para cada consulta [7].


11

2.2 El Reconocimiento automático de habla

Como se mencionó, antes de aplicar los métodos de recuperación de información, es

necesario contar con una transcripción del audio, la cual es generada por el reconocedor

automático del habla. El reconocimiento del habla es un proceso que convierte una señal

acústica (sonido) capturada por un micrófono –u otro dispositivo– a un conjunto de

palabras (texto). El reconocedor automático de habla (RAH) debe obtener información

procedente de diversas fuentes (acústica, fonética, fonológica, léxica, semántica) en

presencia de ambigüedades e incertidumbres para llegar a una interpretación del mensaje

acústico recibido [10].

La precisión de un RAH depende de diversos factores, como son: la calidad de la

grabación, el tamaño de vocabulario, el tipo de locutor y el tipo de habla.

2.2.1 Componentes de un reconocedor de habla

Figura 2.2 Arquitectura de un reconocedor automático de habla

A continuación se presenta brevemente los principales componentes de un

reconocer de habla:

• Los modelos acústicos: son representaciones estadísticas de los sonidos del habla. Se

calculan a partir de un enorme conjunto de grabaciones de habla y sus correspondientes

transcripciones fonéticas. En otras palabras el modelo acústico, proporciona al RAH


12

información sobre las propiedades y características de los sonidos del habla y los asocia

con su correspondiente grafema.

• El modelo del lenguaje: provee información lingüística sobre la secuencia del texto. A

menudo está basado en modelos de lenguaje estadísticos como n-gramas. Un modelo de

lenguaje de n-gramas es de la forma P(wn|w1,…,wn-1), lo cual capta la probabilidad de

observar la palabra wn dadas las palabras anteriores w1,…,wn-1. En otras palabras el

modelo de lenguaje, contiene la información de cómo se deben combinar las palabras

para formar frases.

• El diccionario de pronunciaciones (vocabulario): indica el conjunto de sonidos con los

que se forma cada palabra del vocabulario, y en su caso, las variantes en la

pronunciación de una misma palabra.

• La máquina de decodificación: busca la mejor secuencia de palabras, dadas las

características acústicas, el diccionario de pronunciación y el modelo del lenguaje.

En general, todos estos componentes se ajustan a escenarios concretos, ya sea a un

determinado vocabulario, locutor o tema (o combinaciones de ellos). Sin embargo, a pesar

de mejorar el rendimiento del reconocedor al especializarlo de esta forma, se pierde la

generalidad del mismo. Así que este compromiso varía dependiendo de la aplicación

deseada.

Al terminar el proceso del reconocimiento de habla, tenemos una secuencia de

palabras, que debido a los errores introducidos, dista de ser una representación fidedigna

del contenido de la grabación. Por lo que se vuelve necesario una forma de evaluar que tan

cercana es la transcripción, con lo que realmente decía la grabación. En la siguiente sección

se menciona la forma de cuantificar los errores.

2.2.2 Evaluación de un reconocedor de habla

Para expresar la calidad del reconocedor automático de habla, se hace necesaria una

medida que permita llevar a cabo una interpretación clara de los errores encontrados. Sería

deseable encontrar una medida que aporte toda la información necesaria para comprender

los problemas del sistema de reconocimiento, que permita compararlo y clasificarlo. Sin


13

embargo, no existe una medida que contenga tanta información como sería deseable. A

pesar de ello, se utilizan diversas medidas que aunque no poseen todas las características

deseadas, son ampliamente aceptadas por la comunidad.

La medida más comúnmente utilizada en la evaluación de los sistemas de

reconocimiento de habla es el error a nivel palabra (WER por sus siglas en inglés). Este

método emplea la programación dinámica para llevar a cabo un alineamiento temporal de

dos secuencias. Calcula el número mínimo de inserciones, borrados y sustituciones (de una

palabra por otra) necesarios para transformar una frase en otra. Esta medida se basa en la

distancia de edición o de Levensthein, con la salvedad de que esta última se calcula a nivel

de letra y WER lo hace a nivel de palabra. La figura 2.3 muestra ejemplos de los tres tipos

de errores que se miden comúnmente para determinar el rendimiento de un reconocedor de

habla: inserción, borrado y sustitución.

Figura 2.3: Errores generados por un reconocedor automático de habla.

Inserción ( I ): cuando una palabra reconocida no se corresponde con nada

presente en la entrada del reconocedor Referencia el presidente Vicente Fox *** regreso a México Transcrita el presidente vicente fox QUE regreso a mexico

Borrado ( D ): cuando nada en la salida del reconocedor en ese instante de

tiempo, se corresponde con una palabra concreta presente en su entrada

Referencia no DEJA de ser una cuestión muy importante Transcrita no **** de ser una cuestion muy importante

Sustitución ( S ): la palabra reconocida no coincide con la palabra presente en

la entrada del reconocedor Referencia el derecho de la Unión Europea Transcrita el derecho de la UN europea


14


Si definimos Nr como el total de palabras en la transcripción de referencia, S como

el número total de palabras substituidas, D como el número total de palabras eliminadas en

la transcripción automática, I como en número total de inserciones en la transcripción

automática, el error a nivel palabra WER quedaría definido como en la fórmula 2.1.4 [6].

(2.1.4)

Como es de esperarse a mayor tasa de error en una transcripción menor la eficacia

en la recuperación. Diversos trabajos [12, 13, 14] lo han demostrado (véase por ejemplo la

Tabla 5.1), sin embargo no es claro que tipo de error (i. e. sustitución, borrado o inserción)

es el que más impacta en la tarea de recuperación. Los trabajos actuales no hacen una

distinción explícita del tipo de error que abordan o tratan de resolver, tal y como se verá en

la siguiente sección. En ésta, se detallan los principales trabajos relacionados a este tema de

investigación.

Capítulo III

Trabajo Relacionado

Como se mencionó en el capítulo 1, los retos bajo esta problemática son variados,

en nuestro caso nos enfocamos exclusivamente a la recuperación de información de

documentos orales transcritos. Los enfoques más utilizados bajo estas circunstancias se

pueden agrupar en aquellos cuya unidad de indexado es la palabra (proveniente de las

transcripciones automáticas) y en aquellos cuya unidad de indexado es el fonema. Los

primeros surgen por la facilidad de su implementación, reutilizar técnicas conocidas y son

los que obtienen mejores resultados; y los segundos surgen por las deficiencias de los

primeros. En las siguientes secciones se muestran estos enfoques, así como diferentes

trabajos representativos de ellos.

3.1 Enfoque dependiente de la transcripción: nivel palabras

Este enfoque consiste en aplicar técnicas tradicionales de recuperación de

información sobre las transcripciones automáticas. Como primer paso se genera la

transcripción del audio, que consiste en transformar el habla contenida en una grabación de

audio en texto, usando un reconocedor automático de habla. A partir de las transcripciones

generamos un índice de las palabras presentes en la transcripción (vocabulario). Entonces

se puede realizar la recuperación de documentos, por ejemplo aplicando el modelo de

espacio vectorial mencionado en el capítulo 2.

En la figura 3.1 se muestra un ejemplo de un fragmento de una transcripción

automática y su referencia manual, donde se puede observar que si se realizara una consulta

referente a Saddam Hussein, será imposible de recuperar el documento, debido a que las

palabras indexadas serían “sit”, “down”, “the”, “same”, por lo que no se puede hacer un

símil con las palabras “Saddam” y “Hussein”.

16

Manual the efforts by certain states to circumvent UN sanctions

against the Saddam Hussein regime in Iraq ASR the efforts by certain States to circumvent U. N. sanctions

against the sit down the same regime in Iraq Tabla 3.1. Ejemplo de la transcripción de un fragmento de un documento.

Dentro de este enfoque se encuentra el trabajo de Brown et al., [15] que es uno de

los primeros trabajos en desarrollar un sistema para recuperar video mensajes por medio

del reconocimiento del habla. El trabajo fue muy restringido ya que sólo reconocía 35

palabras diferentes, el RAH era dependiente del hablante y debía usarse en un ambiente

controlado. El proceso consistía en usar un reconocedor de habla el cual regresaba una lista

de palabras para indexarlas después con una máquina de recuperación de información. Los

mejores resultados obtenidos fue un rendimiento (precisión) del 87.6% en comparación del

obtenido con respecto al texto.

Otros trabajos abordaron el problema de las palabras mal reconocidas, utilizando

técnicas de expansión de documentos. Con la expansión se agregarán a un documento

palabras temáticamente relacionadas, si consideramos que el documento es en su mayoría

correctamente transcrito, existen fuertes posibilidades de que se agregaran las palabras que

el RAH transcribió incorrectamente.

Una forma de aplicar la expansión de los documentos, es realizarla sobre el mismo

corpus, esto bajo la suposición de que el reconocedor no siempre se equivoca en las mismas

palabras [16]. En el ejemplo de la figura 1, el RAH que tiene un error del 65% primero

reconoce la palabra “bacteria” como “bank syria”, sin embargo la segunda ocasión la

reconoce adecuadamente. Por lo que con la expansión se podrían agregar las palabras

correctas a los documentos, sin embargo en la misma figura 1, se puede observar que la

palabra pseudomonas no fue reconocida en ningún caso, esto puede implicar que esa

palabra no está en el vocabulario del RAH, por lo que en ningún momento será transcrita

adecuadamente. En consecuencia, esta expansión no es útil para resolver el problema de

palabras fuera del vocabulario.

Otra forma de expandir los documentos es utilizando un corpus externo, Singhal y

Pereira [17] realizaron un estudio donde proponen que la expansión de documentos puede

mitigar el efecto de los errores en la transcripción. Realizaron estudios donde incluso con


17

errores a nivel palabra del 65% en la transcripción, la pérdida de efectividad en la

recuperación de información, puede ser reducida del 15-27% a solo 7-13%. Como es de

esperarse, este método es útil si los documentos usados para la expansión son de un corpus

muy cercano temáticamente al documento base. En los experimentos se realizó la

expansión con dos tipos de corpus, uno llamado “NA news”, que es muy relacionado al

corpus de las transcripciones y otro del TREC. Con el corpus “NA news” la precisión en

preguntas cortas aumentó 23% y en preguntas largas 3.5%, sin embargo al usar el corpus

TREC, la precisión sólo aumentó 12% en preguntas cortas y cayó 0.7% en preguntas largas.

Otro trabajo que usa expansión con una colección alterna para expandir los

documentos es [18]. Los experimentos se realizaron con diferentes configuraciones, para la

expansión de los documentos se tomaron 10, 20, 50 y 100 documentos y de ellos se

tomaron los 10, 20, 30, 40 y 50 términos más frecuentes con la restricción de que el término

apareciera en al menos tres de los mejores documentos. La mejor combinación fue obtener

las 20 palabras más selectivas de los 50 documentos más cercanos. En estos experimentos

la colección alterna estaba muy relacionada con la colección base, por lo que los resultados

mostraron una mejora.

En el mismo trabajo [18], se realizó otro tipo de expansión al usar un tesauro (en

este caso una lista de sinónimos), se agregaron todos los sinónimos correspondientes a una

palabra. Para esto no se usaron todas las palabras del documento, si no sólo se aplicó a un

conjunto de palabras clave que representan al documento, en la tabla 3.2, se muestran los

resultados obtenidos con y sin expansión –los experimentos se realizaron con un corpus

específico utilizado en el foro CLEF 2005–. Como se puede observar la ganancia al usar

expansión es mínima. Técnica MAP

sin expansión 0.2740

con expansión 0.2848

Tabla 3.2. Expansión usando sinónimos.

En general, este enfoque dependiente de la transcripci, tiene dos principales

inconvenientes, el primero es que está ligado a la existencia de recursos como un

diccionario de pronunciaciones o un modelo de lenguaje y de lo completos que estos sean.

Por ejemplo el vocabulario no puede contener todos lo nombres de personas, lugares y


18

empresas, este problema restringe a las consultas y a los documentos que pueden ser

recuperados, debido a que las palabras no contenidas en ese diccionario, nunca aparecerán

en los documentos y por consiguiente no podrán ser recuperadas en una consulta. El otro

problema es el modelo de lenguaje, el cual requiere de una gran cantidad de datos para

obtener probabilidades aceptables para todas las palabras del diccionario, sin embargo,

también se generan más probabilidades para palabras comunes (artículos, preposiciones),

que en varias ocasiones son parte de una palabra mayor.

3.2 Enfoque independiente de la transcripción: nivel fonemas

La principal motivación de usar el enfoque basado en fonemas, es evadir la

inherente debilidad del enfoque basado en palabras para tratar las palabras fuera del

vocabulario. En este enfoque la transformación del audio a texto sólo llega hasta la etapa de

obtención de fonemas (prescindiendo del diccionario de pronunciaciones y del modelo de

lenguaje).

Este enfoque ha demostrado un mejor comportamiento con palabras fuera del

vocabulario (en especial nombre de personas, lugares, términos extranjeros, etc.), debido a

que no depende de un diccionario o modelo de lenguaje. Sin embargo, el error en la

secuencia de fonemas, es mayor que el error a nivel de palabras, debido a que no tiene

elementos que le ayuden a corregirlo, debido a esto, una consulta puede dar un mayor

número de respuestas falsas que el enfoque basado en palabras.

Como ahora el documento está representado por los fonemas, éstos son la base a

partir de la cual se hará la búsqueda del texto deseado. Por consiguiente ya no se cuenta con

una secuencia de palabras, ahora toda la transcripción es una cadena de fonemas, donde la

única separación aparece cuando existen silencios pronunciados. Indexar un documento con

sus fonemas, no es práctico, además de que no proporciona mucha información, por lo que

una técnica bien establecida es la extracción de n-gramas de fonemas (una secuencia de n

fonemas), usualmente los n-gramas generados se superponen unos con otros. En caso de

que la consulta sea escrita, ésta es transformada en una secuencia de fonemas, usando un

diccionario de pronunciaciones, esto con el fin de poder hacer el alineamiento entre la

consulta y los documentos.


19

Indexar usando n-gramas tiene una larga tradición en recuperación de texto, en

idiomas como el coreano, chino y árabe entre otros. En [19] proponen el uso de los n-

gramas para el idioma chino, ya que usualmente se pierden los límites de las palabras, y el

uso de n-gramas ya no requiere conocer el límite de las palabras. En [20] proponen usarlo

en el idioma coreano, donde existe un problema debido a que la raíz de varias palabras son

palabras compuestas y no es fácil implementar un método que obtenga la raíz de las

palabras, pero los n-gramas solucionan ese problema al separar la palabra en sub-unidades.

En [21] abordó el problema de recuperar grabaciones de audio a partir de una

pregunta en texto. En la figura 3.1 se muestra un ejemplo donde se observa la transcripción

manual (texto y fonética) y la transcripción fonética automática. Uno de los experimentos

para el indexado, consistió en el uso de n-gramas de fonemas, donde el tamaño de n se fijó

en 3. Aunque menos del 72% de los fonemas fueron reconocidos adecuadamente, fue

posible encontrar información relevante a las consultas.

Text In Algerien hat die Islamische Heilsfont FIS die Bevoelkerung … Correct i n a l g e r i @ n h a t d i i s l a m i sch @ h ei l s f r O n t sil E f I E s d i b e f oe l k E r u N Recognized i m a E d i E i @ n h a t s t i i s l a m i sch e h ei l ch s v O n t sil E f i E s d e b E sch ei r E k r u

N … Figura 3.1. Ejemplo de una frase de una noticia de radio: texto, transcripción y fonemas.

Una alternativa a los n-gramas de tamaño fijo, es utilizar secuencias de longitud

variable. En [22,23] usan un algoritmo que establece secuencias de fonemas de longitud

variable como unidades de indexado. El algoritmo genera algunas secuencias de fonemas

que parecen ser la raíz de algunas palabras, lo cual resulta útil para la recuperación, sin

embargo no se demostró que la longitud variable proporcione mejores resultados que usar

una longitud fija.

3.3 Enfoque a nivel fonemas, dependiente de la transcripción

Como se comentó, la principal ventaja del uso de n-gramas de fonemas como

unidad de indexado es el no requerir del diccionario de pronunciaciones ni del modelo de

lenguaje, recursos que no siempre están disponibles y que por su naturaleza, limitan las

palabras que se pueden reconocer. Así, bajo este enfoque estamos cerca de la noción de


20

vocabulario abierto, aunque la única restricción práctica es la necesidad del diccionario de

pronunciaciones para convertir las consultas a fonemas. Por otro lado, el reconocimiento de

fonemas es mucho más rápido que el RAH basado en grandes vocabularios, esto es útil en

aplicaciones que necesiten trabajar en tiempo real. En resumen, este enfoque es factible

mientras no existan muchos errores en el reconocimiento de fonemas [22].

Desafortunadamente mientras más ruidosas son las grabaciones más difícil es el

reconocimiento a nivel fonético, y por ende es necesario recurrir a información lingüística

para disminuir los errores. Así que también se han realizado trabajos donde primero se

obtiene la transcripción de los documentos (secuencia de palabras) y después se usa un

diccionario de pronunciaciones para transformar las transcripciones en una cadena de

fonemas, sobre las cuales se pueden emplear las mismas técnicas de n-gramas,

mencionadas anteriormente. Por ejemplo, los trabajos en [24, 25] convierten la

transcripción a fonemas y la dividen en n-gramas de fonemas con n = 4. Como se observa

en la tabla 3.3, la recuperación sólo usando n-gramas de fonemas, da un resultado algo

menor que el uso de la transcripción, sin embargo, la fusión de ambos resultados obtiene

una ligera mejora.

MAP Transcripciones 0.099 n-gramas de fonemas (n=4) provenientes de la transcrip-ción

0.097

Fusión 0.112 Tabla 3.3. Recuperación con fonemas y texto.

Un punto en contra de este enfoque es la necesidad de contar con un convertidor de

texto a fonemas. Para ello es necesario un conjunto de suficientes datos y de alta calidad

para poder construirlo. Además se tiene el inconveniente de que un convertidor de texto a

fonemas no toma en cuenta la pronunciación de la palabra en su conjunto, sino sólo la

pronunciación de cada letra (o en su casa cada sílaba). Esto limita fuertemente la

transformación de la palabra escrita a su apropiada pronunciación.


21


Recapitulación

La recuperación de información en documentos orales siempre deberá considerar la

posibilidad de enfrentar errores en la transcripción. Es un hecho de que incluso con un nivel

de reconocimiento excepcionalmente alto, siempre estará presente el problema de la

introducción de nuevas palabras en el discurso. Así que siempre será necesario incluir un

mecanismo que nos permita lidiar con los errores introducidos por el reconocedor.

Como se puede ver en los párrafos anteriores, es posible identificar dos principales

enfoques de investigación, el primero implementa mecanismos clásicos de recuperación de

información buscando aminorar el impacto que tienen los errores introducidos por el

reconocedor de habla; el segundo trata de resolver los errores introducidos por el

reconocedor por medio de información fonética.

Bajo el primer enfoque, partir de la transcripción automática tiene la gran ventaja de

que se tienen transcripciones con menos errores –dada la inclusión de información

lingüística de más alto nivel– desafortunadamente este mismo proceso provoca que las

palabras fuera del vocabulario sean motivo de error. Bajo el segundo enfoque, al partir de

una cadena de fonemas se evita caer en errores al segmentar dicha cadena en palabras,

sobretodo para cuando no tenemos evidencia de cómo hacerlo (el caso de las palabras fuera

del vocabulario). Desafortunadamente, la misma cadena de fonemas reconocida no está

libre de errores. Incluso en la mayoría de los sistemas de reconocimiento la tasa de error a

nivel fonemas es mayor que la tasa de error a nivel palabra. De ahí el surgimiento de un

enfoques combinados que buscan implementar mecanismos –principalmente al agregar

información fonética– para mejorar la recuperación de documentos relevantes.

Capítulo IV

Propuesta de Investigación

Los enfoques analizados anteriormente nos muestran que aún no existe la solución

idónea para este problema. Cada método aborda dos tipos de errores introducidos por el

RAH. El primer enfoque se orienta a disminuir el impacto de palabras mal transcritas por

las condiciones de la grabación, desatendiendo las palabras fuera del vocabulario. Mientras

el segundo enfoque busca resolver principalmente el problema de las palabras fuera del

vocabulario.

Independientemente de la causa del error, es un hecho que no es generado al azar, el

RAH introduce palabras fonéticamente similares a las correctas. Con esto en mente,

proponemos un método para la recuperación de información en documentos orales, que

permita abordar los errores de substitución y delimitación de las palabras. Este método debe

representar a los documentos de una forma adecuada, que permita acceder rápidamente a

ellos, se pueda integrar a otras técnicas de RI y permita realizar la recuperación de

documentos orales con una mayor precisión que usando una sola técnica tradicional de RI.

Lo que se desea es alcanzar la misma representación para dos palabras (o segmentos

de palabras), cuya pronunciación sea similar, a pesar de que su forma escrita sea diferente.

Una solución a este problema es el uso de códigos fonéticos. Éstos fueron creados para

poder representar con un mismo código –o cadena alfanumérica– nombres de personas

similares en su pronunciación a pesar de sus variantes escritas. Los códigos fonéticos,

tienen años utilizándose en bases de datos [26, 27], y a nuestro conocer sólo existe un

trabajo que los han usado en la tarea de recuperación de información.

El trabajo propuesto por Allan y Raghavan [28] utiliza códigos fonéticos para tratar

los nombres de personas generados por el RAH. Ellos utilizan los códigos fonéticos sobre

las transcripciones obtenidas por un reconocedor automático de habla, pero al igual que los

trabajos anteriores en bases de datos, sólo es utilizado para indexar nombres.

23

Cabe también mencionar que existe un trabajo publicado resultado de nuestro

trabajo de maestría que sirve de antecedente a esta propuesta de tesis. Ese trabajo [29]

exploró por primera vez el uso de los códigos fonéticos en RI al aplicarlo a toda la

transcripción sin limitarse a únicamente los nombres propios. El trabajo demostró la

utilidad de los códigos fonéticos a pesar de haberse restringido a nivel de palabras, con lo

que se abordaron únicamente los errores de substitución. En la tabla 4.1 se muestra un

ejemplo donde los códigos fonéticos –utilizando el algoritmo Soundex– aminoran el

impacto causado por un error de sustitución. En la tabla se cuenta con la transcripción

manual y la automática obtenida por el RAH. Se observa que las palabras UNIX y Sun, no

son reconocidas correctamente por el RAH pero ambas fueron substituidas por palabras

fonéticamente similares. La tercera columna muestra los códigos fonéticos para cada

palabra de ambas transcripciones. Como podemos observar la similitud entre los códigos

fonéticos (UNIX:U520, unique:U520) hará posible la recuperación del documento a pesar

del error del reconocedor.

Transcripción Codificación Fonética

Manual UNIX Sun Workstation U520 S500 W623 Automática unique set some workstation U520 S300 S500 W623

Tabla 4.1. Ejemplo donde se puede solventar el error de substitución

Como se vio anteriormente, los errores del reconocedor no se limitan a la

substitución. De ahí que esta propuesta de tesis busque solventar otro tipo de errores. En

especial aquellos generados por la mala segmentación de las palabras. Por ejemplo, para

cuando una palabra es separada en dos palabras. La tabla 4.2 muestra la consulta y un

documento relevante a ella, en donde un nombre propio no fue reconocido adecuadamente,

probablemente porque éste está fuera del vocabulario. En este caso, se deberá recurrir no

sólo a códigos fonéticos palabra por palabra, sino también a códigos de palabras

consecutivas, con ello se espera ayuda a solventar el problema de segmentación. Por

supuesto, será necesario investigar hasta donde es conveniente llevar la codificación de

múltiples palabras.


24

Consulta

Texto How has been Frattini in the hearings? Codificación fonética H00000 H20000 B50000 F63500 I50000 T00000 H65200

Documento oral relevante

Transcripción manual I mean Mister Frattini is has been very clever through the hearings he is slalommed his way through the different question

Transcripción automática

I mean Mr. Freeh teeny is has been very clever through the hearings he's salon on his way through the different questions

Codificación fonética de la transcripción automática

Codificación por palabra

I00000, M50000, M60000, F60000, T50000 I20000, H20000, B50000, V60000, C41600, T60000, T00000, H65200, H20000, S45000, O50000, H20000, W00000, T60000, T00000, D16530, Q23520

Codificación cada dos palabras

I55000, M56000, M61600, F63500, T52000, I22000, H21500, B51600, V62416, C41636, T63000, T65200, H65220, H24500, S45500, O52000, H20000, W36000, T63000, T31653, D16532

Tabla 4.2. Ejemplo donde se puede solventar la segmentación por medio de codificación fonética

Otro reto aún mayor, se presenta cuando la pronunciación de una palabra también es

dividida, pero no quedan dos palabras completas, si no se integran a otros fonemas

construyendo palabras totalmente diferentes. En este escenario la codificación de

concatenación de palabras no es suficiente. En este caso se deberá fragmentar las palabras

en n-gramas de caracteres que permitirán unir los segmentos de palabra para construir el

código fonético apropiado.

Otro de los aportes es el análisis de utilizar distintos algoritmos fonéticos para la

recuperación de información, en ambos casos, tanto para la substitución, como para los

errores de segmentación. La razón de no elegir un solo algoritmo, es que cada uno tiene sus

propias reglas. Desde 1918 cuando surgió Soundex, se han propuesto varios algoritmos

fonéticos, la tabla 4.3 enlista los algoritmos fonéticos más comunes y la fecha en que

fueron propuestos. Nosotros analizaremos varios de estos algoritmos para determinar cual o

cuales son más convenientes para utilizar en la RI. El apéndice A detalla cada uno de estos

métodos de codificación fonética. Método Año Soundex 1918, 1930

Daitch-Mokotoff Soundex 1985

Phonix 1988, 1990

Metaphone 1990

Double Metaphone 2000

Tabla 4.3 Algoritmos fonéticos


25

4.1 Objetivos

El objetivo general de esta propuesta es:

• Proponer un método para la recuperación de información en documentos orales

basado en códigos fonéticos a nivel palabra, multipalabra y subpalabra para mejorar

la recuperación de información alcanzada por medios tradicionales.

Los objetivos específicos que se plantean son:

• Proponer diferentes representaciones usando códigos fonéticos tanto a nivel palabra,

multipalabra y subpalabra para abordar no únicamente los errores de substitución

generados por el RAH.

• Analizar la complementariedad y redundancia de los resultados obtenidos con

diferentes algoritmos de codificación fonética en la recuperación de documentos

orales.

• Proponer estrategias de fusión que combine las ventajas de la representación textual

con las ventajas de la representación basada en códigos fonéticos.

• Proponer un método que combine los métodos tradicionales de expansión a nivel

palabras con el uso de códigos fonéticos.

4.2 Metodología

La metodología contemplada para alcanzar los objetivos propuestos es la siguiente:

1. Analizar el impacto de los errores del RAH en la RI de documentos orales. Para ello se

construirá una plataforma de experimentación que servirá como método base para el

indexado y recuperación de los documentos usando códigos fonéticos. De igual forma

esta plataforma será utilizada para la evaluación de los pasos subsecuentes de esta

metodología. Para el análisis se realizará lo siguiente:

• Conseguir un corpus con transcripciones de diferentes calidades.


26

• Ver el impacto que tiene la calidad de la transcripción en la recuperación de

documentos.

2. Evaluar el impacto de la codificación fonética en la recuperación de información en

documentos orales.

• Aplicar diversos algoritmos de codificación fonética a las transcripciones

automáticas y observar su desempeño.

• Medir la complementariedad de los resultados obtenidos al usar las diferentes

representaciones de códigos fonéticos.

• Analizar la frecuencia de los códigos y observar la cantidad de colisiones

(cuantas palabras son cubiertas por el mismo código) para concluir sobre su

impacto en el rendimiento de la RI.

• Combinar las representaciones textuales y códigos fonéticos usando fusión. Se

piensa en al menos tres escenarios: fusión temprana, fusión tardía y fusión

intermedia.

3. Implementar las codificaciones fonéticas a nivel de sub-palabras (n-gramas de

caracteres). Esto está orientado a solventar errores originados cuando varias palabras

son transcritas como una sola.

• Probar el comportamiento con diferentes representaciones fonéticas

• Probar el comportamiento con diferentes tamaños de n-gramas.

• Analizar la complementariedad de los resultados

• Combinar las diferentes representaciones.

4. Implementar las codificaciones fonéticas a nivel de supra-palabras (concatenación de

palabras). Esto ayudará a solventar errores originados cuando una palabra es separada

en dos o más.

• Probar el comportamiento con diferentes representaciones fonéticas

• Probar el comportamiento concatenando n palabras.

• Analizar la complementariedad de los resultados

• Combinar las diferentes representaciones.


27

5. Implementar un método de expansión de la consulta considerando los códigos

fonéticos.

• Realizar expansión a nivel de palabras.

• Realizar la expansión considerando palabras fonéticamente similares a través

del uso de códigos fonéticos.

• Realizar expansión en los esquemas de multipalabra y subpalabra.

4.3 Contribuciones

Las contribuciones de este trabajo se orientan de manera general al área de recuperación de

información en documentos orales. Las aportaciones se pueden resumir en los siguientes

puntos:

• Un método para realizar la recuperación de información en documentos orales

usando representaciones basadas en códigos fonéticos.

• Determinar la utilidad de los distintos algoritmos de codificación fonética y el

alcance de las estrategias de fusión propuestas en la recuperación de información de

documentos orales.

• Determinar la utilidad de las representaciones a nivel multipalabra y subpalabra para

abordar los diferentes errores en transcripciones automáticas.

• Un método de expansión de la consulta considerando códigos fonéticos.


28

4.4 Plan de trabajo

En la siguiente tabla se presenta el cronograma de actividades para los 36 meses (12

trimestres) de duración de la investigación doctoral. Las actividades marcadas con gris

claro representan las actividades en proceso.

2009 2010 1011 Actividad \ Trim 1 2 3 4 5 6 7 8 9 10 11 12Revisión del Edo. Arte Plataforma de pruebas Impacto de los errores en la RI Implementar métodos de codificación fonética Evaluar el impacto de los códigos fonéticos en la RI (nivel palabras) Medir la complementariedad Implementar métodos de combinación Codificación fonética en sub-palabras Codificación fonética en multipalabras

Medir complementariedad

Implementar métodos de combinación II

Implementar métodos de expansión Publicación de artículos Redacción de tesis Entrega y defensa de tesis


29

Capítulo V

Resultados Preliminares

En este capítulo se exponen los experimentos realizados durante este primer año con

el fin de comprobar la viabilidad de la propuesta y la factibilidad de nuestros objetivos.

Este capítulo inicia con una sección detallando el corpus de datos usado en los

experimentos. La sección posterior describe cada uno de los experimentos realizados.

5.1 Descripción del Corpus

La colección sobre la que se realizaron los experimentos es una colección de prueba

propuesta por el foro de evaluación, la cual consiste en grabaciones de entrevistas. La tarea

se inició en el 2005 y se distingue de otras, por la carencia de un tema claro en la

conversación –ya que durante una entrevista usualmente se tratan diversos temas–, el error

introducido por el RAH es mucho mayor. En promedio, una entrevista de la Fundación de

Historia Visual (VHF) se extiende por más de dos horas y el contenido no puede ser

fácilmente examinado. El corpus utilizado, es un subconjunto de 10,000 horas, y aún así, al

momento de realizarse la evaluación en el CLEF, solamente una porción de 272 entrevistas

había sido procesada por dos sistemas de RAH. Esto dio como resultado que solo se

procesaran 589 horas de habla, lo cual son 8,104 segmentos. Esto da en promedio

segmentos de 4 minutos, equivalentes a unas 503 palabras por segmento. Aunque una

colección de este tipo resulta pequeña comparada con los experimentos realizados por la

recuperación de información moderna usada en recursos escritos, es comparable a las

usadas en las tareas de recuperación de documentos orales. Cada documento contenido en

la colección, cuenta con los siguientes campos:

• 3 transcripciones generadas automáticamente con diferentes niveles de error:

o 2006B (WER de 25%)

o 2004A (WER de 38%)

o 2003A (WER de 45%)


30

• 2 conjuntos de palabras claves generadas automáticamente

• 1 conjunto de palabras clave generadas manualmente

• 1 resumen generado manualmente

El conjunto de palabras clave es generado automáticamente por dos clasificadores y

cada campo contiene los mejores 20 términos obtenidos por dichos clasificadores. Nos

referiremos al conjunto de estos términos como AK1 y AK2. Por otro lado, el conjunto de

palabras clave manual contiene información relevante al documento como fechas y

nombres de lugares, incluso cuando estos no son nombrados en la grabación.

Cabe resaltar que no se cuenta con la transcripción manual del documento, y el

resumen es una muy breve descripción de la grabación en su totalidad.

El corpus fue utilizado en el CLEF durante los años 2005-2007. En nuestro caso,

utilizamos el conjunto del año 2006, el cual consta de:

Preguntas de entrenamiento: 63

Total de entrevistas con su respectiva transcripción automática: 8,104

Consultas. Las consultas fueron realizadas por investigadores que deseaban obtener

información de las transcripciones. Muchos de ellos requerían de información muy precisa,

por lo que las consultas tienen demasiadas restricciones, por lo que se hace complejo

recuperar exactamente la información deseada. En la tabla 5.1, se muestran algunos de las

consultas realizadas.

Tópico # Consulta 1133 the story of varian fry and the emergency rescue committee who saved thousands in

marseille 1159 child survivors in sweden describe survival mechanisms of children born in 1930

1933 who spend the war in concentration camps or in hiding and who presently live in sweden

1166 hasidim and their unquestioning faith Tabla 5.1 Ejemplos de consutlas en la colección


31

5.2 Experimentos realizados

Impacto del error del RAH en la RI

Como se describe en la metodología, lo primero a realizar es medir la degradación

en la recuperación de información en las diferentes transcripciones. En este caso se realizó

la recuperación usando únicamente las transcripciones, es decir, se uso un enfoque a nivel

de palabras. En la tabla 5.2 podemos observar como el MAP disminuye según el WER va

en aumento. La tabla también muestra el número total de documentos recuperados para las

63 consultas así como la precisión promedio.

RAH WER MAP Rel. Rec. P10 2006B 25% 0.0581 1204 0.170 2004A 38% 0.0547 1221 0.154 2003A 45% 0.0525 1118 0.154

Tabla 5.2 MAP y precisión usando el enfoque de palabras.

Respecto a la precisión promedio podemos observar que el mejor resultado es para

cuando usamos la transcripción con menos errores. Sin embargo, es notorio observar que la

cantidad de documentos relevantes recuperados es incluso menor que con una transcripción

de menor calidad. Esto se debe a que los errores introducidos por el reconocedor no son los

mismos, y que en el caso de la transcripción 2004A se afectaron menos términos propios de

las consultas, con lo que fue posible recuperar más documentos relevantes. Por otro lado, es

claro que los errores son los responsables del ordenamiento final de los documentos

recuperados como lo muestra el MAP.

Evaluación de diferentes codificaciones fonéticas

Rumbo a la evaluación de las diferentes codificaciones fonéticas se inició con la

evaluación de los algoritmos soundex y Daitch Mokotoff (DM). En la tabla 5.3 se muestra

el resultado de aplicar el algoritmo soundex (a diferentes niveles de granularidad) y el DM.

Cabe mencionar que por el momento sólo se aplicaron sobre la transcripción 2006B, que

fue la que obtuvo mejores resultado en el enfoque de palabras.


32

Codificación Tamaño MAP Rel. Rec.

P10

Soundex 4 0.0403 1228 0.1238 Soundex 5 0.0488 1200 0.1397 Soundex 6 0.0523 1208 0.1444 Soundex 7 0.0489 1219 0.1365 DM - 0.0416 1212 0.0905

Tabla 5.3 Resultados usando códigos fonéticos a nivel de palabras

Como puede observarse en ningún caso el uso exclusivo de información fonética

permite sobrepasar el MAP de usar el texto de las transcripciones (de 0.0581 para la

transcripción 2006B). Como resultado de este experimento se identificó como más

adecuado para el algoritmo soundex los códigos con seis dígitos. Como se verá más

adelante, se emplean distintas técnicas de fusión, por lo que además de tomar la

codificación fonética que regresa un mayor MAP, sería interesante ver como se comportan

los métodos de fusión utilizando la codificación fonética que obtiene más documentos

relevantes o mayor precisión.

Impacto del error del RAH en la RI con códigos fonéticos

La tabla 5.4 muestra el comportamiento del algoritmo soundex (con tamaño 6) con

diferentes WER, y la tabla 5.5 muestra el comportamiento del algoritmo DM.


Tabla 5.4 resultados usando solo codificación fonética (Soundex)


Tabla 5.5 resultados usando solo codificación fonética (DM)

Como primera observación también podemos notar que la codificación fonética

usada a nivel de palabras es dependiente del WER. De ahí la propuesta de abordar los

errores de transcripción al unir o segmentar palabras. Por otro lado, comparando los

resultados con la tabla 5.2, se puede observar que con Soundex siempre se logró recuperar


33

un poco más de documentos relevantes que los que se consiguen sólo con el texto, sin

embargo no fue el caso de DM. También se observa que la diferencia en el MAP entre los

diferentes niveles de error, es mucho menor usando DM, que usando Soundex. Aunque

parece que la codificación es dependiente de los errores, existen al menos un codificación

que se comporta de forma más estable.

Complementariedad entre las diferentes representaciones

Como se vio en los experimentos anteriores, la cantidad de documentos relevantes

recuperados es muy similar para cuando se usa el texto o la codificación fonética. El

siguiente paso fue medir la complementariedad entre ambos resultados. En las tablas 5.6,

5.7, 5.8 se muestra el nivel de complementariedad y redundancia de los documentos

recuperados al usar las distintas representaciones. En todos los casos se puede ver que

existe una complementariedad en los documentos que se recuperan, incluso ambos

esquemas de códigos fonéticos, recuperan distintos documentos.

RAH Intersección Solo en Texto Solo en Soundex Total. Rec. Unión 2006B 62.61% 18.80% 18.59% 1420 2004A 62.74% 18.73% 18.52% 1436 2003A 63.65% 17.71% 18.63% 1304 Tabla 5.6 Comparación de documentos Relevantes Recuperados Texto vs Soundex

RAH Intersección Solo en Texto Solo en DM Total. Rec. Unión 2006B 61.86% 17.59% 20.55% 1455 2004A 61.63% 17.96% 20.41% 1470 2003A 61.93% 17.43% 20.64% 1337

Tabla 5.7 Comparación de documentos Relevantes Recuperados Texto vs DM

RAH Intersección Solo en Soundex

Solo en DM Total. Rec. Unión

2006B 67.05% 14.84% 18.11% 1416 2004A 69.02% 14.10% 16.88% 1428 2003A 68.89% 14.35% 16.76% 1305

Tabla 5.8 Comparación de documentos Relevantes Recuperados Soundex vs DM

En las tablas anteriores, además del porcentaje de elementos que comparten, también se

muestra el total de documentos que se recuperarían en caso de hacer una buena fusión de

los resultados. En el mejor de los casos, obtendríamos un recuerdo de 37.5%, comparado un

con recuerdo de 31.5% que se obtiene al usar la recuperación solo con palabras.


34

Combinación a priori de texto y soundex (fusión temprana)

Debido a los resultados obtenidos anteriormente, surge la idea de que fusionar de

alguna forma los métodos, se obtendrán mejores resultados. Por lo que los siguientes

experimentos tienen la intención de demostrar la utilidad de combinar la información

textual y fonética.

La primera estrategia para combinar los resultados, es la fusión temprana (early

fusion). Esta consiste en representar los documentos tanto en texto como con códigos

fonéticos y dejar que el motor de búsqueda realice el trabajo de recuperación. En la tabla

5.9 se observan los resultados de combinar el texto y la codificación soundex de tamaño 6.

En ella se observa que el MAP como la cantidad de documentos recuperados mejora para

las transcripciones 2006B y 2004A, mientras que para la transcripción con mayor WER se

tiene sólo una mejora en la cantidad de documentos recuperados.

RAH MAP Mejora MAP Respecto a texto

Rel. Rec. Mejora Rel. Rec. Respecto a texto

2006B 0.0601 +3.4% 1259 +4.5% 2004A 0.0578 +5.6% 1268 +3.8% 2003A 0.0517 -1.6% 1142 +2.1%

Tabla 5.9 Combinación con early fusion de texto y soundex.

Combinación a priori de texto, soundex y DM (fusión temprana)

Debido a que incluso existe una complementariedad de documentos entre los

códigos fonéticos, la siguiente idea es que al fusionar los tres métodos, se obtendrán

mejores resultados. Por lo que los siguientes experimentos también tienen la intención de

demostrar la utilidad de combinar la información textual y fonética.

En la tabla 5.10 se observan los resultados de combinar el texto y la codificación

fonética (soundex de tamaño 6 y DM). En ella se observa que el MAP como la cantidad de

documentos recuperados mejora para todas las transcripciones, hasta en un 7%, al igual que

la cantidad de documentos recuperados.


35



2006B 0.0622 +7% 1292 +7.3% 2004A 0.0584 +6.7% 1298 +6.3% 2003A 0.0535 +1.9% 1192 +6.6%

Tabla 5.10 Combinación con early fusion de texto, soundex.y DM.

Combinación de texto, Soundex y DM (fusión tardía)

La segunda estrategia para combinar los resultados, es la fusión tardía (late fusion).

Esta consiste en obtener una lista de los resultados obtenidos al recuperar solo documentos

en texto y otras de los códigos fonéticos, una lista para Soundex y otra lista para DM, e

implementar algún método de fusión de listas. En la tabla 5.11 se observan los resultados

de combinar el texto y la codificación fonética (soundex de tamaño 6 y DM). En ella se

observa que el MAP tuvo una caída, pero la cantidad de documentos recuperados aumentó,

sin embargo lo resultados de la fusión temprana fueron más altos. En la tabla 5.12 se

muestran los resultados con otro método de fusión



2006B .0525 -9.6% 1280 +6.3% Tabla 5.11. Fusión Tardía utilizando fzborda



2006B .0496 -14.7% 1269 +5.4% Tabla 5.12. Fusión Tardía utilizando cmbMNZ

En este caso, se puede observar que a pesar de que ayuda a recuperar una mayor

cantidad de documentos, que solo usando texto, el MAP es mucho más bajo, lo que lleva a

pensar en una caída en la precisión. Esto puede deberse a que la precisión de las listas es

baja, lo cual provoca que al fusionar, se propaguen los errores que tienen en común.


36

Uso de sub-palabras

Todos los anteriores experimentos están enfocados principalmente a abordar el

problema de la substitución de palabras. Sin embargo, otro enfoque es abordar el problema

de la correcta de limitación de las palabras, como se explicó en ejemplos anteriores. Los

siguientes experimentos van enfocados por este camino.

RAH MAP Mejora MAP Respecto Soundex

Rel. Rec. Mejora Rel. Rec. Respecto Soundex

2006B 0.0586 +12% 1173 -2.9% Tabla 5.14. Resultando usando sub-palabras

Como se observa, se alcanzan casi los mismos resultados utilizando el enfoque de

sub-palabras, que los obtenidos usando el enfoque de solo palabras. Además, este método

obtiene un mejor MAP que el obtenido usando solo Soundex de tamaño 6, que había sido el

que tuvo mejor desempeño. También tiene una ligera mejora en el MAP respecto a solo

utilizar palabras. El único inconveniente, es que recupera menos pasajes, por eso también

suena aconsejable hacer una fusión que ayude a complementar las diferentes

representaciones.


37

Capítulo VI

Conclusiones

En este trabajo, proponemos un método para recuperar información en documentos

orales que toma en cuenta los problemas generados por el reconocedor automático de habla.

Para esto, la idea consiste en enriquecer la representación de documentos orales utilizando

la codificación fonética de la transcripción automática. La codificación fonética busca

reducir el impacto de los errores generados en la transcripción, representando aquellas

palabras con pronunciación similar a través del mismo código fonético.

Con los experimentos realizados hasta el momento, se observó que la codificación

fonética es complementaria a la recuperar información usando exclusivamente texto.

Las conclusiones principales de este trabajo se resumen en los siguientes puntos:

• La codificación fonética es útil en la tarea de recuperación de información en

documentos orales.

• Los métodos de codificación fonética (Soundex y DM), son complementarios entre

ellos, por lo que usando ambos, se alcanzaron resultados superiores que sólo usando

texto o que la combinación de texto y Soundex.

• El método de Sub-palabras, dio resultados prometedores, y puede aportar bastante a

la RI de documentos orales.

Por lo anterior se tiene evidencia suficiente para presuponer que la codificación

fonética es útil para la tarea de recuperación de información en documentos orales. Pero es

necesario hacer otras pruebas para ver el alcance de la codificación fonética y que

esquemas de fusión resultan mejores, así como las ventajas de poder aplicar otras técnicas

de RI, pero tomando en cuenta la codificación fonética.


38

Bibliografía

[1] J. S. Olson, D. W. Oard.: Combining LVCSR and Vocabulary-Independent Ranked

Utterance Retrieval for Robust Speech Search. Proceedings of the 32nd international

ACM SIGIR conference on Research and development in information retrieval.

Boston, MA, USA, pp 91-98, 2009.

[2] J. S. Olsson.: Combining Evidence from Unconstrained Spoken Term Frequency

Estimation for Improved Speech Retrieval. PhD thesis, University of Maryland,

College Park, MD, USA, 2008. Directed by Douglas W. Oard.

[3] M. J. Witbrock, A. G. Hauptmann. Using Words and Phonetic Strings for Efficient

Information Retrieval from Imperfectly Transcribed Spoken Documents. Proceedings

of the second ACM international conference on Digital libraries. Philadelphia,

Pennsylvania, United States, pp 30-35, 1997.

[4] J. Allan.: Robust techniques for organizing and retrieving spoken documents. EURASIP

Journal on Applied Signal Processing archive Volume 2003 , (January 2003), pp 103–

114, 2003.

[5] J. S. Garofolo, E.M. Voorhees, C. Auzanne, V. Stanford, and B. Lund, “1998 TREC-7

spoken document retrieval track overview and results,” in Proc. 7th Text REtrieval

Conference (1998), vol. 500-242 of NIST Special Publication, pp. 79–89, NIST,

Gaithersburg, Md, USA, 1998.

[6] Cross-lingual evaluation forum. http://www.clef-campaign.org/, August 2007.

[7] R. Baeza-Yates and B. Ribeiro-Neto. Modern Information Retrival. Addison Wesley,

1999.

[8] D. A. Grossman and O. Frieder.. Information Retrieval, Algorithms and Heuristics. The

Information Retrieval Series , Vol. 15. Springer, second edition edition, 2004.

[9] G. Salton, C. S. Yang, and A. Wong.: A vector space model for automatic indexing.

Communications of the ACM, Voulme 18, Issue 11, pp 613-620, November 1975.


39

[10] J. Bobadilla-Sancho, J. Bernal and P. Gómez. Reconocimiento de Voz y Fonética

acústica, Alfaomega 2000.

[11] I. McCowan, D. Moore, J. Dines, D. Gatica-Perez, M. Flynn, P. Wellner, H. Bourlard.:

On the Use of Information Retrieval Measures for Speech Recognition Evaluation.

Technical Report, March 2005.

[12] P. C. Woodland, S. E. Johnson, P. Jourlin, K. Spärck Jones.: Effects of Out of

Vocabulary Words in Spoken Document Retrieval. Proceedings of the 23rd annual

international ACM SIGIR conference on Research and development in information

retrieval. Athens, Greece, pp 372 – 374, 2000.

[13] M. Larson, M. Tsagkias, J. He, M. Rijke.: Investigating the Global Semantic Impact of

Speech Recognition Error on Spoken Content Collections. Proceedings of the 31th

European Conference on IR Research on Advances in Information Retrieval. Toulouse,

France, pp 755-760, 2009.

[14] X.M. Shou, M. Sanderson, N. Tuffs.: The Relationship of Word Error Rate to

Document Ranking. In: Proceedings of the AAAI Spring Symposium Intelligent

Multimedia Knowledge Management Workshop, Technical Report SS-03 (2003)

[15] M. G. Brown, J. T. Foote, G. J. F. Jones, K. Sparck Jones, S. J. Young.: Video Mail

Retrieval by Voice: An Overview of the Cambridge/Olivetti Retrieval System. I n Proc.

ACM Multimedia 94 Workshop on Multimedia Database Management Systems. Pp 47-

55, 1994.

[16] K. Ng, and V. Zue.: Towards Robust Methods for Spoken Document Retrieval.

Proceedings of the Fifth International Conference on Spoken Language Processing,

Sydney, 1998.

[17] A. Singhal and F. Pereira.: Document Expansion for Speech Retrieval. Proceedings of

the 22nd annual international ACM SIGIR conference on Research and development in

information retrieval. Berkeley, California, United States, pp 24-41, 1999.

[18] J. Wang and D. W. Ord.: CLEF-2005 CL-SR at Maryland: Document and Query

Expansion using Side Collections and Thesauri. Working Notes of the 6th Workshop of

the Cross-Language Evaluation Forum (CLEF 2005). Vienna, Austria, pp 744-759, 21-

23 September 2005.


40

[19] J.P. Ballerini, M. Buchel, R. Domenig, D. Knaus, B. Mateev, E. Mittendorf, P.

Schauble, P. Sheridan, M. Wechsler. SPIDER retrieval System at TREC-5. Proceedings

of TREC-5, pp 217-228, 1996.

[20] J. H. Lee.: Using n-Grams for Korean Text Retrieval. Proceedings of the 19th annual

international ACM SIGIR conference on Research and development in information

retrieval. Zurich, Switzerland, pp 216-224, 1996.

[21] M. Wechsler and P. Schauble.: Speech retrieval based on automatic indexing. In

Workshop in Computing Science- MIRO. Springer Verlag, 1995.

[22] M. Wechsler.: Spoken document retrieval based on phoneme recognition. Ph.D. thesis,

Swiss Federal Institute of Technology (ETH), Zurich, 1998.

[23] P. Schäuble, M. Wechsler.: First experiences with a system for content based retrieval

of information from speech recordings. In: IJCAI Workshop: Intelligent Multimedia

Information Retrieval, August 1995.

[24] D. Inkpen, M. Alzghool, and A. Islam.: University of Ottawa’s Contribution to CLEF

2005, the CL-SR Track. Working Notes of the 6th Workshop of the Cross-Language

Evaluation Forum (CLEF 2005). Vienna, Austria, pp 744-759, 21-23 September 2005.

[25] C. L. A. Clarke. Waterloo Experiments for the CLEF05 SDR Track. Working Notes of

the 6th Workshop of the Cross-Language Evaluation Forum (CLEF 2005). Vienna,

Austria, pp 744-759, 21-23 September 2005.

[26] Holmes D. and McCabe M. C., Improving Precision and Recall for Soundex Retrieval,

ITCC Proceedings of the International Conference on Information Technology: Coding

and Computing, pp 22-26, 2002.

[27] Zobel J. and Dart P., Phonetic String Matching: Lessons from Information Retrieval,

Sigir Forum, Association for Computing Machinery, pp. 166-172, New York, 1996.

[28] Raghavan H. and Allan J. Using Soundex Codes for Indexing Names in ASR

documents. In Proceedings of the Workshop on Interdisciplinary Approaches to Speech

Indexing and Retrieval at Human Language Technology Conference and North


41

American chapter of Association of Computational Linguistics, pp 22–27, Boston, MA,

USA, 2004.

[29] M. A. Reyes-Barragán.: Un método para recuperación de información en documentos

orales. PhD thesis, INAOE, Puebla, México, 2008. Directed by L. Villaseñor Pineda,

M. Montes-y-Gómez.

[30]M. K. Odell, R. C. Russell.: U. S. Patent Numbers 1261167 (1918) and 1435663

(1922). Washington, D.C.: U.S. Patent Office, 1918.

[31] B. Kessler.: Phonetic Comparison Algorithms. Transactions of the Philological Society

Volume 103:2, pp 243-260, 2005.


42

Apéndice A

Algortimos de codificación fonética

Soundex

El algoritmo fonético más ampliamente usado y conocido es Soundex. Este

algoritmo fue desarrollado en 1918 por Robert Russell y Margaret Odell [30]. Inicialmente

el método fue utilizado para manipular el censo de E.U., actualmente es parte de los

algoritmos de búsqueda, que se emplean en programas de manejo de bases de datos y

programas para comprobar ortografía, entre otros [17].

El método usado por Soundex está basado en la clasificación fonética de los sonidos

del habla humana, los cuales se dividen en 6 clases: bilabial, labiodental, dental, alveolar,

velar y glotal. Esta categorización depende de donde se colocan los labios y la lengua para

generar un sonido [18]. Como ejemplo, las palabras “UNIX” y “unique”, comparten el

mismo código “U52000”.

Daitch-Mokotoff

Es una mejora del algoritmo Soundex creado por Russell y Odell. Este nuevo

algoritmo fue desarrollado en 1985 por el genealogista Gary Mokotoff y posteriormente

Randy Daitch expandió las reglas del algoritmo creado por Mokotoff. En el apéndice B se

muestran las características.

Según sus autores las reglas del método D-M Soundex son independientes de

consideraciones geográficas o étnicas. Tiene reglas diferentes, que toman en cuenta si las

palabras están al principio, en medio o al final de la palabra, esto permite que también se

codifique la primera letra de una palabra, además en caso de que existan varias opciones,

genera diversos códigos. Por ejemplo, la palabra “Catherine” es codificada como “539600”,

y la palabra “Katherine” es codificada como “539600” y “439600”.


43


Phonix

Un problema de los sistemas anteriores es que no son capaces de establecer algún

tipo de ordenación entre las cadenas similares. Este problema se resuelve con una variante

de Soundex, denominada Phonix, cuyo algoritmo es más complejo [17]. La novedad que

introduce Phonix es que realiza previamente unas 163 transformaciones de grupos de letras

que normalizan las cadenas (por ejemplo, el carácter ‘X’ se transforma en ‘ECS’, además si

la primera letra es una vocal o la consonante ‘Y’ la transforma en ‘V’). Pero, la aportación

más importante de este sistema de codificación es que computa los sonidos finales, y como

consecuencia de esto es capaz de establecer tres rangos de similitud constituidos por

palabras que concuerdan: en los sonidos finales, en los prefijos de los sonidos finales, o con

sonidos finales distintos. Por ejemplo, la palabra “Catherine” y la palabra “Katherine”

comparten el mismo código fonético “KTRN11”.

Metaphone

Un algoritmo de codificación fonética parecido a los anteriores lo constituye el

sistema Metaphone. Se trata de un sistema de codificación especialmente diseñado para el

inglés americano. El algoritmo de Metaphone elimina las vocales, aunque éstas permanecen

si son la primera letra de una palabra, reteniendo solamente las consonantes, que se reducen

a 16 consonantes sin incluir los dígitos.

Con esto tenemos que los códigos Metaphone estarían constituidos por cadenas que

representarían aproximadamente cómo un nombre sonaría cuando se pronuncia usando las

reglas de pronunciación de la lengua inglesa.

Para mayor detalle sobre los códigos fonéticos puede consultarse [31] donde se

realiza una comparación de ellos.

Similitud fontica entre palabras para mejorar la Recuperacin de … · 2010-01-25 · Similitud...

Documents

Transcript of Similitud fontica entre palabras para mejorar la Recuperacin de … · 2010-01-25 · Similitud...