Comentario [u1]: Concepto general: de similitud. También ...
Similitud fontica entre palabras para mejorar la Recuperacin de … · 2010-01-25 · Similitud...
Transcript of Similitud fontica entre palabras para mejorar la Recuperacin de … · 2010-01-25 · Similitud...
Similitud fonética entre palabras para mejorar la Recuperación de
Información en Documentos Orales
Propuesta de Tesis Doctoral
por
Manuel Alejandro Reyes Barragán
Instituto Nacional de Astrofísica, O ptica y Electro nica Enero 2009
Tonantzintla, Puebla
Supervisada por:
Dr. Luis Villaseñor Pineda Investigador Titular del INAOE
Dr. Manuel Montes y Gómez Investigador Titular del INAOE
Índice
INTRODUCCIÓN ......................................................................................................................................... 1
1.1 PROBLEMÁTICA ............................................................................................................................................. 2 1.2 IMPACTO DEL RAH EN LA RECUPERACIÓN DE INFORMACIÓN .................................................................................. 4
PRELIMINARES .......................................................................................................................................... 7
2.1 RECUPERACIÓN DE INFORMACIÓN ..................................................................................................................... 7 2.1.1 Modelo de espacio vectorial ............................................................................................................. 7 2.1.2 Evaluación de un sistema de recuperación de información .............................................................. 9
2.2 EL RECONOCIMIENTO AUTOMÁTICO DE HABLA .................................................................................................. 11 2.2.1 Componentes de un reconocedor de habla..................................................................................... 11 2.2.2 Evaluación de un reconocedor de habla ......................................................................................... 12
TRABAJO RELACIONADO ......................................................................................................................... 15
3.1 ENFOQUE DEPENDIENTE DE LA TRANSCRIPCIÓN: NIVEL PALABRAS .......................................................................... 15 3.2 ENFOQUE INDEPENDIENTE DE LA TRANSCRIPCIÓN: NIVEL FONEMAS........................................................................ 18 3.3 ENFOQUE A NIVEL FONEMAS, DEPENDIENTE DE LA TRANSCRIPCIÓN ........................................................................ 19
PROPUESTA DE INVESTIGACIÓN .............................................................................................................. 22
4.1 OBJETIVOS ................................................................................................................................................. 25 4.2 METODOLOGÍA ........................................................................................................................................... 25 4.3 CONTRIBUCIONES ........................................................................................................................................ 27 4.4 PLAN DE TRABAJO ........................................................................................................................................ 28
RESULTADOS PRELIMINARES ................................................................................................................... 29
5.1 DESCRIPCIÓN DEL CORPUS ...................................................................................................................... 29 5.2 EXPERIMENTOS REALIZADOS .................................................................................................................. 31
CONCLUSIONES ....................................................................................................................................... 37
BIBLIOGRAFÍA ......................................................................................................................................... 38
APÉNDICE A ............................................................................................................................................ 42
Capítulo I
Introducción
La recuperación de información (RI) consiste en encontrar por medios automáticos
una determinada pieza de información dentro de una colección de documentos a partir de
una petición o consulta. Los buscadores actuales en Internet son un claro ejemplo de esta
tarea. Los cuales permiten el acceso a la información contenida en esa gran colección de
documentos escritos que es la Web. Actualmente, dado el reducido costo de los dispositivos
que almacenan los contenidos Web, se han incorporado otros tipos de documentos:
imágenes, videos, grabaciones, etc. De ahí la necesidad de abordar otras variantes de la RI.
En el caso particular de este trabajo, la RI se desea realizar sobre una colección de
grabaciones de habla (o documentos orales) en las cuales una o varias personas intervienen.
Algunos ejemplos de documentos orales son: las emisiones de noticias por radio y
televisión, discursos políticos, debates, conferencias, reuniones de negocios, lecciones en
un salón de clases, entrevistas a celebridades, testigos, personas afectadas en accidentes,
etc. Para llevar a cabo la búsqueda en este tipo de colecciones, un primer paso, consiste en
la transformación del habla a texto con ayuda de un reconocedor automático de habla
(RAH). Posteriormente, una vez que se tienen las transcripciones de los documentos orales,
se aplican las técnicas hasta ahora desarrolladas para recuperación en texto. No obstante,
dadas las condiciones de la grabación (ruido ambiental, interposición de hablantes, etc.) y el
tipo de expresión oral (conferencia, entrevista, conversación telefónica) la transcripción
final dista de ser una representación fidedigna del contenido de la grabación. Así es que
nuevos métodos de recuperación son necesarios para abordar este problema.
2
1.1 Problemática
Los avances en el reconocimiento automático de habla nos permiten la búsqueda en
grandes colecciones orales usando los métodos tradicionales de recuperación de
información. Por supuesto, la calidad de las transcripciones y, por ende, el éxito de la
recuperación está fuertemente ligado al rendimiento del reconocedor de habla. Por el
momento, para el inglés (la lengua más investigada y con el mayor número de
herramientas) es posible obtener transcripciones casi correctas siempre y cuando se trate de
elocuciones limpias y bien formadas. Por ejemplo, una computadora puede realizar la
transcripción de un lector del Wall Street Journal con tan sólo un 5% de error a nivel de
palabra (WER) (i. e. 1 error cada 20 palabras). Sin embargo, el WER empieza a elevarse en
cuanto las condiciones son más cercanas a una conversación real. En el caso de una
conversación en una transmisión radiofónica podemos tener del 15% al 20% de error. Y en
el caso de una conversación telefónica entre 30% y 40% de error. Estos datos nos dan una
idea del reto en la recuperación de información en grabaciones de conversaciones
espontáneas.
El origen de los errores en una transcripción de habla es de muy variada naturaleza.
A continuación se presentan brevemente los principales motivos que impactan en el
desempeño de un reconocedor actual para posteriormente discutir su impacto en la RI.
• Las palabras fuera del vocabulario. Uno de los principales motivos de errores en la
transcripción del habla es la constante aparición de nuevas palabras. Este constante
fenómeno de la evolución del lenguaje impacta seriamente el desempeño de un RAH ya
que es prácticamente imposible contar con un diccionario completo, el cual enumere
todos los posibles nombres de empresas, personas, lugares, organizaciones, etc. Al no
existir la entrada correcta en el diccionario de pronunciaciones, el reconocedor
intentará aproximar el habla a una (o varias) palabras contenidas dentro del diccionario.
Así la transcripción de una palabra fuera del diccionario será substituida por una
palabra fonéticamente similar, o peor aún, por un grupo de palabras cuya pronunciación
conjunta sea fonéticamente similar. Diversos trabajos han abordado especialmente el
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
3
problema de palabras fuera del vocabulario como [1,2], en especial los experimentos de
Witbrock and Hauptmann [3], mostraron que existe una caída del 31% en la efectividad
de la recuperación la cual puede ser atribuida a las palabras fuera del vocabulario.
• La segmentación en palabras. Otro problema es la correcta segmentación de la cadena
de fonemas en las palabras que representa. Un reconocedor elige probabilísticamente
los cortes más apropiados, lo que puede provocar una transcripción incorrecta. El
modelo de lenguaje ayuda en la segmentación asignando probabilidades a secuencias de
palabras, donde la probabilidad de una palabra viene condicionada por las palabras
precedentes. De esta manera se incorpora información lingüística al proceso de
decodificación mejorando las transcripciones propuestas. Desafortunadamente, un
modelo de lenguaje genera probabilidades altas para secuencias de palabras comunes
(tales como preposiciones, artículos, etc.). Estas partículas fácilmente podemos
encontrarlas como parte de una palabra más grande. Por ejemplo, la secuencia de
fonemas que dan origen a la palabra “elocuente”, también puede reinterpretarse como
las palabras “el lo cuente”, y donde dada la alta probabilidad de las palabras frecuentes
“el” y “lo” el reconocedor se inclinará por esta última opción.
Fenómeno Ejemplo
Repeticiones Presiona el botón… el botón derecho
Auto correcciones Cierra el escaparate... la ventana
Comentarios Dibuja una línea ... eso es... a la derecha
Expresión idiomática Genial!!! No tiene nada que hacer
“Pausas llenas” Es mmm el que está mmm a la izquierda Tabla 1.1. Ejemplos de fenómenos lingüísticos del habla espontánea
• Fenómenos del habla espontánea. Finalmente, existen otro tipo de errores generados
por el tipo de grabaciones a tratar, es diferente tener grabaciones cuyo contenido son
noticias, las cuales mantienen una temática, buena entonación y repetición de los
acontecimientos, que tener grabaciones cuyo contenido son entrevistas donde se tienen
diversos fenómenos lingüísticos propios del habla espontánea (véase la Tabla 1.1).
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
4
Estos fenómenos pasan inadvertidos para una persona, pero son fuente de error para un
RAH. Cabe recordar que un reconocedor intentará llevar a texto cualquier sonido
presente en la grabación, de esta forma una risa será transformada a una palabra que
podrá alterar significativamente el contenido de la transcripción.
Figure 1.1: Extracto del documento em970915.4 del TREC-7 SDR. El primer párrafo corresponde a la transcripción realizada por una persona y ha sido editada incluyendo puntuación para su legibilidad. Los otros tres pasajes son la salida de un RAH, convertido todo a minúsculas y con signos de puntuación manualmente insertados para su legibilidad. Corresponden a errores a nivel palabra de 30%, 45% y 65% en ese orden [4].
Manual transcription. In Massachusetts a common bacteria has turned into a killer. Children’s Hospital in Boston says a new and aggressive strain of pseudomonas is to blame for the deaths of four newborns this summer in its neo-natal intensive care unit. All the babies had been critically ill before they were infected. That neo-natal unit has been closed since last month, but is it is expected to reopen sometime this week. Researchers continue to investigate the bacteria outbreak there. 30% errors. in massachusetts a common bacteria has turned into a killer. children’s hospital in boston says the new and aggressive strain of sue lawless is to blame for the deaths of four newborns this summer in its neonatal intensive care you. all the babies had been critically ill before they were infected. and neonatal unit has been closed since last month but is it is expected to reopen sometime this week. researchers contain investigate the bacteria outbreak their. 45% errors. in massachusetts the common bacteria has turned into a killer. children’s hospital in boston says a new one and aggressive strain of somalis used to blame for the deaths of four new boards this summer and steel nato intent security that. all the babies had been critically ill before they were infected. did you build unity has been closed since last month but it is expected to reopen sometime this week. researchers continue to investigate the bacteria up with their. 65% errors. it in massachusetts and common bank syria has turned in school killer. children’s hospital and boston says the new and west slate of civil list is only the deaths for new ones this summer women’s neo middle instances here you life. all the babies had been critically killed before they were effective. in new unit has been close since last month with israel is expected to wield some time this week. researchers continue to investigate the bacteria with enough.
1.2 Impacto del RAH en la recuperación de Información
La calidad de una transcripción tiene un claro impacto en la tarea de recuperación.
La Figura 1.1 ilustra el problema que produce una transcripción errónea. En la figura se
presenta el pasaje original (transcripción manual) y tres transcripciones automáticas con
diferentes RAH, con diferentes tasas de error. Estos datos fueron obtenidos del TREC-7
SDR [5] y hablan sobre la muerte de infantes por una cepa mortal de una bacteria.
Suponiendo que se realiza una consulta para buscar artículos que hablen sobre
pseudomonas, este pasaje será imposible de recuperar. En ningún caso los RAH
reconocieron esta palabra (probablemente esta palabra está fuera de su vocabulario) y fue
substituida por la aquella con una pronunciación similar. Como es de suponer mientras más
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
5
alta la tasa de error del RAH mayor en el número de palabas más transcritas. Por ejemplo,
si la consulta también incluyera la palabra bacteria sería posible encontrar el pasaje, al
menos para las dos primeras transcripciones, pero serían menores las posibilidades para la
tercera transcripción.
Por otro lado, si la consulta fuera totalmente otra que incluyera el término Syria, se
llegaría a recuperar un pasaje totalmente inadecuado (el caso de la tercera transcripción),
que a pesar de contener el término deseado éste no sería relevante para el usuario.
Ahora bien, durante los primeros años de investigación en la recuperación de
información en colecciones orales, en específico dentro del TREC y hace poco más de una
década, se dio por sentado que la búsqueda en colecciones orales era un problema resuelto.
Tres factores influyeron para llegar a esta afirmación: (i) la tarea se realizó sobre
grabaciones de noticias radiofónicas, las cuales cuentan con una estructura clara que se
asemeja fuertemente a los documentos escritos; (ii) la redundancia presente en el lenguaje
usado – dada la naturaleza de las grabaciones– permitía que la efectividad de la búsqueda
no fuera seriamente afectada por el error introducido por el reconocedor de habla; y (iii) se
construyeron sistemas de reconocimiento de habla eficaces para la transcripción de habla
como la practicada por los locutores de radio (conocida como habla planeada o leída).
Fueron estas tres condiciones las que permitieron obtener resultados satisfactorios en la
recuperación de información. Sin embargo, en la actualidad cuando se abordaron otras
fuentes orales mucho más complejas la situación cambió drásticamente. Estas nuevas
condiciones han estimulado la investigación en la recuperación de información en
colecciones orales tales como: materiales orales de patrimonio cultural (e.g. entrevistas,
debates parlamentarios), conversaciones multipartitas (e.g. reuniones de negocios,
discusiones académicas), conversaciones emitidas por medios de comunicación (e.g.
programas de entrevista y análisis, en radio o televisión).
En este nuevo escenario las diferencias entre el lenguaje escrito y el lenguaje
hablado son más evidentes. El lenguaje hablado difiere del escrito en términos de factores
estilísticos así como en términos de qué información se transmitió explícitamente. Por
ejemplo, el lenguaje hablado no contiene signos de puntuación, capitalización o formato,
que ayudan a estructurar el mensaje a transmitir. Además, como se vio en párrafos
anteriores el habla espontánea involucra fenómenos difíciles de solucionar.
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
6
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
A diferencia de la recuperación de información en texto, donde el indexado y la
búsqueda son los retos principales, la recuperación en documentos orales es un proceso con
un número mayor de retos. Entre ellos podemos mencionar los siguientes:
• Convertir el habla en símbolos discretos que puedan ser indexados y buscados. Hasta
ahora se ha trabajado con sistemas de reconocimiento de habla y reconocedores de
fonemas (el segundo permite tratar el problema de las palabras fuera del vocabulario
que no pueden ser tratadas por el primero).
• Considerar los errores inherentes al reconociendo de habla –o de fonemas. Mientras
más libre es la conversación más difícil es su correcta transcripción. Entre las
soluciones propuestas para abordar este problema es el almacenamiento y búsqueda –a
nivel de palabras o fonemas– usando todas las transcripciones candidatas generadas por
el reconocedor (normalmente representadas gracias a un grafo), evitando restringir la
recuperación al usar sólo la transcripción más probable.
• Procesar de consultas multi-palabra. Es posible realizar una búsqueda simple con una
consulta de una sola palabra (keyword spotting) así como consultas complejas (tal y
como se realiza tradicionalmente en texto). En el primer caso, la búsqueda puede
suscribirse al grafo de reconocimiento, sin embargo, para el segundo caso una consulta
de varias palabras da una información contextual valiosa que puede ser aprovechada
para determinar el documento relevante.
• Proveer un mecanismo eficiente de búsqueda. El proceso de búsqueda debe realizarse
en tiempos razonables aún para grandes colecciones de documentos orales.
El presente trabajo aborda los tres primeros retos al proponer nuevas
representaciones de los documentos orales para mejorar su recuperación a pesar de los
errores introducidos en el proceso de reconocimiento. Antes de detallar la propuesta de tesis
se presentan a continuación conceptos preliminares sobre la recuperación de información y
el reconocimiento del habla; posteriormente se discute el trabajo relacionado a la presente
tesis, para finalmente presentar los objetivos y contribuciones del presente trabajo.
Capítulo II
Preliminares
2.1 Recuperación de información
La tarea de recuperación de información (IR) consiste en dada una colección de
documentos, obtener documentos relevantes a las necesidades de información (consultas)
formuladas en lenguaje natural por un usuario [5].
El término relevantes se refiere a que los documentos recuperados deberán estar
semánticamente relacionados a la necesidad de información del usuario, además los
documentos deberán estar ordenados de acuerdo a la relevancia que cada uno de estos tenga
con respecto a la consulta dada. Nótese que la relevancia sólo puede ser evaluada por el
usuario que formula la consulta, por lo que la evaluación de la efectividad de un sistema de
recuperación de información no puede ser del todo objetiva; aunque actualmente se han
creado colecciones de documentos estándar y desarrollado protocolos para la evaluación y
comparación de este tipo de sistemas [5, 6, 7, 8]. Tampoco se especifica el tipo de
colección ni la modalidad de los documentos, por lo que por documento nos referiremos
indistintamente a documentos de texto (transcripciones del audio), imágenes, audio, etc.
Para poder realizar la recuperación de información, es necesaria una forma de
representar los documentos, para aplicar algún modelo de recuperación. El más sencillo y
usado es el modelo de espacio vectorial.
2.1.1 Modelo de espacio vectorial
El modelo de espacio vectorial (VSM), propuesto por Salton et al [9], se basa en la
idea de que el significado de un documento está dado por las palabras que éste contiene.
Propone llevar los documentos y la consulta a una representación vectorial, obtenida por las
8
palabras contenidas en los documentos y consulta, donde la comparación de los vectores
nos indique la similitud semántica entre consulta y documentos.
En el VSM cada documento d es representado por un vector ( ) de longitud igual
al tamaño del vocabulario | |. El vocabulario de la colección es el conjunto de todos los
términos (e.g., palabras) diferentes que ocurren en la colección. Cada elemento j del vector
indica la contribución del término j en el documento representado por el vector . El
conjunto de vectores que representan a los documentos contenidos en la colección generan
un espacio vectorial donde los documentos pueden ser comparados a través de sus
representaciones. Este espacio vectorial se representa por la matriz ( ), denominada
término-documento (TD), de dimensiones , donde N es el tamaño del vocabulario de
la colección, | , y M es el número de documentos en la colección. Cada entrada
indica el peso o contribución del término tj en el documento di. Diversos esquemas de
pesado han sido propuestos, aunque el más utilizado es el denominado tf-idf (por, term-
frequency inverse-document-frequency). La forma en que se determina el valor de cada
entrada se muestra en la fórmula (2.2.1).
(2.1.1)
Donde indica el número de ocurrencias del término j en el documento di, |D| es
el número total de documentos en la colección y es el número de documentos que
contienen el término j.
Las consultas en el VSM son especificadas por sentencias de texto que son
consideradas un documento. Este documento es transformado a la misma representación
vectorial que la colección. Una vez que consulta y documentos se encuentran en la misma
representación es posible comparar el vector que representa la consulta y cada uno de los
vectores en la colección. La medida de similitud más utilizada en el VSM es la denominada
medida del coseno, descrita en la fórmula 2.1.2,
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
9
,∑| |
∑| | ∑| | (2.1.2)
donde sim(q; di) indica la similitud entre la consulta (q) y el documento di. es el vector
construido con los términos contenidos en la consulta q y es el vector que representa al
documento d. Con esta fórmula estamos midiendo el ángulo en el espacio |V| dimensional
entre dos vectores; considerando una normalización para que la magnitud de los vectores
no afecte el proceso de recuperación. Los documentos más similares a la consulta son
regresados como relevantes a la consulta.
2.1.2 Evaluación de un sistema de recuperación de información
En la Figura 2.1 se muestran las diferentes categorías en las que se clasifica a los
documentos para cualquier consulta, en ella es posible observar que existen documentos
recuperados y documentos que son relevantes. En un sistema perfecto, esos dos conjuntos
deberían ser iguales, i.e., sólo se recuperarían documentos relevantes. Aunque en la
realidad, los sistemas recuperan muchos documentos que no son relevantes. Para medir la
efectividad, existen dos medidas comunes: precisión y recuerdo.
La precisión es la razón del número de documentos relevantes recuperados entre el
total de documentos recuperados. La precisión es un indicador de la calidad del conjunto de
documentos entregados como respuesta a la consulta del usuario. Sin embargo, esto no
considera el número total de documentos relevantes. Un sistema podría tener una muy
buena precisión recuperando diez documentos de los cuales nueve sean relevantes (i.e., 0.9
de precisión), pero también es necesario tomar en cuenta el número total de documentos
relevantes. Si solamente hubiera nueve documentos relevantes, el sistema tendría en efecto
mucho éxito en el desempeño de su tarea, sin embargo si existieran millones de
documentos relevantes, éste no seria tan buen resultado.
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
10
Figura 2.1: Conjunto de Documentos Recuperados, Relevantes y Relevantes Recuperados
El recuerdo considera el número total de documentos relevantes; es la razón del
número de documentos relevantes recuperados entre en número total de documentos
relevantes existentes en la colección.
La Precisión Promedio o Average Precision (AveP) descrita en la fórmula 2.1.3, se
refiere al promedio de las precisiones calculadas en varios niveles de recuerdo para una
consulta dada.
∑ (2.1.3)
donde P(r) es la precisión del sistema a los r-documentos considerados y rel(r) es una
función binaria que nos indica si el documento recuperado, r , es relevante a la consulta o
no. Intuitivamente, esta medida indica que tan bien el sistema regresa documentos
relevantes en las primeras posiciones. En muchos foros actuales, encargados de evaluar el
desempeño de los sistemas de recuperación de información, se hace uso de colecciones
cerradas de documentos. Lo cual permite a los diferentes grupos de investigación reportar
sus resultados en términos del AveP, y de la medida MAP. Donde el MAP sólo es el
promedio de las AveP obtenidas para cada consulta [7].
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
11
2.2 El Reconocimiento automático de habla
Como se mencionó, antes de aplicar los métodos de recuperación de información, es
necesario contar con una transcripción del audio, la cual es generada por el reconocedor
automático del habla. El reconocimiento del habla es un proceso que convierte una señal
acústica (sonido) capturada por un micrófono –u otro dispositivo– a un conjunto de
palabras (texto). El reconocedor automático de habla (RAH) debe obtener información
procedente de diversas fuentes (acústica, fonética, fonológica, léxica, semántica) en
presencia de ambigüedades e incertidumbres para llegar a una interpretación del mensaje
acústico recibido [10].
La precisión de un RAH depende de diversos factores, como son: la calidad de la
grabación, el tamaño de vocabulario, el tipo de locutor y el tipo de habla.
2.2.1 Componentes de un reconocedor de habla
Figura 2.2 Arquitectura de un reconocedor automático de habla
A continuación se presenta brevemente los principales componentes de un
reconocer de habla:
• Los modelos acústicos: son representaciones estadísticas de los sonidos del habla. Se
calculan a partir de un enorme conjunto de grabaciones de habla y sus correspondientes
transcripciones fonéticas. En otras palabras el modelo acústico, proporciona al RAH
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
12
información sobre las propiedades y características de los sonidos del habla y los asocia
con su correspondiente grafema.
• El modelo del lenguaje: provee información lingüística sobre la secuencia del texto. A
menudo está basado en modelos de lenguaje estadísticos como n-gramas. Un modelo de
lenguaje de n-gramas es de la forma P(wn|w1,…,wn-1), lo cual capta la probabilidad de
observar la palabra wn dadas las palabras anteriores w1,…,wn-1. En otras palabras el
modelo de lenguaje, contiene la información de cómo se deben combinar las palabras
para formar frases.
• El diccionario de pronunciaciones (vocabulario): indica el conjunto de sonidos con los
que se forma cada palabra del vocabulario, y en su caso, las variantes en la
pronunciación de una misma palabra.
• La máquina de decodificación: busca la mejor secuencia de palabras, dadas las
características acústicas, el diccionario de pronunciación y el modelo del lenguaje.
En general, todos estos componentes se ajustan a escenarios concretos, ya sea a un
determinado vocabulario, locutor o tema (o combinaciones de ellos). Sin embargo, a pesar
de mejorar el rendimiento del reconocedor al especializarlo de esta forma, se pierde la
generalidad del mismo. Así que este compromiso varía dependiendo de la aplicación
deseada.
Al terminar el proceso del reconocimiento de habla, tenemos una secuencia de
palabras, que debido a los errores introducidos, dista de ser una representación fidedigna
del contenido de la grabación. Por lo que se vuelve necesario una forma de evaluar que tan
cercana es la transcripción, con lo que realmente decía la grabación. En la siguiente sección
se menciona la forma de cuantificar los errores.
2.2.2 Evaluación de un reconocedor de habla
Para expresar la calidad del reconocedor automático de habla, se hace necesaria una
medida que permita llevar a cabo una interpretación clara de los errores encontrados. Sería
deseable encontrar una medida que aporte toda la información necesaria para comprender
los problemas del sistema de reconocimiento, que permita compararlo y clasificarlo. Sin
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
13
embargo, no existe una medida que contenga tanta información como sería deseable. A
pesar de ello, se utilizan diversas medidas que aunque no poseen todas las características
deseadas, son ampliamente aceptadas por la comunidad.
La medida más comúnmente utilizada en la evaluación de los sistemas de
reconocimiento de habla es el error a nivel palabra (WER por sus siglas en inglés). Este
método emplea la programación dinámica para llevar a cabo un alineamiento temporal de
dos secuencias. Calcula el número mínimo de inserciones, borrados y sustituciones (de una
palabra por otra) necesarios para transformar una frase en otra. Esta medida se basa en la
distancia de edición o de Levensthein, con la salvedad de que esta última se calcula a nivel
de letra y WER lo hace a nivel de palabra. La figura 2.3 muestra ejemplos de los tres tipos
de errores que se miden comúnmente para determinar el rendimiento de un reconocedor de
habla: inserción, borrado y sustitución.
Figura 2.3: Errores generados por un reconocedor automático de habla.
Inserción ( I ): cuando una palabra reconocida no se corresponde con nada
presente en la entrada del reconocedor Referencia el presidente Vicente Fox *** regreso a México Transcrita el presidente vicente fox QUE regreso a mexico
Borrado ( D ): cuando nada en la salida del reconocedor en ese instante de
tiempo, se corresponde con una palabra concreta presente en su entrada
Referencia no DEJA de ser una cuestión muy importante Transcrita no **** de ser una cuestion muy importante
Sustitución ( S ): la palabra reconocida no coincide con la palabra presente en
la entrada del reconocedor Referencia el derecho de la Unión Europea Transcrita el derecho de la UN europea
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
14
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
Si definimos Nr como el total de palabras en la transcripción de referencia, S como
el número total de palabras substituidas, D como el número total de palabras eliminadas en
la transcripción automática, I como en número total de inserciones en la transcripción
automática, el error a nivel palabra WER quedaría definido como en la fórmula 2.1.4 [6].
(2.1.4)
Como es de esperarse a mayor tasa de error en una transcripción menor la eficacia
en la recuperación. Diversos trabajos [12, 13, 14] lo han demostrado (véase por ejemplo la
Tabla 5.1), sin embargo no es claro que tipo de error (i. e. sustitución, borrado o inserción)
es el que más impacta en la tarea de recuperación. Los trabajos actuales no hacen una
distinción explícita del tipo de error que abordan o tratan de resolver, tal y como se verá en
la siguiente sección. En ésta, se detallan los principales trabajos relacionados a este tema de
investigación.
Capítulo III
Trabajo Relacionado
Como se mencionó en el capítulo 1, los retos bajo esta problemática son variados,
en nuestro caso nos enfocamos exclusivamente a la recuperación de información de
documentos orales transcritos. Los enfoques más utilizados bajo estas circunstancias se
pueden agrupar en aquellos cuya unidad de indexado es la palabra (proveniente de las
transcripciones automáticas) y en aquellos cuya unidad de indexado es el fonema. Los
primeros surgen por la facilidad de su implementación, reutilizar técnicas conocidas y son
los que obtienen mejores resultados; y los segundos surgen por las deficiencias de los
primeros. En las siguientes secciones se muestran estos enfoques, así como diferentes
trabajos representativos de ellos.
3.1 Enfoque dependiente de la transcripción: nivel palabras
Este enfoque consiste en aplicar técnicas tradicionales de recuperación de
información sobre las transcripciones automáticas. Como primer paso se genera la
transcripción del audio, que consiste en transformar el habla contenida en una grabación de
audio en texto, usando un reconocedor automático de habla. A partir de las transcripciones
generamos un índice de las palabras presentes en la transcripción (vocabulario). Entonces
se puede realizar la recuperación de documentos, por ejemplo aplicando el modelo de
espacio vectorial mencionado en el capítulo 2.
En la figura 3.1 se muestra un ejemplo de un fragmento de una transcripción
automática y su referencia manual, donde se puede observar que si se realizara una consulta
referente a Saddam Hussein, será imposible de recuperar el documento, debido a que las
palabras indexadas serían “sit”, “down”, “the”, “same”, por lo que no se puede hacer un
símil con las palabras “Saddam” y “Hussein”.
16
Manual the efforts by certain states to circumvent UN sanctions
against the Saddam Hussein regime in Iraq ASR the efforts by certain States to circumvent U. N. sanctions
against the sit down the same regime in Iraq Tabla 3.1. Ejemplo de la transcripción de un fragmento de un documento.
Dentro de este enfoque se encuentra el trabajo de Brown et al., [15] que es uno de
los primeros trabajos en desarrollar un sistema para recuperar video mensajes por medio
del reconocimiento del habla. El trabajo fue muy restringido ya que sólo reconocía 35
palabras diferentes, el RAH era dependiente del hablante y debía usarse en un ambiente
controlado. El proceso consistía en usar un reconocedor de habla el cual regresaba una lista
de palabras para indexarlas después con una máquina de recuperación de información. Los
mejores resultados obtenidos fue un rendimiento (precisión) del 87.6% en comparación del
obtenido con respecto al texto.
Otros trabajos abordaron el problema de las palabras mal reconocidas, utilizando
técnicas de expansión de documentos. Con la expansión se agregarán a un documento
palabras temáticamente relacionadas, si consideramos que el documento es en su mayoría
correctamente transcrito, existen fuertes posibilidades de que se agregaran las palabras que
el RAH transcribió incorrectamente.
Una forma de aplicar la expansión de los documentos, es realizarla sobre el mismo
corpus, esto bajo la suposición de que el reconocedor no siempre se equivoca en las mismas
palabras [16]. En el ejemplo de la figura 1, el RAH que tiene un error del 65% primero
reconoce la palabra “bacteria” como “bank syria”, sin embargo la segunda ocasión la
reconoce adecuadamente. Por lo que con la expansión se podrían agregar las palabras
correctas a los documentos, sin embargo en la misma figura 1, se puede observar que la
palabra pseudomonas no fue reconocida en ningún caso, esto puede implicar que esa
palabra no está en el vocabulario del RAH, por lo que en ningún momento será transcrita
adecuadamente. En consecuencia, esta expansión no es útil para resolver el problema de
palabras fuera del vocabulario.
Otra forma de expandir los documentos es utilizando un corpus externo, Singhal y
Pereira [17] realizaron un estudio donde proponen que la expansión de documentos puede
mitigar el efecto de los errores en la transcripción. Realizaron estudios donde incluso con
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
17
errores a nivel palabra del 65% en la transcripción, la pérdida de efectividad en la
recuperación de información, puede ser reducida del 15-27% a solo 7-13%. Como es de
esperarse, este método es útil si los documentos usados para la expansión son de un corpus
muy cercano temáticamente al documento base. En los experimentos se realizó la
expansión con dos tipos de corpus, uno llamado “NA news”, que es muy relacionado al
corpus de las transcripciones y otro del TREC. Con el corpus “NA news” la precisión en
preguntas cortas aumentó 23% y en preguntas largas 3.5%, sin embargo al usar el corpus
TREC, la precisión sólo aumentó 12% en preguntas cortas y cayó 0.7% en preguntas largas.
Otro trabajo que usa expansión con una colección alterna para expandir los
documentos es [18]. Los experimentos se realizaron con diferentes configuraciones, para la
expansión de los documentos se tomaron 10, 20, 50 y 100 documentos y de ellos se
tomaron los 10, 20, 30, 40 y 50 términos más frecuentes con la restricción de que el término
apareciera en al menos tres de los mejores documentos. La mejor combinación fue obtener
las 20 palabras más selectivas de los 50 documentos más cercanos. En estos experimentos
la colección alterna estaba muy relacionada con la colección base, por lo que los resultados
mostraron una mejora.
En el mismo trabajo [18], se realizó otro tipo de expansión al usar un tesauro (en
este caso una lista de sinónimos), se agregaron todos los sinónimos correspondientes a una
palabra. Para esto no se usaron todas las palabras del documento, si no sólo se aplicó a un
conjunto de palabras clave que representan al documento, en la tabla 3.2, se muestran los
resultados obtenidos con y sin expansión –los experimentos se realizaron con un corpus
específico utilizado en el foro CLEF 2005–. Como se puede observar la ganancia al usar
expansión es mínima. Técnica MAP
sin expansión 0.2740
con expansión 0.2848
Tabla 3.2. Expansión usando sinónimos.
En general, este enfoque dependiente de la transcripci, tiene dos principales
inconvenientes, el primero es que está ligado a la existencia de recursos como un
diccionario de pronunciaciones o un modelo de lenguaje y de lo completos que estos sean.
Por ejemplo el vocabulario no puede contener todos lo nombres de personas, lugares y
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
18
empresas, este problema restringe a las consultas y a los documentos que pueden ser
recuperados, debido a que las palabras no contenidas en ese diccionario, nunca aparecerán
en los documentos y por consiguiente no podrán ser recuperadas en una consulta. El otro
problema es el modelo de lenguaje, el cual requiere de una gran cantidad de datos para
obtener probabilidades aceptables para todas las palabras del diccionario, sin embargo,
también se generan más probabilidades para palabras comunes (artículos, preposiciones),
que en varias ocasiones son parte de una palabra mayor.
3.2 Enfoque independiente de la transcripción: nivel fonemas
La principal motivación de usar el enfoque basado en fonemas, es evadir la
inherente debilidad del enfoque basado en palabras para tratar las palabras fuera del
vocabulario. En este enfoque la transformación del audio a texto sólo llega hasta la etapa de
obtención de fonemas (prescindiendo del diccionario de pronunciaciones y del modelo de
lenguaje).
Este enfoque ha demostrado un mejor comportamiento con palabras fuera del
vocabulario (en especial nombre de personas, lugares, términos extranjeros, etc.), debido a
que no depende de un diccionario o modelo de lenguaje. Sin embargo, el error en la
secuencia de fonemas, es mayor que el error a nivel de palabras, debido a que no tiene
elementos que le ayuden a corregirlo, debido a esto, una consulta puede dar un mayor
número de respuestas falsas que el enfoque basado en palabras.
Como ahora el documento está representado por los fonemas, éstos son la base a
partir de la cual se hará la búsqueda del texto deseado. Por consiguiente ya no se cuenta con
una secuencia de palabras, ahora toda la transcripción es una cadena de fonemas, donde la
única separación aparece cuando existen silencios pronunciados. Indexar un documento con
sus fonemas, no es práctico, además de que no proporciona mucha información, por lo que
una técnica bien establecida es la extracción de n-gramas de fonemas (una secuencia de n
fonemas), usualmente los n-gramas generados se superponen unos con otros. En caso de
que la consulta sea escrita, ésta es transformada en una secuencia de fonemas, usando un
diccionario de pronunciaciones, esto con el fin de poder hacer el alineamiento entre la
consulta y los documentos.
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
19
Indexar usando n-gramas tiene una larga tradición en recuperación de texto, en
idiomas como el coreano, chino y árabe entre otros. En [19] proponen el uso de los n-
gramas para el idioma chino, ya que usualmente se pierden los límites de las palabras, y el
uso de n-gramas ya no requiere conocer el límite de las palabras. En [20] proponen usarlo
en el idioma coreano, donde existe un problema debido a que la raíz de varias palabras son
palabras compuestas y no es fácil implementar un método que obtenga la raíz de las
palabras, pero los n-gramas solucionan ese problema al separar la palabra en sub-unidades.
En [21] abordó el problema de recuperar grabaciones de audio a partir de una
pregunta en texto. En la figura 3.1 se muestra un ejemplo donde se observa la transcripción
manual (texto y fonética) y la transcripción fonética automática. Uno de los experimentos
para el indexado, consistió en el uso de n-gramas de fonemas, donde el tamaño de n se fijó
en 3. Aunque menos del 72% de los fonemas fueron reconocidos adecuadamente, fue
posible encontrar información relevante a las consultas.
Text In Algerien hat die Islamische Heilsfont FIS die Bevoelkerung … Correct i n a l g e r i @ n h a t d i i s l a m i sch @ h ei l s f r O n t sil E f I E s d i b e f oe l k E r u N Recognized i m a E d i E i @ n h a t s t i i s l a m i sch e h ei l ch s v O n t sil E f i E s d e b E sch ei r E k r u
N … Figura 3.1. Ejemplo de una frase de una noticia de radio: texto, transcripción y fonemas.
Una alternativa a los n-gramas de tamaño fijo, es utilizar secuencias de longitud
variable. En [22,23] usan un algoritmo que establece secuencias de fonemas de longitud
variable como unidades de indexado. El algoritmo genera algunas secuencias de fonemas
que parecen ser la raíz de algunas palabras, lo cual resulta útil para la recuperación, sin
embargo no se demostró que la longitud variable proporcione mejores resultados que usar
una longitud fija.
3.3 Enfoque a nivel fonemas, dependiente de la transcripción
Como se comentó, la principal ventaja del uso de n-gramas de fonemas como
unidad de indexado es el no requerir del diccionario de pronunciaciones ni del modelo de
lenguaje, recursos que no siempre están disponibles y que por su naturaleza, limitan las
palabras que se pueden reconocer. Así, bajo este enfoque estamos cerca de la noción de
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
20
vocabulario abierto, aunque la única restricción práctica es la necesidad del diccionario de
pronunciaciones para convertir las consultas a fonemas. Por otro lado, el reconocimiento de
fonemas es mucho más rápido que el RAH basado en grandes vocabularios, esto es útil en
aplicaciones que necesiten trabajar en tiempo real. En resumen, este enfoque es factible
mientras no existan muchos errores en el reconocimiento de fonemas [22].
Desafortunadamente mientras más ruidosas son las grabaciones más difícil es el
reconocimiento a nivel fonético, y por ende es necesario recurrir a información lingüística
para disminuir los errores. Así que también se han realizado trabajos donde primero se
obtiene la transcripción de los documentos (secuencia de palabras) y después se usa un
diccionario de pronunciaciones para transformar las transcripciones en una cadena de
fonemas, sobre las cuales se pueden emplear las mismas técnicas de n-gramas,
mencionadas anteriormente. Por ejemplo, los trabajos en [24, 25] convierten la
transcripción a fonemas y la dividen en n-gramas de fonemas con n = 4. Como se observa
en la tabla 3.3, la recuperación sólo usando n-gramas de fonemas, da un resultado algo
menor que el uso de la transcripción, sin embargo, la fusión de ambos resultados obtiene
una ligera mejora.
MAP Transcripciones 0.099 n-gramas de fonemas (n=4) provenientes de la transcrip-ción
0.097
Fusión 0.112 Tabla 3.3. Recuperación con fonemas y texto.
Un punto en contra de este enfoque es la necesidad de contar con un convertidor de
texto a fonemas. Para ello es necesario un conjunto de suficientes datos y de alta calidad
para poder construirlo. Además se tiene el inconveniente de que un convertidor de texto a
fonemas no toma en cuenta la pronunciación de la palabra en su conjunto, sino sólo la
pronunciación de cada letra (o en su casa cada sílaba). Esto limita fuertemente la
transformación de la palabra escrita a su apropiada pronunciación.
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
21
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
Recapitulación
La recuperación de información en documentos orales siempre deberá considerar la
posibilidad de enfrentar errores en la transcripción. Es un hecho de que incluso con un nivel
de reconocimiento excepcionalmente alto, siempre estará presente el problema de la
introducción de nuevas palabras en el discurso. Así que siempre será necesario incluir un
mecanismo que nos permita lidiar con los errores introducidos por el reconocedor.
Como se puede ver en los párrafos anteriores, es posible identificar dos principales
enfoques de investigación, el primero implementa mecanismos clásicos de recuperación de
información buscando aminorar el impacto que tienen los errores introducidos por el
reconocedor de habla; el segundo trata de resolver los errores introducidos por el
reconocedor por medio de información fonética.
Bajo el primer enfoque, partir de la transcripción automática tiene la gran ventaja de
que se tienen transcripciones con menos errores –dada la inclusión de información
lingüística de más alto nivel– desafortunadamente este mismo proceso provoca que las
palabras fuera del vocabulario sean motivo de error. Bajo el segundo enfoque, al partir de
una cadena de fonemas se evita caer en errores al segmentar dicha cadena en palabras,
sobretodo para cuando no tenemos evidencia de cómo hacerlo (el caso de las palabras fuera
del vocabulario). Desafortunadamente, la misma cadena de fonemas reconocida no está
libre de errores. Incluso en la mayoría de los sistemas de reconocimiento la tasa de error a
nivel fonemas es mayor que la tasa de error a nivel palabra. De ahí el surgimiento de un
enfoques combinados que buscan implementar mecanismos –principalmente al agregar
información fonética– para mejorar la recuperación de documentos relevantes.
Capítulo IV
Propuesta de Investigación
Los enfoques analizados anteriormente nos muestran que aún no existe la solución
idónea para este problema. Cada método aborda dos tipos de errores introducidos por el
RAH. El primer enfoque se orienta a disminuir el impacto de palabras mal transcritas por
las condiciones de la grabación, desatendiendo las palabras fuera del vocabulario. Mientras
el segundo enfoque busca resolver principalmente el problema de las palabras fuera del
vocabulario.
Independientemente de la causa del error, es un hecho que no es generado al azar, el
RAH introduce palabras fonéticamente similares a las correctas. Con esto en mente,
proponemos un método para la recuperación de información en documentos orales, que
permita abordar los errores de substitución y delimitación de las palabras. Este método debe
representar a los documentos de una forma adecuada, que permita acceder rápidamente a
ellos, se pueda integrar a otras técnicas de RI y permita realizar la recuperación de
documentos orales con una mayor precisión que usando una sola técnica tradicional de RI.
Lo que se desea es alcanzar la misma representación para dos palabras (o segmentos
de palabras), cuya pronunciación sea similar, a pesar de que su forma escrita sea diferente.
Una solución a este problema es el uso de códigos fonéticos. Éstos fueron creados para
poder representar con un mismo código –o cadena alfanumérica– nombres de personas
similares en su pronunciación a pesar de sus variantes escritas. Los códigos fonéticos,
tienen años utilizándose en bases de datos [26, 27], y a nuestro conocer sólo existe un
trabajo que los han usado en la tarea de recuperación de información.
El trabajo propuesto por Allan y Raghavan [28] utiliza códigos fonéticos para tratar
los nombres de personas generados por el RAH. Ellos utilizan los códigos fonéticos sobre
las transcripciones obtenidas por un reconocedor automático de habla, pero al igual que los
trabajos anteriores en bases de datos, sólo es utilizado para indexar nombres.
23
Cabe también mencionar que existe un trabajo publicado resultado de nuestro
trabajo de maestría que sirve de antecedente a esta propuesta de tesis. Ese trabajo [29]
exploró por primera vez el uso de los códigos fonéticos en RI al aplicarlo a toda la
transcripción sin limitarse a únicamente los nombres propios. El trabajo demostró la
utilidad de los códigos fonéticos a pesar de haberse restringido a nivel de palabras, con lo
que se abordaron únicamente los errores de substitución. En la tabla 4.1 se muestra un
ejemplo donde los códigos fonéticos –utilizando el algoritmo Soundex– aminoran el
impacto causado por un error de sustitución. En la tabla se cuenta con la transcripción
manual y la automática obtenida por el RAH. Se observa que las palabras UNIX y Sun, no
son reconocidas correctamente por el RAH pero ambas fueron substituidas por palabras
fonéticamente similares. La tercera columna muestra los códigos fonéticos para cada
palabra de ambas transcripciones. Como podemos observar la similitud entre los códigos
fonéticos (UNIX:U520, unique:U520) hará posible la recuperación del documento a pesar
del error del reconocedor.
Transcripción Codificación Fonética
Manual UNIX Sun Workstation U520 S500 W623 Automática unique set some workstation U520 S300 S500 W623
Tabla 4.1. Ejemplo donde se puede solventar el error de substitución
Como se vio anteriormente, los errores del reconocedor no se limitan a la
substitución. De ahí que esta propuesta de tesis busque solventar otro tipo de errores. En
especial aquellos generados por la mala segmentación de las palabras. Por ejemplo, para
cuando una palabra es separada en dos palabras. La tabla 4.2 muestra la consulta y un
documento relevante a ella, en donde un nombre propio no fue reconocido adecuadamente,
probablemente porque éste está fuera del vocabulario. En este caso, se deberá recurrir no
sólo a códigos fonéticos palabra por palabra, sino también a códigos de palabras
consecutivas, con ello se espera ayuda a solventar el problema de segmentación. Por
supuesto, será necesario investigar hasta donde es conveniente llevar la codificación de
múltiples palabras.
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
24
Consulta
Texto How has been Frattini in the hearings? Codificación fonética H00000 H20000 B50000 F63500 I50000 T00000 H65200
Documento oral relevante
Transcripción manual I mean Mister Frattini is has been very clever through the hearings he is slalommed his way through the different question
Transcripción automática
I mean Mr. Freeh teeny is has been very clever through the hearings he's salon on his way through the different questions
Codificación fonética de la transcripción automática
Codificación por palabra
I00000, M50000, M60000, F60000, T50000 I20000, H20000, B50000, V60000, C41600, T60000, T00000, H65200, H20000, S45000, O50000, H20000, W00000, T60000, T00000, D16530, Q23520
Codificación cada dos palabras
I55000, M56000, M61600, F63500, T52000, I22000, H21500, B51600, V62416, C41636, T63000, T65200, H65220, H24500, S45500, O52000, H20000, W36000, T63000, T31653, D16532
Tabla 4.2. Ejemplo donde se puede solventar la segmentación por medio de codificación fonética
Otro reto aún mayor, se presenta cuando la pronunciación de una palabra también es
dividida, pero no quedan dos palabras completas, si no se integran a otros fonemas
construyendo palabras totalmente diferentes. En este escenario la codificación de
concatenación de palabras no es suficiente. En este caso se deberá fragmentar las palabras
en n-gramas de caracteres que permitirán unir los segmentos de palabra para construir el
código fonético apropiado.
Otro de los aportes es el análisis de utilizar distintos algoritmos fonéticos para la
recuperación de información, en ambos casos, tanto para la substitución, como para los
errores de segmentación. La razón de no elegir un solo algoritmo, es que cada uno tiene sus
propias reglas. Desde 1918 cuando surgió Soundex, se han propuesto varios algoritmos
fonéticos, la tabla 4.3 enlista los algoritmos fonéticos más comunes y la fecha en que
fueron propuestos. Nosotros analizaremos varios de estos algoritmos para determinar cual o
cuales son más convenientes para utilizar en la RI. El apéndice A detalla cada uno de estos
métodos de codificación fonética. Método Año Soundex 1918, 1930
Daitch-Mokotoff Soundex 1985
Phonix 1988, 1990
Metaphone 1990
Double Metaphone 2000
Tabla 4.3 Algoritmos fonéticos
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
25
4.1 Objetivos
El objetivo general de esta propuesta es:
• Proponer un método para la recuperación de información en documentos orales
basado en códigos fonéticos a nivel palabra, multipalabra y subpalabra para mejorar
la recuperación de información alcanzada por medios tradicionales.
Los objetivos específicos que se plantean son:
• Proponer diferentes representaciones usando códigos fonéticos tanto a nivel palabra,
multipalabra y subpalabra para abordar no únicamente los errores de substitución
generados por el RAH.
• Analizar la complementariedad y redundancia de los resultados obtenidos con
diferentes algoritmos de codificación fonética en la recuperación de documentos
orales.
• Proponer estrategias de fusión que combine las ventajas de la representación textual
con las ventajas de la representación basada en códigos fonéticos.
• Proponer un método que combine los métodos tradicionales de expansión a nivel
palabras con el uso de códigos fonéticos.
4.2 Metodología
La metodología contemplada para alcanzar los objetivos propuestos es la siguiente:
1. Analizar el impacto de los errores del RAH en la RI de documentos orales. Para ello se
construirá una plataforma de experimentación que servirá como método base para el
indexado y recuperación de los documentos usando códigos fonéticos. De igual forma
esta plataforma será utilizada para la evaluación de los pasos subsecuentes de esta
metodología. Para el análisis se realizará lo siguiente:
• Conseguir un corpus con transcripciones de diferentes calidades.
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
26
• Ver el impacto que tiene la calidad de la transcripción en la recuperación de
documentos.
2. Evaluar el impacto de la codificación fonética en la recuperación de información en
documentos orales.
• Aplicar diversos algoritmos de codificación fonética a las transcripciones
automáticas y observar su desempeño.
• Medir la complementariedad de los resultados obtenidos al usar las diferentes
representaciones de códigos fonéticos.
• Analizar la frecuencia de los códigos y observar la cantidad de colisiones
(cuantas palabras son cubiertas por el mismo código) para concluir sobre su
impacto en el rendimiento de la RI.
• Combinar las representaciones textuales y códigos fonéticos usando fusión. Se
piensa en al menos tres escenarios: fusión temprana, fusión tardía y fusión
intermedia.
3. Implementar las codificaciones fonéticas a nivel de sub-palabras (n-gramas de
caracteres). Esto está orientado a solventar errores originados cuando varias palabras
son transcritas como una sola.
• Probar el comportamiento con diferentes representaciones fonéticas
• Probar el comportamiento con diferentes tamaños de n-gramas.
• Analizar la complementariedad de los resultados
• Combinar las diferentes representaciones.
4. Implementar las codificaciones fonéticas a nivel de supra-palabras (concatenación de
palabras). Esto ayudará a solventar errores originados cuando una palabra es separada
en dos o más.
• Probar el comportamiento con diferentes representaciones fonéticas
• Probar el comportamiento concatenando n palabras.
• Analizar la complementariedad de los resultados
• Combinar las diferentes representaciones.
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
27
5. Implementar un método de expansión de la consulta considerando los códigos
fonéticos.
• Realizar expansión a nivel de palabras.
• Realizar la expansión considerando palabras fonéticamente similares a través
del uso de códigos fonéticos.
• Realizar expansión en los esquemas de multipalabra y subpalabra.
4.3 Contribuciones
Las contribuciones de este trabajo se orientan de manera general al área de recuperación de
información en documentos orales. Las aportaciones se pueden resumir en los siguientes
puntos:
• Un método para realizar la recuperación de información en documentos orales
usando representaciones basadas en códigos fonéticos.
• Determinar la utilidad de los distintos algoritmos de codificación fonética y el
alcance de las estrategias de fusión propuestas en la recuperación de información de
documentos orales.
• Determinar la utilidad de las representaciones a nivel multipalabra y subpalabra para
abordar los diferentes errores en transcripciones automáticas.
• Un método de expansión de la consulta considerando códigos fonéticos.
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
28
4.4 Plan de trabajo
En la siguiente tabla se presenta el cronograma de actividades para los 36 meses (12
trimestres) de duración de la investigación doctoral. Las actividades marcadas con gris
claro representan las actividades en proceso.
2009 2010 1011 Actividad \ Trim 1 2 3 4 5 6 7 8 9 10 11 12Revisión del Edo. Arte Plataforma de pruebas Impacto de los errores en la RI Implementar métodos de codificación fonética Evaluar el impacto de los códigos fonéticos en la RI (nivel palabras) Medir la complementariedad Implementar métodos de combinación Codificación fonética en sub-palabras Codificación fonética en multipalabras
Medir complementariedad
Implementar métodos de combinación II
Implementar métodos de expansión Publicación de artículos Redacción de tesis Entrega y defensa de tesis
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
29
Capítulo V
Resultados Preliminares
En este capítulo se exponen los experimentos realizados durante este primer año con
el fin de comprobar la viabilidad de la propuesta y la factibilidad de nuestros objetivos.
Este capítulo inicia con una sección detallando el corpus de datos usado en los
experimentos. La sección posterior describe cada uno de los experimentos realizados.
5.1 Descripción del Corpus
La colección sobre la que se realizaron los experimentos es una colección de prueba
propuesta por el foro de evaluación, la cual consiste en grabaciones de entrevistas. La tarea
se inició en el 2005 y se distingue de otras, por la carencia de un tema claro en la
conversación –ya que durante una entrevista usualmente se tratan diversos temas–, el error
introducido por el RAH es mucho mayor. En promedio, una entrevista de la Fundación de
Historia Visual (VHF) se extiende por más de dos horas y el contenido no puede ser
fácilmente examinado. El corpus utilizado, es un subconjunto de 10,000 horas, y aún así, al
momento de realizarse la evaluación en el CLEF, solamente una porción de 272 entrevistas
había sido procesada por dos sistemas de RAH. Esto dio como resultado que solo se
procesaran 589 horas de habla, lo cual son 8,104 segmentos. Esto da en promedio
segmentos de 4 minutos, equivalentes a unas 503 palabras por segmento. Aunque una
colección de este tipo resulta pequeña comparada con los experimentos realizados por la
recuperación de información moderna usada en recursos escritos, es comparable a las
usadas en las tareas de recuperación de documentos orales. Cada documento contenido en
la colección, cuenta con los siguientes campos:
• 3 transcripciones generadas automáticamente con diferentes niveles de error:
o 2006B (WER de 25%)
o 2004A (WER de 38%)
o 2003A (WER de 45%)
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
30
• 2 conjuntos de palabras claves generadas automáticamente
• 1 conjunto de palabras clave generadas manualmente
• 1 resumen generado manualmente
El conjunto de palabras clave es generado automáticamente por dos clasificadores y
cada campo contiene los mejores 20 términos obtenidos por dichos clasificadores. Nos
referiremos al conjunto de estos términos como AK1 y AK2. Por otro lado, el conjunto de
palabras clave manual contiene información relevante al documento como fechas y
nombres de lugares, incluso cuando estos no son nombrados en la grabación.
Cabe resaltar que no se cuenta con la transcripción manual del documento, y el
resumen es una muy breve descripción de la grabación en su totalidad.
El corpus fue utilizado en el CLEF durante los años 2005-2007. En nuestro caso,
utilizamos el conjunto del año 2006, el cual consta de:
Preguntas de entrenamiento: 63
Total de entrevistas con su respectiva transcripción automática: 8,104
Consultas. Las consultas fueron realizadas por investigadores que deseaban obtener
información de las transcripciones. Muchos de ellos requerían de información muy precisa,
por lo que las consultas tienen demasiadas restricciones, por lo que se hace complejo
recuperar exactamente la información deseada. En la tabla 5.1, se muestran algunos de las
consultas realizadas.
Tópico # Consulta 1133 the story of varian fry and the emergency rescue committee who saved thousands in
marseille 1159 child survivors in sweden describe survival mechanisms of children born in 1930
1933 who spend the war in concentration camps or in hiding and who presently live in sweden
1166 hasidim and their unquestioning faith Tabla 5.1 Ejemplos de consutlas en la colección
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
31
5.2 Experimentos realizados
Impacto del error del RAH en la RI
Como se describe en la metodología, lo primero a realizar es medir la degradación
en la recuperación de información en las diferentes transcripciones. En este caso se realizó
la recuperación usando únicamente las transcripciones, es decir, se uso un enfoque a nivel
de palabras. En la tabla 5.2 podemos observar como el MAP disminuye según el WER va
en aumento. La tabla también muestra el número total de documentos recuperados para las
63 consultas así como la precisión promedio.
RAH WER MAP Rel. Rec. P10 2006B 25% 0.0581 1204 0.170 2004A 38% 0.0547 1221 0.154 2003A 45% 0.0525 1118 0.154
Tabla 5.2 MAP y precisión usando el enfoque de palabras.
Respecto a la precisión promedio podemos observar que el mejor resultado es para
cuando usamos la transcripción con menos errores. Sin embargo, es notorio observar que la
cantidad de documentos relevantes recuperados es incluso menor que con una transcripción
de menor calidad. Esto se debe a que los errores introducidos por el reconocedor no son los
mismos, y que en el caso de la transcripción 2004A se afectaron menos términos propios de
las consultas, con lo que fue posible recuperar más documentos relevantes. Por otro lado, es
claro que los errores son los responsables del ordenamiento final de los documentos
recuperados como lo muestra el MAP.
Evaluación de diferentes codificaciones fonéticas
Rumbo a la evaluación de las diferentes codificaciones fonéticas se inició con la
evaluación de los algoritmos soundex y Daitch Mokotoff (DM). En la tabla 5.3 se muestra
el resultado de aplicar el algoritmo soundex (a diferentes niveles de granularidad) y el DM.
Cabe mencionar que por el momento sólo se aplicaron sobre la transcripción 2006B, que
fue la que obtuvo mejores resultado en el enfoque de palabras.
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
32
Codificación Tamaño MAP Rel. Rec.
P10
Soundex 4 0.0403 1228 0.1238 Soundex 5 0.0488 1200 0.1397 Soundex 6 0.0523 1208 0.1444 Soundex 7 0.0489 1219 0.1365 DM - 0.0416 1212 0.0905
Tabla 5.3 Resultados usando códigos fonéticos a nivel de palabras
Como puede observarse en ningún caso el uso exclusivo de información fonética
permite sobrepasar el MAP de usar el texto de las transcripciones (de 0.0581 para la
transcripción 2006B). Como resultado de este experimento se identificó como más
adecuado para el algoritmo soundex los códigos con seis dígitos. Como se verá más
adelante, se emplean distintas técnicas de fusión, por lo que además de tomar la
codificación fonética que regresa un mayor MAP, sería interesante ver como se comportan
los métodos de fusión utilizando la codificación fonética que obtiene más documentos
relevantes o mayor precisión.
Impacto del error del RAH en la RI con códigos fonéticos
La tabla 5.4 muestra el comportamiento del algoritmo soundex (con tamaño 6) con
diferentes WER, y la tabla 5.5 muestra el comportamiento del algoritmo DM.
RAH WER MAP Rel. Rec. P10 2006B 25% 0.0523 1208 0.1444 2004A 38% 0.0494 1230 0.1397 2003A 45% 0.0434 1130 0.1254
Tabla 5.4 resultados usando solo codificación fonética (Soundex)
RAH WER MAP Rel. Rec. P10 2006B 25% 0.0416 1212 0.0905 2004A 38% 0.0404 1218 0.0889 2003A 45% 0.0359 1119 0.0841
Tabla 5.5 resultados usando solo codificación fonética (DM)
Como primera observación también podemos notar que la codificación fonética
usada a nivel de palabras es dependiente del WER. De ahí la propuesta de abordar los
errores de transcripción al unir o segmentar palabras. Por otro lado, comparando los
resultados con la tabla 5.2, se puede observar que con Soundex siempre se logró recuperar
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
33
un poco más de documentos relevantes que los que se consiguen sólo con el texto, sin
embargo no fue el caso de DM. También se observa que la diferencia en el MAP entre los
diferentes niveles de error, es mucho menor usando DM, que usando Soundex. Aunque
parece que la codificación es dependiente de los errores, existen al menos un codificación
que se comporta de forma más estable.
Complementariedad entre las diferentes representaciones
Como se vio en los experimentos anteriores, la cantidad de documentos relevantes
recuperados es muy similar para cuando se usa el texto o la codificación fonética. El
siguiente paso fue medir la complementariedad entre ambos resultados. En las tablas 5.6,
5.7, 5.8 se muestra el nivel de complementariedad y redundancia de los documentos
recuperados al usar las distintas representaciones. En todos los casos se puede ver que
existe una complementariedad en los documentos que se recuperan, incluso ambos
esquemas de códigos fonéticos, recuperan distintos documentos.
RAH Intersección Solo en Texto Solo en Soundex Total. Rec. Unión 2006B 62.61% 18.80% 18.59% 1420 2004A 62.74% 18.73% 18.52% 1436 2003A 63.65% 17.71% 18.63% 1304 Tabla 5.6 Comparación de documentos Relevantes Recuperados Texto vs Soundex
RAH Intersección Solo en Texto Solo en DM Total. Rec. Unión 2006B 61.86% 17.59% 20.55% 1455 2004A 61.63% 17.96% 20.41% 1470 2003A 61.93% 17.43% 20.64% 1337
Tabla 5.7 Comparación de documentos Relevantes Recuperados Texto vs DM
RAH Intersección Solo en Soundex
Solo en DM Total. Rec. Unión
2006B 67.05% 14.84% 18.11% 1416 2004A 69.02% 14.10% 16.88% 1428 2003A 68.89% 14.35% 16.76% 1305
Tabla 5.8 Comparación de documentos Relevantes Recuperados Soundex vs DM
En las tablas anteriores, además del porcentaje de elementos que comparten, también se
muestra el total de documentos que se recuperarían en caso de hacer una buena fusión de
los resultados. En el mejor de los casos, obtendríamos un recuerdo de 37.5%, comparado un
con recuerdo de 31.5% que se obtiene al usar la recuperación solo con palabras.
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
34
Combinación a priori de texto y soundex (fusión temprana)
Debido a los resultados obtenidos anteriormente, surge la idea de que fusionar de
alguna forma los métodos, se obtendrán mejores resultados. Por lo que los siguientes
experimentos tienen la intención de demostrar la utilidad de combinar la información
textual y fonética.
La primera estrategia para combinar los resultados, es la fusión temprana (early
fusion). Esta consiste en representar los documentos tanto en texto como con códigos
fonéticos y dejar que el motor de búsqueda realice el trabajo de recuperación. En la tabla
5.9 se observan los resultados de combinar el texto y la codificación soundex de tamaño 6.
En ella se observa que el MAP como la cantidad de documentos recuperados mejora para
las transcripciones 2006B y 2004A, mientras que para la transcripción con mayor WER se
tiene sólo una mejora en la cantidad de documentos recuperados.
RAH MAP Mejora MAP Respecto a texto
Rel. Rec. Mejora Rel. Rec. Respecto a texto
2006B 0.0601 +3.4% 1259 +4.5% 2004A 0.0578 +5.6% 1268 +3.8% 2003A 0.0517 -1.6% 1142 +2.1%
Tabla 5.9 Combinación con early fusion de texto y soundex.
Combinación a priori de texto, soundex y DM (fusión temprana)
Debido a que incluso existe una complementariedad de documentos entre los
códigos fonéticos, la siguiente idea es que al fusionar los tres métodos, se obtendrán
mejores resultados. Por lo que los siguientes experimentos también tienen la intención de
demostrar la utilidad de combinar la información textual y fonética.
En la tabla 5.10 se observan los resultados de combinar el texto y la codificación
fonética (soundex de tamaño 6 y DM). En ella se observa que el MAP como la cantidad de
documentos recuperados mejora para todas las transcripciones, hasta en un 7%, al igual que
la cantidad de documentos recuperados.
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
35
RAH MAP Mejora MAP Respecto a texto
Rel. Rec. Mejora Rel. Rec. Respecto a texto
2006B 0.0622 +7% 1292 +7.3% 2004A 0.0584 +6.7% 1298 +6.3% 2003A 0.0535 +1.9% 1192 +6.6%
Tabla 5.10 Combinación con early fusion de texto, soundex.y DM.
Combinación de texto, Soundex y DM (fusión tardía)
La segunda estrategia para combinar los resultados, es la fusión tardía (late fusion).
Esta consiste en obtener una lista de los resultados obtenidos al recuperar solo documentos
en texto y otras de los códigos fonéticos, una lista para Soundex y otra lista para DM, e
implementar algún método de fusión de listas. En la tabla 5.11 se observan los resultados
de combinar el texto y la codificación fonética (soundex de tamaño 6 y DM). En ella se
observa que el MAP tuvo una caída, pero la cantidad de documentos recuperados aumentó,
sin embargo lo resultados de la fusión temprana fueron más altos. En la tabla 5.12 se
muestran los resultados con otro método de fusión
RAH MAP Mejora MAP Respecto a texto
Rel. Rec. Mejora Rel. Rec. Respecto a texto
2006B .0525 -9.6% 1280 +6.3% Tabla 5.11. Fusión Tardía utilizando fzborda
RAH MAP Mejora MAP Respecto a texto
Rel. Rec. Mejora Rel. Rec. Respecto a texto
2006B .0496 -14.7% 1269 +5.4% Tabla 5.12. Fusión Tardía utilizando cmbMNZ
En este caso, se puede observar que a pesar de que ayuda a recuperar una mayor
cantidad de documentos, que solo usando texto, el MAP es mucho más bajo, lo que lleva a
pensar en una caída en la precisión. Esto puede deberse a que la precisión de las listas es
baja, lo cual provoca que al fusionar, se propaguen los errores que tienen en común.
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
36
Uso de sub-palabras
Todos los anteriores experimentos están enfocados principalmente a abordar el
problema de la substitución de palabras. Sin embargo, otro enfoque es abordar el problema
de la correcta de limitación de las palabras, como se explicó en ejemplos anteriores. Los
siguientes experimentos van enfocados por este camino.
RAH MAP Mejora MAP Respecto Soundex
Rel. Rec. Mejora Rel. Rec. Respecto Soundex
2006B 0.0586 +12% 1173 -2.9% Tabla 5.14. Resultando usando sub-palabras
Como se observa, se alcanzan casi los mismos resultados utilizando el enfoque de
sub-palabras, que los obtenidos usando el enfoque de solo palabras. Además, este método
obtiene un mejor MAP que el obtenido usando solo Soundex de tamaño 6, que había sido el
que tuvo mejor desempeño. También tiene una ligera mejora en el MAP respecto a solo
utilizar palabras. El único inconveniente, es que recupera menos pasajes, por eso también
suena aconsejable hacer una fusión que ayude a complementar las diferentes
representaciones.
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
37
Capítulo VI
Conclusiones
En este trabajo, proponemos un método para recuperar información en documentos
orales que toma en cuenta los problemas generados por el reconocedor automático de habla.
Para esto, la idea consiste en enriquecer la representación de documentos orales utilizando
la codificación fonética de la transcripción automática. La codificación fonética busca
reducir el impacto de los errores generados en la transcripción, representando aquellas
palabras con pronunciación similar a través del mismo código fonético.
Con los experimentos realizados hasta el momento, se observó que la codificación
fonética es complementaria a la recuperar información usando exclusivamente texto.
Las conclusiones principales de este trabajo se resumen en los siguientes puntos:
• La codificación fonética es útil en la tarea de recuperación de información en
documentos orales.
• Los métodos de codificación fonética (Soundex y DM), son complementarios entre
ellos, por lo que usando ambos, se alcanzaron resultados superiores que sólo usando
texto o que la combinación de texto y Soundex.
• El método de Sub-palabras, dio resultados prometedores, y puede aportar bastante a
la RI de documentos orales.
Por lo anterior se tiene evidencia suficiente para presuponer que la codificación
fonética es útil para la tarea de recuperación de información en documentos orales. Pero es
necesario hacer otras pruebas para ver el alcance de la codificación fonética y que
esquemas de fusión resultan mejores, así como las ventajas de poder aplicar otras técnicas
de RI, pero tomando en cuenta la codificación fonética.
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
38
Bibliografía
[1] J. S. Olson, D. W. Oard.: Combining LVCSR and Vocabulary-Independent Ranked
Utterance Retrieval for Robust Speech Search. Proceedings of the 32nd international
ACM SIGIR conference on Research and development in information retrieval.
Boston, MA, USA, pp 91-98, 2009.
[2] J. S. Olsson.: Combining Evidence from Unconstrained Spoken Term Frequency
Estimation for Improved Speech Retrieval. PhD thesis, University of Maryland,
College Park, MD, USA, 2008. Directed by Douglas W. Oard.
[3] M. J. Witbrock, A. G. Hauptmann. Using Words and Phonetic Strings for Efficient
Information Retrieval from Imperfectly Transcribed Spoken Documents. Proceedings
of the second ACM international conference on Digital libraries. Philadelphia,
Pennsylvania, United States, pp 30-35, 1997.
[4] J. Allan.: Robust techniques for organizing and retrieving spoken documents. EURASIP
Journal on Applied Signal Processing archive Volume 2003 , (January 2003), pp 103–
114, 2003.
[5] J. S. Garofolo, E.M. Voorhees, C. Auzanne, V. Stanford, and B. Lund, “1998 TREC-7
spoken document retrieval track overview and results,” in Proc. 7th Text REtrieval
Conference (1998), vol. 500-242 of NIST Special Publication, pp. 79–89, NIST,
Gaithersburg, Md, USA, 1998.
[6] Cross-lingual evaluation forum. http://www.clef-campaign.org/, August 2007.
[7] R. Baeza-Yates and B. Ribeiro-Neto. Modern Information Retrival. Addison Wesley,
1999.
[8] D. A. Grossman and O. Frieder.. Information Retrieval, Algorithms and Heuristics. The
Information Retrieval Series , Vol. 15. Springer, second edition edition, 2004.
[9] G. Salton, C. S. Yang, and A. Wong.: A vector space model for automatic indexing.
Communications of the ACM, Voulme 18, Issue 11, pp 613-620, November 1975.
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
39
[10] J. Bobadilla-Sancho, J. Bernal and P. Gómez. Reconocimiento de Voz y Fonética
acústica, Alfaomega 2000.
[11] I. McCowan, D. Moore, J. Dines, D. Gatica-Perez, M. Flynn, P. Wellner, H. Bourlard.:
On the Use of Information Retrieval Measures for Speech Recognition Evaluation.
Technical Report, March 2005.
[12] P. C. Woodland, S. E. Johnson, P. Jourlin, K. Spärck Jones.: Effects of Out of
Vocabulary Words in Spoken Document Retrieval. Proceedings of the 23rd annual
international ACM SIGIR conference on Research and development in information
retrieval. Athens, Greece, pp 372 – 374, 2000.
[13] M. Larson, M. Tsagkias, J. He, M. Rijke.: Investigating the Global Semantic Impact of
Speech Recognition Error on Spoken Content Collections. Proceedings of the 31th
European Conference on IR Research on Advances in Information Retrieval. Toulouse,
France, pp 755-760, 2009.
[14] X.M. Shou, M. Sanderson, N. Tuffs.: The Relationship of Word Error Rate to
Document Ranking. In: Proceedings of the AAAI Spring Symposium Intelligent
Multimedia Knowledge Management Workshop, Technical Report SS-03 (2003)
[15] M. G. Brown, J. T. Foote, G. J. F. Jones, K. Sparck Jones, S. J. Young.: Video Mail
Retrieval by Voice: An Overview of the Cambridge/Olivetti Retrieval System. I n Proc.
ACM Multimedia 94 Workshop on Multimedia Database Management Systems. Pp 47-
55, 1994.
[16] K. Ng, and V. Zue.: Towards Robust Methods for Spoken Document Retrieval.
Proceedings of the Fifth International Conference on Spoken Language Processing,
Sydney, 1998.
[17] A. Singhal and F. Pereira.: Document Expansion for Speech Retrieval. Proceedings of
the 22nd annual international ACM SIGIR conference on Research and development in
information retrieval. Berkeley, California, United States, pp 24-41, 1999.
[18] J. Wang and D. W. Ord.: CLEF-2005 CL-SR at Maryland: Document and Query
Expansion using Side Collections and Thesauri. Working Notes of the 6th Workshop of
the Cross-Language Evaluation Forum (CLEF 2005). Vienna, Austria, pp 744-759, 21-
23 September 2005.
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
40
[19] J.P. Ballerini, M. Buchel, R. Domenig, D. Knaus, B. Mateev, E. Mittendorf, P.
Schauble, P. Sheridan, M. Wechsler. SPIDER retrieval System at TREC-5. Proceedings
of TREC-5, pp 217-228, 1996.
[20] J. H. Lee.: Using n-Grams for Korean Text Retrieval. Proceedings of the 19th annual
international ACM SIGIR conference on Research and development in information
retrieval. Zurich, Switzerland, pp 216-224, 1996.
[21] M. Wechsler and P. Schauble.: Speech retrieval based on automatic indexing. In
Workshop in Computing Science- MIRO. Springer Verlag, 1995.
[22] M. Wechsler.: Spoken document retrieval based on phoneme recognition. Ph.D. thesis,
Swiss Federal Institute of Technology (ETH), Zurich, 1998.
[23] P. Schäuble, M. Wechsler.: First experiences with a system for content based retrieval
of information from speech recordings. In: IJCAI Workshop: Intelligent Multimedia
Information Retrieval, August 1995.
[24] D. Inkpen, M. Alzghool, and A. Islam.: University of Ottawa’s Contribution to CLEF
2005, the CL-SR Track. Working Notes of the 6th Workshop of the Cross-Language
Evaluation Forum (CLEF 2005). Vienna, Austria, pp 744-759, 21-23 September 2005.
[25] C. L. A. Clarke. Waterloo Experiments for the CLEF05 SDR Track. Working Notes of
the 6th Workshop of the Cross-Language Evaluation Forum (CLEF 2005). Vienna,
Austria, pp 744-759, 21-23 September 2005.
[26] Holmes D. and McCabe M. C., Improving Precision and Recall for Soundex Retrieval,
ITCC Proceedings of the International Conference on Information Technology: Coding
and Computing, pp 22-26, 2002.
[27] Zobel J. and Dart P., Phonetic String Matching: Lessons from Information Retrieval,
Sigir Forum, Association for Computing Machinery, pp. 166-172, New York, 1996.
[28] Raghavan H. and Allan J. Using Soundex Codes for Indexing Names in ASR
documents. In Proceedings of the Workshop on Interdisciplinary Approaches to Speech
Indexing and Retrieval at Human Language Technology Conference and North
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
41
American chapter of Association of Computational Linguistics, pp 22–27, Boston, MA,
USA, 2004.
[29] M. A. Reyes-Barragán.: Un método para recuperación de información en documentos
orales. PhD thesis, INAOE, Puebla, México, 2008. Directed by L. Villaseñor Pineda,
M. Montes-y-Gómez.
[30]M. K. Odell, R. C. Russell.: U. S. Patent Numbers 1261167 (1918) and 1435663
(1922). Washington, D.C.: U.S. Patent Office, 1918.
[31] B. Kessler.: Phonetic Comparison Algorithms. Transactions of the Philological Society
Volume 103:2, pp 243-260, 2005.
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
42
Apéndice A
Algortimos de codificación fonética
Soundex
El algoritmo fonético más ampliamente usado y conocido es Soundex. Este
algoritmo fue desarrollado en 1918 por Robert Russell y Margaret Odell [30]. Inicialmente
el método fue utilizado para manipular el censo de E.U., actualmente es parte de los
algoritmos de búsqueda, que se emplean en programas de manejo de bases de datos y
programas para comprobar ortografía, entre otros [17].
El método usado por Soundex está basado en la clasificación fonética de los sonidos
del habla humana, los cuales se dividen en 6 clases: bilabial, labiodental, dental, alveolar,
velar y glotal. Esta categorización depende de donde se colocan los labios y la lengua para
generar un sonido [18]. Como ejemplo, las palabras “UNIX” y “unique”, comparten el
mismo código “U52000”.
Daitch-Mokotoff
Es una mejora del algoritmo Soundex creado por Russell y Odell. Este nuevo
algoritmo fue desarrollado en 1985 por el genealogista Gary Mokotoff y posteriormente
Randy Daitch expandió las reglas del algoritmo creado por Mokotoff. En el apéndice B se
muestran las características.
Según sus autores las reglas del método D-M Soundex son independientes de
consideraciones geográficas o étnicas. Tiene reglas diferentes, que toman en cuenta si las
palabras están al principio, en medio o al final de la palabra, esto permite que también se
codifique la primera letra de una palabra, además en caso de que existan varias opciones,
genera diversos códigos. Por ejemplo, la palabra “Catherine” es codificada como “539600”,
y la palabra “Katherine” es codificada como “539600” y “439600”.
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
43
RECUPERACIÓN DE INFORMACIÓN EN DOCUMENTOS ORALES
Phonix
Un problema de los sistemas anteriores es que no son capaces de establecer algún
tipo de ordenación entre las cadenas similares. Este problema se resuelve con una variante
de Soundex, denominada Phonix, cuyo algoritmo es más complejo [17]. La novedad que
introduce Phonix es que realiza previamente unas 163 transformaciones de grupos de letras
que normalizan las cadenas (por ejemplo, el carácter ‘X’ se transforma en ‘ECS’, además si
la primera letra es una vocal o la consonante ‘Y’ la transforma en ‘V’). Pero, la aportación
más importante de este sistema de codificación es que computa los sonidos finales, y como
consecuencia de esto es capaz de establecer tres rangos de similitud constituidos por
palabras que concuerdan: en los sonidos finales, en los prefijos de los sonidos finales, o con
sonidos finales distintos. Por ejemplo, la palabra “Catherine” y la palabra “Katherine”
comparten el mismo código fonético “KTRN11”.
Metaphone
Un algoritmo de codificación fonética parecido a los anteriores lo constituye el
sistema Metaphone. Se trata de un sistema de codificación especialmente diseñado para el
inglés americano. El algoritmo de Metaphone elimina las vocales, aunque éstas permanecen
si son la primera letra de una palabra, reteniendo solamente las consonantes, que se reducen
a 16 consonantes sin incluir los dígitos.
Con esto tenemos que los códigos Metaphone estarían constituidos por cadenas que
representarían aproximadamente cómo un nombre sonaría cuando se pronuncia usando las
reglas de pronunciación de la lengua inglesa.
Para mayor detalle sobre los códigos fonéticos puede consultarse [31] donde se
realiza una comparación de ellos.