Generalidades Del Habla

7
Hablar... con ton y son El habla, medio de comunicación por excelencia entre los seres humanos, está siendo velozmente implantado en la interacción cotidiana entre el hombre y la máquina. Las encuestas de usuarios realizadas por la revista electrónica TidBits a finales del año 2000 situaban el reconocimiento del habla como la "manzana más deseada" de la tecnología informática del nuevo siglo. Además, la domótica ha empezado a hacer sus primeras piruetas para la creación de las 'casas inteligentes' en las que habitaremos y con las que hablaremos en el futuro. Se acerca el momento de realizar lo que numerosas páginas de ciencia- ficción ya habían plasmado, el gran sueño del hombre de comunicarse con sus máquinas de la forma más natural: conversando. La afirmación del historiador griego Plutarco de que "Para saber hablar es necesario saber escuchar" también puede aplicarse al desarrollo de las tecnologías del habla. La comunicación oral del hombre con la máquina empieza pr el reconocimiento automático del habla, que tiene como finalidad extraer el mensaje transportado por una señal de voz. Es decir, la máquina debe escuchar e interpretar los sonidos para extraer de ellos las palabras del emisor. Para Pedro García Teodoro, miembro del Grupo de Investigación en Procesamiento de Señales y Comunicaciones de la Universidad de Granada, el desarrollo de los sistemas de reconocimiento automático de voz debe enfrentarse a dos problemas fundamentales. El primero es la propia naturaleza de la señal de voz. "Caracterizada por presentar una alta variabilidad (edad, sexo, estado de salud, localización geográfica, ritmo de pronunciación, etc.) no resulta fácil determinar unas características o parámetros que representen unívocamente los distintos sonidos, y menos aún su concatenación y delimitación en una frase", afirma el investigador. Las unidades fundamentales del discurso hablado son los fonemas, una serie de sonidos que el sistema debe distinguir basándose en sus diferentes frecuencias. La cosa se complica si consideramos que en la comunicación normal los fonemas no son un número limitado de entidades separadas e independientes, sino que su pronunciación varía en función de los sonidos que van delante y detrás. Por lo tanto, cualquier sistema de reconocimiento de voz debe tener en cuenta todas las posibles combinaciones de fonemas. Otra dificultad añadida radica en que la onda acústica -el sonido- es absolutamente continua: normalmente el hablante no se para a hacer pausas, por lo que su 'interlocutor mecánico' debe ser capaz de segmentar los sonidos en palabras. Dejando a un lado los matices de la voz, el segundo problema de la comunicación oral humana es la intervención de otros niveles no acústicos como la gramática y la semántica. La máquina no sólo debe reconocer una palabra tras otra, sino que además debe ser capaz de ver el conjunto y sus distintos bloques gramaticales: sujeto, predicado y complementos de la oración. Más difícil es el aspecto semántico, ya que "aún no se ha definido un modelo cerebral contrastado" para la comprensión, como apunta el doctor García Teodoro. En el ser humano es muchas veces el sentido común lo único que

Transcript of Generalidades Del Habla

Page 1: Generalidades Del Habla

Hablar... con ton y son

El habla, medio de comunicación por excelencia entre los seres humanos, está siendo velozmente implantado en la interacción cotidiana entre el hombre y la máquina. Las encuestas de usuarios realizadas por la revista electrónica TidBits a finales del año 2000 situaban el reconocimiento del habla como la "manzana más deseada" de la tecnología informática del nuevo siglo. Además, la domótica ha empezado a hacer sus primeras piruetas para la creación de las 'casas inteligentes' en las que habitaremos y con las que hablaremos en el futuro. Se acerca el momento de realizar lo que numerosas páginas de ciencia-ficción ya habían plasmado, el gran sueño del hombre de comunicarse con sus máquinas de la forma más natural: conversando.

La afirmación del historiador griego Plutarco de que "Para saber hablar es necesario saber escuchar" también puede aplicarse al desarrollo de las tecnologías del habla. La comunicación oral del hombre con la máquina empieza pr el reconocimiento automático del habla, que tiene como finalidad extraer el mensaje transportado por una señal de voz. Es decir, la máquina debe escuchar e interpretar los sonidos para extraer de ellos las palabras del emisor. Para Pedro García Teodoro, miembro del Grupo de Investigación en Procesamiento de Señales y Comunicaciones de la Universidad de Granada, el desarrollo de los sistemas de reconocimiento automático de voz debe enfrentarse a dos problemas fundamentales. El primero es la propia naturaleza de la señal de voz. "Caracterizada por presentar una alta variabilidad (edad, sexo, estado de salud, localización geográfica, ritmo de pronunciación, etc.) no resulta fácil determinar unas características o parámetros que representen unívocamente los distintos sonidos, y menos aún su concatenación y delimitación en una frase", afirma el investigador. Las unidades fundamentales del discurso hablado son los fonemas, una serie de sonidos que el sistema debe distinguir basándose en sus diferentes frecuencias. La cosa se complica si consideramos que en la comunicación normal los fonemas no son un número limitado de entidades separadas e independientes, sino que su pronunciación varía en función de los sonidos que van delante y detrás. Por lo tanto, cualquier sistema de reconocimiento de voz debe tener en cuenta todas las posibles combinaciones de fonemas. Otra dificultad añadida radica en que la onda acústica -el sonido- es absolutamente continua: normalmente el hablante no se para a hacer pausas, por lo que su 'interlocutor mecánico' debe ser capaz de segmentar los sonidos en palabras. Dejando a un lado los matices de la voz, el segundo problema de la comunicación oral humana es la intervención de otros niveles no acústicos como la gramática y la semántica. La máquina no sólo debe reconocer una palabra tras otra, sino que además debe ser capaz de ver el conjunto y sus distintos bloques gramaticales: sujeto, predicado y complementos de la oración. Más difícil es el aspecto semántico, ya que "aún no se ha definido un modelo cerebral contrastado" para la comprensión, como apunta el doctor García Teodoro. En el ser humano es muchas veces el sentido común lo único que permite captar el verdadero significado en situaciones de ambigüedad en la gramática o en el vocabulario. Y si las máquinas pueden tener o no sentido común es ya otra historia....

Dime cómo hablas... Por el momento, el reconocimiento del habla continua ha permitido el desarrollo de productos de software de dictado automático con un alto grado de precisión. En general, todos ellos requieren un ambiente libre de ruidos y un entrenamiento previo de la máquina para reconocer y entender a su interlocutor (sistemas dependientes de locutor). Ese método de entrenamiento incluye dictados que asocian la pronunciación del sujeto a los correspondientes fonemas a través de un texto estándar. Además, los programas siguen en "formación continua" durante su uso, aprendiendo tras cometer errores que el usuario les corrige. Tres fueron las aplicaciones de reconocimiento de voz más destacadas en el mercado durante el pasado año: Philips Freespeech, IBM ViaVoice Pro y Dragon Naturally Speaking Prefered. Aunque muy similares en lo esencial, ésta última presentaba innovaciones frente a las anteriores, como el soporte de una amplia gama de modelos de lenguaje (niños de corta edad, adolescentes, personas mayores,...) y la posibilidad de dictar desde una grabadora de mano o en el propio ordenador todo tipo de textos para su posterior transcripción a la aplicación que desee el usuario. Por su parte, el producto de IBM Via Voice integraba la herramienta VoiceMouse, que permite controlar eficazmente los movimientos del dispositivo dando órdenes con la voz en lugar de mover el ratón. Y es que, con un número más limitado de palabras y de respuestas, también es ya posible crear sistemas de orden y

Page 2: Generalidades Del Habla

control para los fines más variados, desde servidores de telefonía hasta aplicaciones informáticas, controladas por medio de instrucciones vocales. El reconocimiento de voz continua es también la base de CABE, un sistema automático de redireccionamiento de llamadas telefónicas desarrollado por el Grupo de Investigación en procesamiento de Señales y Comunicaciones de la Universidad de Granada. CABE permite a la persona que llama redireccionar una llamada telefónica a un destinatario solicitado, a quien, en caso de estar ocupado, puede dejarle un mensaje de voz. Este mensaje es enviado, a continuación, a través de e-mail. "El servicio ofrecido resulta, desde mi punto de vista, de alto interés en entornos de empresa, compañías, departamentos, etc.", destaca el doctor García. Además, por supuesto, de integrar la tecnología "con una aplicación Internet de enorme penetración en la sociedad como es el correo electrónico": Como investigador en tecnologías del habla desde 1988, Pedro García Teodoro destaca las altas prestaciones alcanzadas hoy en día por los sistemas de voz, "tanto por lo que respecta a la variedad de aplicaciones y servicios en los que pueden utilizarse como por la robustez que presentan en cuanto a la capacidad de reconocer voz independientemente del locutor del que proceda, la posibilidad de reconocer frases completas más o menos naturales, etc." Esto no significa, sin embargo, que no quede mucho por hacer. Desde el punto de vista del usuario, el doctor García se muestra más crítico, pues los sistemas de voz todavía están lejos de permitir una comunicación "natural" entre la máquina y el usuario. "Las líneas de trabajo actuales - apunta el investigador - se encuentran más dirigidas a la mejora de procesos de diálogo (control de la interacción usuario-máquina) y de síntesis de voz que al reconocimiento propiamente dicho".

Las máquinas tienen la palabra Cuando Wolfgang Von Kempelen construyó el primer sintetizador de voz a finales del siglo XVIII no podía imaginar el desarrollo que alcanzaría dos siglos más tarde su 'rudimentaria' tecnología. En el siglo XX se producía el primer gran hito con la presentación de una versión electrónica del sintetizador de Kempelen: el sistema Voder. Diseñado por Dudley, de los laboratorios Bell, aquel invento constaba de un sistema de teclas e interruptores que permitía a expertos entrenados controlar la articulación y generación mecánica de sonidos vocálicos y consonánticos. Las frases eran encadenadas a partir de sonidos del mismo modo que una melodía arrancada de las teclas de un piano. El avance no se detuvo ahí, pero aquel sistema Voder sentó las bases de los modernos sintetizadores de voz que, aunque basados en tecnología digital, comparten la misma teoría sobre el modelo de producción del habla. Pero, ¿qué es la síntesis de voz? Básicamente se trata de crear una señal de voz para transmitir un mensaje desde la máquina, esto es, convertir el texto en habla. El resultado es la generación automática de la secuencia de sonidos que produciría una persona al leer un texto en voz alta. Aunque puede parecer más sencillo que el reconocimiento del habla, los sistemas de síntesis de voz no deben limitarse a traducir el texto en una cadena de fonemas y silencios almacenados en el software y pronunciados por la máquina. También exigen una alta calidad en la pronunciación de las palabras que hagan el mensaje inteligible, encadenando correctamente los sonidos dentro del discurso. Además, los sintetizadores de voz debe tener otro rasgo: la naturalidad, el gran reto de los desarrolladores en estos momentos. Javier Ferreiros López y Ricardo de Córdoba lo saben bien. Ambos forman parte del Grupo de Tecnología del Habla de la Universidad Politécnica de Madrid, que en estos momentos centra su interés en "la calidad del habla: tanto en conseguir sonidos menos artificiales como en mejorar la naturalidad general de los sistemas de síntesis", según apuntan los investigadores. "Pese a que los sintetizadores actuales son útiles para dar informaciones breves - añaden -, son aún tediosos de escuchar para mensajes largos. Al usuario, al principio, le sorprende gratamente el sistema, pero después de mucho tiempo de escucha le termina desagradando". Es por eso que los esfuerzos actuales a nivel internacional se dirigen a conseguir una síntesis del habla lo más natural y parecida posible al ser humano, teniendo en cuenta aspectos de la prosodia como los cambios en entonación, los acentos, la posición de las palabras en la frase, las pausas, la energía y las fluctuaciones de la intensidad de voz a lo largo del discurso, etc. Esa naturalidad también debe permitir, por ejemplo, la lectura de forma diferente de una lista de números frente a una dirección electrónica o frente a un poema. El tono de voz debe ser amigable y flexible, cercano al del interlocutor humano que lo escucha. Los laboratorios Bell, rama de I+D de Lucent, llevan décadas liderando el desarrollo de tecnologías de síntesis del habla. Joe Olive, jefe del Departamento de Investigación en Modelado del Lenguaje de los Laboratorios, ha estado al frente de estos avances desde mediados de los setenta. Ahora, a través de Internet, los laboratorios han puesto a disposición de los internautas una web en la que permiten probar a los usuarios su última aportación: el Sistema de Síntesis Text-To-Speech. Mediante él, el usuario puede transformar cualquier texto escrito en habla en cualquiera de los ocho idiomas, desde el inglés hasta el español, pasando por el chino mandarín. Con este espacio, "el usuario de PC tiene una nueva forma de explorar el futuro de la síntesis del habla" asegura Janes Flanagan, experto en comunicaciones. En España, el Grupo de Tecnología del Habla de la UPM ha jugado también un papel importante en la síntesis del habla. Sus actividades de texto-a-voz se iniciaban en 1978 bajo la dirección del profesor

Page 3: Generalidades Del Habla

Elías Muñoz, quien abría paso a una profusa investigación tanto en síntesis como en reconocimiento, comprensión, control de diálogo y generación de habla. Recientemente ponían en marcha uno de los mejores conversores texto-voz para castellano, también con demostraciones para los internautas en la red. "Ahora estamos trabajando en el modelado de emociones para síntesis para expresar una emoción concreta al hablar - nos cuentan Ferreiros y De Córdoba -. Este aspecto es fundamental, por ejemplo, para personas con discapacidad que quieran utilizar un sintetizador de voz, ya que les permite transmitir estado de ánimo a través de la voz sintetizada". Además, sus esfuerzos se centran en la generación de múltiples voces a partir de una sola sin tener que repetir el desarrollo completo del conversor-texto-voz. Esta variedad les permitirá "tanto proporcionar 'voces corporativas' a empresas que desean que su sintetizador se distinga del que utiliza otra compañía como para aplicaciones en las que es más natural que intervengan varias voces distintas". Los componentes del Grupo de Tecnología del Habla también invierten sus energías en generar voces femeninas, que a la vez que presentan una especial dificultad a la hora de generarlas con alta calidad son "valoradas por los usuarios más positivamente para aplicaciones reales que las voces masculinas", según señalan los investigadores.

Hablar y hablar por los codos "Buenos días. Café, ¿sólo o con leche?" Quien de tan buen humor nos saludará por la mañana, con un hilo musical al fondo, tendrá sus circuitos a punto cada día para entablar una conversación escueta pero eminentemente práctica. En el mundo de la domótica lloverán soluciones que integrarán el reconocimiento y la síntesis del habla para la interacción con nuestras "casas inteligentes", desde esta singular 'cafetera' hasta el frigorífico que nos recuerda los alimentos que se nos acaban de gastar o el coche que nos adelante con cálida voz el tiempo que hará en nuestro lugar de destino. El campo de los agentes animados también empieza a despertar interés. Como nos describen Javier Ferreiros y Ricardo De Córdoba "se trata de añadir una animación gráfica de un cara en movimiento que se sincroniza con el sintetizador para hacer creer al usuario que es esa cara quien le habla. Con ello empezarán a surgir lo que llamaremos 'quioscos de información' en casa, en la calle, en exposiciones, en las estaciones de tren y autobuses, en el aeropuerto, etc. con los cuales conversaremos para obtener información o efectuar otras operaciones". Tampoco Internet será lo mismo. El boom de los llamados portales de voz ya ha comenzado, y los actuales gigantes de Internet se han incorporado a la carrera de las tecnologías del habla. Las cifras invitan a ello: según Kelsey Group, las transacciones y la publicidad asociadas a los portales de voz moverán un volumen de negocio de 5.000 millones de dólares, a los que se añaden otros 6.000 millones en hardware asociado, software y proveedores de servicios en red. Los nuevos navegadores de voz permitirán acceder a los contenidos de la Red de forma oral incluso sin necesidad de un PC, empleando teléfonos, televisores digitales, ordenadores de bolsillo, etc. Comprar la entrada para el teatro, reservar un billete de avión por la Red, comprobar el estado de nuestra cuenta bancaria o enviar un e-mail puede resultar mucho más cómodo si se hace, simplemente, hablando. Si a esto se logra sumar la identificación automática de los usuarios por la voz, se eliminará también la necesidad de repetir una contraseña cada vez que se acceda a los servicios. "El objetivo en todos los casos es acercar las redes de comunicaciones y sus posibilidades al usuario de a pie a través de una interacción usuario-máquina más fácil y natural", dice Pedro García Teodoro. La última respuesta a este gran desafío llegaba el pasado mes de febrero de manos de Artificial Inteligence Enterprises, una empresa israelí que anunciaba la creación de un programa capaz de conversar con el vocabulario y el dominio del lenguaje de un niño de 15 meses. El siguiente objetivo es dar a la máquina, bautizada como Hal en honor al ordenador parlante de '2001: Odisea en el espacio', la edad lingüística de un niño de 5 años. El método para enseñar a hablar al nuevo Hal es también muy similar al método de aprendizaje en humanos: un cuidador le proporciona historias y responde a sus preguntas. Al fin y al cabo, lo que hacen de forma natural todos los padres con sus hijos.

Por Elena [email protected]

Para mas información: Grupo de Investigación en Procesamiento de Señales y Comunicaciones Sistema CABE Grupo de Tecnología le Habla (UPM) Lucent Technologies Bell Labs Artificial Intelligence Enterprises (Ai)

Page 4: Generalidades Del Habla

Procesado de voz y audio.

 Reconocimiento de voz.

El reconocimiento automático del habla (RAH) es una tecnología, que día a día, está siendo introducida como el interface idóneo para la comunicación entre hombre y máquina debido a la naturalidad de la comunicación y la robustez que comienzan a presentar los sistemas actuales de RAH. Cuando ponemos a trabajar un sistema de RAH en aplicaciones reales con usuarios no cooperantes aparecen una gran cantidad de problemas entre los que cabe destacar la pronunciación de palabras de fuera del vocabulario del sistema (el usuario del sistema no puede recordar todas las palabras del vocabulario), la aparición de sonidos extraños como pueden ser los producidos para expresar una duda (p.e. "eh", "uh", etc), la falta de gramaticalidad  que se produce en muchas ocasiones al construir frases de forma espontanea y el ruido existente en el ambiente donde trabaja el sistema de RAH (p.e.  el ruido de impresoras, ordenadores y aire acondicionado en oficinas, el ruido de coche en aplicaciones de telefonía móvil, etc.). Estos problemas hacen que la transcripción completa de la frase pronunciada sea una tarea dificultosa, lo que provoca que la tasa de reconocimiento del sistema se reduzca dramáticamente cuando un sistema que trabaja bien en condiciones de laboratorio pasa a ser utilizado en condiciones reales. Esta problemática esta siendo tratada en nuestro grupo bajo el nombre de Reconocimiento del Habla  Conversacional o Espontanea. En una escala más reducida, pero muy interesante de cara a aplicaciones reales, las técnicas de localización de palabras o más conocidas bajo la terminología inglesa de Word Spotting, intentan detectar la presencia de un conjunto mas o menos reducido de palabras clave  en un contexto de habla conversacional o espontanea. En muchas ocasiones, y dentro de la comunicación oral entre dos personas, no somos capaces de entender perfectamente todas las palabras que pronuncia nuestro interlocutor pero comprendemos la semántica del mensaje al entender las palabras con más significado del mensaje que nos transmite nuestro interlocutor. Este fenómeno ocurre muy frecuentemente cuando escuchamos una conversación en un idioma que no dominamos a la perfección. Bajo esta idea, y mediante una adecuada selección del conjunto de palabras clave  (p.e. aquellas con mayor contenido semántico en la aplicación donde se va a utilizar el sistema de RAH), los sistemas RAH basados en las técnicas de localización de palabras  son los candidatos idóneos para trabajar en aplicaciones reales donde el vocabulario es mas o menos reducido y controlable, como por ejemplo en servicios de telecomunicaciones tales como los sistemas de audiotex, telefonía móvil libre de manos o automatización de servicios de operadora. Dentro del desarrollo de sistemas de reconocimiento automático del habla, el grupo ha estado involucrado en el desarrollo del sistema RAMSES de reconocimiento automático del habla y en sistema TELEMACO de control oral de un teléfono conectado a la red IBERCOM. Actualmente, el grupo está involucrado en el desarrollo de un sistema de reconocimiento de habla continua en aplicaciones con semántica restringida y en el desarrollo de un sistema basado en la técnica de word spotting para detectar comandos definidos por el usuario para aplicaciones en condiciones reales.3.1.2 Codificación de voz y audio   Codificación de voz y audio. El proceso de codificación de voz permite transmitir y almacenar la señal de voz en forma digital eficientemente y sin pérdida de calidad. Desde el punto de vista de la transmisión de la señal de voz, la codificación de voz permite optimizar la utilización del canal de comunicación, transmitiendo el máximo de información, p.e. transmitir varias comunicaciones por un solo canal, con la mínima pérdida de calidad optimizando la relación entre velocidad de transmisión (bits/segundo) e inteligibilidad del mensaje. Desde el punto de vista de almacenar señal de voz en formato digital, la codificación de voz permite minimizar el número de bits necesarios para el almacenamiento manteniendo un nivel de calidad adecuado. Como valor añadido al proceso, la codificación digital de voz permite incorporar algoritmos de cifrado para establecer comunicaciones privadas seguras o realizar

Page 5: Generalidades Del Habla

grabaciones indescifrables para terceras personas.El grupo está involucrado en el desarrollo de codificadores de baja velocidad para aplicaciones de telefonía y en codificadores de audio de banda ancha (7 kHz a 20 kHz) para aplicaciones de teleconferencia y multimedia. Utilizando procesadores digitales de señal (DSP´s), se han implementado sistemas de codificación de voz a 2,4 kbps (LPC-10), a 9,6 kbps (Multipulso) y a 13 kpbs (RELP-GSM) entre otros.    Síntesis de voz. El proceso de síntesis de voz dota a las máquinas de la capacidad de producir mensajes orales no grabados previamente como es el caso de los sistemas de respuesta oral. Tomando como entrada cualquier texto, los sistemas de síntesis de voz realizan el proceso de lectura de forma clara e inteligible y con una voz lo más natural humana posible. La síntesis de voz conforma el interfaz oral de comunicación entre una máquina y el usuario de la misma. El grupo está involucrado en el desarrollo de un sistema de conversión texto-voz por concatenación de unidades.   Análisis de voz. El análisis de la señal de voz es el primer paso necesario en cualquier sistema basado en tecnologías del habla. Dejando de un lado las técnica clásicas de análisis de la señal de voz, la investigación básica llevada a cabo por el grupo está encaminada al estudio de nuevas representaciones tiempo-frecuencia (Wavelets, transformaciones bilineales, etc.) y su aplicación al análisis de la voz, la utilización estadísticas de orden superior y su aplicación en algoritmos de reducción y cancelación de ruido, la utilización de modelos auditivos para la representación de la señal de voz en sistemas de reconocimiento del habla, así como el desarrollo de algoritmos de detección de voz/silencio, pitch y sonoridad.

Universidad de Zaragoza http://www.unizar.es/

http://physionet.cps.unizar.es/~wwwgtc/Indice/Investigacion/Inv-Voz-Audio/inv-voz-audio.shtml http://physionet.cps.unizar.es/~wwwgtc/Indice/Investigacion/investigacion.shtml