Reconocimiento de Voz en Matlab 2014a

5
Teoría de la información y sistemas de comunicación Nombre: Francisco Andrés Guzmán Lara Wilman Eduardo Guarín Sánchez Fecha: Monday, 15 de August de 2022 Asistente por reconocimiento de voz para Windows en Matlab 1. Descripción del problema Básicamente queremos mejorar el trabajo de las personas en sus ordenadores dándoles la facilidad de abrir cualquier programa con tan solo decir su nombre. 2. Estado del arte El reconocimiento automático del habla (RAH) o reconocimiento automático de voz es una disciplina de la inteligencia artificial que tiene como objetivo permitir la comunicación hablada entre seres humanos y computadoras. 2.1. Clasificación Los sistemas de reconocimiento de voz pueden clasificarse según los siguientes criterios: Entrenabilidad: determina si el sistema necesita un entrenamiento previo antes de empezar a usarse.

description

implementacion de un programa de voz realizado en matlab

Transcript of Reconocimiento de Voz en Matlab 2014a

Teora de la informacin y sistemas de comunicacin

Nombre:Francisco Andrs Guzmn Lara

Wilman Eduardo Guarn Snchez

Fecha:miercoles, 10 de junio de 2015

Asistente por reconocimiento de voz para Windows en Matlab

1. Descripcin del problemaBsicamente queremos mejorar el trabajo de las personas en sus ordenadores dndoles la facilidad de abrir cualquier programa con tan solo decir su nombre.

2. Estado del arteEl reconocimiento automtico del habla (RAH) o reconocimiento automtico de voz es una disciplina de la inteligencia artificial que tiene como objetivo permitir la comunicacin hablada entre seres humanos y computadoras.

2.1. ClasificacinLos sistemas de reconocimiento de voz pueden clasificarse segn los siguientes criterios: Entrenabilidad: determina si el sistema necesita un entrenamiento previo antes de empezar a usarse. Dependencia del hablante: determina si el sistema debe entrenarse para cada usuario o es independiente del hablante. Continuidad: determina si el sistema puede reconocer habla continua o el usuario debe hacer pausas entre palabra y palabra. Robustez: determina si el sistema est diseado para usarse con seales poco ruidosas o, por el contrario, puede funcionar aceptablemente en condiciones ruidosas, ya sea ruido de fondo, ruido procedente del canal o la presencia de voces de otras personas. Tamao del dominio: determina si el sistema est diseado para reconocer lenguaje de un dominio reducido (unos cientos de palabras p. e. reservas de vuelos o peticiones de informacin meteorolgica) o extenso (miles de palabras).2.2. Usos y aplicacionesAunque en teora cualquier tarea en la que se interacte con un ordenador puede utilizar el reconocimiento de voz, actualmente las siguientes aplicaciones son las ms comunes: Dictado automtico: El dictado automtico es, hasta hoy, el uso ms comn de las tecnologas de reconocimiento de voz. En algunos casos, como en el dictado de recetas mdicas y diagnsticos o el dictado de textos legales, se usan corpus especiales para incrementar la precisin del sistema. Control por comandos: Los sistemas de reconocimiento de habla diseados para dar rdenes a un computador (p.e. "Abrir Firefox", "cerrar ventana") se llaman Control por comandos. Estos sistemas reconocen un vocabulario muy reducido, lo que incrementa su rendimiento. Telefona: Algunos sistemas PBX permiten a los usuarios ejecutar comandos mediante el habla, en lugar de pulsar tonos. En muchos casos se pide al usuario que diga un nmero para navegar un men. Sistemas porttiles: Los sistemas porttiles de tamao reducido, como los relojes o los telfonos mviles, tienen unas restricciones muy concretas de tamao y forma, as que el habla es una solucin natural para introducir datos en estos dispositivos. Sistemas diseados para discapacitados: Los sistemas de reconocimiento de voz pueden ser tiles para personas con discapacidades que les impidan teclear con fluidez, as como para personas con problemas auditivos, que pueden usarlos para obtener texto escrito a partir de habla. Esto permitira, por ejemplo, que los aquejados de sordera pudieran recibir llamadas telefnicas.

2.3. PropuestaCrear un asistente de voz el cual nos permite facilitar la apertura de programas o archivos, el cual se crear usando la herramienta MATLAB. Se pretende que la persona que va a utilizar el asistente entrene colocando muestras para comparar en el momento en que se vaya a realizar la accin. Para configurar una aplicacin en el asistente adems de la muestra y el nombre de la aplicacin se deber colocar la ruta donde se encuentre el ejecutable que abre la aplicacin. Se pretende que el procesos de entrenar y reconocer en el asistente se manejen de manera simple por medio de una interfaz grfica en Matlab.

2.4. MetodologaPara la creacin de la aplicacin se necesitan los siguientes procesos:1. Conversin A/D.2. Eliminacin de Ruido.3. Pre-nfasis.4. Segmentacin.5. Transformada de Fourier (tff)6. Caractersticas.7. Medida de distancia.8. Identificacin de menor distancia.9. Identificacin de palabra.10. Ejecucin de la aplicacin.

Cada uno de estos procesos se pueden distinguir en las tareas expuestas en la siguiente tabla que especifica una fecha en semanas para para cada tarea.

2.5. Bibliografa J G Proakis D G Manolakis D S P Principles Algorithms and Applications CASACUBERTA. F, VIDAL. E. (1987) Reconocimiento Automtico del Habla. Madrid, Marcombo. Aprenda MatLab 7.0 como si estuviera en Primero (2005). Madrid, Universidad Politcnica de Madrid. Fundamentos de seales y sistemas usando la web y MATLAB, 3ra Edicin - Edward W. Kamen y Bonnie S. Heck.