Reconocimiento de Voz Inteligencia Artificial

7
Reconocimiento de voz con inteligencia artificial. ¿En qué consiste? El sistema consiste en una aplicación para desktop la cual es capaz de poder interactuar con el usuario final e incluso es capaz de llevar procesos como el de abrir programas y poder cerrarlos, solo se necesita alimentarlo con esos conocimientos para que así el programa tenga una base donde aprender para que pueda ejecutar las acciones por sí mismo es de lo que se trata en razón a un “Sistema Neuronal”. El programa es sencillo utiliza ciertas referencias ya creadas las cuales nos permiten poder utilizar ciertos comandos para que el programa pueda interpretar las palabras que se dicen desde el micrófono y así convertirlas en texto y poder buscar la mejor opción o la opción correcta a ejecutar. El programa consiste en comandos, los cuales, ya vienen incluidos algunos e incluso se pueden agregar, dichos comandos se insertan en un documento el cual lee el programa para mostrar al usuario final todos los comandos disponibles. Cuando un usuario dicta una palabra al programa por ejemplo, “comandos“, el programa automáticamente buscará esta palabra y procederá a ejecutar esta acción.

description

reconoce voz

Transcript of Reconocimiento de Voz Inteligencia Artificial

Reconocimiento de voz con inteligencia artificial.

En qu consiste?El sistema consiste en una aplicacin para desktop la cual es capaz de poder interactuar con el usuario final e incluso es capaz de llevar procesos como el de abrir programas y poder cerrarlos, solo se necesita alimentarlo con esos conocimientos para que as el programa tenga una base donde aprender para que pueda ejecutar las acciones por s mismo es de lo que se trata en razn a un Sistema Neuronal.El programa es sencillo utiliza ciertas referencias ya creadas las cuales nos permiten poder utilizar ciertos comandos para que el programa pueda interpretar las palabras que se dicen desde el micrfono y as convertirlas en texto y poder buscar la mejor opcin o la opcin correcta a ejecutar.El programa consiste en comandos, los cuales, ya vienen incluidos algunos e incluso se pueden agregar, dichos comandos se insertan en un documento el cual lee el programa para mostrar al usuario final todos los comandos disponibles.Cuando un usuario dicta una palabra al programa por ejemplo, comandos, el programa automticamente buscar esta palabra y proceder a ejecutar esta accin.El programa puede servir para muchos casos.Se puede implementar por ejemplo en:Un programa de clases de ingls el cual al momento de dictar una palabra te dira si est bien pronunciada o no he incluso te podra poner esa palabra bien escrita en la ventana para as facilitar al usuario.Tambin se puede aplicar en el uso diario de un usuario de pc, el programa puede aprender cul? o cules? son los programas ms utilizados del usuario, as el aprendera que debera de abrir esos programa al inicio de Windows.

Teora.

La capa sensorial que utiliza un algoritmo de transformadas rpidas de Fourier para convertir los datos de forma de onda de audio en discretas seales. Estas seales sensoriales se alimentan directamente a un patrn que las combina en varios grupos concurrentes. Este patrn de seales entonces se canalizan en una secuencia alumno/reconocedor llama el rbol del Conocimiento (TdC) en el que se organizan en temporales jerarquas llaman ramas. Cada rama representa un sonido especfico o una secuencia de sonidos. Sensorio Capa Patrn Aprendiz rbol del conocimiento Reconocedor de formas de onda en seales discretas con patrn seales

Bayesiano Bandwagon.Lo ms sorprendente sobre el motor de reconocimiento de voz es que, a diferencia del estado actual del arte de los reconocedores de voz, es que no utiliza la estadstica bayesiana. Esto vendr como una sorpresa para los expertos de AI porque todos han subido al carro bayesiana hace muchos aos. Incluso aquellos que dicen ser emular estrechamente los sistemas biolgicos creen en el mito del cerebro bayesiano. Por supuesto, esto es pura especulacin y una ilusin porque no hay evidencia biolgica para ello. En cierto modo, esto no es diferente a la forma en que la comunidad de la IA inici la manipulacin de smbolos de vuelta en la dcada de 1950, slo para ser probado mal por ms de medio siglo despus.

Reconocimiento del habla tradicional.La mayora de los sistemas de reconocimiento de voz utilizan un modelo probabilstico bayesiano, como el modelo de Markov oculto, para determinar qu es lo ms probable que vendr despus en un segmento discurso pronunciado senone, fonema o una palabra. Un algoritmo de aprendizaje se utiliza normalmente para compilar una base de datos grande de tales probabilidades. Durante el reconocimiento, las hiptesis generadas por un sonido dado se ponen a prueba en contra de estas expectativas pre-compilados y el que tiene la mayor probabilidad es seleccionado como el ganador.

En contraste con lo anterior, no se basa en las probabilidades pre-aprendido. Ms bien, se utiliza un enfoque que es tan contrario a la intuicin, ya que es de gran alcance. En este enfoque, la probabilidad de que la interpretacin de un sonido es correcta no se conoce de antemano, pero se calcula sobre la marcha. La forma en que funciona es que el motor crea una base de datos jerrquica de tantas secuencias de sonidos aprendidos como sea posible, comenzando con pequeos fragmentos de sonido que son ms cortos que un senone. Cuando se detectan sonidos, en su intento de activar diversas secuencias y la secuencia con el mayor recuento de visitas es el ganador. Un ganador se encuentra generalmente antes de que el orador haya terminado de hablar. Funciona porque los patrones de sonido que son tan nicas y forman muy pocas secuencias. Una vez que se determina un ganador, todas las dems secuencias que no pertenecen a la misma rama en la jerarqua se suprimen inmediatamente. Este enfoque conduce a muy alta precisin de reconocimiento, incluso cuando las partes del discurso faltan; y hace que sea posible para resolver el problema.

Capa sensorial.Las seales discretas y la codificacin de poblacin.La capa sensorial hace el trabajo ms difcil pero es vital para convertir fenmenos de audio en el tipo de seales sensoriales que el motor puede procesar. Utiliza un algoritmo FFT sencilla para convertir lotes de datos de forma de onda de audio digitales en seales discretas que representan los cambios en varias frecuencias y amplitudes. El diseo de la capa sensorial se basa en la idea de que lo que es importante para un sistema inteligente y no es tanto el estado de la palabra, sino cmo el mundo cambia. La mejor manera de lograr esto es para generar un flujo constante de datos mediante la transformacin rpidamente de cambios detectados en seales discretas.Este sistema utiliza un mtodo de discretizacin llamada codificacin de poblacin para codificar amplitud. Esencialmente, un nmero fijo de neuronas discretas se asigna a cada frecuencia y el nmero de neuronas que se disparan en un momento dado es proporcional a la amplitud y la velocidad del cambio. El uso de la codificacin de la poblacin es absolutamente crucial para el buen funcionamiento del aprendizaje de patrones y el rbol del conocimiento, debido a que la estructura temporal hace los cambios, ya que es una necesidad para el patrn y el aprendizaje de secuencias y se conserva durante la transformacin. Una de las ventajas de este mtodo es que la tosquedad de la conversin se puede ajustar para optimizar la velocidad de respuesta y la precisin de reconocimiento para un ordenador dado.Algunas primeras especificaciones.Actualmente, la velocidad de muestreo del micrfono se fija en 11 KHz y cada lote muestreado contiene 1024 bytes de datos de audio. Despus de la conversin, los datos se transforman en 512 valores, cada uno representando la amplitud de una frecuencia nica. A partir de ahora, la capa sensorial utiliza slo las 24 frecuencias ms bajas. Result que 24 son suficientes para la mayora de tareas de reconocimiento de voz. El uso de ms slo frenar el motor sin aumentar significativamente la precisin de reconocimiento. Patrn de aprendizaje y reconocimiento.Patrones.

Un patrn es un grupo de seales sensoriales concurrentes. Representa un fenmeno recurrente nico en el medio ambiente. Por definicin, cada seal en un patrn debe tener un origen sensorial diferente, es decir, que deben llegar en diferentes corrientes sensoriales paralelas.Desde el punto de vista del sistema inteligente, un patrn es tanto una entidad como una secuencia temporal. Un sonido, por ejemplo, se compone de varias ondas sinusoidales y estos no tienen nada que ver con la espacialidad. Sin embargo, el cerebro utiliza los principios del aprendizaje idnticos para ambos estmulos visuales y auditivos.Aprendices del patrn.Aprendizaje del patrn se basa en la suposicin de que hay regularidades temporales en el medio ambiente que se reflejan en las seales sensoriales. El aprendiz del patrn contiene un gran nmero de neuronas de reconocimiento de patrones que reciben seales desde la capa sensorial. Se trata de descubrir la mayor cantidad de patrones en el espacio sensorial posible. Se realiza esta tarea mediante la organizacin de patrones para formar una jerrquica.

La jerarqua del patrn enva sus seales de salida directamente a la secuencia de aprendizaje. La propagacin de la seal dentro de la jerarqua del patrn debe ser lo suficientemente rpido para ocurrir dentro de un solo ciclo o unos 10 milisegundos. Desde el punto de vista del resto del sistema, la propagacin de la seal dentro de la jerarqua es instantnea.

El aprendiz patrn utiliza un mecanismo de aprendizaje no supervisado que se basa en algunas pocas reglas simples, pero estrictas. Estas normas son esenciales para el buen funcionamiento del motor en su conjunto.Reconocimiento De PatronesLas neuronas de reconocimiento de patrones se disparan cuando se detecta un evento especfico. En una situacin sensorial perfecta, un patrn de una neurona se despedira si y slo si todos sus insumos se dispararan simultneamente. Por desgracia, esto rara vez sucede debido a las incertidumbres de los fenmenos sensoriales. As que una neurona se disparar en un patrn cada vez que un cierto nmero de sus entradas sean simultneamente. Este nmero se llama el umbral de disparo y se puede ajustar para adaptarse al entorno y a los requisitos de los diseadores del sistema. La fuerza de la seal emitida es proporcional a la cantidad de entradas que dispar. El rbol del conocimiento.Ramas y hojas.El TOK es una estructura de memoria jerrquica auto-montaje que recibe sus entradas desde el mdulo de patrn. La funcin principal de la TdC es aprender a reconocer secuencias. Metafricamente hablando, los patrones son las hojas de la TdC. Una rama es o bien una secuencia de patrones, una secuencia de otras secuencias o una combinacin de los mismos. Una rama puede tener hasta siete nodos secuenciales. Es el bloque fundamental de la TdC edificio.Las ramas compiten por la activacin utilizando un ganador que se lleva todo el mecanismo. Es decir, la rama que recibe las seales ms fuertes gana y los dems se suprimen. El reconocimiento de audio en el TOK consiste en activar una rama (y sus sub-ramas, si los hubiera) a la vez. El reconocimiento es altamente invariante a cambios en los altavoces, los acentos, el volumen, el tono, el nivel de ruido y el momento.Secuencia de aprendizaje.La secuencia de aprendizaje en el TdC es tan simple como potente. Esto se debe a que la mayor parte del aprendizaje ya ha sido realizado por el alumno modelo. Como se mencion anteriormente, los patrones son tan nicos que pueden formar slo un nmero muy limitado de secuencias. De hecho, la mayora de las veces, un patrn se permitir un nico sucesor y/o predecesor. En este sentido, el aprendizaje de secuencias es sobre todo un proceso de grabacin desde cualquier secuencia es una buena secuencia.