I.Estudios

Estudio 7:

DISEÑO DE UN SISTEMA DE RECONOCIMIENTO DEL HABLA PARA CONTROLAR DISPOSITIVOS ELÉCTRICOS.

AUTORES: Ingeniero Dayana Salcedo e Ingeniero Alejandro Teixeira, Tutor: Ingeniero María Stefanelli.

 

ABSTRACT:

The development of this project is based on a theoretical study about the nature, parametric representation, characteristics and signal voice processing, in addition to a practical study that it contemplates simulations in MATLAB with different signals voices in order to analyze its similarities and differences according to the person who generates them. The theoretical and practical evaluation of the performance of the parametric representation techniques was made, including in this study the Mel Frequency Cepstrum Coefficients (MFCC), Linear Frequency Cepstrum Coefficients (LFCC) y Linear Predictive Cepstrum Coefficients (LPCC) within the scheme of the speech recognition. In addition, this study contemplates the programming of a microcontroller as a processing element within the hardware, in charge of controlling the electrical devices in order to interpret the commands of the application and to turn them into actions (On/Off). A total of 300 signals of voice between 20 participants were collected, 200 of them for the creation of a training data base and 100 of them for the testing data base of the system. Between the most important results that stand out, is the chose of MFCC as the parametric representation technique used in the application, because of its high percentage of success in the speech recognition.

 

RESUMEN:

En este trabajo se plantea el reto de desarrollar un sistema que, usando el reconocimiento del habla como herramienta, permita el control de dispositivos eléctricos de una forma sencilla y sin ambigüedades. El desarrollo de este proyecto se basa en un estudio teórico sobre la naturaleza, parametrización, características y procesamiento de señales de voz, además de un estudio práctico que contempla simulaciones en MATLAB de distintas señales de voz, para analizar sus semejanzas y diferencias de acuerdo a la persona que las genera. Se realizó la evaluación teórica y práctica del desempeño de las técnicas de parametrización de la señal de voz Mel Frequency Cepstrum Coefficients (MFCC), Linear Frequency Cepstrum Coefficients (LFCC) y Linear Predictive Cepstrum Coefficients (LPCC) dentro del esquema del reconocimiento del habla, la programación de un microcontrolador como elemento de procesamiento dentro del hardware encargado de controlar los dispositivos eléctricos, para interpretar los comandos de la aplicación y convertirlos en acciones de encendido y apagado de los mismos, además se recolectaron un total de 300 señales de voz entre 20 participantes, 200 de ellas para la creación de una base de datos de entrenamiento y 100 de ellas para la base de datos de pruebas del sistema. Entre los resultados más resaltantes se destacan la escogencia del MFCC como técnica de parametrización por su alto porcentaje de acierto en el reconocimiento del habla, además del “Sistema de reconocimiento del habla para controlar dispositivos eléctricos” completamente funcional.

Palabras clave: Procesamiento digital de la voz, parametrización de la voz, reconocimiento del habla