Identificación de Señales Verbales en el Espacio de Fase Reconstruido

Wladimir Rodriguez (1), Jose Brito (1), Flor Narciso (2)

e-mails: wladimir@ula.ve, jabbmv@cantv.net, fnarcizo@ula.ve

(1) Universidad de los Andes - Post Grado en Computación 5101 Merida Venezuela
(2) Universidad de los Andes - Departamento de Computación 5101 Merida Venezuela

Abstract

In this paper we describe the use of Multilayer Perceptron Array for learning and classifying speech signals, using characteristic vectors of reconstructed dynamics. First, we consider the phonatory system as a black-box, where the only available data is its output: the speech signal. Theoretically, if reconstruction of system dynamics is properly made, geometric structures or attractors outlined in the space are topologically equivalent to original, and inaccessible, structures. This is a way of accessing underlying dynamics, and is the starting point for two kinds of experiments: classification of vowels and digits, with Venezuelan Spanish voices. Results verify positively that characteristics vectors extracted from underlying dynamics hold discriminative power for distinguishing between classes of speech signals. Besides, neural networks are able to generalize using this kind of data.

Resumen/Resumo

Este artículo se describe el uso de arreglos de redes neuronales de retropropagación para el aprendizaje y clasificación de señales verbales, usando vectores de características de la dinámica reconstruida. Primero, se considera el sistema fonatorio como una caja negra, donde la única data disponible es la salida: la señal verbal. Teoreticamente, si la reconstrucción de la dinámica del sistema es correcta, las estructuras geométricas o atractores del espacio son topologicamente equivalentes a las estructuras originales inaccesibles. Esta es una forma de acceder a la dinámica subyacente, y es el punto de partida para dos tipos de experimentos: clasificación de vocales y dígitos, con voces en español venezolano. Los resultados verifican positivamente que los vectores de características extraidos de la dinámica subyacente tiene poder discriminatorio para distinguir entre clases de señales verbales. Además, las redes neuronales son capaces de generalizar usando este tipo de datos.

Keywords:Speech Signal Classification, Reconstructed Dynamics, Pattern Recognition, Non Linear Dynamics, Neural Nets, SpeechDat

Palabras Clave/Palavras Chave: Clasificación de señales verbales, Espacio de fases reconstruido, Reconocimiento de patrones, Dinámica no lineal, Redes neuronales, SpeechDat


BibTex

@INPROCEEDINGS{rodriguez04:135,
                  AUTHOR       = {Wladimir Rodriguez and Jose Brito and Flor Narciso},
                  TITLE        = {Identificación de Señales Verbales en el Espacio de Fase Reconstruido},
                  BOOKTITLE    = {30ma Conferencia Latinoamericana de Informática (CLEI2004)},
                  YEAR         = {2004},
                  editor       = {Mauricio Solar and David Fernández-Baca and Ernesto Cuadros-Vargas},
                  pages        = {426--430},
                  address      = {},
                  month        = Sep,
                  organization = {Sociedad Peruana de Computación},
                  note         = {ISBN 9972-9876-2-0},
                  file         = {http://clei2004.spc.org.pe/es/html/pdfs/135.pdf}
}

pdficon.gif PDF de este artículo
PDF de CLEI2004 (incluye todos los artículos)
Página principal CLEI 2004
Generado por Sociedad Peruana de Computación