Algunas Técnicas para el Procesamiento de Texto Basadas en Diccionarios

Alexander Gelbukh (1)

e-mails: www.gelbukh.com

(1) Instituto Politecnico Nacional México

Abstract

En la plática se presentará un conjunto de los trabajos realizados recientemente por el grupo del Laboratorio de Lenguaje Natural dirigido por el autor.

Problemas. Los principales problemas en el procesamiento y la comprensión de textos en lenguaje natural por computadora se concentran en la resolución de ambigüedades de varios tipos: resolución de ambigüedad de sentidos de palabras (WSD, por las siglas en inglés), resolución de anáfora, y resolución de la ambigüedad sintáctica. El problema consiste en la posibilidad aparente de interpretar una palabra o frase de diferentes maneras, mientras que sólo una de éstas se debe seleccionar como correcta en un texto dado específico. Adicionalmente, como unas aplicaciones específicas de las técnicas desarrolladas, se puede mencionar la detección y corrección de errores en el texto, así como el problema de selección de palabra en la traducción automática.

Algoritmos. Una idea básica que subyace varias técnicas para la resolución de estos problemas es la medida de relación entre las palabras. Se distinguen las relaciones de diferente naturaleza, véase el siguiente párrafo. Dado un problema de ambigüedad y una medida de relación del tipo apropiado, el algoritmo selecciona tal interpretación que maximice la relación de la palabra en cuestión con otras palabras en el texto. Una variante de tal algoritmo es la optimización global de semejanza: encontrar la combinación de las selecciones para cada palabra ambigua en el texto de tal manera que la semejanza total en el texto se maximice. Finalmente, una variante de este algoritmo se aplica a la detección y corrección de errores: si ninguna interpretación de la palabra no es plausible, pero sustituyéndola con una palabra parecida se logra mucho mejor relación con el contexto, se puede sospechar un error y proponer la última palabra como corrección.

Diccionarios. La medida de relación se puede especificar en diferentes diccionarios: de combinaciones de palabras, marcos de subcategorización, escenarios y generalización semántica. En la plática se presentarán las aplicaciones de estos diccionarios a uno o varios problemas arriba formulados usando la simple idea del párrafo anterior.

Herramientas y recursos. Finalmente, se discutirán las herramientas desarrolladas en el Laboratorio que permiten la aplicación, la integración y la compilación (semi)automática de dichos diccionarios, entre éstas: un analizador morfológico y un modo de aprendizaje automático de su diccionario, una técnica para el aprendizaje automático de los marcos de subcategorización y las colocaciones, con o sin generalización semántica, y una tecnología de la compilación de un corpus de textos necesario para esto.

Algunas de las ideas mencionadas se han desarrollados conjuntamente con I. Bolshakov, G. Sidorov, S. Galicia, H. Calvo, R. Morales.

Keywords:Diccionario, Resolución de ambigüedad, Mineria de textos

Biografía/Biography

Alexander Gelbukh es el Profesor Titular y el Jefe del Laboratorio de Lenguaje Natural del Centro de Investigación en Computación del IPN. M.en C. en Matemática de la Universidad Estatal Lomonosov de Moscú y Ph.D. en Ciencias de Computación del Instituto Nacional de Informacion Cientifica y Técnica. Es el miembro de Academia de Ciencias y Sistema Nacional de Investigadores de México, es el autor más que 100 publicaciones en el campo de Linguistica Computacional, Procesamiento de Textos y Métodos Numéricos.


BibTex

@INPROCEEDINGS{gelbukh04:504,
                  AUTHOR       = {Alexander Gelbukh},
                  TITLE        = {Algunas Técnicas para el Procesamiento de Texto Basadas en Diccionarios},
                  BOOKTITLE    = {30ma Conferencia Latinoamericana de Informática (CLEI2004)},
                  YEAR         = {2004},
                  editor       = {Mauricio Solar and David Fernández-Baca and Ernesto Cuadros-Vargas},
                  pages        = {18--18},
                  address      = {},
                  month        = Sep,
                  organization = {Sociedad Peruana de Computación},
                  note         = {ISBN 9972-9876-2-0},
}

PDF de CLEI2004 (incluye todos los artículos)
Página principal CLEI 2004
Generado por Sociedad Peruana de Computación