Uma Metodologia para Auxiliar na Seleção de Atributos Relevantes usados por Algoritmos de Aprendizado no Processo de Classificação de Textos

Claudia A. Martins (1,2), Maria Carolina Monard (1), Edson T. Matsubara (1)

e-mails: cam@icmc.usp.br, mcmonard@icmc.usp.br, edsontm@icmc.usp.br

(1) Universidade de São Paulo - Instituto de Ciências Matemáticas e de Computação Departamento de Ciências de Computação e Estatística 13560-970,São Carlos-SP Brasil
(2) Universidade Federal de Mato Grosso Instituto de Ciências Exatas e da Terra Departamento de Ciência da Computação 78060-900, Cuiabá-MT Brasil

Abstract

Existing learning algorithms expect their input to be presented in terms of constrained set of attributes. Thus, learning algorithms can not be applied directly to the Text Mining task related to text classification which consists in automatically classifying text documents based on their contents.

In order to apply learning algorithms to text classification it is necessary to process the text documents into some form that is acceptable to the chosen algorithm. As every word in a document may be treated as an attribute, the selection of these attributes plays an important role on how well the learning algorithm can generalize.

This work proposes a methodology to select attributes from texts decomposed into words (stems) using the bag-of-words approach, considering the behavior of the learning algorithm used for text classification. The methodology is illustrated using three diferent algorithms on a set of documents.

Resumen/Resumo

Os algoritmos de aprendizado existentes utilizam como entrada um conjunto de exemplos descritos como vetores de atributos. Assim, os algoritmos de aprendizado não podem ser aplicados diretamente a tarefas de Mineraçao de Textos, relacionadas à classificaçao de textos, que consistem em classificar automaticamente documentos textuais baseado em seu conteúdo.

Na aplicaçao de algoritmos de aprendizado em classificaçao de textos é necessário transformar os documentos textuais em um formato aceito pelo algoritmo escolhido. Considerando que toda palavra em um documento pode ser tratado como um atributo, a seleçao destes atributos tem uma funçao importante em quão bem um algoritmo de aprendizado consegue generalizar.

Neste trabalho é proposta uma metodologia para selecionar atributos de textos, decompostos em palavras (stems) usando a abordagem bag-of-words, considerando o comportamento do algoritmo de aprendizado usado na classificaçao de textos. A metodologia é ilustrada utilizando três diferentes algoritmos em um conjunto de documentos.

Keywords:Text Mining, Preprocessing, Inductive Learning

Palabras Clave/Palavras Chave: Mineraçao de Textos, Pré-processamento, Aprendizado Indutivo

BibTex

@INPROCEEDINGS{martins04:1,
                  AUTHOR       = {Claudia A. Martins and Maria Carolina Monard and Edson T. Matsubara},
                  TITLE        = {Uma Metodologia para Auxiliar na Seleção de Atributos Relevantes usados por Algoritmos de Aprendizado no Processo de Classificação de Textos},
                  BOOKTITLE    = {30ma Conferencia Latinoamericana de Informática (CLEI2004)},
                  YEAR         = {2004},
                  editor       = {Mauricio Solar and David Fernández-Baca and Ernesto Cuadros-Vargas},
                  pages        = {21--32},
                  address      = {},
                  month        = Sep,
                  organization = {Sociedad Peruana de Computación},
                  note         = {ISBN 9972-9876-2-0},
                  file         = {http://clei2004.spc.org.pe/es/html/pdfs/1.pdf}
}

PDF de este artículo
PDF de CLEI2004 (incluye todos los artículos)
Página principal CLEI 2004
Generado por Sociedad Peruana de Computación