Claudia A. Martins (1,2), Maria Carolina Monard (1), Edson T. Matsubara (1)
e-mails: cam@icmc.usp.br, mcmonard@icmc.usp.br, edsontm@icmc.usp.br
In order to apply learning algorithms to text classification it is necessary to process the text documents into some form that is acceptable to the chosen algorithm. As every word in a document may be treated as an attribute, the selection of these attributes plays an important role on how well the learning algorithm can generalize.
This work proposes a methodology to select attributes from texts decomposed into words (stems) using the bag-of-words approach, considering the behavior of the learning algorithm used for text classification. The methodology is illustrated using three diferent algorithms on a set of documents.
Na aplicaçao de algoritmos de aprendizado em classificaçao de textos é necessário transformar os documentos textuais em um formato aceito pelo algoritmo escolhido. Considerando que toda palavra em um documento pode ser tratado como um atributo, a seleçao destes atributos tem uma funçao importante em quão bem um algoritmo de aprendizado consegue generalizar.
Neste trabalho é proposta uma metodologia para selecionar atributos de textos, decompostos em palavras (stems) usando a abordagem bag-of-words, considerando o comportamento do algoritmo de aprendizado usado na classificaçao de textos. A metodologia é ilustrada utilizando três diferentes algoritmos em um conjunto de documentos.
Keywords:Text Mining, Preprocessing, Inductive Learning
Palabras Clave/Palavras Chave: Mineraçao de Textos, Pré-processamento, Aprendizado Indutivo
@INPROCEEDINGS{martins04:1, AUTHOR = {Claudia A. Martins and Maria Carolina Monard and Edson T. Matsubara}, TITLE = {Uma Metodologia para Auxiliar na Seleção de Atributos Relevantes usados por Algoritmos de Aprendizado no Processo de Classificação de Textos}, BOOKTITLE = {30ma Conferencia Latinoamericana de Informática (CLEI2004)}, YEAR = {2004}, editor = {Mauricio Solar and David Fernández-Baca and Ernesto Cuadros-Vargas}, pages = {21--32}, address = {}, month = Sep, organization = {Sociedad Peruana de Computación}, note = {ISBN 9972-9876-2-0}, file = {http://clei2004.spc.org.pe/es/html/pdfs/1.pdf} }
PDF de este artículo
PDF de CLEI2004 (incluye todos los artículos)
Página principal CLEI 2004
Generado por Sociedad Peruana de Computación