Investigando o Desempenho da Estrutura de Indexação MRS
com base na Geração de Genomas Sintéticos
 

Ricardo Rodrigues Ciferri
Universidade Federal de São Carlos
Departamento de Computação
São Carlos, SP, Brasil, CEP 13.565-905
ricardo@dc.ufscar.br

Mônica Nakano
Fundação FAFIMAN
Departamento de Ciência da Computação
Mandaguari, PR, Brasil, Caixa Postal 100
monica@fafiman.br

Cristina Dutra de Aguiar Ciferri
Universidade de São Paulo
Departamento de Ciências de Computação
São Carlos, SP, Brasil, CEP 13.560-970
cdac@icmc.usp.br

Reginaldo Massanobu Kuroshu
University of Tokyo
Department of Computational Biology
Kashiwanoha, Chiba, Japan, PC 277-8562
reginaldo@cb.k.u-tokyo.ac.jp

and

José Júnior Lombardi Bariviera
Nielder Tarsus Honorato da Silva
Universidade Estadual de Maringá
Departamento de Informática
Maringá, PR, Brasil, CEP 87.020-900
jjlbariv@hotmail.com; nielder@din.uem.br

 
Abstract
 
In this paper we address the similarity search of sequences in biological databases using the MRS index structure. We propose and automate the following activities aimed at generating synthetic genomes from real ones: (i) to obtain real genomes of bacteria and plasmids; (ii) to analyse the obtained genomes focusing on identifying which characteristics of them should be extracted and consequently reproduced; and (iii) to generate synthetic genomes that have similar characteristics to those identified in real ones. We also investigate the influence of the data volume in the performance of the MRS. The performance tests showed that the MRS is able to manage different volumes of biological data, as its search time keeps a linear variation with regard to the data volume growth.
 
Keywords: Bioinformatics, Biological Databases, Similarity search of sequences, Index structures.
Resumo
 
Este artigo enfoca a pesquisa de similaridade de seqüências em bancos de dados biológicos com o auxílio da estrutura de indexação MRS. Para tanto, propõe e automatiza as seguintes atividades voltadas à geração de genomas sintéticos a partir de genomas reais: (i) obtenção de genomas reais de bactérias e plasmídeos; (ii) análise dos genomas reais obtidos, visando-se identificar quais características destes genomas devem ser extraídas e, conseqüentemente, reproduzidas; e (iii) geração de genomas sintéticos, com características similares às identificadas nos genomas reais. O artigo também investiga a influência específica do volume de dados no desempenho da MRS. Os testes de desempenho mostraram que a MRS é adaptada para gerenciar diferentes volumes de dados biológicos, desde que o seu desempenho mantém uma variação linear com relação ao crescimento do volume.
 
Palabras chaves:Bioinformática, Bancos de dados biológicos, Pesquisa de similaridade de seqüências, Estruturas de Indexação.