Search Engines

Problemas para recuperação de informação na Internet

O modelo atual de índices usado é muito limitado. A coleta de dados é feita através de agentes (robôs, spiders, ou webcrawlers). Um agente requisita via rede os documentos de um determinado site e os repassa para um módulo que cuida de indexá-los e adicioná-los à base de dados. Este método apesar de simples de implementar, apresenta um overhead muito grande devido ao tráfego destes documentos na rede. Alguns robôs fazem grandes requisições de dados que podem sobrecarregar a rede e até derrubar um servidor. Inclusive, já foi elaborado um código de ética e normas gerais para escritores de robôs.

Outro incoveniente para os agentes decorre do fato de os dados serem muito modificados fazendo com que a base de dados deva ser sempre atualizada para evitar inconsistências. Alguns agentes utilizam uma característica do protocolo HTTP para recuperar apenas documentos que foram modificados até certa data, mas mesmo assim todas as requisições para os documentos devem ser feitas o que gera um tráfego inútil.

O volume de dados cresce tanto que em breve será impossível ter um índice que cubra toda a Internet. Só a título de curiosidade , o banco de dados do Alta Vista em março de 1996 ocupava cerca de 380 gigabytes. Isto tudo tem um custo de equipamentos para armazenar dados e de manutenção muito altos.

Outro fator que deve ser levado em conta é o fato de sites que oferecem serviços de busca pela Internet terem se mostrado altamente lucrativos, isso faz com a competição entre os sites aumente e o número de sites deste tipo também. Alguns sites deste tipo oferecem seu serviço de graça mas cobram por anúncios que são colocados em seu site, e para que um site se sobressaia nesta concorrência ele deve estar constantemente atualizado, alguns especialistas inclusive prevêem que em cinco anos a métade do tráfego da rede será originária de robôs.

Outro problema destes sites é a forma como a informação é organizada, os resultados, apesar de conterem as chaves de pesquisa, muitas vezes não têm relação com o assunto da mesma. Alguns sites organizam a informação em classes, entretanto este tipo de classificação é deve ser feito sob intervenção humana.

[Proxíma] [Anterior] [Home]

Dúvidas, Sugestões ou Comentários:

jfreitas@dcc.ufmg.br

pccosta@dcc.ufmg.br