Search Engines

Propostas para Indexação mais eficiente

A pesquisa na WWW

Uma solução para otimizar as pesquisas na WWW seria a separação das tarefas de coleta e indexação da informação, que poderão assim ser feitas de maneira mais eficiente. Neste caso, podem ser usados provedores locais de informação responsáveis por criar resumos dos documentos do site e outros aspectos relevantes (data de atualização, palavras chave). O indexador pode conectar-se ao provedor através de um protocolo especial e receberia apenas dados dos arquivos modificados. Juntamente com a compressão dos dados, esta solucao pode diminuir o tráfego de informação na rede.

O problema do grande volume de informações pode ser contornado utilizando índices especializados para assuntos diversos. Partes dos índices poderiam espalhadas por diversos sites criando uma hierarquia índices. As duas abordagens anteriores podem ser combinadas em uma estrutura geral e descentralizada para pesquisa.

Finalmente, a replicação de índices pode solucionar o problema de velocidade das pesquisas ao dividir o tráfego de informações entre vários sites. Apesar da confiabilidade do acesso aos dados ser aumentada, a alocação de sites "mirror" de forma eficiente exige estratégias que garantam uma escolha apropriada.

O sistema Harvest, desenvolvido pela IRTF-RD ( Internet Research Task Force - Research Group on Resource Discovery) é um projeto que combina ferramentas baseado na divisão da coleta e indexação da informação.

[Proxíma] [Anterior] [Home]

Dúvidas, Sugestões ou Comentários:

jfreitas@dcc.ufmg.br

pccosta@dcc.ufmg.br