Alguns exemplos e suas implementações:
Alta Vista : Mais informações em: http://altavista.digital.com/cgi-bin/query?pg=tmpl&v=about.html
- Resultado de um projeto de pesquisa iniciadao no verão de 1995
no Digital's Research Laboratories em Palo Alto, California.
- Em maio de 1996 o índice ocupava 30.000.000 páginas e
recebia 12.000.000 de pedidos de HTTP, em 1o. de novembro o número
de pedidos passou a 22.000.000 por dia.
- O software por trás do Alta Vista consiste em:
- Scooter: O mais rápido robô do mundo que percorre
3.000.000 de páginas por dia e obedece o Robots
Exclusion Standard.
- O software de índices que "tritura" 1 GB de texto
por hora e serve múltiplas consultas em paralelo.
Deja News: Mais informações em http://www.dejanews.com/dnindex.html
- Hardware: dois conjuntos de máquinas, um executando operações
de banco de dados e o outro provendo interface WWW. As máquinas
possuem dois processadores Pentium 133 cada e até 126MBytes de RAM e
discos rígidos de 1-4GBytes.
- Software de indexação: é capaz de tratar bancos
de dados em grande escala e ao mesmo tempo oferecendo uma busca rápida.
Dos artigos de news aos índices uqe são as chaves para a
busca rápida, quase toda parte é armazenada utilizando-se
as melhores técnicas de compressão que são eficientes
tanto em termos de espaço de armazenamento e tempo de recuperação
de dados.
- Tamanho do banco de dados: 120 Gbytes
- Número de artigos: 80.000.000
- Newsgroups Indexados: 15.000.000
- Artigo mas antigo: 15 de Março de 1995
- Último artigo: Hoje !
Liszt Mais informações em http://www.liszt.com/about.html
- É basicamente um spider de mailing-list que faz pesquisa
em servidores de todo o mundo compila os resultados em um único
diretório. Um vez que o robô localiza o servidor, ele coleta
listas de discussões que executam majordomo, listserv, listproc,
maiser , ou macjordomo software.
Webcrawler: mais informações em http://www.webcrawler.com/WebCrawler/Help/Help.html
- O WebCrawler é um robô e tem três diferentes funções:
- Constrói índices de documentos que encontra na Web
- Age como um agente procurando documentos de interesse particular do
usuário
- Pode responder algumas consultas interessantes como: qual sites referenciam
uma determinada página, ou os 25 documentos mais referenciados por
exemplo.
- Composto basicamente por três parte essenciais:
- Search engine: responsável pelo direcionamento da busca.
- Banco de dados: contém uma lista de todos os documentos
visitados ou não e um índice do conteúdo dos documentos
visitados.
- "Agents" que recuperam documentos, eles usam a biblioteca
WWW do CERN para recuperar um URL específica que retorna aquele
documento ao banco de dados para armazenamento. O WebCrawler roda
tipicamente de 5 a 10 agentes ao mesmo tempo.
- Tenta ao máxio ser um "bom cidadão".
- É escrito em C e Objective-C paraNEXTSTEP.


Dúvidas, Sugestões
ou Comentários:
jfreitas@dcc.ufmg.br
pccosta@dcc.ufmg.br