Search Engines

Alta Vista : Mais informações em: http://altavista.digital.com/cgi-bin/query?pg=tmpl&v=about.html

Resultado de um projeto de pesquisa iniciadao no verão de 1995 no Digital's Research Laboratories em Palo Alto, California.
Em maio de 1996 o índice ocupava 30.000.000 páginas e recebia 12.000.000 de pedidos de HTTP, em 1o. de novembro o número de pedidos passou a 22.000.000 por dia.
O software por trás do Alta Vista consiste em:

Scooter: O mais rápido robô do mundo que percorre 3.000.000 de páginas por dia e obedece o Robots Exclusion Standard.
O software de índices que "tritura" 1 GB de texto por hora e serve múltiplas consultas em paralelo.

Deja News: Mais informações em http://www.dejanews.com/dnindex.html

Hardware: dois conjuntos de máquinas, um executando operações de banco de dados e o outro provendo interface WWW. As máquinas possuem dois processadores Pentium 133 cada e até 126MBytes de RAM e discos rígidos de 1-4GBytes.
Software de indexação: é capaz de tratar bancos de dados em grande escala e ao mesmo tempo oferecendo uma busca rápida. Dos artigos de news aos índices uqe são as chaves para a busca rápida, quase toda parte é armazenada utilizando-se as melhores técnicas de compressão que são eficientes tanto em termos de espaço de armazenamento e tempo de recuperação de dados.
Tamanho do banco de dados: 120 Gbytes
Número de artigos: 80.000.000
Newsgroups Indexados: 15.000.000
Artigo mas antigo: 15 de Março de 1995
Último artigo: Hoje !

Liszt Mais informações em http://www.liszt.com/about.html

É basicamente um spider de mailing-list que faz pesquisa em servidores de todo o mundo compila os resultados em um único diretório. Um vez que o robô localiza o servidor, ele coleta listas de discussões que executam majordomo, listserv, listproc, maiser , ou macjordomo software.

Webcrawler: mais informações em http://www.webcrawler.com/WebCrawler/Help/Help.html

Constrói índices de documentos que encontra na Web
Age como um agente procurando documentos de interesse particular do usuário
Pode responder algumas consultas interessantes como: qual sites referenciam uma determinada página, ou os 25 documentos mais referenciados por exemplo.

Search engine: responsável pelo direcionamento da busca.
Banco de dados: contém uma lista de todos os documentos visitados ou não e um índice do conteúdo dos documentos visitados.
"Agents" que recuperam documentos, eles usam a biblioteca WWW do CERN para recuperar um URL específica que retorna aquele documento ao banco de dados para armazenamento. O WebCrawler roda tipicamente de 5 a 10 agentes ao mesmo tempo.