Um robô é um programa que varre a estrutura WWW recuperando um documento e também recuperando recursivamente os documentos que o referenciam. O robô visita listas de URLs, como seções "What's New" , sites populares e artigos da USENET. Após localizar um documento, o robô pode examinar seu conteúdo ou parte dele para indexá-lo, ou mesmo alguns tags especiais como META.
A implementação de robôs é relativamente simples. Alguns exemplos podem ser encontrados em pacotes como a libwww-perl5 que possui um exemplo simples.
Entretanto, os robôs podem causar problemas na rede devido ao grande tráfego de informações, causados por um grande número de requisições de documentos feitas por um robô em pequeno intervalo de tempo ("rapid fire"), sobrecarregando os servidores. Uma solução para o problema foi estabelecer um padrão para a exlusao de robôs, isto é, permitir que o administrador de um site WWW possa colocar restrições para o acesso de robôs. Isto pode ser feito através de um arquivo robots.txt, que diz ao robô que procura informações em um site quais diretórios podem ser acessados.
Exemplo de arquivo robots.txt:
# robots.txt for http://www.site.com
User-agent: * # Qualquer roboDisallow: /cgi-bin/