Definiciones de robots de búsqueda
http://www.abcdatos.com/buscadores/robot.aspl

¿Qué es un robot?

Un robot es un programa que atraviesa una estructura de hipertexto recuperando ese enlace y todos los enlaces que están referenciados allí. De ello se alimentan los grandes motores de búsqueda de la web.

La diferencia con los Directorios, es que éstos no poseen robots, están operados por humanos y no recuperan automáticamente los enlaces incluidos en las páginas web, sino que sólo se limitan a hallar lo que las personas manualmente incluyen en ellos, pudiendo como ventaja clasificar por secciones la temática de las web al hacer el proceso manual.

Los robots son usualmente llamados "Web Wanderers", "Web Crawlers", o "Spiders" (arañas de búsqueda) y se suele imaginar que se mueven entre los sitios como si fuesen virus, este no es el caso, un robot simplemente visita los sitios y extrae los enlaces que están incluídos dentro de estos.

Arañas (Spiders)
Es un robot, pero otorga resultados más fríos.

Gusanos (Worms)
Es lo mismo que un robot, aunque técnicamente un gusano es una réplica de un programa, a diferencia de un robot que es un programa original.

Orugas (Web crawlers)
Es lo mismo que un robot, pero hay que aclarar que es un tipo específico de robot.

Hormigas (WebAnts)
Cooperativa de robots

Qué es un Agente:
La palabra "Agente" tiene muchos significados en el mundo de la computación de nuestros días.

Específicamente:

Agente autónomo:
Es un programa que "viaja" entre los sitios web, decidiendo por ellos mismos cuando son movidos a otros lugares y también deciden qué hacer.
Hay que tener en cuenta que sólo pueden viajar entre sitios ubicados en servidores especiales y no son muy difundidos en el área de internet.

Agente inteligente:
Son programas que ayudan al usuario por ejemplo: a elegir productos, rellenar formularios o a encontrar determinada cosa. Generalmente no tienen mucha tarea en la red.

Agente de usuario:
Es un nombre técnico para programas que ejecutan tareas para un usuario en la red. Un ejemplo de ellos son: Netscape Navigator,Microsoft Internet Explorer, y Email User-agent como Qualcomm Eudora etc.



Motor de búsqueda o Search engine

Se trata de un programa que busca a través de una base de datos, en el contexto de la Web, se refiere usualmente a búsquedas de bases de datos de documentos Html, recopilados por un robot.

Los robots pueden ser usados para varios propósitos:
Indexar
Validar HTML
Validar Links
Monitorear "qué hay de nuevo"
Generar imágenes

Cómo decide un robot qué visitar
Esto depende del robot. Cada uno usa diferentes estrategias. En general comienzan a trabajar desde una lista histórica de URL's. Especialmente con documentos con muchos links, tales como una lista de servidores "what's New"(qué hay de nuevo") y desde los sitios más populares en la Web.
Muchos indexan servicios que le permiten dar de alta un sitio manualmente, los cuales harán cola para ser indexados por el robot.
Son usados a veces otros recursos también como listas de correo, grupos de discusión, etc.
Esto les da un punto de partida para comenzar a seleccionar url's que ha de visitar, analizarlas y usarlas como recurso para incluirlas dentro de su base de datos.

Cómo decide un robot qué indexar
Depende del robot, pero generalmente usa los títulos de HTML (Titles) o los primeros párrafos, o selecciona la HTML completa e indexa las palabras contenidas, excluyendo las de uso común (pronombres, adverbios y palabras como "web", "página", etc) dependiendo de las construcciones de HTML, etc. Algunos seleccionan las metaetiquetas, u otros tipos especiales de tags ocultas. Una práctica muy común es indexar también los textos alternativos de los gráficos. Le recomendamos les preste especial atención, pues en caso de indexarse, son palabras que contarán con un gran peso sobre la relevancia final en el documento.

Cómo saber si se es visitado por un robot:

En el caso de ser visitado por un robot, las estadísticas de las páginas muestran un mismo IP que accede en unos pocos segundos a todas las páginas de su web, cosa que no puede hacerse manualmente de una forma natural. En ocasiones, por el propio nombre de Host correspondiente a su IP son reconocibles.

Cómo puede evitar que un robot escanee su sitio
El camino más rápido para evitar esto es crear un archivo robot.txt con las siguientes dos líneas y ponerlo en su servidor.
User-agent: *
Disallow: /

Si no tiene acceso completo a su servidor, simplemente puede incluir las siguientes líneas (tags o etiquetas) en su página web para que no sea indexada:
<META name="ROBOTS" content="NOINDEX">
Y si desea que los links no sean indexados por el robot incluya:
<META name="ROBOTS" content="NOFOLLOW">