Nivel de comprensión algo difícil

 

Qué es un robot de internet

Un robot de Internet es un programa de ordenador que rastrea una web y analiza y capta los datos de la página web para algún fin particular. Otros nombres por los que se conocen a los robots son: spider, araña (por la traducción de la palabra spider), bot (de la palabra robot), crawler (rastreador en español), webcrawler, etc.

 

Para qué se usa un robot y quién los usa

Los robots se suelen utilizar para:

1.- Crear un índice para un buscador. Lo suelen usar los buscadores de Internet (Google, Yahoo, Bing, etc.)

2.- Para indexar un sitio en internet. Esto lo suelen usar los directorios de Internet.

3.- Analizar un sitio web para determinar carencias (links rotos, fallos de código, etc.). Lo suelen utilizar cualquier persona con interés para ello o sitios de certificados de normas tipo el consorcio W3C.

4.- Recolectar información para hacer un registro de datos (tipo precios de una página web, tipo de productos de una web, etc.). Esto lo suelen usar los propios webmaster para recopilar información o metapáginas (páginas que recopilan información de otras páginas).

5.- Recolectar información ilícita. Lo usan los cuerpos de seguridad del estado para encontrar páginas ilícitas o con contenido ilegal.

 

Cómo fabricarlo

Los bots no dejan de ser un programa de ordenador que actúa de forma automática. Para ello hay que programarlo en cualquier lenguaje adecuado a sus pretensiones. Lo más normal es usar PHP o PERL.

En Net&Software ya hemos creado unos cuantos bots para poder realizar una recolección de información sobre productos de un proveedor del cliente, de manera que el cliente pudiera usar esta información del proveedor para realizar su base de datos propia con estos datos. Nosotros siempre hemos usado PHP para realizarlos.

 

Qué robots pertenecen a quién.

Aunque hay tantos rastreadores (crawlers) como programadores que quieran hacer uno, los más importantes son:

Nombre del robot Propietario
Googlebot Google
Feedfetcher-Google Google
Slurp AOL
MSNBot Microsoft
Yahoo Slurp Yahoo
IA Archiver Archive.org (Wayback Machine)
Scooter Altavista
Architext Spider Excite
Lycos Lycos
Netcraft Netcraft

 

GoogleBot y cómo controlar los robots

Googlebot es el robot de rastreo web de Google, y quizás uno de los más importantes en la actualidad. Es por ello que se merece una mención especial. Mediante este robot Google descubre las páginas nuevas y las actualizaciones de las que ya tiene indexadas de manera que su buscador siempre se mantiene actualizado.

Logotipo de Google (bot)

Es importante para los webmasters explicarle al robot de Google con qué asiduidad se actualizan los contenidos de una web y la importancia que tienen las páginas que el robot encuentra. De esta forma GoogleBot rastrea el sitio de forma eficiente. Para ello se usan los sitemap (mapas del sitio), archivos ocultos a la vista de los usuarios pero muy útiles para el robot de Google y, en general, para los demás robots. Además se utiliza el fichero robots.txt para explicarle a los robots qué deben visitar y qué no.

En ocasiones es importante explicar a los robots que no deben seguir los vínculos. Los webmasters tenemos herramientas para hacer esto. Se trata de poner un código oculto a la vista de los usuarios en la página que no queramos que vincule:

<meta name="Googlebot" content="nofollow">

Aunque GoogleBot u otros robots hayan rastreado su web, éstos no aparecen de forma inmediata en el buscador de Google, o incluso pueden no aparecer. Esto último se produce por duplicación de contenidos de otras páginas de la web.

 

Problemas: spambots

Los spambots son robot creados para rastrear páginas web para captar email, teléfonos, e información personal. Con ello recopilan una base de datos que pueden vender a terceros o realizar Spam para mandar publicidad no deseada.

Por esta razón no se recomienda hacer público tu email en foros o páginas web. En caso de ser necesario se puede optar por hacerlo de otra forma, de manera que a los spambots les cueste trabajo reconocer que lo que están leyendo es un email: meter espacios en blanco, escribir ARROBA en vez de @, incluso publicar tu email en forma de fichero gráfico. Aunque no sea del todo infalible son una buena medida.