Artículos sobre Webs


Logo de Net & Software (N&S)

Net And Software

Creación y Diseño de Páginas Web

Soporte, Desarrollo y Soluciones Joomla!®

Mié10Nov2010

Nivel de comprensión fácil

WayBack Machine

Internet es infinitamente grande y tan dinámica que en ocasiones resulta de utilidad aquella web que ahora ha desaparecido.

Existe una web en Internet que recopila, gracias a la ayuda y promoción de empresas y particulares, toda la información de las páginas web desde el año 1996:

http://www.archive.org/web/web.php

Tanto si buscas información que ya no existe, quieres recuperar viejos escritos, o incluso quieres saber qué ha pasado con ese enlace en Favoritos (Bookmarks) que ahora no encuentras, esta es la web que buscas.

En su web hay una casilla para introducir la dirección del sitio que quieres ver. Al pinchar en buscar aparecerá una web similar a ésta:

WayBack Machine (2)

donde expone las fechas de las cuales tiene copia de esa web. Sólo debes pinchar en cualquier fecha que te interesa y te mostrará la web como estaba en aquel momento.

 

Inconvenientes

El principal inconveniente es que esta web archiva correctamente el contenido pero no las hojas de estilo, que al fin y al cabo son las que dan forma a una web. Por lo tanto, la web puede quedar algo desorganizada y con falta de color.

Otro inconveniente es que muchos archivos, sobre todo gráficos, no son guardados, por lo que pueden faltar ciertos contenidos.

 

Ventajas

El texto y muchos gráficos, que en la mayoría de los casos, es lo que suele importar, siempre está accesible, incluso a niveles de la web ciertamente profundos.

Otra ventaja es la disponibilidad de varias fechas para una misma web, que hace que los contenidos dinámicos (aquellos que cambian a lo largo del tiempo) puedan ser recuperados.

 

Qué páginas están en este archivo

Todas las páginas que estén dadas de alta en Dmoz o sigan las instrucciones de alta de Alexa, están indexadas en Internet Archive, siempre teniendo en cuenta que han sido indexadas desde 1996. También están indexadas todas las webs que se visitan desde un navegador que tenga instalada la barra de navegación de Alexa.

Pero existe un caso en el que la web no será indexada, y es que su autor no quiera que se indexe. Esto se puede llevar a cabo mediante la limitación de los robots que inspeccionan la web, y que cualquier webmaster sabe como controlar en el fichero de acceso de la web o el creado exclusivamente para los robots; o mediante email dirigido a archive.org.

Las webs se rastrean unos 2 meses después de la creación de la web, siempre que se cumplan los requisitos anteriormente explicados, aunque no son puestos en la Wayback Machine hasta los 6 meses desde el rastreo, pudiéndose prorrogar hasta los 2 años posteriores. Tampoco tienen porqué respetar estos plazos, pueden ser mucho más cortos, o incluso pueden llegar a ser muy breves para una web y muy largos para la misma web pero en otra fecha.

 

Todos los archivos de una web de forma rápida

La mejor manera de ver todos los ficheros archivados del sitio es poniendo en el navegador la dirección

http://web.archive.org/*/ www.misitio.com/*
 
donde mi sitio es el nombre de dominio a buscar.

Tenga en cuenta de nuevo que siempre existe entre 6 y 14 meses de media de tiempo de retraso entre la fecha de un sitio que se rastrea y la fecha que aparece en la Wayback Machine.

 

Historia y curiosidades


El inicio de esta base de datos comenzó en 1996 de manos de Brewster Kahle con la contribución de 18.000 sitios web a lo largo de más de 60 países gracias a la empresa Alexa, de la cual pertenencía Kahle en San Francisco, Estados Unidos.

En 2007 se llegó a los 2 billones de páginas web indexadas.

En 2006 contenía hasta 2 petabytes de información y crecía en torno a 20 terabytes por mes.

Servidores de WayBack Machine

Archivos WayBack Machine

Las máquinas usadas (hardware) son de la marca Hewlett Packard (HP) con una fuerte inversión en servidores (unos 3000$ por máquina) siendo cada rack de 32 máquinas. La infraestructura es enorme, además de los gastos del mantenimiento, climatización, adecuación, cableado, estanterías, etc.

 

Escribir un comentario


Código de seguridad
Refescar

Diccionario de Internet

Explicaciones sencillas a cualquier término informático de Internet o Joomla!.

Compártelo

Suscríbete al Boletín

Boletín Mensual con un resumen de las noticias de seguridad, novedades y artículos de interés de Joomla!
Términos y Condiciones

Últimas Noticias

Últimos Artículos Blog

Web 2.0. Desarrollo Joomla! y Programación Web. Cursos Online Videoconferencia, Amplia Experiencia en Joomla!, Posicionamiento Orgánico SEO.