Hoy he recibido varios avisos de error 404 (página no encontrada) de páginas web de clientes. En el error detallado, me ha extrañado ver que REQUEST.COOKIES tenía mucho contenido y había cosas referentes a Gameduell, una web de juegos online (he suprimido algunos carácteres para acortarlo):

de.gameduell.mediaserver=http%3A%2F%2Fm1%2Egameduell%2Enet;
de.gameduell.flashserver=http%3A%2F%2Fm1%2Egameduell%2Enet;
de.gameduell.avatarserver=http%3A%2F%2Fm3%2Egameduell%2Ede;
PHPSESSID=sm26…tep7;
gcgicookie=ATD%3A…%2Fptr%2Fconfig%2Egtd%3A%3AD….AD%2Elogout%3…Adkblog%3A…%3Adkcomunidad%3A%3A…Alportal%3A%3…3A;
MASTEROAPAUTH=9A1DBDF47…;
UserAuthentication=geoIP=US&lg%5Fkey=00000…000&user%5Fid=082a…cec&authenticated=no;
JSESSIONID=%28J2EE5…782End;
HRINTAUTH=85E…0

Fijándome más, veo en el User Agent (navegador o software utilizado en la visita a la página o archivo):

HTTP_USER_AGENT: Mozilla/5.0 (compatible; archive.org_bot +http://www.bne.es/es/LaBNE/PreservacionDominioES/AvisoWebmasters/index.html)

Así que parece que el rastreador de archive.org (un gran archivo de páginas webs a lo largo del tiempo) está visitando la web. Lo de Gameduell supongo que será porque antes el mismo rastreador ha visitado la web de juegos online y se han transmitido las variables de sesión y las cookies de una web a otra.

Pero lo que más llama la atención es la URL http://www.bne.es/es/LaBNE/PreservacionDominioES/AvisoWebmasters/index.html en el User Agent. Accediendo a ella nos encontramos con el siguiente aviso en forma de imagen:

donde nos informan que la página web está siendo rastreada por Internet Archive para recolectar su contenido en nombre de la Biblioteca Nacional de España (BNE). También explica la forma de bloquear ese acceso en el caso de que no demos nuestro consentimiento o afecte al correcto funcionamiento de nuestra web. En la misma página de la Biblioteca Nacional la URL http://www.bne.es/es/LaBNE/PreservacionDominioES/index.html enlaza al proyecto de “Preservación digital del dominio .es”, donde se explica que estas actuaciones obedecen a las Directrices para la preservación del patrimonio digital de la UNESCO (2003) y a una Recomendación de la Comisión Europea. Esto significa que, con el fin de salvaguardar la “memoria digital” de nuestro país, la Biblioteca Nacional de España está rastreando a través de Internet Archive todos los dominios .es, para indexar sus contenidos y crear el “Archivo web del dominio .es”.

Creo que para salvaguardar la cultura hispánica digital no es suficiente con rastrear los dominios .es, ya que muchas webs en español están en dominios con extensiones diferentes (como .com) debido a que son los más extendidos y fáciles de registrar. Además, si se trata de la cultura hispánica también deberían rastrear dominios de países de habla hispana como México (.mx), Argentina (.ar), Chile (.cl),… Supongo que más adelante también abordarán estos contenidos.

Etiquetas: , , , , , , , , , , , , , , , , , , ,
Deja una Respuesta