jueves, agosto 16, 2012

Minority Report: Pre-visualizando el futuro de Blogger

Los que usamos Blogger para gestionar nuestros blogs, a veces tenemos la costumbre de utilizar la opción de Vista Previa para pasarnos los posts antes de publicarlos. Esta publicación se basa en una URL que se supone que no puede ser predecible, y por tanto nadie puede acceder a lo que allí se va a publicar. ¿Os imagináis una primicia que pudiera ser adivinada? 

Figura 1: URL de vista previa de este post

La historia está en que por otro lado, el proceso de crawling para los spiders de los buscadores es cada vez más difícil, lo que hace que tanto Google como Microsoft tengan que inventarse sistemas para conseguir el máximo posible de URLs para su base de datos. Microsoft utiliza la barra de Bing, esa que a Google le molestó tanto porque indexaba las páginas de resultados de Google, por otro lado Google utiliza la información que se le envía desde Google Chrome para recoger muchas de esas URLs.

Esto hace que las URLs visitadas por Google Chrome puedan ser reportadas a Google para que las analice. En teoría, la indexación no se producirá nunca si el sitio tiene un fichero robots.txt en el dominio principal que lo prohibe, aunque entre que los robots.txt no están siempre bien configurados como en el caso de RTVE que no entienden bien cuál es el funcionamento de los robots.txt, que a veces son incomprendidos o que las políticas de Google no funcionan demasiado bien, a veces acaban como el Sofá del Bank of America.

Dicho esto, si miramos la URL de Vista Previa que se utiliza en Blogger, sigue siendo del dominio blogspot.com, el antiguo blogger, que tiene, como podéis probar, redirigido su robots.txt a Blogger. Es decir http://www.blogspot.com/robots.txt no tiene un fichero almacenado y redirige directamente al fichero que se encuentra en http://www.blogger.com/robots.txt.

Figura 2: Robots.txt de blogspot.com redirigido a blogger.com

En cualquier caso, la URL de previsualización no está protegida por el fichero, por lo que sea como sea que Google encuentre la URL, ya sea por Google Chrome, un link en un correo electrónico o un foro privado, al final ese contenido puede acabar indexado en los resultados del buscador.

Figura 3: Casi 4.000 posts en Vista Previa indexados en Google

Como podéis comprobar, no hay mucho contenido en la caché, pero sí el título y las primeras líneas del post, aunque en algunos hay suerte y están indexados completamente, como el caso siguiente.

Figura 4: Post en Vista Previa indexado en la caché de Google

Por supuesto, como el problema es que las URLs no están protegidas por el fichero robots.txt, si Bing caza alguna de esas URLs también acaban en su buscador, aunque como podéis ver, el número de entradas en su base de datos en menos de 100.

Figura 5: URLs de vista previa de Blogger indexadas en Bing


En definitiva, si tienes algo muy chulo que quieres proteger, ten cuidado con las URLs de previsualización, no vaya a ser que a alguien le de por monitorizar esas direcciones en tiempo real y te pille el contenido en una de esas raras coincidencias que a veces pasan.

Saludos Malignos!

2 comentarios:

  1. Interesante si señor. total que es una "guerra" entre Windows y Google.

    ResponderEliminar
  2. Añado que el fichero robots.txt no puede modificarse en Blogger. Nunca más previsualizaré mis posts "Querida bitácora". Gracias, pero me enojé con Blogger (otra vez).

    ResponderEliminar