miércoles, junio 11, 2014

Facebook también limpia URLs en Google pero se deja BING

En Septiembre de 2013 publiqué un post titulado "Facebook tiene problemas con la indexación en Google" en el que hacía referencia a la cantidad de direcciones de correo electrónicos indexados en Google por culpa de la mala configuración de las opciones de indexación en los buscadores.

En aquel momento tenían indexados más de 4.000 enlaces a confirmemail.php, uno de los ficheros prohibidos por el fichero robots.txt de Facebook.com. En ellos, mirando en la caché, en la URL indexada, y en el código fuente se podrían localizar muchas direcciones de e-mail de cuentas de Facebook. No es que fuera una gran fuga de datos, pero sí que quedaba "feuno".

Figura 1:4.750 URLs de confirmemail.php indexadas en Google en Septiembre de 2013

Esto es algo que sucede porque las opciones para controlar esta indexación y cacheo de datos confunde mucho a la gente, y al final para tener todo controlado hay que mezclar todas las opciones posibles que os contaba ya en aquel artículo, que son:
Robots.txtPara decirle a la araña del buscador que por favor no indexe el contenido de los archivos que se encuentran en determinados directorios. Esto no protege de que sea indexada la URL o el Título si s encontrado por otros medios
Etiqueta HTML Meta NoIndexEs una etiqueta en código HTML para decirle a Google que, si un archivo ha sido indexado no porque lo haya encontrado la araña del buscador sino porque se ha seguido un enlace, que por favor no indexe su contenido, y tampoco las URLs o Títulos. Existe la misma para NoCache
HTTP Header X-Robots-Tag "Noindex"Para los archivos que no son HTML - y donde no se puede poner una etiqueta HTML Meta - entonces debe ser el servidor Web el que envíe una cabecera para decirle que ese documento no debe ser indexado para nada. Es decir, ni su URL, ni su título, ni nada. Existe la misma para NoCache.
Herramientas del WebmasterPara pedir que una vez que esté indexado un documento en la base de datos - y en la caché - desaparezca, pues hasta que no se elimine, por mucho que se cambie la configuración seguirá estando disponible el contenido.
El caso es que, como la gente de Gmail hizo algo para eliminar las URLs que tenían indexadas de sus correos electrónicos - ya que con Gmail sucedía algo similar - decidí ir a ver si la gente de Facebook había tomado cartas en el asunto... y parece que sí. Al estilo Harry Potter, alguien ha lanzado un conjuro a Google de Evanesco - tal vez usando las herramientas del Webmaster de Google - y en Google ya quedan solo 4 enlaces (que seguro que son recientes).

Figura 2: Ayer quedaban 4 enlaces indexados en Google

Pero, como le sucediera a Gmail, en Facebook parece que también se han olvidado de Bing, así que al igual que quedaban las 121.000 URLs de Gmail indexadas en Bing, también quedan 39.600 URLs de confirmemail.php indexadas en Bing.

Figura 3: 39,600 enlaces de Facebook con confirmemail indexados en Bing

Habrá que modificar el hechizo de G-Evanesco para que también funcione en MS-Evanesco, que si no sigue quedando feuno eso de que los correos queden por ahí.

Saludos Malignos!

No hay comentarios:

Entrada destacada

Programa de Especialización "Inteligencia Artificial para Expertos en Ciberseguridad" 2ª Edición.

Hoy, en medio del verano, os traigo información de la 2ª Edición del   Programa de Especialización  de "Inteligencia Artificial para Ex...

Entradas populares