miércoles, enero 27, 2016

A Gmail se le indexan 25.000 URLs en Google... de nuevo

Hace un par de años estuve jugando con las opciones de indexación de Google y Bing, así como analizando cómo se podrían evitar fugas de información (data leaks) por errores humanos que terminaban indexadas en las bases de datos o índices de los buscadores. Jugué con Facebook, WhatsApp o Dropbox. La conclusión de todo aquello fueron un par de charlas que impartí en Barcelona, en Lleida y en las Navajas Negras de 2014  con el título de "No me indexes que me cacheo" y la publicación de una herramienta en Eleven Paths llamada Google Index Retriever. Creo que esa charla es la única que no está grabada en vídeo, pero todo el trabajo también está incluido en el libro de "Hacking con Buscadores".

Figura 1: A Gmail se le indexan 25.000 URLs en Google... de nuevo

Una de las cosas que estuve mirando era qué información se queda en los índices de los buscadores por culpa de fallos humanos y falta de fortificación de los servidores web frente a las arañas de búsqueda. La lógica detrás de esta afirmación es bastante sencilla en la cabeza de una persona que trabaja en la fortificación de sistemas informáticos: Si podemos poner una medida que evita el fallo humano y no afecta al negocio, se debe poner. Os lo voy a explicar de otra manera.

¿Tiene sentido que Google indexe URLs a correos privados de Gmail?

La pregunta de este apartado es la que debemos respondernos antes de seguir el proceso. ¿Sirve para algo que se indexe la URL de uno de mis correos privados? La respuesta es No. Una URL a un correo de Gmail solo es accesible para el dueño de la cuenta, así que de nada sirve que la URL esté indexada en el buscador. 

Figura 2: Buscando por URLs de Gmail salen miles cuando se muestran los resultados omitidos

Cualquier que busque en Google y pueda dar con ella, nunca tendrá la posibilidad de acceder al contenido de la URL si no tiene la cuenta. De hecho, no podrá acceder al contenido del documento tampoco en el índice porque el equipo de Gmail configuró un robots.txt para que no analice el contenido ni, por supuesto, lo meta en la caché.
Figura 3: Robots.txt en Gmail para que no se indexe nada
Eso impide que en la base de datos del índice no se guarde información resumida de la página porque no se va a analizar, ni que en las bases de datos de caché se guarden copias de la misma. 

¿Es esta configuración suficiente para evitar Data Leaks?

La respuesta es No. Si un enlace a un correo electrónico de Gmail es descubierto por una araña del buscador de Google, este enlace será analizado, incluido en el índice de Google y tendrá información que puede ser útil para un atacante. Esta información podría ser la cadena con la que se creó el enlace a ese correo o el nombre de los parámetros, donde a veces van números de teléfono, direcciones de e-mail de contacto o nombre de ficheros adjuntos.

Figura 4: Leaks de información de Gmail indexados en Google

Nunca quedará indexado o cacheado el contenido en la base de datos del índice ni en las copias de caché, pero sí quedará la información citada en base de datos del índice de Google, algo que se puede evitar. A día de hoy, Google tiene indexadas 25.000 URLs de Gmail.

¿Cómo puede llegar Google a encontrar ese enlace de Gmail?

La respuesta a esta pregunta es sencilla: Por un error en algún punto. Supongamos que una persona tiene un documento en Evernote con enlaces a algunos de los correos más importantes de Gmail y, por un error suyo al configurar Evernote, o por un fallo de Evernote - que puede pasar - ese documento queda público durante un instante de tiempo. Eso provocaría que la araña encontrara los enlaces y quedara la información en la base de datos.

Figura 5: Una mala configuración de indexación puede llevar al leak de los previews de WordPress

Pero no solo eso, pueden ser cosas más sencillas como que un usuario se equivoque al copiar y pegar, como que tenga un documento de Word con los enlaces en Dropbox y lo comparta mal, etcétera. Siempre, errores que pueden provocar el leak de información.

¿Es culpa de Google que se filtre esa información en los resultados?

No, no es culpa de Google. Las URLs estaban en documentos que ha podido indexar porque no estaban protegidos por un robots.txt, así que la araña hace su trabajo.

Figura 6: Respuesta del equipo de seguridad de Google ante esta indexación

De hecho, cuando notifiqué esto a Google ellos respondieron lo que podéis leer ahí. Que ellos no hacen ajustes manuales de resultados. Al final, el dueño de las URLs es Gmail, no Google, por lo que es Gmail quién debe decidir si quiere que aparezcan o no.

¿Es culpa de Gmail que el usuario publique esa URL en el índice de Google?

No, no es culpa de Gmail - a priori - que un usuario cometa un error, tenga un descuido o que el sitio en el que el usuario confiaba tuviera un error que permitiera el indexado temporalmente.

¿Puede hacer algo más Gmail por la privacidad del usuario?

La respuesta es . Y esta es la clave de todo. Si ya hemos dicho al principio que la indexación de una URL que apunta a un correo privado de Gmail no tiene sentido porque solo se puede acceder a ella con la cuenta del usuario, Gmail podría ser robusto con la privacidad del usuario con solo añadir la etiqueta HTML Meta NoIndex o con añadir al servidor de Gmail un X-Robots-Tag NoIndex.
Esto haría que si el fichero es encontrado siguiendo una URL pública, ni el título del enlace, ni la URL, quedarían indexados en la base de datos de Google. Algo que beneficiaría a la privacidad y seguridad personal del usuario de Gmail.

¿Y si ya están indexadas?

Gmail llegó a tener más de 79.000 URLs indexadas en Gmail y más de 120.000 indexadas en Bing. Poco a poco las fue eliminando y desaparecieron. Esto lo puede hacer una empresa con las Herramientas del Webmaster en Google y Bing, si ya se ha producido el leak.

Figura 8: 25.500 URLs de Gmail indexadas en Google

Ahora Gmail tiene 25.500 URLs indexadas con títulos, parámetros con direcciones de e-mail, teléfonos y nombres de ficheros adjuntos. No es culpa suya, pero sí que podía estar mejor configurado para ayudar a la seguridad del usuario. ¿Hará algo?

Saludos Malignos!

5 comentarios:

  1. Lo que no entiendo como es posible que esas URL se indexen asociadas al título "Inbox (1) - loquesea@gmail.com" (ejemplo de la figura 4). La misma URL tendrá distinto título dependiendo del usuario que haya abierto la sesión, entonces, ¿De donde saca Google ese título?

    ResponderEliminar
  2. Y de la misma forma en la futura sustitución de GMail, en este caso Inbox:

    site:https://inbox.google.com/

    Un saludo

    ResponderEliminar
  3. joder! podría ahcer cadenas con esas URL seleccionando la importancia de su contenido (claro si se podira hacerla manual...) haahaaaah

    ResponderEliminar
  4. Otra cosa que los de Google no verifican, son los adds o anuncios de su herramienta adwords, en la que ciberdelincuentes anuncian dominios con portales transaccionales clonados, y nadie verifica la informacion. Basta tener una tarjeta de crédito para disponer de todo un arsenal para timar a las personas.

    ResponderEliminar
  5. Otra cosa que los de Google no verifican, son los adds o anuncios de su herramienta adwords, en la que ciberdelincuentes anuncian dominios con portales transaccionales clonados, y nadie verifica la informacion. Basta tener una tarjeta de crédito para disponer de todo un arsenal para timar a las personas.

    ResponderEliminar