miércoles, noviembre 09, 2016

Data Loss Detection, Google User Content y tus documentos confidenciales en la Caché

Las opciones de indexación de documentos por los motores de búsqueda como Google, a veces son un "problema" hasta para Google. El tener que jugar con las opciones de configuración de los ficheros robots.txt a nivel de dominio, con las etiquetas META NoIndex a nivel de documento HTML y con los HTTP Headers X-Robots-Tag a nivel de recurso en servidor web, hace que no siempre se consiga evitar que cosas que no debían aparezcan en las bases de datos de Google o Bing, haciendo las delicias de los amantes de las técnicas de hacking con buscadores.

Figura 1: Data Loss Detection, Google User Content y tus documentos confidenciales en la caché de Google

De esto ya os he contado en el pasado muchas historias. Os conté los problemas que tenía Facebook con la indexación, los problemas que tenía WhatsApp y hasta el propio Gmail, que poco a poco fue eliminando los resultados de primero Google y luego BING. Son muchos los problemas con documentos almacenados en la caché de los buscadores y problemas con documentos almacenados en el índice de los buscadores (que no es lo mismo). En la presentación de "No me indexes que me cacheo" tienes muchos ejemplos de esto, y hasta en ElevenPaths sacamos una pequeña herramienta llamada Google Index Retriever que permite sacar datos de un índice (que no de la caché) de Google.


Dicho esto, mi amigo rootkit - amante de los dorks - me escribió para contarme como es posible localizar documentos en la caché de Google que estuvieran indexados en Google. Suena un poco extraño, pero al final es una forma de saber qué documentos han sido cacheados, y como las opciones de indexación de GoogleUserContent.com, lo permiten, se puede buscar por él. Es decir, sería como utilizar el buscador de Google para encontrar que documentos están en la caché de Google porque las opciones de indexación de Googleusercontent.com lo permite y porque las opciones de caché en el sitio donde estuviera el documento lo permitieron. Triple rizo mortal hacia atrás.

Figura 3: El servidor de Googleusercontent.com, a día de hoy, no usa etiqueta X-Robots-Tag: noindex

Es decir, un sitio tiene un documento con las opciones de caché no protegidas. La URL le llega a Google que lo cachea. La URL de la visualización en caché Google es indexada por Google, porque las opciones de indexación de Googleusercontent.com no están fortificadas. Como resultado, cualquiera puede buscar URLs de la caché indexadas en el buscador de Google.

Figura 4: Más de 100.000 enlaces en Googleusercontent.com

Si haces clic en los enlaces, la mayoría no están disponibles, ya que se trata de un contenido que ha sido visualizado dentro de cualquier lugar. Eso sí, donde se ha visualizado esa o

Figura 5: Documentos accesibles vía caché de Google

Como veis, hay hasta documentos confidenciales, a los que se puede acceder vía caché en este caso. Por lo que cualquiera puede verlos en Internet.

Figura 6: Documentos privados indexados y cacheados en Googleusercontent.com

Estos son los tipos de documentos que los servicios de Data Loss Detection al final deben investigar. Que aparezca un documento confidencial de tu empresa publicado en un sitio de Internet debe ser monitorizado por los servicios de Ciberseguridad que - en lugar de mirar por la cámara de seguridad para ver si la puerta del garaje se abre o se cierra - miran por Internet a ver qué ha pasado que afecte a tu empresa.

Figura 7: Documento confidencial indexado, cacheado y accesible vía Googleusercontent

En este caso son documentos PDF, que si se han marcado de forma segura con una tecnología como Shadow, es fácil de investigar, ya que el documento PDF tiene incrustada una marca oculta y cifrada con los datos de a quién fue entregado dicho documento, como podéis ver en la demo que hicimos en el Security Innovation Day 2016.


Figura 7: Demo de Shadow para detectar filtraciones de documentos

Al final, por culpa de una mala configuración de los permisos - como le pasó al tipo que se dejó las passwords en un doc en Evernote y quedó cacheado durante meses -, y un mal uso del enlace del documento en el que se visualiza el contenido, sumado a unas opciones de indexación y cacheo laxas, puede que haga que un documento o un archivo que no te interese acabe estando a disposición de todo el mundo en Internet. Take care.

Saludos Malignos!

1 comentario: