lunes, diciembre 09, 2013

Lo que se comparte por Dropbox al alcance en Google

En varias ocasiones he hablado por aquí del problema que tienen las opciones de indexación de URLs tal y como se configuran el Google que pueden llevar a fugas de datos y problemas de privacidad. Ejemplos de esto os he puesto con Facebook, WhatsApp y con Gmail, pero el número de sitios que se ven afectados son infinitos, por lo que puedes pasarte una tarde divertida dorking as a ninja a ver qué sale.

Figura 1: Fichero robots.txt de DropBox

Un amigo por Facebook - ¡Gracias Alan Brian! - en lugar de pedirme que hackeara cosas para él, me avisó de que en Dropbox sucede lo mismo y que el material que allí se puede encontrar es jugoso. Basta con irse a echar un ojo al fichero robots.txt de DropBox para ver que todos los archvios que se encuentren en los directorios /s y /sh están prohibidos para su indexación, pero sin embargo las direcciones URLs y los títulos de las mismas sí que van a quedar indexadas salvo que se introduzcan las etiquetas en el código HTML de NoIndex o se añada el X-Robots-Tag "NoIndex" a nivel de servidor web y Google los vea, algo para lo que no debería estar configurado el fichero robots.txt ya que si está el fichero robots.txt prohibiendo el acceso no verá las etiquetas. Incongruencia máxima de cómo funciona esto.

Figura 2: 1.570.000 URLs indexadas en /s

En Dropbox el número de URLs indexadas es de 1.570.000 sólo en el directorio /s, lo que deja para buscar y jugar largo rato haciendo hacking con buscadores. Hay algunas URLs filtradas con permisos de seguridad, archivos que ya no están, pero lo cierto es que la mayoría de esas URLs llevan a ficheros que sí que están y son accesibles, por lo que se puede sacar de todo.

Buscando así, al azar, aparecen ficheros con bases de datos de usuarios y contraseñas, archivos comprimidos con fotografías, código fuente de programas y aplicaciones, libros, música que se puede buscar como hacíamos en Skydrive, películas, y casi cualquier cosa que se te ocurra.

Figura 3: Dump de 450.000 usuarios y passwords de Yahoo!

Entre las cosas que he sido capaz de localizar está la presentación completa del Codemotion ES que yo utilicé este año y que entregué a los organizadores, lo que me ha permitido recuperar completas todas las diapositivas de la charla que había perdido - larga vida al hacking -.

Cuidado con Google y el robot.txt

De todo ello, lo que más me ha maravillado es cómo se puede buscar en Google información prohibida por robots.txt. Veréis, yo he buscado por IBAN para ver si había gente que hubiera subido datos de cuentas corrientes a Dropbox, y me ha salido un resultado donde en el título se puede ver la palabra IBAN, aunque como está protegido por robots.txt no puedo ver ningún dato del resultado.

Figura 4: Resultados con información de una cuenta corriente bancaria

Cuando he ido a ver el sitio a ver qué se estaba compartiendo de forma pública se puede ver que hay una página con información de una cuenta bancaria, pero el texto IBAN solo aparece en el contenido del fichero PDF y no se encuentra en el título de la página, es decir, está solo en el texto de algún enlace a este documento.

Figura 5: El dato de IBAN no aparece ni en la URL ni en el título, solo en el contenido

Mirando el código fuente a ver otra de las palabras que aparece en el título que aparece en los resultados de búsqueda de Google, la palabra CODICE, se puede ver que tampoco está allí, por lo que parece más que evidente que Google está indexando la URL de ese documento PDF y deja buscar por términos asociados, como los del texto del enlace. Es decir, Google indexa en su base de datos el documento PDF, genera metadatos sobre el documento generados a partir el texto de algún enlace y deja buscar por ellos.

Figura 6: CODICE tampoco está en el código fuente de la página

Además, parece que la gente de DropBox ha decidido que esto no debería estar así y en el código fuente se puede ver la etiqueta NoIndex para que Google no indexe nada del contenido de esa página web, pero Google no le ha hecho caso porque esta URL está prohibida por robots.txt y Google nunca leerá esa etiqueta y por tanto no le hará caso..

Figura 7: La página tiene la etiqueta noindex en el código HTML, pero está en la base de datos de Google

A los administradores de Dropbox les tocará darse un paseo por las Herramientas del Webmaster e ir borrando las URLs que ellos consideren una a una, para que no quede esto así. La otra alternativa sería borrar el robots.txt para que Google lea las etiquetas noindex. Curioso funcionamiento. Si compartes algo por Dropbox, revisa bien los permisos de seguridad y las cuentas a las que les das acceso, y ten presente que si Google accede de alguna forma a tu URL puede que aparezcan fugas de información en el título, los metadatos generados con el texto del enlace que se cree sobre el documento o la misma URL.

Saludos Malignos!

51 comentarios:

  1. Muy buena Chema! Parece mentira q pase esto...

    ResponderEliminar
  2. Es increíble que haya tanta información a libre disposición y a golpe de teclado... Da que pensar para protegernos cada vez más...

    ResponderEliminar
  3. Ya no aparecen los resultados

    ResponderEliminar
  4. @Anónimo, dale a ver "más resultados"....

    ResponderEliminar
  5. Pero, una pregunta. No se si no he entendido bien lo que comentas o que.

    El contenido que Google indexa son los archivos que alguien ha decidido compartir de manera publica obteniendo el enlace para compartir o los archivos que se encuentren en la carpeta "public" de Dropbox, ¿cierto?

    ¿O son cualquier archivo de cualquier carpeta de tu dropbox que tu tengas a modo privado?

    ResponderEliminar
  6. Tienes que apretar donde dice (puedes repetir la búsqueda e incluir los resultados omitidos.
    ):

    Para que veas los resultados más relevantes, omitimos ciertas entradas muy similares a las 1 que ya te mostramos.
    Si lo deseas, puedes repetir la búsqueda e incluir los resultados omitidos.


    recien probe, 1.590.000 entradas indexadas, y empiezas a meterte en algunas y de 10 que me meti 9 tenian archivos descargables, el otro me decia enlace no valido.

    Slds maligno!

    ResponderEliminar
  7. Por cierto, si buscáis "cv" de currículum vitae, me aparecen más de 10 páginas... SIN COMENTARIOS!

    ResponderEliminar
  8. Buenas!

    Se que es Offtopic, pero he buscado por tu blog y no he encontrado nada concreto... Estoy lidiando con actualizaciones del Windows 7 y me preguntaba si recomiendas algún antivitus/antibackdoor. Gracias!

    ResponderEliminar
  9. No es oro todo lo que reluce, amigos.

    Los resultados son enlaces a documentos que han sido puestos como públicos en Dropbox por los usuarios correspondientes, y a los que además existe un link desde otra página web indizada por Google. De ahí que algunos de los resultados tengan títulos, ni análisis de contenidos ni nada, sino que el título es el texto del enlace original (vamos, el textContent del elemento <a/>).

    ResponderEliminar
  10. PD: Esto último que he dicho resulta bastante obvio en el ejemplo del IBAN. En el título del resultado aparece la palabra "Nuovo" (nuevo en italiano), que no está en ningún lado en el PDF, y muchísimo menos en los metadatos...

    ResponderEliminar
  11. @G con robots.txt se debería evitar el textcontent del link, según dice Google. Las URLs las ha podido sacar Google de cualquier sitio, incluidas barras de herramientas y navegación.

    Saludos!

    ResponderEliminar
  12. PD2: Aquí tenéis la fuente que enlaza a ese PDF http://scuolamaternannaosti.blogspot.com.es/2012_09_01_archive.html

    Sí, sería genial editar los comentarios.

    ResponderEliminar
  13. Interesante artículo, gracias por su publicación.

    ResponderEliminar
  14. @Maligno No, robots.txt simplemente especifica qué ficheros el robot NO puede descargar ni analizar. Google puede listar una URL si esta aparece en otra página cuyo dominio tenga un robots.txt permisivo. En el caso citado del PDF con el IBAN, blogspot.com: http://scuolamaternannaosti.blogspot.com.es/robots.txt

    http://en.wikipedia.org/wiki/Robots_exclusion_standard

    ResponderEliminar
  15. @G, según Google, la indexación de una URL no debería ser hecha si está la etiqueta noindex como en estas páginas, tal y como tiene el ejemplo del IBAN

    https://support.google.com/webmasters/answer/156449?hl=es

    Saludos!

    ResponderEliminar
  16. Este comentario ha sido eliminado por el autor.

    ResponderEliminar
  17. PD2045: De hecho, el que algunos enlaces de los resultados estén rotos viene precisamente de que Google SÍ obedece el robots.txt y se limita a listar una URL encontrada en otro sitio no restringido, sin comprobar si el enlace está roto o no.

    ResponderEliminar
  18. Perdona, que había entendido mal tu referencia a la "etiqueta" noindex. En http://scuolamaternannaosti.blogspot.com.es/2012_09_01_archive.html no hay ni etiqueta noindex ni x-robots-tag, por lo que sigue siendo posible para Google indizar todas las URLs ahí contenidas.

    ResponderEliminar
  19. @G, el que pone la etiqueta NoIndex es el dueño del contenido, no el dueño del enlace. Eso dice Google:

    https://support.google.com/webmasters/answer/156449?hl=es

    Le el cuadrito de "Para impedir que aparezca cualquier contenido de una página en el índice de páginas web de Google, incluso si está vinculado a otros sitios, se puede utilizar una metaetiqueta "noindex" o una etiqueta x-robots-tag. Siempre que Googlebot rastree la página, verá la metaetiqueta "noindex" y no incluirá esa página en el índice de páginas web. La cabecera HTTP "X-Robots-Tag" resulta especialmente útil para limitar la indexación de archivos que no sean HTML, como archivos gráficos y otro tipo de documentos."

    Saludos!

    ResponderEliminar
  20. Pero macho...

    A ver.

    1) Google tiene la URL http://scuolamaternannaosti.blogspot.com.es/2012_09_01_archive.html.
    2) Google comprueba el robots.txt de http://scuolamaternannaosti.blogspot.com.es/ y puede acceder a esa URL.
    3) Google descarga el contenido para parsearlo.
    4) Google se encuentra con un enlace a https://www.dropbox.com/s/zlhr3nqa5ri5z4q/BancaProssima_conto%20corrente%20scuola.pdf. Añade el texto del enlace y la URL a su lista de URLs a visitar e indizar. EN ESTE MOMENTO LA URL YA ESTÁ INDIZADA.
    5) Google quiere indizar https://www.dropbox.com/s/zlhr3nqa5ri5z4q/BancaProssima_conto%20corrente%20scuola.pdf, para eso mira el robots.txt de www.dropbox.com. El robots.txt le impide descargarse el contenido de esa URL.
    6) Fin. La URL se queda indizada.

    En otras palabras, si no le dejas ver la etiqueta, ¿cómo esperas que la interprete?

    ResponderEliminar
  21. PD: (más café), en 5) s/indizar/descargar

    ResponderEliminar
  22. @G, noindex y X-Tag-Robots noindex son para que el dueño del contenido decida si quiere aparacer en el índice de Google.

    Si vas a las herramientas del Webmaster y eliminas ese enlace se quita incluso si está enlazado en un sitio.

    Una URL es posesión del dueño del sitio, ya que es su contenido y decide si lo elimina o no. Como dice Google:

    "Para impedir que aparezca cualquier contenido de una página en el índice de páginas web de Google, incluso si está vinculado a otros sitios, se puede utilizar una metaetiqueta "noindex" o una etiqueta x-robots-tag. "

    Presta atención a la parte que dice: "... incluso si está vinculado a otros sitios..."

    Saludos!

    ResponderEliminar
  23. @G y recuerda que las URLs pueden ser capturadas también desde barras de herramientas y no solo publicadas a capón por sitios.

    Saludos!

    ResponderEliminar
  24. La especificación (si es que se le puede llamar así) de robots.txt PROHIBE al crawler ver lo que hay en una URL, por lo que es IMPOSIBLE que el crawler vea la etiqueta, pertenezca la URL a quien pertenezca. Es un fallo de diseño como una catedral, pero es así. Si no quieres que una URL aparezca en ningún sitio, no la bloquees con el robots.txt y sí con metatags o headers.

    Por favor, deja de copiar y pegar trozos de la ayuda de Google e intenta entender que si el robots.txt prohibe el acceso a una URL es que no se hace ninguna petición HTTP con esa URL al servidor que la aloja, y por tanto ya puede estar dentro el Santo Grial.

    Si te animas, encontrarás bastantes fallos de diseño e interpretación en estos temas. Y en este caso el fallo no es de interpretación, Google está haciendo las cosas al pie de la letra (y quizá lo haga así para indizar más de la cuenta, pero no está mal hecho).

    Saludos.

    ResponderEliminar
  25. @G, No. Google no es claro sobre que no usa la etiqueta noindex si está dentro de una página con robots.txt, entonces el problema lo tiene Dropbox.com que debe permitir que Google vea todo y luego poner las etiquetas noindex en todas las páginas y X-Tag-Robots noindex en todas las respuestas del servidor web. Según Google:

    "Siempre que Googlebot rastree la página, verá la metaetiqueta "noindex" y no incluirá esa página en el índice de páginas web."

    Es un fallo de privacidad que existe por no entender Google y Dropbox la implementación que uno hace de robots.txt y las etiquetas de privacidad.

    Saludos!

    ResponderEliminar
  26. Sí.

    "Siempre que Googlebot rastree la página". Si no la rastrea, no lo va a hacer. Y como el robots.txt no se lo permite, no la rastrea. Es bastante lógico, ¿no?

    Google sí usa la etiqueta noindex cuando puede verla. Si no puede verla... creo que ya me repito bastante, la verdad.

    ResponderEliminar
  27. @G, por eso digo que el problema es de DropBox que no ha implementado bien las opciones y se han quedado URLs expuestas.

    La solución más fácil que tiene, teniendo en cuenta que están puestas las etiquetas noindex es quitar el robots.txt.

    Saludos!

    ResponderEliminar
  28. Exactamente.

    No estaría de más que corrigieses el artículo, ya que en dos ocasiones dices que Google ha accedido al contenido de esas URLs (cuando hablas de la etiqueta noindex vista e ignorada, y cuando hablas de "metadatos" del PDF). Rectificar es de sabios :)

    Saludos.

    ResponderEliminar
  29. @G, amigo Googly, ya lo había cambiado con la sutileza del detalle que pone Google en esta otra página de ayuda.

    https://support.google.com/webmasters/answer/93710

    "Tenga en cuenta que debido a que tenemos que rastrear la página para ver la etiqueta "noindex", existe una pequeña posibilidad de que Googlebot no vea y respete la metaetiqueta. Si su página sigue apareciendo en los resultados, probablemente se debe a que no hemos rastreado su sitio desde que añadió la etiqueta. (Igualmente, si ha utilizado el archivo robots.txt para bloquear la página, tampoco podremos ver la etiqueta)."

    Saludos!

    ResponderEliminar
  30. @G... y ahora el que debería aplicarse el cuento también es Gmail para que no le pase lo mismo que a DropBox

    Saludos!

    ResponderEliminar
  31. Dios mío! la cantidad de personas que tienen fotos de sus novias, que si la ven los suegros .. se arma la de gorda ... y públicas !!!

    lo siento tuve que buscar esto :D

    ResponderEliminar
  32. Que tal Chema, creo que hay un problema con los links de tus libros. Un abrazo desde Argentina, a ver cuando te vienes para acá :)

    ResponderEliminar
  33. @Maligno, desde mi humilde opinion creo que @G tiene razon, pero supongo que cuesta reconocer q os habeis equivocado. Postear el trabajo de otra gente, a veces, lleva a copiar sus errores tb. ;)

    ResponderEliminar
  34. @Swiss ¿Eres amigo de @G?, lo digo porque los dos sois de Suiza, como mis amigos de Youtube. A ver, el post dice que hay un problema en Dropbox con la indexación en Google. Las opciones de indexación no son nada claras cuando WhatsApp, Facebook, Dropbox y Gmail tienen problemas con ellas.

    El artículo lo he escrito yo sobre lo que llevo escribiendo hace tiempo, Alan me ha hecho notar que DropBox tenía el mismo problema.

    Y modifiqué el post para que quede claro todo, lo puedes releer y verás como dice todo correctamente.

    Saludos!

    ResponderEliminar
  35. No se. Te sigo desde hace unos cuantos años, ponencias y demas, y no es la primera vez que veo algo asi. Pienso q a veces es mejor estar equivocado y aprender de los errores q el no querer reconocer un fallo. Lo digo para todo el mundo.
    Sin animo de ofender.
    Me alegro q lo hayas modificado.
    Un abrazo.

    ResponderEliminar
  36. larga vida al google hacking! gran aporte chema!

    ResponderEliminar
  37. @Swiss, llevo tiempo diciendo que estas opciones de indexación o no son un poco confusas para todos. En este caso sucede lo mismo, las opciones de Google no son claras y confunden a los administradores de Dropbox.

    Lo que es aún peor es que no todos los buscadores tienen el mismo comportamiento, con lo que parece imposible solucionar esto de forma masiva.

    Creo que con los toques que he hecho ha quedado muy claro esto }:)

    Saludos!

    ResponderEliminar
  38. No sé que significa Googly, pero por si te interesa ni trabajo para ellos (ni he trabajado) ni siento afinidad alguna por Google. Lo único que me ha llevado a explicar lo que pasa y corregirte es que no me gusta la especulación a lo grande sin tener en cuenta todos los aspectos de lo que está pasando.

    La convención robots.txt (que no es ningún estándar, por eso lo que decía de la especificación antes) es bastante anterior a la fundación de Google, así que no es que ellos vengan y escriban sus propias reglas confusas.

    Todo se queda en un fallo de diseño, como dije anteriormente, y un error a la hora de no tener en cuenta ese fallo de diseño por terceros (Dropbox et al), pero no hay fuga alguna de privacidad, pues la gente ha compartido esas URLs voluntariamente en otros sitios que sí son accesibles para el crawler (eso de las barras de búsqueda me suena más a FUD anti-Google, corroborado por tu apelativo anterior, que a otra cosa, pero si me diriges a más información te lo agradezco).

    Por último, ya no estoy en Suiza, llevo ya tres meses trabajando en Madrid. Por desgracia no en temas de seguridad, pero qué se le va a hacer. Habrá que actualizar el perfil ;)

    Gracias por tener en cuenta mis comentarios y adaptar el post, por cierto.

    Saludos.

    ResponderEliminar
  39. @G, las barras de Google recogen URLs desde el principio, igual que las del resto de buscadores, por eso hubo toda la polémica con Microsoft.

    http://www.elladodelmal.com/2011/02/indexando-indexadores.html

    Saludos!

    ResponderEliminar
  40. UuuuuUuuuuuuu como molan los comentarios!!!!! se aprende mas que con los libros xDDDDDD Esto lo arreglamos a la vieja usanza... unas birras y un Street Fighter!!!!! jajajajajajaj Saludos a todos!!!!

    ResponderEliminar
  41. @Maligno Gracias por el enlace pero yo ahí no veo nada de lo que dices salvo un párrafo escrito por ti afirmándolo, y la autocita no me sirve. Dudo bastante que en los ToS de la barra de cualquier navegador esté un "todas las URLs que escribas van a ser enviadas y almacenadas para engrosas los índices de nuestro buscador".

    Como dijo Carl Sagan, afirmaciones extraordinarias (como las ya corregidas en el artículo) requieren pruebas extraordinarias.

    Por cierto, que el artículo al que enlazas desprende también un tufillo anti-Google fino. Por curiosidad, ¿has tenido algún problema con ellos en el pasado?

    ResponderEliminar
  42. PD: Iba también a preguntarte si sueles dar credit a la gente por sus aportaciones, pero viendo que tampoco me has dado las gracias... :D

    ResponderEliminar
  43. Hola Gerardo! El link que te he enviado es para que sigas los enlaces y no para que leas solo mi párrafo. No te quedes ahí.

    El tufillo es porque hubo un tiempo en que Google meaba colonia, y esto es el lado del mal, "ya tú sabes".

    Espero que te haya gustado todo lo que publicaba este post sobre que esto no está bien. Gracias al debate que hemos tenido he conseguido un pedazo de post por una idea que se me ha ocurrido que te vea a encantar. Ya lo podrás disfrutar.

    Saludos!

    ResponderEliminar
  44. Hola Gerardo! El link que te he enviado es para que sigas los enlaces y no para que leas solo mi párrafo. No te quedes ahí.

    El tufillo es porque hubo un tiempo en que Google meaba colonia, y esto es el lado del mal, "ya tú sabes".

    Espero que te haya gustado todo lo que publicaba este post sobre que esto no está bien. Gracias al debate que hemos tenido he conseguido un pedazo de post por una idea que se me ha ocurrido que te vea a encantar. Ya lo podrás disfrutar.

    Saludos!

    ResponderEliminar
  45. A ver si esta tarde/noche tengo un rato y les echo un vistazo, pero sigo siendo bastante escéptico (una cosa es analizar los clicks del usuario de la barra en una web propia y otra coger URLs a la ligera de todas partes).

    Ya me has metido la intriga en el cuerpo sobre tu idea, coño. Si quieres un intento de proofreading quisquilloso o lo que sea, búscame :)

    Me alegra que el debate te haya resultado constructivo. Reconozco que a veces me enciendo un poco al expresar mis opiniones, pero espero no haberme pasado.

    ResponderEliminar
  46. hola ! me gustaría saber si hay alguna manera de cambiar la fecha de modificado en Dropbox sin que pueda causar algún problema :S. Me serías de gran ayuda !
    un saludo :)

    ResponderEliminar
  47. A pesar de lo mal que me caes,, eres una makina y aprendo algo nuevo cada vez que te oigo o leo,, a cada uno lo suyo..
    Solo escribo esto para herme un poco el tikis mikis, me refiero a que no tiene sentido usar mayusculas en google, dado que iba,IBAN,IbAN,"iBaN",[IBAN], todas las conbinaciones se acceden a partir de cualquiera de ellas.
    Saludo, ayudante de los grandes empresarios, revisaran tu nombre en el infiernooo jajaj

    ResponderEliminar
  48. Este comentario ha sido eliminado por el autor.

    ResponderEliminar
  49. hola, veras me caso en un mes y mi prometido ha hecho junto con sus amigos cosas de las que no quieren hablar en la despedida, se que tienen una carpeta de dropbox con las fotos no filtradas, es decir todas. como podria acceder a ella a traves de links?

    Muchas gracias, estoy desesperada y necesito verlo.

    ResponderEliminar
  50. hola, veras me caso en un mes y mi prometido ha hecho junto con sus amigos cosas de las que no quieren hablar en la despedida, se que tienen una carpeta de dropbox con las fotos no filtradas, es decir todas. como podria acceder a ella a traves de links?

    Muchas gracias, estoy desesperada y necesito verlo.

    ResponderEliminar