domingo, mayo 23, 2010

Don´t touch my porn

He de decir que me saqué la cuenta de twitter sin demasiado convencimiento, pero hoy en día la uso para enterarme de mucha cosas. Y por un twitt de un amigo llegué a este curioso estudio sobre lo qué Internet sabe sobre ti.

El estudio intenta conocer la historia de los navegantes por medio de un algoritmo de fuerza bruta. La idea que subyace se publicó hace mucho tiempo y tiene su origen en que los navegadores muestran en diferente color los links ya visitados. Los creadores de la web, ya sea por medio de Javascript o por CSS pueden, con estas sencillas piezas de código, saber si un link se ha visitado o no.

Si Javascript está activado, se crea primero el estilo para links visitado.


Figura 1: Configuración del estilo

Y después se crea el array de sitios que se quiere saber si han sido visitados o no. Cada uno de esos sitios se convierte en un hipervínculo para, posteriormente, comprobar el color que tiene asociado ese enlace. Si coincide con el color del estilo de link visitado entonces se sabrá que desde ese navegador ha sido visitado ese link.


Figura 2: Scaneo Javascript

Por el contrario, si Javascript está desactivado, basta con crear una imagen de fondo para cada hipervínculo si este se ha visitado en la definición de la plantilla CSS. Cuando se haya visitado el link el navegador solicitará la imagen. Recogiendo las solicitudes es posible conocer las URLs visitadas.


Figura 3: Configuración estilo imagen de fondo en links visitados

Al final el sistema necesita hacerlo por fuerza bruta, es decir, deben darse los links necesarios para comprobarlos desde la aplicación que mira el historial. Esto quiere decir que si alguien ha visitado una URL que no está siendo comprobado, no se podrá saber con este método.

Para hacer el estudio tomaron el top 5.000 de Alexa de los sitios con más tráfico, para ver si podían descubrir los datos de navegación de los usuarios. La pregunta es, ¿Cuántos sitios se pueden comprobar por minuto?


Figura 4: Sitios escaneables por segundo con los dos métodos

El estudio de rendimiento se hizo con Internet Explorer 8.0, Mozilla Firefox 3.6, Safari 4, Chrome 4, y Opera 10.5 en Windows 7 usando un Intel Core 2 Quad Q8200 CPU con 6GB de RAM.

Como se puede ver, en poco tiempo se pueden comprobar muchos links del historial de un navegante aunque, si bien es cierto, es necesario contar con la transmisión de los datos por red.

¿Qué se puede hacer con esto?

Supongo que se os podrán ocurrir mil cosas que hacer con esto, o mil situaciones en las que alguien podría estar interesado en el historial vuestro. Desde sistemas de identificación de potenciales psicópatas que visitan determinadas “webs marcadas”, hasta análisis de mercados o control empresarial del uso de los recursos o saber quién está buscando curro.

En el estudio se hizo una prueba con una base de datos de sitios porno y, de los más de 243.000 visitantes que se probaron, los resultados fueron que el 21 % de los navegantes griegos, el 18 % de los españoles y el 18% de los mexicanos (que son el top 3) tenían sitios “de contenido adulto” en su historial.


Figura 5: Filtros por paises

Si a esto le sumamos los esfuerzos de identificación única de browser como el servicio de https://panopticlick.eff.org/ para identificar y tracear de forma única tú navegador, parece que los filtros de navegación anónima y los servicios de protección de la privacidad deben ser más importantes en nuestra vida.

Si quieren saber mis tendencias políticas, con quién me junto y que porno veo, que esperen a que lo ponga en mi facebook o en mí twitter, ¿qué es esto de mirar mi historial de navegación y quién soy yo?

Saludos Malignos!

13 comentarios:

  1. supongo que se podria hacer lo mismo para robar los datos del usuario si este los ha marcado como autorellenar. El autorrelleno se asocia al nombre del input, seria cuestion de haber fuerza bruta en el nombre e ir sacando los valores

    ResponderEliminar
  2. @Manu siempre pensando en cosas malas =)

    ResponderEliminar
  3. @Pedro_"sobrado"_Laguna, esto no es nuevo, lo que es nuevo es el análisis de rendimiento y el estudio en real masivo de habitos de uso...

    Que se haya medido el número de pruebas que se puede hacer está muy,muy,muy curioso.

    Saludos!

    ResponderEliminar
  4. gr, gr, gr... Eso me suena a Grecia, me parece que los británicos son unos estrechos con un 10%.

    ResponderEliminar
  5. Muy buen rendimiento ie8

    ResponderEliminar
  6. El año pasado Yago escribió sobre esto mismo he hizo una prueba de concepto:

    http://www.securitybydefault.com/2009/03/mentalismo-20.html

    ResponderEliminar
  7. @Anónimo, cambiado, no sé pq pensé que los hijos de la gran bretaña eran más "animadetes".

    @anónimo 2, sí, es una protección de serie. }:P

    Saludos!

    ResponderEliminar
  8. El paper de panopticlick final.

    https://panopticlick.eff.org/browser-uniqueness.pdf

    Saludos!

    ResponderEliminar
  9. Me encanta tu blog, estoy aprendiendo muchísimo como novato en todo esto. Excelente trabajo.

    ResponderEliminar
  10. @Chema "picado" Alonso: Yo es que esas cosas de los numeros y las metricas y demas no las entiendo... Eso os lo dejo a los "profes" :P

    Besitos!!

    ResponderEliminar
  11. @Pedro_Laguna... si es que me das más guerrita... }:P

    ResponderEliminar
  12. Cada vez me gusta más la opción de "navegación privada" de los navegadores =)

    ResponderEliminar