martes, junio 23, 2015

Google y la LOPD: ¿Por qué no la "cumple como todos"?

Las noticias de estos últimos días hablan de que por fin Google va a retirar de sus índices las fotos íntimas subidas como forma de venganza por algunas ex-parejas.  Es decir, eliminar las fotos de personas que, sin quererlo las protagonistas de las fotos, han acabado publicadas en Internet e Indexadas en Google. Tras leer esta noticia, la sensación que me da es que Google ha dicho algo así como:
"Bueno, vale... después del millón de quejas al respecto voy a quitarlas porque creo que puede estar haciendo daño a alguien". 
Esta aceptación de las órdenes judiciales dictadas para que Google hiciera esto es similar a lo que ha sucedido con la aplicación del Derecho al Olvido, donde Google ha tenido que aceptar quitar de sus índices los enlaces a documentos con información y datos de carácter personal sujetos a la ley del derecho al olvido. Algo que Google no ha hecho aún en Google.com, y que permite a cualquier persona cambiar de motor buscador para ver toda la información de un sujeto, por lo que Europa le está reclamando otra vez que implemente correctamente los controles para que se aplique esta Ley.

Figura 1: Google y la LOPD, ¿por qué no la "cumple como todos"?

Google se suele negar en rotundo a hacer esto que la empresa llama "manipulaciones de los resultados" y parece estar solo interesado en hacerlo cuando haya un motivo realmente importante, como promocionar sus servicios por encima de la competencia haciendo algo que podríamos llamar "G-SEO" - el equivalente a "el buscador es mío y me posiciono como quiero" -.  Vistas estas noticias, hoy quería poneros sobre la pantalla una reflexión sobre privacidad y legalidad que lleva dando mucho tiempo vueltas en mi cabeza, y que tiene que ver con la aplicación de la Ley Orgánica de Protección de Datos (LOPD) en España y  la empresa Google, en concreto, con el Índice de Google y los Servidores de Caché de Google.

Los ficheros de datos y la LOPD

Supongamos una persona de una empresa que, aprovechando que la gente es distraída y deja sus datos personales e información personal publicada en sus páginas web, se dedica a recolectarla y meterla en una base datos. Supongamos que esos datos también tienen información de carácter muy personal, como estudios, puestos de trabajo desempeñados, notas universitarias, direcciones de su casa, su trabajo, números de teléfono, etc...

Supongamos que esa empresa guarda todos los datos en un fichero Excel, o en una base de datos Access, o en un simple fichero de texto y que pone la información que ha sido capaz de encontrar disponible para todos los empleados de la empresa a través de una pagina web interna con un interfaz de consultas, para que, por ejemplo, los entrevistadores de la empresa, los comerciales de la compañía, o los visitadores a clientes - por citar algunos roles -, se dediquen a sacar partido de esos datos en la generación de negocio para la compañía.

Por ejemplo, una empresa como un banco podría dedicarse a recoger todos los datos de los DNI de los ciudadanos españoles que hubieran quedado publicados en Boletines Oficiales, listados de notas, publicados en Curricula al rededor de la red, o simplemente perdidos en las redes P2P y crear un sistema interno de Risk Scoring para decidir que personas son más propensas a sufrir una robo o suplantación de identidad y poner más controles en la creación de cuentas o la contratación de servicios. Por poner un ejemplo de utilidad de toda esa información que está por la Red perdida. 

Figura 2: Datos almacenados en los servidores de Google de cada dato encontrado en Internet

Pues bien, esa empresa en el momento que almacene alguno de esos datos, debería declarar ese fichero, informar a los dueños de los datos de la captura de los mismos, establecer un canal informado de cómo gestionar el acceso para la consulta, modificación y borrado de esa información además de, por supuesto, declarar el fichero en la Agencia Española de Protección de Datos, ya que se tiene un fichero de datos personales.

El índice de Google y la Caché de Google es un fichero

Ahora bien, vayamos con Google y sus servidores para gestionar el Índice de Google y la Caché de Google. He oído muchas veces a gente de Google en el top management de la compañía en España decir que ellos no tienen datos, que los datos están en Internet y que su buscador únicamente dicen dónde están. Eso no es cierto ni mucho menos. Google también guarda datos, de todo el mundo, datos personales muchas veces, obtenidos sin informar a los usuarios y dueños de los datos. Los guarda, en el Índice de Google y a veces también en los Servidores de Caché de Google. De hecho, tienen los ficheros registrados.

La explicación técnica ya la conocéis, pero os la resumo en corto. Google visita todas las webs que puede de Internet con sus GoogleBots, accede al contenido público, ya sea porque es 100% público, porque alguien malo pone esa información incumpliendo la legalidad - como las fotos intimas de las venganzas que ahora va a retirar - o simplemente por un error puntual en el funcionamiento de la la plataforma web que los almacena - como en los casos famosos de Google Hacking -. Una vez que Google accede a toda esa información, genera una mega-base de datos llamado Índice de Google donde se almacena la información que ha recolectado, donde se encuentran los datos personales anteriormente citados. Algunas veces, además son también copiados en los servidores de Caché de Google

Figura 3: Los datos que se ven en los resultados están guardados en los servidores de Google.
Son datos que Google tiene en el Big Data que soporta su Índice de Google

Si los datos desaparecen de su ubicación original, es decir, que ya no están los datos en ningún sitio de Internet porque han sido eliminados por mil razones. Estos seguirán estando en el Índice de Google y/o en los Servidores de Caché, y simplemente accediendo a ese "fichero de datos" vía el motor del buscador, será posible acceder a los datos de carácter personal que Google tenga de esa persona. Un claro ejemplo de esto os lo conté con el caso de las contraseñas y datos de una persona que por error configuró mal una página de información en Evernote, y los datos siguieron en el Índice de Google durante meses.

Figura 4: Extracción de datos almacenados en los servidores de Google con Google Index Retriever

Sí, como digo e insisto para que quede claro, los datos están en los servidores de Google y automatizar las búsquedas será posible extraer todos los datos que tiene almacenado ese mega-fichero de datos de carácter personal llamado Índice de Google, como hace Google Index Retriever que saca la información que está almacenada en él.

La aplicación de LOPD sobre los ficheros de datos

Ahora que ya hemos dejado claro que los datos, además de estar en su ubicación original - o no -, están en los servidores de Google, hay que ir a la Ley Organica de Protección de Datos (LOPD) donde se define que un fichero de datos de carácter personal es:
"todo conjunto organizado de datos de carácter personal, cualquiera que fuere la forma o modalidad de su creación, almacenamiento, organización y acceso."
Esto quiere decir que para la Agencia Española de Protección de Datos es indiferente el modo cómo Google haya obtenido los datos de carácter personal (incluso si este es un bot que se dedica a recogerlos por todo Internet aprovechando fallos de configuración, venganzas personales o ataques dirigidos a personas o instituciones), que le da igual si es un fichero Excel o Access (o un mega Big Data para dar soporte al Índice del mayor buscador del mundo) y que por supuesto le importa poco si se utiliza un lenguaje de consultas como SQL, filtros LDAP o consultas de búsquedas en Excel para acceder a los datos (y por supuesto, incluso un buscador que se encuentre publicado en Google.com).

De hecho, tiempo atrás estuvimos mirando cómo aplicaría la LOPD a los volcados de memoria que se producen en los sistemas operativos cuando se lanza una excepción, y tras consultar con la AEPD la conclusión es que esos dumps deberían ser contemplados como ficheros temporales que deberían ser tratados con los mismos mecanismos de seguridad. Dicho todo esto, mi pregunta es sencilla:
¿Por qué Google no declara en la LOPD de la Agencia de Protección de Datos todos los datos que tiene de ciudadanos Españoles, que son muchos y nos da a los ciudadanos los mismos derechos ante esta empresa que ante cualquier otra que recolecte nuestros datos?
Os recuerdo que por ejemplo, en su Índice de Google guarda todos los datos que ha capturado del BOE o los números de teléfono y direcciones de los ciudadanos que no se han dado de baja en Infobel, pero también los de sitios vulnerados, las notas de la universidad, etcétera. Por eso Google registra su fichero de datos

Robots.txt, No Index y las WebMaster Tools

Cuando llegamos a esta parte de la conversación, las explicaciones suelen referenciar a las herramientas de control de indexación de datos en Google para el cumplimiento de la LOPD, como por ejemplo, la configuración de ficheros robots.txt, el uso de las HTML Tags noindex o las herramientas que la compañía pone a disposición de los administradores de sitios web en las WebMaster Tools. Algo que hemos visto ya cómo funciona de regular hasta para sus propios servicios de Gmail.

Figura 5: Números de teléfono usados en Gmail que acabaron en el Índice de Google

En todos los casos, estamos hablando de herramientas que están dirigidas y creadas para sitios web que publican cosas en Internet, y que nada tienen que ver con el usuario del que se capturan los datos. Si una web publica los datos de una persona y Google los almacena en los servidores de su Índice, a la persona que se ve expuesta no se le puede transferir la responsabilidad y someter al chantaje de quitar antes todos los datos de todos los sitios de Internet para que luego desaparezcan del fichero del Índice de Google.

Así no funciona la LOPD. Google guarda ese fichero con datos de carácter personal y debe cumplir la LOPD sin escabullir su responsabilidad. Ha almacenado los datos para crear un servicio y debe dar a los ciudadanos todas las garantías que marca la ley para salvaguardar su privacidad. Por supuesto, es posible borrar los datos de los servidores del Índice y de la Caché de Google servidos por Google España comunicándose con ellos, pero no es igual si alguien accede a Google.com. En definitiva, tus datos siguen ahí.

Saludos Malignos!

14 comentarios:

  1. Si los datos desaparecen de su ubicación original, es decir, que ya no están los datos en ningún sitio de Internet porque han sido eliminados por mil razones. Estos seguirán estando en el Índice de Google, y simplemente accediendo a ese "fichero de datos" vía el motor del buscador, será posible acceder a los datos de carácter personal que Google tenga de esa persona

    Quizá me equivoque, pero esa situación se dará durante poco tiempo hasta que google elimine la URL del índice. Google no muestra páginas que hayan desaparecido hace meses o años.


    ¿Por qué Google no declara en la LOPD de la Agencia de Protección de Datos todos los datos que tiene de ciudadanos Españoles, que son muchos y nos da a los ciudadanos los mismos derechos ante esta empresa que ante cualquier otra que recolecte nuestros datos?

    Porque eso requeriría revisar manualmente todas y cada una de los millones y millones de URL indexadas por Google para localizar aquellas que sean susceptibles de ser afectadas de alguna forma por la legislación de algún país.

    ResponderEliminar
  2. Que obsesion la tuya.

    ResponderEliminar
  3. A mi una comercial de google que quería venderme su servicio en la nube me dijo que Google cumplía con la LODP. Yo le decía que no, que sus archivos están Delaware o vete a saber y que si están fuera de Europa ya no cumple. Le hablé de Dataprius, Office 365, etc que esos sí la cumplen porque tienen sus servidores alojados en Europa al menos. Pero bueno, una comercial es una comercial. Espero que el cartel de "not be evil" no se les haya descolgado.

    ResponderEliminar
  4. Luis Alberto Cortes23/6/15 9:38 a. m.

    Lei que las fotografías hechas con nuestros teléfonos android y subidas a la copia de seguridad de Google automáticamente están disponibles consiguiendo su enlace sin necesidad de permisos ni nada. Tu que eres informático ético ¿esto es así? ¿es posible y legal? Lo leí aquí http://www.documentalqueridowatson.es/blog/gestion-documental-nube-acceso
    Gracias

    ResponderEliminar
  5. Bueno,siempre es complicado el tema de las legislaciones que afectan a datos multinacionales y la habilidad de los abogados de grandes emporios para saltárselas.

    Nos faltaría saber el grado de seguridad del ficheros declarado "Alto-Medio-Bajo" imagino que lo habrán declarado como Alto pues a ciencia cierta no saben que tipo de información pueden estar recolectando,si veo que mencionan las tranferencias internacionales ¿Cifradas?

    Fernando Gómez

    La LOPD es una ley de ámbito español, en la UE se lleva discutiendo un Reglamento que substituiría a todas las leyes nacionales en cuanto se pusiera en marcha, pero llevamos años tras ello.

    Recordar que la LOPD por sí sola está coja, es necesario cumplir con lo especificado en el RD 1720 de 21 Dic. 2007.

    ¿Que tal una inspección de la AEPD?

    ResponderEliminar
  6. Chema,

    sin ser un experto creo que Google si que cumple con la LOPD.

    Existe una "asociacion" llamada Safe Harbor a la que tanto Google como Apple, Microsoft... Están adscritos y que tiene tratados con la UE y USA en virtud de los cuales la UE y USA dicen que las empresas asociadas al Safe Harbor cumplen con la LOPD.

    Un saludo.

    David

    ResponderEliminar
  7. No sé como está a nivel legal y europeo la protección de datos, pero estaría muy bien disponer de una si no existe, los datos son un arma poderosa y a las empresas las interesa poder hacer con estos datos lo que les parezca, da dinero, y para muchos otros es una puerta abierta para cualquier acción ilegal, ¿si no se regula la posesión de estos datos como se pueden pedir responsabilidades con el mal uso de estos?

    ResponderEliminar
  8. Mucho FUD antigoogle veo yo aquí ultimamente.

    http://www.agpd.es/portalwebAGPD/resoluciones/tutela_derechos/tutela_derechos_2012/common/pdfs/TD-01018-2012_Resolucion-de-fecha-29-08-2012_Art-ii-culo-34-RD-1720-b-2007.pdf

    ResponderEliminar
  9. Google lleva muchos años desafiando a las autoridades en materia de protección de datos, es el problema que conlleva el "absolutismo monárquico de Google". El nuevo reglamento europeo Compliance esta al caer y armonizará toda la regulación en materia de protección de datos de los países miembros y quizás google tenga que empezar a incorporar estándares de privacidad mas rigurosos y transparentes.

    Unido a la decidía oportunista de google, está la mentalidad pusilánime de la mayoría de los usuarios, que piensan que la LOPD es un tostón ¿Cuantos blogs y webs incorporan la LOPD y la LSSI a sus portales? seguimos despreciando los derechos de los usuarios, seguimos creyendo que estas regulaciones son solo para los grandes, hasta que no nos concienciemos que nos interesa a todos asumir una cultura ética y responsable con la información de los demás, no le pidamos peras al olmo.

    Gracias Chema por traer la LOPD a tu espacio, es reconfortante que alguien como tu se acuerde de ella.

    ResponderEliminar
  10. Antes de clamar contra google x el incumplimiento de la LOPD, deberiamos valorar los miles de sitios donde podemos tener informaciom de caracter personal sin declarar ante la LOPD, colectada procesos mas o menos automatizados. Pensad en proxies-cache, servidores de correo, caches de navegador web, etc etc. Por ejemplo, si desde el pc de la empresa accedo a unha web con datos relativos a la salud, significa que mi empresa debe registrar esa presencia de datos en la cache del navegador, y posiblemente del proxy corporativo y a saber cuantos sitios mas, y ademas cumplir las medidas de proteccion de nivel alto? Lanzo la pregunta, tendria realmente sentido aplicar asi la ley, o igual es que se debe legislar teniendo en cuenta todos los elementos y matices presentes en el mundo real? En mi opinion, si una web publican datos de caracter personal, el responsable deberia ser el que los publico ahi, y no los que accedieron a ellos, incluyen google, claro esta. Otra cosa es exigirle a google que cumpla la ley con los datos que las personas les cedemos, en ese aspecto si que no debe haber distinciones. En lo otro, simplemente es tan absurdo que de plantearse nos convertiriamos, otra vez mas, en el hazmerreir del mundo. Seamos serios y legislemos en lo que podemos cumplir.

    ResponderEliminar
  11. Tal como lo veo google no tiene que declarar esos ficheros. No son datos cedidos a Google. Si, están en la cache de Google, pero lo están porque han sido publicados en la página web correspondiente. En este caso es a esa página a la que debe quejarse el interesado y no a Google, que no tiene ninguna responsabilidad en esa publicación.

    ResponderEliminar
  12. Huy, qué peligroso es este articulito... El problema de oír campanas y no saber dónde... A ver, la AEPD ha reiterado en múltiples ocasiones que, tal y como establecen la Ley y su Reglamento de desarrollo, internet NO es una fuente de acceso público, por lo que ninguna empresa puede extraer datos de internet libremente para crear una base de datos y "entrar" a los particulares... De hacerlo se enfrenta a graves sanciones, por lo que ninguna empresa haría algo así... De hecho, alguna lo intentó y comprobó en sus carnes hasta qué punto la Agencia se toma en serio la imposición de multas... Vamos que es completamente ilegal que una empresa cree un fichero extrayendo datos de internet. Y si os ocurre, os animo a denunciar el hecho ante la Agencia Española de Protección de Datos, ya veréis.

    En cuanto a Google, como alguien muy bien apunta, únicamente indexa páginas y muestra resultados. Eso significa que si algún fenómeno publica fotos de su novia desnuda en cualquier página, la culpa no es de Google en sí mismo, ni se puede acudir a Google, ya que el problema real lo tiene la página que publica las fotos. Aunque Google borrase la caché para que no salieran las imágenes, las mismas seguirían en la página web de origen, ante la que hay que dirigirse. Google no puede obligar a un tercero a borrar fotos de su página web.

    La queja real es que Google no diferencia entre las páginas actualizadas y las que no, de manera que si la persona ha sido borrada de la página web de origen pero Google no ha actualizado la caché, los resultados de la persona despelotada seguirán saliendo sine die, o hasta que Google actualice y/o borre la caché. De eso se trata el derecho al olvido, derecho por otra parte completamente reconocido tanto por tribunales nacionales de diferentes países, como por el TJUE.

    Saludos.

    ResponderEliminar
  13. Marina Brocca: "Cuantos blogs y webs incorporan la LOPD y la LSSI a sus portales?"

    Lo que faltaba, que hubiera que contratar los servicios de un bufete de abogados para abrir un blog con las recetas de la abuela.

    ResponderEliminar

  14. "La queja real es que Google no diferencia entre las páginas actualizadas y las que no, de manera que si la persona ha sido borrada de la página web de origen pero Google no ha actualizado la caché, los resultados de la persona despelotada seguirán saliendo sine die, o hasta que Google actualice y/o borre la caché. De eso se trata el derecho al olvido".

    Lo que si se le puede exigir a Google es que una vez que el fichero origen desaparezca, elimine esos ficheros de su cache inmediatamente. Aunque el derecho al olvido no va de eso, sino de culpabilizar a Google de que un fenómeno haya publicado las fotos de su ex.

    ResponderEliminar