lunes, agosto 25, 2014

Evernote no quiere hacer nada: ¡Cuida tus publicaciones!

La historia que os voy a narrar ahora tuvo lugar hace más de dos meses con Evernote, pero por la naturaleza de la misma no he podido ni querido publicarla antes. Ahora he sacado un poco de tiempo para contaros con detalle toda la historia, porque sigo indignado con el soporte y creo que es ya demasiado tiempo sin hacer nada. Es una aventura larga, así que más vale que te sientes cómodo en la silla, prepares el cafe y estés tranquilo los próximos minutos. No es artículo con mucha sesera técnica, pero sí que es de longitud, así que ten paciencia.

Evernote y la indexación de las carpetas públicas

Son muchos lo usuarios que publican cosas en abierto en sus cuentas de Evernote. Hasta aquí no hay demasiada novedad. Eso sí, hay que tener cuidado con que se publique una cosa privada cómo pública, porque entonces viene todo el lío. En un artículo en el que hablaba de las posibles fugas de información por las revisiones de artículos con WordPress usaba Evernote como un posible punto de falla para que algo que debería ser privado acabara indexado en la base de datos de Google.

Figura 1: Casi 40.000 documentos públicos en Evernote

Digamos que en una de esas búsquedas, dentro los miles y miles de cosas que hay en abierto di en el Índice de Google con un documento de Evernote en el que un usuario había guardado todas sus identidades [usuarios y passwords] de servicios online. Esto se podía ver en los resultados que muestra Google, pero al hacer clic en el enlace, el resultado es que el usuario había des-publicado de Evernote es documento, y no se podía acceder a ello.

Figura 2: El documento ya no estaba publicado en Evernote

Por supuesto, lo siguiente que había que probar era si ese documento de Evernote estaba disponible en la Caché de Google, pero al intentarlo, no había nada disponible. Por eso de cubrir todas las posibilidades mire en Bing y hasta en Archive.org, pero no. El documento no estaba guardado en ninguno de esos sitios. ¿Eso quiere decir que están a salvo las credenciales que publicó ese usuario? La respuesta es NO.

La Caché de Google y el Índice de Google

Aún mucha gente no entiende las diferencias entre el Índice de Google y la Caché de Google. Digamos que la Caché de Google es un almacenamiento de documentos que han sido visitados por el bot mientras que el Índice de Google es una base de datos en la que el bot guarda la información necesario para poder hacer las búsquedas.

Cuando alguien busca en Google, los resultados se traen directamente desde la base de datos que tiene indexada el motor. En ella no están todos los resultados de Internet, ni mucho menos, y tampoco todos los resultados de un sitio que Google esté analizando. Esto os lo expliqué en el artículo en el que hablaba del Índice principal y el Índice secudario de Google

La Caché de Google es, por otro lado, una especia de Archive.org temporal, pero solo para algunos de los documentos que Google indexa. No tienen porque estar todos los indexados, pero sí que no va a estar ningún documento que no haya sido crawleado y puesto en el índice en algún momento. Algunas veces, es posible ver un documento que ya no existe y que aún está en la Caché de Google.

Dicho esto, al final cuando una página web, como por ejemplo un documento público de Evernote es analizado por Google, la información que en él se contiene puede quedar en múltiples sitios, siendo uno de ellos el Índice de Google, que no tiene nada que ver con la caché.

Figura 3: Aunque el documento se quite de Evernote, ha sido copiado en muchos sitios

Por supuesto, en el Índice de Google no está la copia del documento, sino los datos filtrados para que los usuarios puedan encontrar la información. No está, por ejemplo el CSS del documento, pero sí las cadenas de texto que están contenidas dentro de la web analizada. En el caso de un documento de Evernote se encuentran, por ejemplo, las cadenas que el usuario haya escrito en él, como en este caso, los usuarios y contraseñas de sitios web.

Extraer los datos del Índice de Google

Extraer todos los datos del Índice de Google no es trivial, pero tampoco es rocket science que dicen los anglosajones. En cada petición vas a obtener solo un par de líneas de resultado, por lo que si el documento tienen muchas líneas va a ser una ardua tarea extraer todas. Además, Google no va a guardar absolutamente todo el texto de una web. En el procesado de textos para búsquedas se aplican algoritmos que extraen las partes importantes y quitan el resto.

Es decir, ni hay garantía de que el Índice de Google tenga toda la información, ni de que puedas extraer todo con búsquedas, pero ... seguro que puedes sacar un buen trozo. Y eso es lo que hice. Primero manualmente, y luego con una herramienta que hemos hecho en Eleven Paths y que en cuanto esté depurada y pase por QA os pondremos a disposición pública.

Al final, lo que hice fue probar búsquedas con todas las palabras que habían salido una vez, y luego con un pequeño diccionario, todas restringidas a la URL, para poder sacar, haciendo un poco de Hacking con Buscadores, el máximo posible del índice. Y creedme que salió una cantidad bastante grande de datos. 

La protección contra el Indexado y la Caché en Google

Por supuesto, Google ofrece a los dueños de los sitios web herramientas para evitar tanto la indexación como el cacheo de contenidos. Herramientas distintas para cada opción. En primer lugar, para evitar la indexación de URLs de forma preventiva se puede usar la tag HTML NoIndex, y el HTTP Header X-Robots-Tag "NoIndex". Eso evitaría que cualquier URL que se encuentre - sea como sea - acabe en el índice.

En el caso de Evernote, evitar la indexación de contenidos no tiene sentido, ya que hay muchos usuarios que utilizan Evernote como su punto de publicación de cosas, como si fuera un blog, una web o un Tumblr. Si lo hacen público es porque les interesa que sea público y visitado por otros, así que, el que los visitantes encuentren sus contenidos vía un buscador como Google es una buena cosa.

Ahora bien, si en un determinado momento el administrador de un sitio quiere evitar la indexación de algunas URLs, puede hacer uso de los famosos robots.txt - que solo evita que se indexe el contenido y no la URL si es localizada por otros medios -. Para borrar cualquier rastro de un documento en el Índice de Google, incluida la URL, el dueño del dominio, siempre podrá eliminar cualquier URL usando las Herramientas del Webmaster. Solo si eres el dueño del dominio o si se ve afectada tu privacidad y lo solicitas tú. Y aquí viene todo el problema.

El reporte al equipo de soporte de Evernote

Dicho todo lo anterior, al ver que el usuario había des-publicado el contenido, intenté avisarle de que aún era posible extraer la información del índice. Busqué las direcciones de correo que pude del usuario y le puse un par de correos, que no sé si llegaron, porque no me contestó y nada pasó. Lo cierto es que no conseguí localizarle.

Después de eso, me puse en contacto con un viejo amigo del equipo de seguridad de Google, que me volvió a confirmar lo que ya sabía. La URL del Índice de Google solo la puede sacar el dueño de la URL, es decir, el administrador el dominio del que cuelga la URL: En este caso Evernote. Esta es la línea temporal de los acontecimientos.

1 y 2 de Junio: Primer Intento

Con estas me puse en contacto con Evernote y le conté todo el caso. Le pasé la información, el correo que había enviado al usuario, los datos que estaban en el Índice de Google, y le expliqué que solo debían eliminar la URL con las Herramientas del Webmaster de Google y listo. Este fue el correo que les envié.

Figura 4: Reporte a Evernote con el correo enviado al usuario

Por supuesto, como era de esperar en la primera contestación pasaron de leerse en detalle mi correo y me contestaron que todo estaba OK, que ya el usuario había des-publicado el contenido de Evernote. FAIL 1.

Figura 5: Evernote contesta que el usuario ya ha des-publicado el contenido

Me armé de paciencia y le expliqué que el problema es precisamente ese, que el usuario ha quitado el contenido de la web de Evernote, pero que es Evernote quien tiene que quitar el contenido del Índice de Google

Figura 6: Segundo correo a soporte de Evernote insistiendo sobre el problema

10 de Junio: Segundo Intento

Tras una semana de paciencia sin dar ninguna contestación, el día 10 de Junio, vuelvo a responder al correo electrónico para insistirles en que son ellos los que deben eliminar el contenido. Como no me han contestado les digo que entiendo que si no me contestan más es que pasan del tema y que lo dan por zanjado.

Figura 7: Insisto el día 10 de Junio en un tercer correo

Pero me contestan. De nuevo, pasan de mover un dedo y de leerse en detalle mi correo. Me dicen que es decisión del usuario contactar con Google para que elimine la URL de la Caché. Dos errores gordos impropios de una empresa que quiere ser alguien en el mundo de Internet. FAIL 2.
- Error 1: No está en la caché, está en el índice.
- Error 2: El usuario no puede pedir a Google que quite la URL, solo Evernote.
En mi cuarto mensaje de correo, el quinto en total intentando resolver este problema, les explico la diferencia entre la Caché y el Índice de Google, y les transmito - de nuevo - que el único que puede quitar el contenido del Índice de Google cuando la URL cuelga del domino Evernote.com es el administrador de Evernote.com con las Herramientas del Webmaster de Google.

Figura 8: Explicación a Evernote por enésima vez que el contenido está en el Índice Google

Para enfatizar aún más por qué es importante que hagan esto les explico que si el usuario ha querido quitar el contenido de Evernote, es porque no quiere que el contenido sea público y que ellos pueden eliminar los datos del índice fácilmente. El usuario puede tener la "falsa sensación de seguridad" de que el contenido ya no es público.

Figura 9: Último intento de enfatizar el asunto

Tras este mensaje, parece que el usar mayúsculas les hace intentar entender qué es lo que estoy explicándoles. Total, solo han tardado 10 días en comprender qué es lo que les estaba reportando. A lo que entonces, contestan que su política es no hacer nada, y se quedan más anchos que largo.

Figura 10: Lo hemos entendido, pero no vamos a hacer nada.

12, 18 y 19 de Junio: Tercer contacto

Yo ya no les contesté a ese correo, y el día 12 de Junio me volvieron a escribir para ver si tenía algo más que decir. Yo les contesté que no, que ya estaba esperando a que se borrase de forma natural el contenido del Índice de Google para publicar este artículo - con la esperanza de que se eliminase pronto -.

Figura 11: Último correo mío al respecto de su decisión de política

Tras ese correo, tardan una semana otra vez, pero parece que piensan que "a lo mejor" todo lo que yo estoy diciéndoles es bueno para ese usuario - que ha cometido un error gordo y que es usuario de Evernote - preguntarle si desea eliminar el contenido del Índice de Google Algo que parece razonable.

Figura 12: Parece que van a poner algo de sentido común al caso.

El día 19 de Junio yo les contesto que me parece una aproximación a la solución del problema mucho más adecuada que la primera respuesta. Creo que esto lo tenían que haber hecho el día 1 de Junio, y no casi veinte días después.

Figura 13: Último correo intercambiado

¿Se eliminó a día de hoy el contenido?

Yo he ido siguiendo el estado de esa URL en el Índice de Google, y os juro que parece cuasi inmortal. Han pasado más de dos meses desde que la descubrí y ayer la firmé digitalmente en las búsquedas con eGarante, por si en el futuro me dicen que la cosa fue rápida.

La política de Evernote es no hacer nada y nada van a hacer. Algo que yo no comparto, porque si ya saben que el usuario ha querido quitar esa publicación, él no espera que esté eso en el Índice de Google. Ellos no lo avisan en ningún momento en su web. Nunca dice la web de Evernote que los datos permanecerán en Google tiempo después de su des-publicación. 

Ahora, tras este caso Evernote lo sabe, así que creo que deberían avisar a los usuarios o hacer algo al respecto. Fuera del canal de soporte les he transmitido mi malestar con su comportamiento en este caso concreto, y creo que debería ser cuasi ipso-facto el que si un contenido de una web de un servicio como Evernote deja de estar publicado se elimine del Índice de Google o que al menos las webs tengan un sitio para pedir este borrado avisando de la situación. No solo en Evernote, sino en cualquier otra web que haga algo similar.

Puede ser incluso que el usuario no conteste a día de hoy porque ya le robaran las cuentas antes de que yo me pusiera en contacto con él explicándole el problema. Si el usuario se diese cuenta de esto, podría forzar al borrado del contenido del índice de Google de esta forma: Solicitar borrado de contenido del índice de Google aunque el sitio no sea tuyo.

Por supuesto, entiendo que el error - seguramente por desconocimiento de lo que estaba haciendo - lo comete el usuario, pero en ningún caso Evernote ha mostrado sensibilidad por los datos de su usuario. Por supuesto, tirarse 19 días intentando explicarles el problema tampoco fue nada divertido, y espero que si más investigadores les reportan problemas presten más atención a los reportes.

Saludos Malignos!

11 comentarios:

  1. Esperemos que tras este aviso, los desarrolladores de este servicio (y cualquier otros similar) toquen el código para que cuando una publicación se privatice se eliminen los índices/cachés delos grandes buscadores.

    Al fin y al cabo, es precisamente lo que pide el usuario: dejar de publicar una información.

    ResponderEliminar
  2. Basicamente cuando estos servicios reciben un explicacion tecnica, lo primero que piensan es que el usuario no tiene ni pu.. idea de nada y copian y pegan el contenido de la FAQ.

    Cambiar eso en cualquier empresa con un numero elevado de empleados se convierte en un proceso de varios meses, porque el tio que esta el no soporte probablemente no tiene ni voz ni voto y los managers los ignoran, asi que muchos de ellos ya han decido de reportar nada al manager cuando se han dado cuenta de que siempre que lo hacen nada sucedes y muchas ocasiones se lo miran como un estorbo mas bien que como algo bueno.

    ResponderEliminar
  3. Creo que Evernote y compañía no se preocupan por los pobres usuarios tanto como tú.

    Para tu tranquilidad te diré que pienso que si el usuario ha publicado algo, aunque luego lo despublique y no sepa lo del index, se supone que es consciente de que alguien ha podido verlo y habrá cambiado las contraseñas.

    Digo yo...

    ResponderEliminar
  4. Yo no siquiera lo uso, uso el método más seguro de notas, post-it en mi cuaderno de notas... jajaja.

    Una duda, pasará similar con google keep?

    Saludos a Chema y a los malignos

    ResponderEliminar
  5. Tristemente así es la realidad con lo que se encuentra uno a la hora de reportar un fallo de seguridad en muchos sitios donde los responsables son unos acomodados he incompetentes desde mi punto de vista, cuando alguien comete un fallo, lo mejor es reconocerlo y por lo menos quedas mejor y no responder de manera prepotente como Evernote diciendo que se lavan las manos como Pilato, vamos mas molestos que agradecidos ante tan excelente trabajo y reporte por tu parte Dr.Maligno. Así es, triste pero cierto :-(

    Saludos campeón y paciencia que es la madre de la ciencia ;-)

    ResponderEliminar
  6. Es mas, lo que deberían de hacer todo los usuarios que sean conscientes de dicha falla, es dar de baja su cuenta aunque sea de manera temporal exponiendo el motivo y pasarles el enlace del articulo, así moverían el culo pero rapido vamos...

    ResponderEliminar
  7. En serio,no entiendo tu preocupación.Tu expones tu cuenta de gmail...se publica en Internet y como Google sabe que la has expuesto tiene que borrar de los resultados tu metedura de pata¿...haciendo de Google un símil con Evernote....molestarse en cambiar la password para "proteger" al usuario....y los demás buscadores Bing,Baidu,Yahoo,Duck Duck go...esos no indexan¿
    No sé...puedo entender el derecho al olvido...pero no la falta de conciencia de un usuario.
    Disculpa por la apreciación Chema pero creo,por UNA vez,que eres excesivamente proteccionista con los datos de otros.

    ResponderEliminar
  8. Rocambolesco, a la vez que preocupante para nosotros, los usuarios compulsivos de servicios de terceros.

    ResponderEliminar
  9. A mi me paso cuando informe de un error a movistar , se hacen los desentendidos , el problema no es mio es de otra persona , pero es preoucupante que nadie haga nada

    ResponderEliminar
  10. Con esto del derecho al olvido, es posible que el mismo usuario solicite a Google que remueva la información filtrada?

    ResponderEliminar
  11. Con esto del derecho al olvido, es posible que el mismo usuario solicite a Google que remueva la información filtrada?

    Aunque fuera aplicable, te quedan los restantes buscadores. La culpa no es de Google, sino de Evernote.

    ResponderEliminar