La historia que os voy a narrar ahora tuvo lugar hace más de dos meses con Evernote, pero por la naturaleza de la misma no he podido ni querido publicarla antes. Ahora he sacado un poco de tiempo para contaros con detalle toda la historia, porque sigo indignado con el soporte y creo que es ya demasiado tiempo sin hacer nada. Es una aventura larga, así que más vale que te sientes cómodo en la silla, prepares el cafe y estés tranquilo los próximos minutos. No es artículo con mucha sesera técnica, pero sí que es de longitud, así que ten paciencia.
Evernote y la indexación de las carpetas públicas
Son muchos lo usuarios que publican cosas en abierto en sus cuentas de
Evernote. Hasta aquí no hay demasiada novedad. Eso sí, hay que tener cuidado con que se publique una cosa privada cómo pública, porque entonces viene todo el lío. En un artículo en el que hablaba de las posibles
fugas de información por las revisiones de artículos con WordPress usaba Evernote como un posible punto de falla para que algo que debería ser privado acabara indexado en la base de datos de
Google.
|
Figura 1: Casi 40.000 documentos públicos en Evernote |
Digamos que en una de esas búsquedas, dentro los miles y miles de cosas que hay en abierto di en el Índice de Google con un documento de Evernote en el que un usuario había guardado todas sus identidades [usuarios y passwords] de servicios online. Esto se podía ver en los resultados que muestra Google, pero al hacer clic en el enlace, el resultado es que el usuario había des-publicado de Evernote es documento, y no se podía acceder a ello.
|
Figura 2: El documento ya no estaba publicado en Evernote |
Por supuesto, lo siguiente que había que probar era si ese documento de Evernote estaba disponible en la Caché de Google, pero al intentarlo, no había nada disponible. Por eso de cubrir todas las posibilidades mire en Bing y hasta en Archive.org, pero no. El documento no estaba guardado en ninguno de esos sitios. ¿Eso quiere decir que están a salvo las credenciales que publicó ese usuario? La respuesta es NO.
La Caché de Google y el Índice de Google
Aún mucha gente no entiende las diferencias entre el Índice de Google y la Caché de Google. Digamos que la Caché de Google es un almacenamiento de documentos que han sido visitados por el bot mientras que el Índice de Google es una base de datos en la que el bot guarda la información necesario para poder hacer las búsquedas.
Cuando alguien busca en
Google, los resultados se traen directamente desde la base de datos que tiene indexada el motor. En ella no están todos los resultados de
Internet, ni mucho menos, y tampoco todos los resultados de un sitio que
Google esté analizando. Esto os lo expliqué en el artículo en el que hablaba del
Índice principal y el Índice secudario de Google.
La
Caché de Google es, por otro lado, una especia de
Archive.org temporal, pero solo para algunos de los documentos que
Google indexa. No tienen porque estar todos los indexados, pero sí que no va a estar ningún documento que no haya sido
crawleado y puesto en el índice en algún momento. Algunas veces, es posible ver un documento que ya no existe y que aún está en la
Caché de Google.
Dicho esto, al final cuando una página web, como por ejemplo un documento público de Evernote es analizado por Google, la información que en él se contiene puede quedar en múltiples sitios, siendo uno de ellos el Índice de Google, que no tiene nada que ver con la caché.
|
Figura 3: Aunque el documento se quite de Evernote, ha sido copiado en muchos sitios |
Por supuesto, en el Índice de Google no está la copia del documento, sino los datos filtrados para que los usuarios puedan encontrar la información. No está, por ejemplo el CSS del documento, pero sí las cadenas de texto que están contenidas dentro de la web analizada. En el caso de un documento de Evernote se encuentran, por ejemplo, las cadenas que el usuario haya escrito en él, como en este caso, los usuarios y contraseñas de sitios web.
Extraer los datos del Índice de Google
Extraer todos los datos del Índice de Google no es trivial, pero tampoco es rocket science que dicen los anglosajones. En cada petición vas a obtener solo un par de líneas de resultado, por lo que si el documento tienen muchas líneas va a ser una ardua tarea extraer todas. Además, Google no va a guardar absolutamente todo el texto de una web. En el procesado de textos para búsquedas se aplican algoritmos que extraen las partes importantes y quitan el resto.
Es decir, ni hay garantía de que el
Índice de Google tenga toda la información, ni de que puedas extraer todo con búsquedas, pero ... seguro que puedes sacar un buen trozo. Y eso es lo que hice. Primero manualmente, y luego con una herramienta que hemos hecho en
Eleven Paths y que en cuanto esté depurada y pase por
QA os pondremos a disposición pública.
Al final, lo que hice fue probar búsquedas con todas las palabras que habían salido una vez, y luego con un pequeño diccionario, todas restringidas a la
URL, para poder sacar, haciendo un poco de
Hacking con Buscadores, el máximo posible del índice. Y creedme que salió una cantidad bastante grande de datos.
La protección contra el Indexado y la Caché en Google
Por supuesto, Google ofrece a los dueños de los sitios web herramientas para evitar tanto la indexación como el cacheo de contenidos. Herramientas distintas para cada opción. En primer lugar, para evitar la indexación de URLs de forma preventiva se puede usar la tag HTML NoIndex, y el HTTP Header X-Robots-Tag "NoIndex". Eso evitaría que cualquier URL que se encuentre - sea como sea - acabe en el índice.
En el caso de Evernote, evitar la indexación de contenidos no tiene sentido, ya que hay muchos usuarios que utilizan Evernote como su punto de publicación de cosas, como si fuera un blog, una web o un Tumblr. Si lo hacen público es porque les interesa que sea público y visitado por otros, así que, el que los visitantes encuentren sus contenidos vía un buscador como Google es una buena cosa.
Ahora bien, si en un determinado momento el administrador de un sitio quiere evitar la indexación de algunas
URLs, puede hacer uso de los famosos
robots.txt - que solo evita que se indexe el contenido y no la URL si es localizada por otros medios -. Para borrar cualquier rastro de un documento en el
Índice de Google, incluida la
URL, el dueño del dominio, siempre podrá eliminar cualquier
URL usando las
Herramientas del Webmaster. Solo si eres el dueño del dominio o
si se ve afectada tu privacidad y lo solicitas tú. Y aquí viene todo el problema.
El reporte al equipo de soporte de Evernote
Dicho todo lo anterior, al ver que el usuario había des-publicado el contenido, intenté avisarle de que aún era posible extraer la información del índice. Busqué las direcciones de correo que pude del usuario y le puse un par de correos, que no sé si llegaron, porque no me contestó y nada pasó. Lo cierto es que no conseguí localizarle.
Después de eso, me puse en contacto con un viejo amigo del equipo de seguridad de Google, que me volvió a confirmar lo que ya sabía. La URL del Índice de Google solo la puede sacar el dueño de la URL, es decir, el administrador el dominio del que cuelga la URL: En este caso Evernote. Esta es la línea temporal de los acontecimientos.
1 y 2 de Junio: Primer Intento
Con estas me puse en contacto con Evernote y le conté todo el caso. Le pasé la información, el correo que había enviado al usuario, los datos que estaban en el Índice de Google, y le expliqué que solo debían eliminar la URL con las Herramientas del Webmaster de Google y listo. Este fue el correo que les envié.
|
Figura 4: Reporte a Evernote con el correo enviado al usuario |
Por supuesto, como era de esperar en la primera contestación pasaron de leerse en detalle mi correo y me contestaron que todo estaba OK, que ya el usuario había des-publicado el contenido de Evernote. FAIL 1.
|
Figura 5: Evernote contesta que el usuario ya ha des-publicado el contenido |
Me armé de paciencia y le expliqué que el problema es precisamente ese, que el usuario ha quitado el contenido de la web de Evernote, pero que es Evernote quien tiene que quitar el contenido del Índice de Google.
|
Figura 6: Segundo correo a soporte de Evernote insistiendo sobre el problema |
10 de Junio: Segundo Intento
Tras una semana de paciencia sin dar ninguna contestación, el día 10 de Junio, vuelvo a responder al correo electrónico para insistirles en que son ellos los que deben eliminar el contenido. Como no me han contestado les digo que entiendo que si no me contestan más es que pasan del tema y que lo dan por zanjado.
|
Figura 7: Insisto el día 10 de Junio en un tercer correo |
Pero me contestan. De nuevo, pasan de mover un dedo y de leerse en detalle mi correo. Me dicen que es decisión del usuario contactar con Google para que elimine la URL de la Caché. Dos errores gordos impropios de una empresa que quiere ser alguien en el mundo de Internet. FAIL 2.
- Error 1: No está en la caché, está en el índice.
- Error 2: El usuario no puede pedir a Google que quite la URL, solo Evernote.
En mi cuarto mensaje de correo, el quinto en total intentando resolver este problema, les explico la diferencia entre la Caché y el Índice de Google, y les transmito - de nuevo - que el único que puede quitar el contenido del Índice de Google cuando la URL cuelga del domino Evernote.com es el administrador de Evernote.com con las Herramientas del Webmaster de Google.
|
Figura 8: Explicación a Evernote por enésima vez que el contenido está en el Índice Google |
Para enfatizar aún más por qué es importante que hagan esto les explico que si el usuario ha querido quitar el contenido de Evernote, es porque no quiere que el contenido sea público y que ellos pueden eliminar los datos del índice fácilmente. El usuario puede tener la "falsa sensación de seguridad" de que el contenido ya no es público.
|
Figura 9: Último intento de enfatizar el asunto |
Tras este mensaje, parece que el usar mayúsculas les hace intentar entender qué es lo que estoy explicándoles. Total, solo han tardado
10 días en comprender qué es lo que les estaba reportando. A lo que entonces, contestan que su política es no hacer nada, y se quedan más anchos que largo.
|
Figura 10: Lo hemos entendido, pero no vamos a hacer nada. |
12, 18 y 19 de Junio: Tercer contacto
Yo ya no les contesté a ese correo, y el día 12 de Junio me volvieron a escribir para ver si tenía algo más que decir. Yo les contesté que no, que ya estaba esperando a que se borrase de forma natural el contenido del Índice de Google para publicar este artículo - con la esperanza de que se eliminase pronto -.
|
Figura 11: Último correo mío al respecto de su decisión de política |
Tras ese correo, tardan una semana otra vez, pero parece que piensan que "a lo mejor" todo lo que yo estoy diciéndoles es bueno para ese usuario - que ha cometido un error gordo y que es usuario de Evernote - preguntarle si desea eliminar el contenido del Índice de Google Algo que parece razonable.
|
Figura 12: Parece que van a poner algo de sentido común al caso. |
El día 19 de Junio yo les contesto que me parece una aproximación a la solución del problema mucho más adecuada que la primera respuesta. Creo que esto lo tenían que haber hecho el día 1 de Junio, y no casi veinte días después.
|
Figura 13: Último correo intercambiado |
¿Se eliminó a día de hoy el contenido?
Yo he ido siguiendo el estado de esa
URL en el
Índice de Google, y os juro que parece cuasi inmortal. Han pasado más de dos meses desde que la descubrí y ayer la firmé digitalmente en las búsquedas con
eGarante, por si en el futuro me dicen que la cosa fue rápida.
La política de Evernote es no hacer nada y nada van a hacer. Algo que yo no comparto, porque si ya saben que el usuario ha querido quitar esa publicación, él no espera que esté eso en el Índice de Google. Ellos no lo avisan en ningún momento en su web. Nunca dice la web de Evernote que los datos permanecerán en Google tiempo después de su des-publicación.
Ahora, tras este caso
Evernote lo sabe, así que creo que deberían avisar a los usuarios o hacer algo al respecto. Fuera del canal de soporte les he transmitido mi malestar con su comportamiento en este caso concreto, y creo que debería ser cuasi
ipso-facto el que si un contenido de una web de un servicio como
Evernote deja de estar publicado se elimine del
Índice de Google o que al menos las webs tengan un sitio para pedir este borrado avisando de la situación. No solo en
Evernote, sino en cualquier otra web que haga algo similar.
Puede ser incluso que el usuario no conteste a día de hoy porque ya le robaran las cuentas antes de que yo me pusiera en contacto con él explicándole el problema. Si el usuario se diese cuenta de esto, podría forzar al borrado del contenido del índice de
Google de esta forma:
Solicitar borrado de contenido del índice de Google aunque el sitio no sea tuyo.
Por supuesto, entiendo que el error - seguramente por desconocimiento de lo que estaba haciendo - lo comete el usuario, pero en ningún caso Evernote ha mostrado sensibilidad por los datos de su usuario. Por supuesto, tirarse 19 días intentando explicarles el problema tampoco fue nada divertido, y espero que si más investigadores les reportan problemas presten más atención a los reportes.
Saludos Malignos!