Entiendo cómo una URL puede acabar en conocimiento de Google aún cuando los dueños del sitio web al que pertenece esa dirección hayan expresado de forma explícita en su fichero robots.txt que no quieren que sea indexada - aunque no hayan puesto el noindex -. Lo que no entiendo es por qué Google o BING se empeñan en mostrar esa URL en los resultados e incluso el título.
He de decir que desde el punto de vista del hacking con buscadores es genial, y permite cosas como las que he publicado en varias ocasiones sobre cómo usar los buscadores como arma de destrucción masiva o tales como localizar la previsualización de los posts en blogger, encontrar servidores de sitios web, o acabar encontrando datos personales e información sensible.
Figura 1: URL en los resultados de Google de un sitio protegido por robots.txt en |
Sin embargo, no acabo de entender el sentido por el que Google decide que esa información deba mostrarse. ¿No sería más sensato que si una URL está marcada con robots.txt para no aparecer que Google no la muestre en los resultados? Además, ¿no es el título parte del contenido?
Figura 2: Título de una URL protegida por robots.txt en los resultados de Google |
Al final, si metes la URL y ofreces el comando inurl el efecto es que has indexado la URL. De hecho, esto es tan así que incluso en muchas ocasiones indexa el título, por lo que no sólo aparecen en los resultados de inurl, sino que también en los de intitle o cualquier cadena que pueda estar en el texto del título.
Figura 3: Título y URL en los resultados de BING. Protegida por robots.txt |
En BING, esto también funciona así y La pregunta que me persigue es, inevitablemente: ¿Por qué las muestran? ¿Por qué no las ocultan simplemente? ¿Por qué lo hacen así los buscadores? ¿Por qué?
Saludos Malignos!
Chema Mourinho quizás sea porque al final los robots.txt no son más que eso, ficheros de texto y, al final los crowlers están programados para pasar de lo que digan los ficheros de texto en ciertos casos.
ResponderEliminarLos buscadores son las empresas del Siglo XXI que hacen lo que quieren y no les pasa nada, sobre todo Google.
Crawler perdón!
ResponderEliminarHasta google tine bugs.
ResponderEliminarA lo mejor lo ha enlazado porque lo ha visto visitando otra web. O el robots se modifico posteriormente..
No me gustaria ser el programador en google debugeando eso.
Quieren que aprendamos rápido :)
ResponderEliminaresas urls no son ofrecidas por tu sitio sino por sitios que enlazan con ella... por tanto ya no son privadas.
ResponderEliminar@Invan de la Jara, por esa regla de tres, por estar en un sitio web que yo descubra también lo serían aunque estén filtrado por robots.txt.
ResponderEliminarEl objetivo de los robots.txt no es seguridad, es una forma de decirle al buscador lo que quieres que aparezca en las búsquedas y lo que no. El que salgan la URL y el Título de sitios protegidos por robots.txt es una mala implementación de esto.
Saludos Malignos!
Hola;)
ResponderEliminarRobots.txt índica si una URL puede o no puede ser accedida por los buscadores, si no quieres que e indexe lo correcto es usar la meta etiqueta robots y poner un noindex.
Que una URL no pueda se accedida quiere decir que su contenido no será leído (en principio) por eso el snippet que se ve en las imágenes de este post indica que no se ha podido leer, pero para indexar no necesita ser accedida, se puede indexar por un simple enlace y tomar el title de atributo title del enlace o del propio Anchor.
@JLMora, sí, lo entiendo, pero sigo pensando que es erroneo y confuso hacer el uso de robots.txt de esta forma. Sería sensato no mostar nada.
ResponderEliminarEn cuando a mostrar el título me parece aún más confuso. ¿no debería ser tomado como parte del contenido?
Saludos!