sábado, marzo 27, 2010

Incomprensibles incomprendidos robots

No, no es un título del gran Asimov, es que cuanto más miro el tema del fichero robots.txt más creo que nadie tiene claro cómo funcionan realmente. Ya puse aquí el carajal que supone configurar un robots.txt entendible por todos, pero incluso, suponiendo que funcionan como dicen que funcionan la cosa no tiene mucho sentido.

En teoría, tal y como ya os puse en este post, el bot de Google primero ejecuta los disallow y luego el resto. ¿Cómo debería comportarse con el robots.txt de justice.gov que os pongo a continuación?


El incomprensible incomprendido robots.txt

Pues si hacemos caso a como se supone que debería trabajar, debe aplicar la configuración asociada a su User-Agent, pero … ¿cuál es esta? Viendo la lista parece “lógico” e “intuitivo” que debería aplicar la configuración de User-Agent:*. Después, ejecutar todos los disallows e indexar el resto. Así, la siguiente ruta de documentos debería estar indexada en Google.


URL de los ficheros: http://www.justice.gov/ust/eo/private_trustee/library/

Sin embargo, la realidad no es así, ya que éste fue el ejemplo que usé para el post de “Buscando Buscadores” en el que se podía ver como había documentos que no aparecían. Así, si hacemos una búsqueda en Google por documentos wpd se puede ver que no aparece ninguno.


Ni un fichero wpd que llevarse a la FOCA con Google

Esto es bastante curioso, ya que parece que ha aplicado el Disallow:* que “parece” que el administrador del sitio sólo quería aplicar al bot de Microsoft. Conocido esto, y escribiendo la segunda parte del post de “Buscadores como Armas de destrucción masiva” se me ocurrió que era el ejemplo perfecto para saltarse el robots.txt de este sitio e intentar hacer que todos los documentos acabasen siendo indexados en algún buscador.

Conocida la lentitud de Google a la hora de buscar, decidí probar a usar algún buscador con algún bot “menos ocupado”, así que me fui a usar el bot de Exalead para intentar indexar esos documentos saltándome la restricción del robots.txt pero… cual sería mi sorpresa al ver que no hacía falta.

Mi presunción errónea había sido suponer que este buscador se comportaría como Google, pero… ¿por qué? ¿realmente hace Google una interpretación certera del fichero robots.txt tal y como lo deseaban los administradores? ¿Qué sucedería si Exalead sí se comportara como los administradores de justicia.gov “desean”? Pues que todos esos documentos, que no se encuentran en una ruta prohibida por Disallow para los bots con User-Agent:* acabarían indexados…. Y así sucede.


Comida para la FOCA en Exalead

Como se puede apreciar hay una autentica mina de datos y metadatos indexados en este buscador que pueden ayudar a obtener información jugosa con Exalead-Hacking.


Metadatos a cascoporrro

Lo realmente preocupante es…¿es esto lo que querían hacer los administradores? Yo creo que no, pero simplemente les ha salido mal la configuración que “aparentemente” les funcionaba bien con Google y Microsoft. ¿Estás seguro de que tu robots.txt te protege de todos los buscadores?

Saludos Malignos!

2 comentarios:

Jordi Prats dijo...

Por ejemplo el crawler heritrix permite como configuración "el menos restrictivo" o "el que realmente debería ser" y algunas más. Realmente los crawlers hacen lo que les viene en gana porque sino muchos sitios solo permiten a google

Seifreed dijo...

Hola

Mmm Es interesante

Gracias por la información

Entrada destacada

Tu Latch "Hack Your Innovation Contest": Haz un PoC & Hack por 1.000 €

El pasado Telefónica Innovation Day 2024 lanzamos oficialmente el " Tu Latch Hack Your Innovation Contest " en el que repartimos ...

Entradas populares