miércoles, julio 02, 2014

¿Cuántas URLs se pueden extraer con Google Hacking?

Cuando se hace Hacking con Buscadores siempre se espera que los dorks funcionen sobre el 100 % de las URLs de un determinado dominio. Debido a esto, normalmente se utiliza Google como motor de hacking con buscadores por su potencia de indexación, ya que si lo comparamos con, por ejemplo Bing, el número de URLs de un dominio descubiertas suele ser mayor.

Por ejemplo, si miramos las URLs que tiene indexadas Bing del dominio Army.mil, podemos ver que no llega a las 700.000.

Figura 1: URLs del dominio army.mil indexadas por Bing

Por el contrario, si probamos la misma consulta con Google, como se puede, se obtienen más de 2.700.000 URLs indexadas y recolectadas por Google, lo que es casi 4 veces más URLs descubiertas e indexadas en el buscador.

Figura 2: URLs descubiertas por Google del dominio Army.mil

Sin embargo, no hay que dejarse llevar por los triunfalismos a la hora de hacer Google Hacking. De esas 2.700.000 URLs que Google ha indexado, no todas van a estar disponibles en su índice para consultas, ya que el buscador mete muchas en lo que se llama el Índice Suplementario.

Ese índice secundario es donde se ponen las URLs que el buscador ha descubierto, pero que, por ser un contenido repetido o de escaso valor, el motor decide apartar de la base de datos que pone disponible para las consultas al resto de los usuarios. Así que, de estas 2.700.000 URLs, solo una porción están disponibles en el buscador, y el resto están en lo que originalmente se llamó "la Deep Web", o lo que es lo mismo, lejos de los usuarios por haber sido apartadas del camino normal de los usuarios.

Para saber el número de URLs que realmente están disponibles para las búsquedas, hay que utilizar una consulta terminada con el operador &, de tal manera que solo saldrán aquellas que van a estar en el índice primario. En este caso concreto, mirando las URLs del mismo dominio vemos que hay un poco más de 1.000.000, lo que sigue siendo un poco más de las que tienes disponibles en Bing

Figura 3: URLs del dominio army.mil en el índice primario de Google

Además, este 1.000.000 no tiene porque contener completamente todas las URLs que ha descubierto Bing, y lo habitual es que sean conjuntos que intersecan pero no incluidos uno en el otro completamente. Esto se pudo ver en el ejemplo de la búsqueda de documentos en WhiteHouse.org que usamos en la presentación de FOCA 2.5 y es uno de los motivos por los que debes hacer Bing Hacking.

Figura 4: URLs de documentos descubiertos en WhiteHouse.org con distintos buscadores

En las búsquedas normales en Google - sin utilizar el parámetro & - por defecto los resultados están filtrados por otra serie de factores, ya que Google va a quitar aquellas páginas que considera que tienen un contenido poco apropiado, para lo que es absolutamente necesario hacer las búsquedas con el filtro SafeSearch desactivado. Esto se hace con el parámetro safe=off.

Y, en segundo lugar, hay que seleccionar que se muestren todas las URLs, independientemente de si Google ha considerado que para esa búsqueda concreta no aporta valor y son resultados duplicados. Esto se hace con el parámetro filter=0. Por defecto Google elimina cuando hay más de 2 URLs en el mismo directorio (Duplicate Directory Filter) y cuando hay más de dos resultados con el mismo título y descripción aunque sean distintas URLs (Duplicate Snippet Filter)

Figura 5: Información de Google sobre filtrado de URLs en los resultados

Como se puede ver, haciendo una búsqueda de todos los resultados disponibles - repetidos o no - y desactivando el filtrado de SafeSearch, y buscando solo en el índice primario con & como mucho se obtiene el total de resultados en el índice primario de Google, lo que será el máximo número de URLs a que podemos aspirar.

Claro está, si quieres conseguir ese millón de URLs disponibles en ese dominio tendrás que ingeniártelas para solventar el límite de 1.000 resultados por consulta que suponen los huge domain, tal y como hicimos en FOCA.

Saludos Malignos!

1 comentario:

  1. Ahora no me quedan dudas que sentis una gran atracción por Microsoft.

    slds.

    ResponderEliminar