Como enFOCAr un Huge Domain
Con el tiempo y el uso aprendemos a conocer las limitaciones de FOCA y la forma de sacarle más ventaja a la herramienta. Esto sucede a medida que nos vamos enfrentando a dominios con peculiaridades totalmente distintas. Uno de estos ejemplos son los "Huge Domains", es decir, esos que tienen miles de servidores y cientos de dominios pubicados en la web. En esos casos, a la hora de utilizar FOCA importa mucho como enfoques el problema.
El problema
Si intentamos hacer primero una fase de análisis de metadatos y luego completarlo con un análisis del dominio usando el DNS Search panel, habrá mucha información que se nos habrá escapado, ya que FOCA, al usar los buscadores como punto inicial de descubrimiento de información y archivos, se encontrará con los límites.
Supongamos que tenemos la tarde lectora y queremos practicar inglés leyendo todos los documentos que tiene publicado el army.mil en Internet. Si intentamos descargar los archivos usando FOCA nos toparemos con los límites, es decir, 1.000 documentos de cada filetype por Google, Bing y Exalead. Eso nos deja, que en el mejor de los casos pudieramos descubrir 3 buscadores * 1.000 resultados = 3.000 documentos de cada tipo. Sin embargo, si miramos el número de ficheros doc publicados en army.mil vemos que hay "alguno más".
Figura 1: 44.000 documentos tipo .doc en army.mil
Además, si lo que se está buscando es sacar provecho a las funcionalidades de análisis de URLs que trae FOCA, necesitaríamos ser capaces de analizar todas las URLs indexadas y, como se puede ver, tenemos un serio problema para localizarlas todas, si nos vamos topando con los límites de los resultados en los buscadores.
Figura 2: Más de 3 millones de referencias a army.mil en Google
Esta claro que, para poder analizar todos los metadatos y todas las URLs necesitamos segmentar el análisis lo máximo posbile - o esperar a que se publiquen los datos en Wikileaks -.
Primero los servers
Para poder segmentar la obtención de enlaces lo mejor que se puede hacer es primero descubrir todos los servidores que se pueda. Para ello primero utilizaremos las funciones del DNS Search Panel para tratar de descubrir todos los dominios y servidores que se pueda.
Figura 3: DNS Search Panel
Hecho esto con FOCA 2.5.6 sobre el dominio del ejemplo me dejo algo más de 5.000 servidores descubiertos y algo más de 8.000 dominios, lo que implica un duro trabajo de análisis a partir de ese punto. Para este ejemplo, nos bastará con descubrir algunos de los dominios.
Figura 4: Algunos dominios descubiertos
Luego los documentos
Una vez en este punto, es más fácil comenzar a descubrir los documentos públicos. Para ello, podemos seleccionar uno de los dominios y buscar los documentos que se encuentran en él, por ejemplo en "capucha".
Figura 5: Ficheros .doc en hood.army.mil
El número ya es suficientemente pequeño como para no hacer saltar los límites de los buscadores, y por tanto, ya le podemos hacer a la FOCA que se coma todos los enlaces a documentos .doc. Aún no hay una opción que haga esto automáticamente así que hay que hacerlo con la búsqueda personalizada.
Figura 6: Búsqueda personalizada de documentos para hood.army.mil
Por último los links
Una vez descubiertos todos los documentos de un subdominio o host, deberíamos ir a todos los sitios, y descargar todos los enlaces asociados a ese dominio, utilizando para ello la opción de "Google Crwaling". Una vez utilizada, obtendremos, de cada sitio, un resultado de ficheros, datos, y análisis de URLs completo.
Figura 7: Resultados por dominios
Como os podéis imaginar, hacer esto con 8.000 dominios es un trabajo de chinos - no he querido hacer ningún chiste infosec con esto - por lo que será una de las cosas que traerá la FOCA el año que viene y que estará disponible para los RootedLabs, donde pretendemos que haya una versión más rápida, más eficiente y más "voraz".
Saludos Malignos
El problema
Si intentamos hacer primero una fase de análisis de metadatos y luego completarlo con un análisis del dominio usando el DNS Search panel, habrá mucha información que se nos habrá escapado, ya que FOCA, al usar los buscadores como punto inicial de descubrimiento de información y archivos, se encontrará con los límites.
Supongamos que tenemos la tarde lectora y queremos practicar inglés leyendo todos los documentos que tiene publicado el army.mil en Internet. Si intentamos descargar los archivos usando FOCA nos toparemos con los límites, es decir, 1.000 documentos de cada filetype por Google, Bing y Exalead. Eso nos deja, que en el mejor de los casos pudieramos descubrir 3 buscadores * 1.000 resultados = 3.000 documentos de cada tipo. Sin embargo, si miramos el número de ficheros doc publicados en army.mil vemos que hay "alguno más".
Figura 1: 44.000 documentos tipo .doc en army.mil
Además, si lo que se está buscando es sacar provecho a las funcionalidades de análisis de URLs que trae FOCA, necesitaríamos ser capaces de analizar todas las URLs indexadas y, como se puede ver, tenemos un serio problema para localizarlas todas, si nos vamos topando con los límites de los resultados en los buscadores.
Figura 2: Más de 3 millones de referencias a army.mil en Google
Esta claro que, para poder analizar todos los metadatos y todas las URLs necesitamos segmentar el análisis lo máximo posbile - o esperar a que se publiquen los datos en Wikileaks -.
Primero los servers
Para poder segmentar la obtención de enlaces lo mejor que se puede hacer es primero descubrir todos los servidores que se pueda. Para ello primero utilizaremos las funciones del DNS Search Panel para tratar de descubrir todos los dominios y servidores que se pueda.
Figura 3: DNS Search Panel
Hecho esto con FOCA 2.5.6 sobre el dominio del ejemplo me dejo algo más de 5.000 servidores descubiertos y algo más de 8.000 dominios, lo que implica un duro trabajo de análisis a partir de ese punto. Para este ejemplo, nos bastará con descubrir algunos de los dominios.
Figura 4: Algunos dominios descubiertos
Luego los documentos
Una vez en este punto, es más fácil comenzar a descubrir los documentos públicos. Para ello, podemos seleccionar uno de los dominios y buscar los documentos que se encuentran en él, por ejemplo en "capucha".
Figura 5: Ficheros .doc en hood.army.mil
El número ya es suficientemente pequeño como para no hacer saltar los límites de los buscadores, y por tanto, ya le podemos hacer a la FOCA que se coma todos los enlaces a documentos .doc. Aún no hay una opción que haga esto automáticamente así que hay que hacerlo con la búsqueda personalizada.
Figura 6: Búsqueda personalizada de documentos para hood.army.mil
Por último los links
Una vez descubiertos todos los documentos de un subdominio o host, deberíamos ir a todos los sitios, y descargar todos los enlaces asociados a ese dominio, utilizando para ello la opción de "Google Crwaling". Una vez utilizada, obtendremos, de cada sitio, un resultado de ficheros, datos, y análisis de URLs completo.
Figura 7: Resultados por dominios
Como os podéis imaginar, hacer esto con 8.000 dominios es un trabajo de chinos - no he querido hacer ningún chiste infosec con esto - por lo que será una de las cosas que traerá la FOCA el año que viene y que estará disponible para los RootedLabs, donde pretendemos que haya una versión más rápida, más eficiente y más "voraz".
Saludos Malignos
4 comentarios:
Buen artículo. Eso sí, revisa que tienes un par de faltitas ortográficas.
- "Una vez en este punto, es más fácil comoenzar....."
- "Una vez descubiertos todos los documentos de un suddominio....."
Saludos de buen rollo.
Uhm.. me lo estoy viendo venir. Para tantos datos hace falta un motor. Integramos SQL con la FOCA y hacemos un bonito bloatware...
Genial, MVP...
@anónimo 1, gracias, ahora lo arreglo.
@anónimo 2, sí, no deberías usar nunca mi foquita...
Saludos!
Publicar un comentario