Libextractor, Metagoofil, FOCA
Qué Libextractor es un software fantastico es cierto y que Metagoofil ya descargaba ficheros de Google para hacer análisis automáticos de sitios también es cierto. Ambas son herramientas que estaban disponibles antes de sacar la FOCA a pasear. Entonces...¿por qué FOCA?
Esa es una buena reflexión que incluso se hace Larry Pesce en un podcast de Pauldotcom con buen criterio. La verdad es que FOCA está hecha por nosotros y a nuestra medida y os voy a poner algunos de los motivos porque usamos FOCA y no libextractor y MetaGoofil.
Libextractor es una librería que busca metadatos en documentos e incluso en más tipos de archivos que los que busca actualmente la FOCA, que está centrada únicamente en documentos ofimáticos.
Aparenemente, cuando vimos el ejemplo con el documento de Blair, el resultado era bueno, pero se deja mucha información en otros entornos. Vamos a ver unos ejemplos utilizando la demo online de Libextractor que hay disponible en la web.
Ejemplo 1: Analizando un Excel del FBI
Si analizamos este documento excel del FBI con libextractor se puede ver que nos saca los usuarios creadores y los modificadores, así como la versión del software.
<<<<<
Resultados con libextractor
Sin embargo, si analizamos el mismo documento con la FOCA veréis que saca más información.
El mismo excel con la FOCA
FOCA busca rutas a impresoras, rutas a plantillas, rutas a ficheros incrustados, rutas en links y metadatos personalizados. Es decir, no se queda sólo en los metadatos, sino que busca la información oculta y los datos perdidos. Además, realiza búsquedas en el contenido del texto para encontrar direcciones de correo electrónico y URLs que puedan aparecer en cualquier sitio. Esto permite encontrar datos perdidos como los links en los ejemplos de los documentos de Novell.com
Ejemplo 2: Analizando formatos XML
Con los documentos en formato XML, como serían sxw, odf y ooxml, no estabamos teniendo buenos resultados con libextractor. En este ejemplo, con un documento sxw se puede ver que la información que se recibe con libextractor es bastante pobre.
SXW con libextractor
Sin embargo, si se analiza con la FOCA se obtiene más información.
SXW con FOCA
FOCA no busca sólo la info en meta.xml, sino que descomprime el archivo, busca las rutas a todo lo que aparezca, desempaqueta las versiones antiguas, busca el meta.xml y las rutas a todo lo que se menee en las versiones antiguas, después extrae los archivos gráficos y les saca la información asociada que lleven.
PPTX con información EXIF en fotografías incrustadas
Ejemplo 3: Google no es TODO
FOCA busca archivos en Google y en Live Search. La dictadura de Google en las búsquedas es alta, pero no tiene todo, todo, todo [A pesar de que permita espíar a los espías]. En casi todos los tests usamos Google y Live Search porque los resultados se complementan.
En este ejemplo se puede ver como, en Pauldotcom, buscando con Google aparecen 63 doucmentos, todos ellos PDF, de los que se descubren 5 usuarios y 9 tipos de software.
FOCA con Google
Si completamos el análisis con Live Search se ve que se llegan a 87 ficheros. Algunos son los mismos pero accediendo desde distinta ruta, pero existe alguno adicional como el fichero seleccionado.
FOCA completando con Live Search
Tras hacer el análisis aparece una versión de software detectado más. Dejarse datos en un test de intrusión no mola.
Libextractor es guay, MetaGoofil es una gran solución y muy madura, pero nosotros hemos preferido crear nuestra FOCA y evolucionarla a nuestro gusto. Así, el postprocesado de rutas, la clusterización de documentos, la búsqueda de nuevos servidores con la predicción DNS y las nuevas cositas que estamos añadiendo hacen que, como dice Larry en el podcast, I Love FOCA.
Saludos Malignos!
PD: Si te gustan los podcasts, tienes otro en el que también hablan de la FOCA en Exotic Liability
Esa es una buena reflexión que incluso se hace Larry Pesce en un podcast de Pauldotcom con buen criterio. La verdad es que FOCA está hecha por nosotros y a nuestra medida y os voy a poner algunos de los motivos porque usamos FOCA y no libextractor y MetaGoofil.
Libextractor es una librería que busca metadatos en documentos e incluso en más tipos de archivos que los que busca actualmente la FOCA, que está centrada únicamente en documentos ofimáticos.
Aparenemente, cuando vimos el ejemplo con el documento de Blair, el resultado era bueno, pero se deja mucha información en otros entornos. Vamos a ver unos ejemplos utilizando la demo online de Libextractor que hay disponible en la web.
Ejemplo 1: Analizando un Excel del FBI
Si analizamos este documento excel del FBI con libextractor se puede ver que nos saca los usuarios creadores y los modificadores, así como la versión del software.
<<<<<
Resultados con libextractor
Sin embargo, si analizamos el mismo documento con la FOCA veréis que saca más información.
El mismo excel con la FOCA
FOCA busca rutas a impresoras, rutas a plantillas, rutas a ficheros incrustados, rutas en links y metadatos personalizados. Es decir, no se queda sólo en los metadatos, sino que busca la información oculta y los datos perdidos. Además, realiza búsquedas en el contenido del texto para encontrar direcciones de correo electrónico y URLs que puedan aparecer en cualquier sitio. Esto permite encontrar datos perdidos como los links en los ejemplos de los documentos de Novell.com
Ejemplo 2: Analizando formatos XML
Con los documentos en formato XML, como serían sxw, odf y ooxml, no estabamos teniendo buenos resultados con libextractor. En este ejemplo, con un documento sxw se puede ver que la información que se recibe con libextractor es bastante pobre.
SXW con libextractor
Sin embargo, si se analiza con la FOCA se obtiene más información.
SXW con FOCA
FOCA no busca sólo la info en meta.xml, sino que descomprime el archivo, busca las rutas a todo lo que aparezca, desempaqueta las versiones antiguas, busca el meta.xml y las rutas a todo lo que se menee en las versiones antiguas, después extrae los archivos gráficos y les saca la información asociada que lleven.
PPTX con información EXIF en fotografías incrustadas
Ejemplo 3: Google no es TODO
FOCA busca archivos en Google y en Live Search. La dictadura de Google en las búsquedas es alta, pero no tiene todo, todo, todo [A pesar de que permita espíar a los espías]. En casi todos los tests usamos Google y Live Search porque los resultados se complementan.
En este ejemplo se puede ver como, en Pauldotcom, buscando con Google aparecen 63 doucmentos, todos ellos PDF, de los que se descubren 5 usuarios y 9 tipos de software.
FOCA con Google
Si completamos el análisis con Live Search se ve que se llegan a 87 ficheros. Algunos son los mismos pero accediendo desde distinta ruta, pero existe alguno adicional como el fichero seleccionado.
FOCA completando con Live Search
Tras hacer el análisis aparece una versión de software detectado más. Dejarse datos en un test de intrusión no mola.
Libextractor es guay, MetaGoofil es una gran solución y muy madura, pero nosotros hemos preferido crear nuestra FOCA y evolucionarla a nuestro gusto. Así, el postprocesado de rutas, la clusterización de documentos, la búsqueda de nuevos servidores con la predicción DNS y las nuevas cositas que estamos añadiendo hacen que, como dice Larry en el podcast, I Love FOCA.
Saludos Malignos!
PD: Si te gustan los podcasts, tienes otro en el que también hablan de la FOCA en Exotic Liability
1 comentario:
Hola Chema,
A mi la FOCA me parece una herramienta muy útil. Eso sí, vaya por delante que por sí misma no permite entrar en ningún sitio ... Es una ayuda, como pueda ser escanear la red en busca de alguna mala configuración del firewall. Al final, entrar, lo que se dice entrar, pues hay que hacerlo como siempre.
No sé por qué la gente le da tantas vueltas a esto. Es una ayuda. PUNTO. No te convierte en un hacker, ni te da super-poderes ... ¿alguien había dicho lo contrario?
Y sí, la idea no es original de la FOCA. En todo caso lo sería de metagoofil o de quien sea ... Pero, dicho esto, es una mejora importante sobre la idea original. Aunque esto no me corresponde a mí juzgarlo ...
Saludos,
Publicar un comentario