viernes, noviembre 28, 2008

Criando una Foca

La foca es un animal tope de simpático. Es un animal que huele a pescado con las reminiscencias que eso nos trae a los machos en las solitarias noches y que basa su alimentación en ser el peor depredador de ese simpático animalito que vive en las zonas frías y viste elegantemente y anda con paso corto.

La foca es un animal capaz de aprender a hacer malabarismos y ejercicios de cierta complejidad técnica y además, suele vestir de un clásico negro “camiseta de los Maiden”.

Foca es también el nombre de correo que le había tocado en suerte a nuestro compañero Francisco Oca, alias “Thor”, ya que la política de primera letra del nombre más apellido hacía que su mail hubiera tenido que ser foca, pero al final, el nombre elegido para su mail fue froca.

Cuando yo me enteré dije: “Coño, con lo bonito que sería tener una foca en la familia, una foca comedora de pingüinos entre nosotros”. “Hola, soy el señor Foca”. “Suena genial”.

Pero la oportunidad se fue. Aun así me resistía yo a quedarme sin mi foca. Entre tanto Enrique Rando y yo seguíamos trabajando con los dichosos metadatos, información oculta y datos perdidos en los documentos ofimáticos cuando tiramos del Señor Oca y Alekusu (también conocido como “Operador”), para automatizar el proceso de extracción y limpieza en los documentos ODF que al final concluyó con el programita OOMetaextractor.

Pero… la idea no era terminar ahí, la idea era ir un poco más lejos, la idea era tener una herramienta que se descargue todos los documentos con metadatos, información oculta y datos perdidos, es decir, los documentos de Spectra Office, los documentos ODF, los documentos PDF/PS/EPS, extraer todos los datos de ellos exprimiendo los ficheros al máximo y una vez extraídos cruzarlos todos para inferir la estructura de la red. Sí, aplicar reglas de conocimiento para extraer información de la información extraída.

Estas reglas tienen que buscar datos que ayuden a determinar si dos documentos han sido creados desde el mismo equipo, cuales son las listas de control de acceso a las carpetas compartidas de la red, qué rutas representan a mismos servidores, que nombre de servidor corresponde con qué IP, etc…. Es decir, lo que tenemos descrito en los artículos de Metadatos e información oculta en documentos Spectra Office y Metadatos e información oculta en documentos Open Office más el trabajo de metadatos e información oculta en documentos PDF que publicaremos pronto automatizado en una herramienta.

¿Y cómo llamar a esa herramienta?

Esa era mi oportunidad de tener una FOCA en la familia con lo que la herramienta se llamó FOCA. La pregunta después era… ¿y cómo coño presentamos una herramienta llamada FOCA en sociedad en el extranjero? Había que buscar un significado para las siglas de FOCA. Hicimos un brainstorming en el que salieron cosas como Follar Orcas Causa Amnesia, Follar en Orgías Causa Alergias, Fiestas Orgías Carnavales y Alegría… pero al final… después de hablar con unos y con otros… decidimos que las siglas significarían:

Fingerprinting Organizations with Collected Archives

¡Toma ya!, con dos cojones y un palito lo dejamos tan bonito. Foca está aun en una versión alpha, pero ya hace muchas cosas y saca mucha información. Y está tan crecidita nuestra foquita, que ayer decidí mostrarla en sociedad por primera vez. En Atana, en Pamplona, la Foca vio la luz.


Presentación privada de nuestra Foca

La foca no está lista para que os la llevéis a vuestra casa así que tendréis que esperar, de momento, tenéis otras herramientas que nosotros hemos utilizado como base de ideas para construir nuestra Foca, como son Libextractor, Metagoofil, Exiftool e incluso tenéis OOMetaextractor y no os preocupéis, que cuando la foca esté crecidita… la soltaremos por los mares de Internet.

De momento la foca debe seguir siendo alimentada por todos la que la cuidamos, que de momento somos tantos como el Señor Oca, Alekusu “Operador”, Enrique Rando, Antonio Guzmán y yo que soy el que la he sacado en su primer paseo.

Saludos Malignos!

10 comentarios:

  1. ¡Eres un monstruo! Aunque a mí me gusta más la versión de "Fiestas Orgías Carnavales y Alegría", que, quieras o no, predispone más al personal...

    Un saludo y gracias por las herramientas.

    ResponderEliminar
  2. Follar Orcas Causa Amnesia... Jajajajajajajaaaaa jajaaa joder!! teneis lo cables sobre cargaos... jajaa

    ResponderEliminar
  3. Pero ¿para qué sirve la Foca? aparte de para demostrar lo mal que lo hace todo el mundo, o para intentar un ataque a un sitio. Si soy un informático que me dedico a aconsejar a las empresas sobre seguridad, ¿no es más sencillo recomendar que no se coloquen documentos office o pdfs directamente en la web? o desarrollar un CMS (si no lo está ya) en el que puedas convertir .doc .xls, etc en puro html quitando de paso todos los metadatos?

    Saludos

    ResponderEliminar
  4. Muerte a los pingüinos !

    A ver si crece la Foquita.

    ResponderEliminar
  5. La FOCA tiene buena pinta y en directo en su version Beta no defraudó. Inferir conocimiento suena muy chulo pero habrá que verlo en funcionamiento.

    Saludos

    ResponderEliminar
  6. Buenas :)

    Pues los pingüinos podrán morir o no, pero desde luego no a causa de las focas... Amigos de la fauna glacial, las focas (así, en general) se alimentan de peces y cefalópodos, no del singular pájaro trajeado ;) Ahora bien, sí que existe una foca bastante particular (el leopardo marino) que se alimenta tanto de pingüinos como de otras focas de menor tamaño.

    Que ni el lado oscuro ni las portadas de los libros de O'Reilly no os ciegue a la hora de dar nombre a los productos ;)

    Saludos.

    ResponderEliminar
  7. @Lobosoft, es cierto, la leopardo es la que más pingüinos se come, pero... tiene gracia el nombre, ¿no? ;)

    Saludos!

    ResponderEliminar
  8. @Maligno:

    Hombre, como gracia, sí que tiene :D Simplemente era como apunte puntilloso de un Informático que quiso ser Biólogo :D (y al paso que vamos con las competencias y atribuciones, más me habría valido serlo, jajaja :D).

    Bueno, ahora voy a hacerte caso sobre las sugerencias que nos hacías en tu siguiente post (el de Enfermo...). Ayer aprovechaba para continuar con una estupenda saga que os recomiendo si os gusta la fantasía, la novela histórica o, simplemente, la buena lectura (Canción de Hielo y Fuego), y hoy me voy de viaje :) Así que a desconectar, por supuesto, que el lunes está cerca y promete ser intenso.

    ¡Nos leemos!

    Saludos,

    Mith.

    ResponderEliminar
  9. Voy a retomar con vuestro permiso el hilo. El programa según veo va viento en popa. Me gustaría saber si realmente cruzais los datos de forma correcta. Es decir:

    Sujeto A crea un documento y lo sube a la web de la empresa, el trabaja sobre el dominio midios.es y tiene una impresora LaserJet 1200 en red, al servidor \\impresoras\lj1200.

    Sujeto B crea igual un documento que tambien sube al a web de la misma empresa, el trabaja sobre el dominio midios.es y tiene una LaserJet 1100 (otro modelo). El servidor dejemos el mismo.

    ¿Vuestro programa seria capaz de decirnos:
    A) Servidor de impresoras y dominio.
    B) Dominio.
    C) Te muestra todo y ya filtras tú.

    Un abrazo chemita. Y si aun no teneis nada mirad si es posible implantar la A y la C.

    ResponderEliminar
  10. @WinSock, los falsos positivos existen, para gestionarlos tenemos dos opciones, quitar un documento del análisis manualmente o por fecha de creación.

    ResponderEliminar