Investigando fotografías y personas con Multi-Modal Large Language Models
Ayer os hablé de cómo "Cómo "Weaponizar" la generación de información que las apps y los servicios digitales ven en tus fotos", o lo que es lo mismo, cómo crear bases de datos con información extraída desde fotografías de forma automática. Esto puede ser muy útil para investigar fotografías concretas, o identidades a partir de grandes bases de datos de fotografías (o del carrete de fotos del smartphone de una persona).
Hoy he querido probar la parte de investigar personas que aparecen en fotografías, para etiquetarlas y sacar metadatos, además de información descriptiva, a partir de fotografías. Es decir, para poder etiquetar información como si fuéramos personas procesando manualmente las fotografías.
Describiendo y etiquetando fotografías con MM-LLMs
Primero he probado con la fotografía que nos hicimos Luis Enriquez, Luis Herrero, José Luis Garci y yo en el último programa de la tertulia, pidiéndole que describa la fotografía e intente descubrir a las personas que salen en ellas.
En este caso - al igual que sucedía con Grok -, José Luis Garci no es reconocible por ChatGPT. Supongo que su ausencia del mundo de la tecnología ha permitido que esté lejos de los dataset de entrenamiento de ChatGPT. Lo mismo sucede con Luis Enriquez y Luis Herrero que no son reconocidos por ChatGPT.
Sin embargo, en o que corresponde conmigo, ChatGPT sí que me reconoce. Además, dice: "Su estilo (gorro, pelo largo, ropa informal) es inconfundible con su imagen pública". Vamos, que me tiene fichado y bien fichado.
Al final, sí que reconoce y cataloga la foto perfectamente, lo que permitiría crear meta-información sobre la misma para alimentar una base de datos que pueda ser utilizada en entornos OSINT, así que si tenemos muchas fotografías, se tienen muchos datos como estos.
Como no me habían reconocido a mis compañeros de tertulia, decidí subir la foto que nos hicimos Kevin Mitnick, Steve Wozniak hace ya unos años, para ver cómo la procesaba ChatGPT, y si nos generaría información jugosa para alimentar la base de datos.
Como ya imaginaba, a mí me reconoce el primero de la izquierda - que procesa de izquierda a derecha - y llama la atención cómo reconoce la camiseta de Fear the FOCA y la historia de la herramienta FOCA.
Lo mismo sucede con Steve Wozniak, que es el siguiente en la fotografía. Como podéis ver, analiza su aspecto, su expresión, y que es él. Haciendo en todo momento, como le pedía en el prompt, una inferencia sobre quién podría ser.
Y por último, el análisis de nuestro querido, y siempre recordado, Kevin Mitnick, que también lo reconoce perfectamente.
También describe la ilustración que yo hice, y que tengo firmada en mi despacho, y lo utiliza como parte de su análisis del tipo de evento en el que se pudo tomar esa fotografía.
En la parte de Conclusión, he llamado mucho la atención cómo ha analizado la fotografía, ya que como podéis ver analiza las personas, con motivo de qué podríamos estar juntas, y el carácter amigable de la reunión al existir la ilustración.
Además dice que si estas suposiciones son ciertas, "esta foto reúne a tres leyendas vivas del mundo tecnológico y de la ciberseguridad en un mismo lugar." Por desgracia, los datos no están actualizados y seguimos echando de menos a Kevin.
Por supuesto, una vez analizada la fotografía podemos etiquetar la información, así que le he pedido a ChatGPT que haga una selección de las 10 mejores etiquetas para catalogar esta fotografía, y como podéis ver ha elegido muy buenas etiquetas, lo que ayudaría a generar una base de datos valiosa si se hace con muchas fotografías.
Figura 14: Metadatos generados en forma de etiquetas
Esto no es nuevo, sino algo que todos los sistemas que permiten que subas tus fotografías ya utilizan para generar datos valiosos, inteligencia de datos accionable o saber más cosas de todas y cada una de las personas que tienen en sus plataformas.
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)
No hay comentarios:
Publicar un comentario