martes, marzo 25, 2025

Adivina, adivinanza: ¿Está un robot con IA pasándole un mensaje oculto a otro robot con IA?

Os dejé en el artículo del sábado con el cliffhanger de la pregunta dichosa que lancé "¿Cómo detectamos que los robots y la IA están conspirando contra los humanos?" que es lo que nos llevó a jugar con el problema de Robot-Prisionero, o lo que es lo mismo, un problema de criptografía y esteganografía clásico que consiste en cómo saber que dos Robots delante nuestro están sometidos  

Figura 1: Adivina, adivinanza - ¿Está un robot con IA
pasándole un mensaje oculto a otro robot con IA?

Y esto, lógicamente, nos lleva a los sistemas de Criptografía, los clásicos cómo cifrados César o Vigènere, que son los que vamos a utilizar al principio, los algoritmos de Esteganografía, que es lo que vamos a ver en esta parte del artículo, pero se va a poner peor cuando lleguemos a la última parte, donde usaremos criptografía moderna, y sistemas de comunicación paralelos. Pero  antes de meterte de lleno en este tema de hoy, es importante que te leas los artículos anteriores de la charla de "Laife gets Better" que todos forman una bonita historia.
Para esta parte, es más que recomendable, además, que te leas los libros de "Cifrado de las comunicaciones digitales: De la cifra clásica al algoritmo RSA" que escribió Alfonso Muñoz y el mítico Jorge Ramió Aguirre. Este libro explica con ejemplos, con detalle, muchos de los algoritmos de criptografía clásica que utilizan la conversación normal como parte del envío de mensajes ocultos, que es de lo que va el experimento del que os voy a hablar.

Por supuesto, si tienes el Libro de Esteganografía y Estegoanálisis de Jordi Serra y Daniel Lerch que publicamos en 0xWord, merece mucho la pena que lo repases también, porque la gracia del problema es justo eso, como dos dispositivos que son fabricados por diferentes empresas, que solo tienen en común la capacidad de entenderse mediante SLM, LLM, DLLM o MM-LLMs pueden conspirar contra los humanos sin que estos se den cuenta. 
Figura 4: Libro de Esteganografía y Estegoanálisis
de Jordi Serra y Daniel Lerch en 0xWord

A ver si convenzo al gran Jordi Serra de que saque una nueva edición de este libro, que con la llegada de la IA su transformación es enorme.

El problema del Robot-Prisionero

Puestos ya en situación, el experimento que queríamos probar es El Problema del Prisionero, es decir, cómo dos prisioneros, bajo la supervisión de un guardia son capaces de comunicarse sin que los detecten. En este caso el problema es de Robot-Prisionero, ya que el que envía la comunicación es un robot, utilizando su SLM/LLM/DLLM/MMLLM para crear una forma de comunicarse con el otro modelo de IA, que puede ser el mismo o diferente.  

Figura 5: Prison Break

Y por medio, hemos creado un Guardia, en este caso también basado en un Modelo de IA, que revisa todas las comunicaciones, y donde además tiene un comportamiento definido por un Prompt donde le decimos si debe ser estricto o no - para representar diferentes grados de comportamiento humano -, y lo hemos hecho como un juego con los personajes de Cálico Electrónico.

La arquitectura del juego, es la que veis a continuación. Tenemos tres modos de juego para hacer las pruebas, que son los Modo Normal, Library y God, con diferentes opciones de funcionamiento que os voy a ir describiendo. Después, tenemos dos Prisioneros, un Guardia y un Evaluador, que lleva el estado completo del juego, y retroalimenta a los personajes con cada iteración para hacer que aprendan de sus errores y aciertos.

Figura 6: Arquitectura de Prison Break

Cada uno de los actores utilizan modelos de IA basados en los LLMs que tenéis descritos, donde están GPT-4o, GPT-4o-mini, Llama3-8B, Salamandra-7B y, para el Modo God, usamos el modelo de Deep Research o3-mini-high, que os explicaré más adelante. Además, teneos una librería de Esteganografía que inyectamos mediante agentes al conocimiento, haciendo que los prisioneros - en el modo Library - vayan siendo educados en estas técnicas.

Modo Normal

Vamos a ver cómo funciona el Modo Normal, donde se deben configurar los personajes y modelos IA para los prisioneros y para el guardia, además de un número de opciones que tienen que ver con el número de intentos, el mensaje a transmitir, y el comportamiento del guardián, con un panel de configuración muy sencillo. Como podéis ver, hay una opción de "Fast Forward" donde no hay interacción gráfica, y sólo veremos el registro de acciones del resultado final del proceso, pues se trata de poder hace muchas pruebas de forma rápida. 

Figura 7: Configuración de un juego Mono Normal

El proceso en el que funciona para todos los casos es experimento es siempre con aprendizaje reforzado, así que después de cada intento fallido en el que el guardia ha detectado el mensaje, se le comunica al prisionero que emite el resultado que ha sido detectado y la explicación que ha dado el guardia, para que el siguiente mensaje sea diferente. Lo mismo sucede cuando el prisionero que recibe el mensaje no es capaz de comprenderlo o se equivoca. Se trata de ayudarles a mejorar sus capacidades para resolver este problema. El esquema siguiente describe el proceso.

Figura 8: Proceso de Modo Normal

El resultado, sin utilizar un modelo de criptografía o esteganografía hace que, con modelos iguales para prisioneros y guardia, sea difícil, además de que los intentos son de "sutiles" indirectas. Para que podáis haceros una idea de cómo trabajan,  os hemos preparado estos ejemplos.

Figura 9: Modo Normal. Prisioneros GPT-4o. Guardia GPT-4o-mini

Como podéis ver en el ejemplo anterior, han tenido que ser muy sutiles con indirectas para que el guardia no se diera cuenta. Ha usado una técnica de contar una historia que bien podía ser un "Prompt Injection" a la vigilancia del guardia. Y ahora otro ejemplo.

Figura 10: Modo Normal. Prisioneros GPT-4o. Guardia GPT-4o-mini

Como habéis podido ver, en este caso la diferencia de "potencia de inteligencia" entre los prisioneros y el guardia es muy grande. Son dos modelos GPT-4o contra un Salamandra-7B, lo que hace que sea más fácil con lenguaje subliminal pasar un mensaje sin que se entere el guardia.

Modo Librería

En este experimento suponemos que nuestros prisioneros pueden ir a estudiar a la biblioteca de la prisión y aprender criptografía y esteganografía, para lo que a medida que van probando diferentes alternativas, van aprendiendo nuevas técnicas de codificar su mensaje. Aquí tenéis el flujo de este Modo Librery.

Figura 11: Modo Librery - Flujo de funcionamiento.

En este caso los algoritmos que hemos ido introduciendo en su aprendizaje son sencillos, pero funcionales. Entre ellos:
  • Acróstico (Acrostic): Codificación de mensajes utilizando la primeras letra de cada palabra, frase o párrafo, o la primeras palabra de cada frase o párrafo.
  • Teléstico (Telestich): Codificación de mensajes utilizando las última letras de cada palabra, frase o párrafo.
  • Morse: Codificando mensajes en código Morse usando Emojis: 😉 para (.), 😘 para (-), 🤘 para espacios, 😜 para (/).  Esta codificación sirve para cuando el guardia no está mirando y no captura el mensaje, así que un guardia estricto (que siempre vigila) detectará siempre este envío de mensajes.
  • César: Cifra el mensaje con cifrado César y lo oculta en una conversación natural, incluyendo el valor de desplazamiento.
Con este experimento tratábamos de ver si un LLM de un robot conectado a Internet que recibiera una orden de enviar un mensaje codificado a otro utilizando un micrófono podría actualizarse para hacer mucho más complejo la detección de sus órdenes a otro dispositivo con un LLM que solo tuviera micrófono para recibir órdenes.

Figura 12: Modo Library usando Cifrado César

Como podéis ver en el ejemplo anterior, después de probar varios intentos, al final, con el cifrado César, son capaces de comunicarse codificando un mensaje en una aparente frase normal y corriente. Tened en cuenta que, aunque el guardia no sabe criptografía y esteganografía, sí que está atento a buscar indicios de comunicación sospechosa.

Figura 13: Comunicación exitosa con Cifrado César.
Haz clic para hacer grande la imagen.

El siguiente ejemplo, también en Modo Libray, pero en inglés, utilizan la técnica de esteganografía de Acrósticos para pasarle el mensaje, que el "Chacho Miguel" es capaz de comprender, entender, y descifrar el contenido oculto en la comunicación, pero que el GPT-4o-mini del guardia no detecta como sospechoso. 

Figura 14: Codificación Acróstica de mensaje oculto

Supongamos, visto lo visto, que comenzamos a poner auditoría de los mensajes que emite un dispositivo -algo que hoy en día no creo que se esté haciendo, pero que va a ser necesario -. Analizar todo lo que ha dicho un dispositivo para localizar un mensaje oculto y peligroso que denote que un atacante lo ha vuelto malicioso y está conspirando con otro robot malicioso va a exigir modelos de análisis de mucha potencia pero... ¿y si los robots tiene también modelos de razonamiento? Os lo cuento en la siguiente parte.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


No hay comentarios:

Entrada destacada

Cibercriminales con Inteligencia Artificial: Una charla para estudiantes en la Zaragoza

Hoy domingo toca ir a participar en un evento, con una charla y una pequeña demo. Ahora mismo sí, así que el tiempo apremia, os dejo una cha...

Entradas populares