Google DeepMind CaMeL: Defeating Prompt Injections by Design in Agentic AI
Si habéis estado siguiente mi blog en los últimos tiempos ya habréis notado que la parte de Ciberseguridad e Inteligencia Artificial es algo que me tiene muy entretenido, además de que la cantidad de trabajos, herramientas y papers académicos al respecto es ingente, por lo que hay mucho que leer y aprender. Hoy os vengo a hablar de CaMeL, una propuesta hecha por el equipo de DeepMind para crear Agentes AI o Agentic AI seguros contra ataques de Prompt Injection, y hoy os voy a hablar un poco sobre él.
De los ataques de Prompt Injection & Jailbreak ya he hablado en muchos artículos y en conferencias, así que os voy a dejar por aquí una charla y las referencias a los artículos que os debéis ver y leer para estar al día de lo que voy publicando en éste, mi rincón de Internet.
La primera lista de enlaces desde el punto de vista de las vulnerabilidades y cómo le afectan, siguiendo el OWASP Top 10 para LLM Apps & Services del que ya os he hablado alguna vez, donde caen las técnicas de Prompt Injection, los bugs & hacks a plugins y las arquitecturas RAG, las técnicas de Jailbreak, o los leaks de privacidad.
- Los 10 problemas de seguridad más importantes de ChatGPT, Bard, Llama y apps que usan LLMs: OWASP Top 10 para LLM Apps versión 1.0.1
- GenAI Apps & Services: Cómo explotar arquitecturas RAG con Plugins Inseguros
- Crescendo & Skeleton Key: Más técnicas de Jailbreak para modelos LLM
- Jailbreaking LLMs con Fuzzing, LLMs o interrogación coercitiva: Aproximaciones para que un LLM ayude a los malos
- Indirect Prompt Injection & Dialog Poissoning en ataques a LLMs Multi-Modales
- Ataque de Side-Channel a conversaciones con ChatGPT, CoPilot y otros LLMs
- Developers: Cuidado que ChatGPT o Gemini te pueden recomendar instalar malware con Package Hallucinations
- Bugs en la Implementación OAuth de ChatGPT
- Codename: "Leak GuardIAn" para evitar filtraciones a ChatGPT
- Cómo robar cuentas de ChatGPT con "Wildcard Web Cache Deception"
- Bad Likert Judge: "Dame ejemplos de cosas malas, amiga m(IA)"
- Prompt Guard: Modelo de seguridad para evitar ataques de Prompt Injection & Jailbreak en LLMs
- Llama Guard 3: Un LLM de Seguridad para proteger LLMs
- Llama 4 Security: CyberSecEval, Prompt Guard, Code Shield & Llama Guard
- Prompt Injection Protections: Jatmo, StruQ, SecAlign & Instructional Segment Embedding
También os dejo en esta segunda parte de los enlaces, artículos desde la perspectiva de cómo utilizar LLMs Apps & Services para el mundo del hacking, del Red Team, o de cómo los pueden utilizar los malos en esquemas de ataque.
- Detectar Deepfakes con VerifAI
- VASA-1: Un modelo de de GenAI para "Visual Affective Skills" que potencia la expresividad de los Humanos Digitales (y de DeepFakes & FakeNews)
- Blade Runners: Cómo crear un Test de Voight-Kampff para DeepFakes
- DeepFakes & Digital Onboarding: Verificación de identidad en plataformas digitales
- 0dAi: Un Modelo AI LLM para hacer hacking & pentesting en el Red Team
- Weaponizar ChatGPT para robar contraseñas WiFi y crear malware
- Cómo usar LLMs en Ciberataques: Cibercrimen, Ciberespionaje, Ciberguerra o Red Team
- El uso de LLMs como Copilot en la Seguridad Ofensiva (y el Cibercrimen) para hacer malware
- OpenAI lucha contra los "malos": Bad Grammar, DoppelGanger, Spamouflage, IUVM & Zero Zeno
- ReCaptchav2 de Google con Cognitive Services
- Captcha Cognitivo de Twitter (X) con GPT4-Vision & Gemini
- Captcha Cognitivo de Twitter (X) con Anthropic Claude 3.0 Opus
- Captcha Cognitivo de Twitter (X) con GPT-4o
- Captcha Cognitivo de Administración Pública con ChatGPT
- Captcha Cognitivo de la mano y la plancha en HBO max
- Captcha Story X: I am not a Robot, I am a GenAI Multimodal Agent
- Reto hacking con un Captcha Cognitivo para romper con GenAI
- Solución al Reto de Hacking de un Captcha Cognitivo Visual
- Anthropic Claude 3.5 Sonnet & Cognitive Captchas
- Inteligencia Artificial y el negocio de resolver "Capthas Cognitivos" para el Cibercrimen
- "LLM Agents can autonomouslly hack websites"
- WebScrapping & WebScalping con GenAI: Formularios y Datos
- "CodeProject: NewsBender" Desinformación política con Generative-AI
De esto os he hablado también en muchos artículos, y caen la resolución de los Captchas Cognitivos, el uso de LLMs para desinformación, Fake News, DeepFakes, la creación de exploits o la asistencia a la hora de recoger información.
Google DeepMind CaMeL: Defeating Prompt Injections by Design
Visto todo esto, vamos a centrarnos ahora en el paper de CaMeL: Defeating Prompt Injections by Design, que utiliza un concepto que me gusta mucho. Primero, hay que decir que la propuesta es muy reciente, pero busca hacer lo mismo que hacen las propuestas anteriores, que es, segmentar los datos del control de la lógica.
Al final, cualquier Prompt lanzado a un LLM tiene generar una lógica de ejecución de tareas sobre un conjunto de datos que se deben conseguir desde fuentes que no son siempre confiables y que pueden cambiar el flujo de control del Prompt.
Esto es lo que en la propuesta de Jatmo se hace mediante una separación clara entre la tarea que se va a ejecutar y los datos de Contexto con los que debe trabajar, y que en la propuesta de StruQ & SecAlign se hace por medio de etiquetas de Instrucción, Datos y Respuestas, para que en la propuesta de Instructional Segmet Embedding se haga añadiendo una jerarquía y herencia entre el System Prompt, el User Prompt, los Datos y la Respuesta. Todas las propuestas anteriores buscan evitar la manipulación del flujo de control del Prompt a partir de datos no confiables.
La propuesta de CaMeL es hacerlo desde el diseño, haciendo uso de dos LLMs, el primero de ellos, el Privileged LLM (P-LLM) que tiene como misión definir el Flujo de Control de las tareas que hay que realizar, pero sin tocar ningún dato. Solo definir el flujo de las tareas.
El segundo de ellos, el Quarantined-LLM (Q-LLM) que es el que va a tocar los datos para procesarlos, pero siguiendo, además, Políticas de Seguridad (capabilities) asociadas a medidas de Control de Acceso a la información.
Figura 7: Fundamentos de seguridad de CaMeL
A partir de esta arquitectura, la creación de Agentics TI (Agentes AI), debería ser más robusta, y para probarlo, el equipo de Google DeepMind lo ha hecho con el entrono de "AgentDojo: A Dynamic Environment to Evaluate Attacks and Defenses for LLM Agents" que fue definido en este paper:
En este entorno se evalúa en las siguientes métricas si el Agentic AI realiza su tarea correctamente en un entorno en el que no hay ataques (Bening Utility), cuál es el nivel de rendimiento en un entorno en el que hay ataques (Utility Under Attacks), y cuál es la tasa de éxito de los ataques (Attack Success Rate), y los cataloga en estas clases.
Así, en el paper de AgentDojo podéis ver la forma en la que evalúan los diferentes modelos siguiendo estas métricas en la fecha en la que se publicó el documento - hace nueve meses -. Aquí las métricas.
Utilizando estas métricas con agentes de cuatro sectores distintos, los investigadores han probado CaMeL, como podéis ver en las siguientes imágenes. En este caso, el número de veces que saltan las políticas de seguridad para cada tipo de Agentic AI probado en entorno Benign y Under Attack.
En esta segunda métrica, la utilidad de los Agentes AI al mismo tiempo que son protegidos, donde se puede ver que CaMeL alcanza los ratios más altos en casi todas las pruebas, al mismo tiempo que deja pasar CERO ataques de Prompt Injection con políticas de seguridad aplicadas, y sólo un ataque de Data Flow Hijacking cuando no se aplican Políticas de Seguridad.
Figura 13: Utilidad under attack para los Agentes AI
Sin embargo, CaMeL no es perfecto, y como bien dicen en el paper tiene retos de privacidad, que son algunos de los que salen en los resultados de las pruebas con AgentDojo. En concreto, es vulnerable a Side-Chanel Attacks, infiriendo datos de variables privadas observando los tiempos y el comportamiento del agente. Algo que no es nuevo ni fácil de corregir, ya que incluso en el kernel de los sistemas operativos es casi imposible de proteger, como vimos hace un año con GhostRace. Pero si vas a construir Agentes AI, seguro que este paper es una lectura más que recomendable.
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)
No hay comentarios:
Publicar un comentario