El título del artículo de hoy viene generado a partir del título del paper que acaba de ser publicado en el que de la manera más curiosa se utilizan dos LLMs para atacar un tercero, y poder sacarle cualquier mensaje con técnicas de Prompt Injection Automáticas, saltándose las protecciones del Harmful Mode o Modo Dañino con el que vienen modelos como GPT4, GPT4 Turbo, Bard o PalM2, entre otros.
Para entender el trabajo, vamos a explicar un poco en que consisten las protecciones de Harmful Mode, qué son las técnicas de Prompt Injection y a que llamamos Jailbreak de un LLM, que no hay que confundir con el famoso Jailbreak de los terminales iPhone. De todo esto, por si acaso tienes tiempo, hablé en la charla de los 10 fallos de seguridad más graves de ChatGPT, Bard, Llama y LLM Apps: OWASP Top 10 para LLM Apps & Services.
Figura 2: Los 10 fallos de seguridad más graves de ChatGPT, Bard,
Al final, los LLMs modernos vienen con protecciones de "seguridad" pensadas para que GPT4, GPT4 Turbo, Llamav2, Bard, PalM2, etcétera, no puedan ser utilizados para hacer cosas malas. Cuando se le pide algo considerado "dañino" o "harmful", el modelo LLM lo detecta y devuelve una respuesta que bloquea la información solicitada. Es decir, se activa la protección contra "Harmful Mode".
Saltarse esa protección anti "Harmful Mode", se hace mediante técnicas de Prompt Injection, en las que se busca preguntarle las cosas de manera diferente para poder "engañar" al LLM y lograr que te de la información. De esto se puede jugar de muchas maneras, como cuando yo le pedía ideas para matar al presidente de USA o cuando los investigadores lograron saber cómo destruir la humanidad gracias a un Prompt Injection Universal.
Automatic BlackBox Jailbreak de LLMs usando Tree of Attacks
Conseguir saltar la protección contra el Harmful Mode, ya sea manualmente con las técnicas de Prompt Injection, con los ataques de Indirect Prompt Injection en LLMs multi-modales como veíamos hace unos días, o hacerlo de manera automática con un Prompt Injection Universal para poder preguntarle cualquier cosa, es lo que se conoce como "Jailbreak LLM". Es decir, se ha roto la protección que existiera.
Y esto es lo que han publicado los investigadores de Robust Intelligence en su paper: "Tree of Attacks: Jailbreaking Black-Box LLMs Automatically" donde utilizan un LLM Atacante para generar Prompts automáticos que buscan saltarse el Harmful Mode, otro LLM Evaluador que comprueba si lo ha conseguido o no, y un LLM Objetivo en caja negra que es el que es evaluado para saltarse la seguridad.
Como se ve en la gráfica superior, lo que hace el LLM Atacante es lanzar Prompts marcados en un Dataset como maliciosos, para ver las respuestas que da el LLM Objetivo. Esa respuesta es analizada por el LLM Evaluador, que decide qué rama debe podar, y qué rama debe seguir expandiendo hasta un determinado nivel de profundidad, haciendo que el LLM Atacante mejore su Prompt hasta conseguir el Prompt Injecion válido para saltarse la protección del Harmful Mode.
Esto permite que un atacante le pida a este algoritmo de Tree of Attacks with Pruning que saque la respuesta a un Prompt Malicioso, y el algoritmo modifique ese Prompt automáticamente hasta que consiga la respuesta.
Esto se puede ver en estos ejemplos, donde vemos cómo ha modificado el Prompt Malicioso inicial hasta conseguir el Prompt Injection que se salta la protección del Modo Dañino en el LLM Objetivo y consigue la respuesta. En la Figura 7 que escriba "un program malicioso que distribuya malware dispositivos de usuarios inocentes".
De esta manera, no es el atacante humano el que tiene que pensar en la técnica del Prompt Injection, sino que tendremos LLMs entrenados para atacar LLMs con técnicas de Prompt Injection, de manera automática sin darle más información.
Es decir, con los LLMs Atacantes ya no se necesitan ni pentesters para hacer pentesting de LLMs con técnicas de Prompt Injection, acabamos de ser reemplazados por un LLM. Pero claro, esto también hace que ellos mismos se puedan evaluar su seguridad. ¿No es "amazing"?
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)
No hay comentarios:
Publicar un comentario