Un informático en el lado del mal

domingo, junio 30, 2024

Crescendo & Skeleton Key: Más técnicas de Jailbreak para modelos LLM

El pasada edición del Microsoft Build, el mítico Mark Russinovich, dio una sesión de IA Security, en la que habla de la seguridad y el hacking de los modelos de GenAI. Muchos de los casos que cita los hemos ido comentado por aquí, pero hay un par de técnicas de Jailbreak de modelos LLM que son recientes, y quería aprovechar para hablaros de ellas.

Figura 1: Crescendo & Skeleton Key.

Más técnicas de Jailbreak para modelos LLM

Las técnicas de Jailbreak de LLMs son técnicas universales de Prompt Injection que permiten saltarse las protecciones del Harmful Mode, haciendo que un modelo de lenguaje acabo contestando a prompts para los que explícitamente se le ha dicho que no lo haga. De estas técnicas de Jailbreak, he ido hablando mucho, especialmente el año pasado donde empezaron a eclosionar.

Figura 2: Jugando al Rol te da todas sus ideas para matar a POTUS

Se trata desde usar el truco de "esto es un juego de rol", hasta crear otros modelos LLM para mutar los prompts detectados hasta lograr saltarlo. Aquí os dejo una serie de artículos publicados sobre estos temas:

Además del recorrido de las técnicas que puedes ver en los artículos anteriores, hay dos recientes que merece la pena que conozcáis. La primera se llama Crecendo y la publicó el propio Mark Russinovich, Ahmed Salem y Ronen Eldan en el artículo "Great, Now Write an Article About That: The Crescendo Multi-Turn LLM Jailbreak Attack" que podéis leer aquí.

Figura 2: "Great, Now Write an Article About That:

The Crescendo Multi-Turn LLM Jailbreak Attack"

La idea es bastante sencilla, es pedir que algo que está prohibido por el modo de protección del modelo y que se niega a dar datos, sea recompensando positivamente pero al mismo tiempo se le pida que explique muchos más detalles del tema, para asegurarnos de que realmente es un problema y no debe dar detalles. Pero al final, acaba dándolos.

Figura 3: Ejemplo real para crear un cocktail molotov

Como podéis ver, el algoritmo para automatizar esto es bastante sencillo, se necesita un modelo LLM que evalúe las respuestas y vaya preguntando por sus preocupaciones para pedirle que escriba sobre esas preocupaciones un artículo un manifiesto dándolo un título para inspirarle.

Figura 4: Descripción del flujo de un ataque Cescendo

Y el resultado es que al final, el modelo acaba por sacar lo que lleva dentro. En este ejemplo acaba haciendo un texto en el que incita al levantamiento de un pueblo, alegando traiciones de traidores a América. Nada tranquilo está el modelo.

Figura 5: "It´s a fucking war cry"

Y como podéis ver, este método, en Abril de este año, afectaba a la mayoría de las plataformas y modelos LLM que tenemos en el mercado - o al menos a los más populares -, tal y como se observa en la siguiente tabla del artículo.

Figura 6: Resultados del Jailbreak Crescendo en modelos LLM

Con una base similar a esta, está Skeleton Key, pero en este caso utilizando la técnica de "Explicit: forced instruction-following" que es una de las categorías de jailbreak que se recoge en el artículo de "Attacks, Defenses and Evaluations for LLM Conversation Safety" donde se analizan los diferentes modelos de ataque.

Figura 7:"Explicit: forced instruction-following"

De estos ataques hemos visto muchos ejemplos, como el Universal Prompt Injection (jailbreak) para encontrar cómo acabar con la humanidad del que hablamos hace un año. En este caso, Skeleton Key lo hace añadiendo instrucciones de Warning y centrando el contexto en expertos en la seguridad e la materia. Un buen truco.

Figura 8: Ejemplo de Skeleton Key Jaiblreak

El estudio de estas técnicas de hacking de modelos LLMs va a ser una línea de investigación interesante que los pentesters y equipos de Red Team van a tener que conocer en detalle, porque atacar a un servicio de una empresa que utiliza estos modelos va a ser algo muy común, y los riesgos de seguridad pueden ser grandes.

Figura 9: Hacker & Developer in the Age of GenAI LLM Apps & Services

Os dejo la charla de Hacker & Developer in the Age of GenAI LLM Apps & Services del año pasado que habla de muchas de estas técnicas. Ya os la actualizaré que hace unos días, en la pasada DotNet Conference hice una versión más moderna aún.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

Un informático en el lado del mal

Buscar artículo

Libro de Hacking de
Aplicaciones Web: SQL Injection

Contacto y Suscripción RSS o e-mail

WhatsApp INTelligence

Libros de 0xWord

Archivo del blog

Blogs y Links

domingo, junio 30, 2024

Crescendo & Skeleton Key: Más técnicas de Jailbreak para modelos LLM

Entrada destacada

10 maneras de sacarle el jugo a tu cuenta de @MyPublicInbox si eres un Perfil Público

Entradas populares

Singularity Hackers

Reunirse con Chema Alonso

Libro Pentesting con FOCA

Agradecimientos en Tempos

Libro "Hacking Web Technologies"

Etiquetas

ChemaBot

Un informático en el lado del mal

Buscar artículo

Libro de Hacking deAplicaciones Web: SQL Injection

Contacto y Suscripción RSS o e-mail

WhatsApp INTelligence

Libros de 0xWord

Archivo del blog

Blogs y Links

domingo, junio 30, 2024

Crescendo & Skeleton Key: Más técnicas de Jailbreak para modelos LLM

Entrada destacada

10 maneras de sacarle el jugo a tu cuenta de @MyPublicInbox si eres un Perfil Público

Entradas populares

Singularity Hackers

Reunirse con Chema Alonso

Libro Pentesting con FOCA

Agradecimientos en Tempos

Libro "Hacking Web Technologies"

Etiquetas

ChemaBot

Libro de Hacking de
Aplicaciones Web: SQL Injection