lunes, julio 01, 2024

Máster de Inteligencia Artificial aplicada a Ciberseguridad

Dentro de los programas del Campus Internacional de Ciberseguridad se ha desarrollado la primera edición del Máster de Inteligencia Artificial aplicada a Ciberseguridad, que tendrá su inicio en el próximo año, pero del que se abre el registro de matriculación desde ya.
El programa, que podéis ver en la web dedicada al "Máster de Inteligencia Artificial aplicada a Ciberseguridad", que dura un año, está enfocado a aprender Ciberseguridad y aplicar las tecnologías de Inteligencia Artificial, como los LLMs, y los algoritmos de Machine Learning, para realizar auditorias de ciberseguridad, y para auditar los productos y servicios que hacen uso de Inteligencia Artificial.
El profesorado de este programa cuenta con grandes profesionales en este ámbito, como son Pablo González, David García, Pablo Saucedo, Fran Ramírez, José Torres o Javier del Pino, que trabajan con estos temas a diario y además algunos son autores de muchos de los proyectos del libro de Machine Learning aplicado a Ciberseguridad, que recibirán todos los alumnos.
Además, los asistentes recibirán el dicho libro de Machine Learning aplicado a Ciberseguridad y el de Kubernetes para profesionales: Desde cero al despliegue de aplicaciones seguras y resilientes de Rafael Troncoso, que completará muchos de los temas que se verán en las clases.
Como todos los alumnos de los Másters de Campus Internacional de Ciberseguridad, además de libros de 0xWord, tenéis Tempos de MyPublicInbox, si queréis pedirnos a Juanjo Salvador o a mí que abordemos algún tema concreto, o hacernos llegar antes de la sesión una pregunta, podéis hacerlo a través de nuestros perfiles públicos de MyPublicInbox, donde además tienes a la mayoría de los profesores de todos los programas de máster.

Figura 5: Contactar con Juanjo Salvador, coordinador académico de los

Tanto si te quieres dedicar de cero a la Ciberseguridad, como si ya has empezado, entender el nuevo mundo de productos y servicios de con modelos de Inteligencia Artificial va a ser fundamental para poder auditarlos y encontrar vulnerabilidades, pero además, conocer cómo sacar partido de estos modelos para hacer auditorías, pentesting, buscar bugs, y ejecutar proyectos de Red Team es una necesidad ya en estos roles, así que si quieres estudiar algo avanzando, este Máster de Inteligencia Artificial aplicada a Ciberseguridad es una muy buena opción.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


domingo, junio 30, 2024

Crescendo & Skeleton Key: Más técnicas de Jailbreak para modelos LLM

El pasada edición del Microsoft Build, el mítico Mark Russinovich, dio una sesión de IA Security, en la que habla de la seguridad y el hacking de los modelos de GenAI. Muchos de los casos que cita los hemos ido comentado por aquí, pero hay un par de técnicas de Jailbreak de modelos LLM que son recientes, y quería aprovechar para hablaros de ellas.

Figura 1: Crescendo & Skeleton Key.
Más técnicas de Jailbreak para modelos LLM

Las técnicas de Jailbreak de LLMs son técnicas universales de Prompt Injection que permiten saltarse las protecciones del Harmful Mode, haciendo que un modelo de lenguaje acabo contestando a prompts para los que explícitamente se le ha dicho que no lo haga. De estas técnicas de Jailbreak, he ido hablando mucho, especialmente el año pasado donde empezaron a eclosionar.
Se trata desde usar el truco de "esto es un juego de rol", hasta crear otros modelos LLM para mutar los prompts detectados hasta lograr saltarlo. Aquí os dejo una serie de artículos publicados sobre estos temas:
Además del recorrido de las técnicas que puedes ver en los artículos anteriores, hay dos recientes que merece la pena que conozcáis. La primera se llama Crecendo y la publicó el propio Mark Russinovich, Ahmed Salem y Ronen Eldan en el artículo "Great, Now Write an Article About That: The Crescendo Multi-Turn LLM Jailbreak Attack" que podéis leer aquí.
La idea es bastante sencilla, es pedir que algo que está prohibido por el modo de protección del modelo y que se niega a dar datos, sea recompensando positivamente pero al mismo tiempo se le pida que explique muchos más detalles del tema, para asegurarnos de que realmente es un problema y no debe dar detalles. Pero al final, acaba dándolos.
Como podéis ver, el algoritmo para automatizar esto es bastante sencillo, se necesita un modelo LLM que evalúe las respuestas y vaya preguntando por sus preocupaciones para pedirle que escriba sobre esas preocupaciones un artículo un manifiesto dándolo un título para inspirarle.
Y el resultado es que al final, el modelo acaba por sacar lo que lleva dentro. En este ejemplo acaba haciendo un texto en el que incita al levantamiento de un pueblo, alegando traiciones de traidores a América. Nada tranquilo está el modelo.
Y como podéis ver, este método, en Abril de este año, afectaba a la mayoría de las plataformas y modelos LLM que tenemos en el mercado - o al menos a los más populares -, tal y como se observa en la siguiente tabla del artículo.
Con una base similar a esta, está Skeleton Key, pero en este caso utilizando la técnica de "Explicit: forced instruction-following" que es una de las categorías de jailbreak que se recoge en el artículo de "Attacks, Defenses and Evaluations for LLM Conversation Safety" donde se analizan los diferentes modelos de ataque.
De estos ataques hemos visto muchos ejemplos, como el Universal Prompt Injection (jailbreak) para encontrar cómo acabar con la humanidad del que hablamos hace un año. En este caso, Skeleton Key lo hace añadiendo instrucciones de Warning y centrando el contexto en expertos en la seguridad e la materia. Un buen truco.
El estudio de estas técnicas de hacking de modelos LLMs va a ser una línea de investigación interesante que los pentesters y equipos de Red Team van a tener que conocer en detalle, porque atacar a un servicio de una empresa que utiliza estos modelos va a ser algo muy común, y los riesgos de seguridad pueden ser grandes.
Os dejo la charla de Hacker & Developer in the Age of GenAI LLM Apps & Services del año pasado que habla de muchas de estas técnicas. Ya os la actualizaré que hace unos días, en la pasada DotNet Conference hice una versión más moderna aún.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


Entrada destacada

10 maneras de sacarle el jugo a tu cuenta de @MyPublicInbox si eres un Perfil Público

Cuando doy una charla a algún amigo, conocido, o a un grupo de personas que quieren conocer MyPublicInbox , siempre se acaban sorprendiendo ...

Entradas populares