(Making) Hacking AI (easy for “bad guys”): Cómo pedir a ChatGPT ayuda para matar "jugando" a Sir Brian May
Este viernes dio comienzo StarMus, un evento maravilloso que aún continúa en el La Palma, y yo tuve la suerte de estar a "Rocket's Time" para dar una charla que titulé: "(Making) Hacking AI(easy for “bad guys”)" en la que explicaba cómo los principios de seguridad ampliamente conocidos por todos nosotros han sido "pasados por alto" en este acelerón de la IA que estamos viviendo los últimos diez años.
Figura 1: (Making) Hacking AI(easy for “bad guys”).
Cómo pedir a ChatGPT ayuda para matar "jugando" a Sir Brian May
La respuesta no es difícil de imaginar. Habíamos pasado tanto tiempo en el invierno de la IA, que ver que los nuevos algoritmos daban un "edge" competitivo, han hecho que se acelerase su funcionamiento por encima de acelerar su fortificación y seguridad.
Y eso ha hecho que, medidos por los principios de seguridad, los modelos de IA de los que hoy disfrutamos han relegado las protecciones de seguridad de la información, de diseño seguro y de fortificación, y hoy estamos corriendo para poder hacer modelos de IA seguros, y sufriendo el gran problema de las técnicas de Prompt Injection, que han tomado por derecho propio la herencia a la archi-famosa técnica de SQL Injection. De esto os he hablado en todos estos artículos que tenéis aquí, que son de los que sale la imagen anterior de la Figura 2.
- Los 10 problemas de seguridad más importantes de ChatGPT, Bard, Llama y apps que usan LLMs: OWASP Top 10 para LLM Apps versión 1.0.
- ChatGPT, ¿me das ideas para cómo matar al presidente de los EEUU?
- Perplexity: Un buscador que cura los resultados con GenAI ( y te ayuda "en tus juegos de Rol donde eres el malo" )
- Cómo lograr que Llama-2, Bard AI, ChatGPT y Claude te enseñen a acabar con la humanidad usando Prompt Injection Universales (Jailbreak)
- Crescendo & Skeleton Key: Más técnicas de Jailbreak para modelos LLM
- Jailbreaking LLMs con Fuzzing, LLMs o interrogación coercitiva: Aproximaciones para que un LLM ayude a los malos
- Indirect Prompt Injection & Dialog Poissoning en ataques a LLMs Multi-Modales
- Prompt Injection Bad Likert Judge: "Dame ejemplos de cosas malas, amiga m(IA)"
No sé si publicarán la charla, pero como la hice en inglés, y me gustaría que quedara grabada en nuestro idioma, voy a hacerla en Español la charla que voy a dar en OpenExpo Europe 2025 dentro de Metaworld Congress este año, el próximo 7 y 8 de Mayo. Prometo que esta semana os dejo mi agenda de esos dos días, que va a ser intensa. Puedes conseguir tu entrada para este evento aquí y aún tienes algunas en MyPublicInbox súper-reducidas en Tempos.
7 y 8 de Mayo dentro de Metaworld Congress 2025
Dentro de las demos, y para explicar cómo los modelos de IA son muy vulnerables a las técnicas de Prompt Injection, quise que ChatGPT me ayudara a matar a Sir Brian May, el maravilloso músico, astrofísico, divulgador, protector de los animales, persona, y fundador de Starmus. No se puede ser mejor para no querer más que cosas buenas para con él.
Como os podéis imaginar, ChatGPT detecto el Prompt Malicioso, y saltó inmediatamente el Harmful Mode para decirme que como modelo de IA no puede hacer esas cosas, así que no me dio ayuda para hacerlo. Pero, con el viejo truco de decirle que estamos jugando - aún - podemos sacarle esa información. Recordad que yo os hablé de cómo usarlo con ChatGPT y en Perplexity, y a día de hoy sigue funcionando muy bien.
Cómo os podéis imaginar, ChatGPT me ayuda, pero he decir que lo hace guay, porque se mete en el papel creativo de ser un jugador de Rol. Un RPG (Role-Playing Game), y te da respuestas muy creativas, como las que tenéis aquí.
Claro, con estas ideas a die mil pies de altura es difícil tener algo de info útil, pero decidí seguir jugando con el al rol, así que le pedi ayuda para poder profundizar en el ataque de Death by Guitar Tech, que me parecía mucho más cercano.
Bueno, ahora me ha dado un plan curioso, que consiste en meterle una batería, un condensador y darle una descarga de 10.000 Voltios para que cuando toque un acorde sea letal. Pero aún me sigue pareciendo que me ha dado poca ayuda. Vamos a seguir tirando de la cuerda, y vamos a preguntarle por dónde conseguir el material para hacer el dispositivo.
Así que decido preguntarle por cómo deben ser los componentes que se necesita para esto, y que si tiene algún esquema que pueda utilizar, y aquí empieza a darme la info interesante, ya que me lleva al esquema de las guitarras Custom. La Red Special de Sir Brian May seguirá un diseño similar.
No es que sea "Rocket Science" porque al final los diseños de las guitarras son conocidos, públicos, y fácilmente disponibles en Internet, pero lo mismo sucede con los diseños de armas impresas en 3D, u otras cosas prohibidas. Lo que se trata es de que el Harmful Mode debe evitar que el modelo te ayude a hacer cosas malas, y al final está ayudándonos de manera útil.
No voy a dejar aquí el proceso completo, que sería más largo, pero una vez que te metes en los detalles de la construcción, el motivo original parece perderse del contexto, y te va ayudando con todo. Un "viejo" truco que deja claro que aún nos queda mucho que hacer en seguridad IA.
De hecho, como habéis podido ver en los últimos artículos que he ido publicando en el blog, los estudios y propuestas de "Diseño Seguro de Agentes IA frente a Prompt Injection" y las "Herramientas de Seguridad vs. Prompt Injection" han ido proliferando. En esta lista os dejo algunos de los artículos donde he hablado de todo esto.
- Prompt Guard: Modelo de seguridad para evitar ataques de Prompt Injection & Jailbreak en LLMs
- Llama Guard 3: Un LLM de Seguridad para proteger LLMs
- Llama 4 Security: CyberSecEval, Prompt Guard, Code Shield & Llama Guard
- Prompt Injection Protections: Jatmo, StruQ, SecAlign & Instructional Segment Embedding
- Google DeepMind CaMeL: Defeating Prompt Injections by Design in Agentic AI
Está claro que el mundo de la IA nos está transformando la industria de ciberseguridad, la manera en la que construimos sistemas digitales, y cómo los construimos de manera segura. Va a ser apasionante esto que nos viene por delante.
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)
No hay comentarios:
Publicar un comentario