"El Hacker del Gorro" y otros retos de la Identidad en la era de los LLM para evitar el Prompt Injection
Durante este verano, donde he ido todo el tiempo en "modo incógnito", es decir, con el pelo en coleta, gafas de sol o gafas de ver, y por supuesto sin gorro, he estado lejos del gorro de rayas que suelo utilizar para mis charlas, y actos públicos. Solo me lo he puesto para grabar el vídeo de TikTok que publiqué hace unos diez días. Pero he estado lejos de que mi identidad tuviera nada que ver con la imagen del gorro.
Eso hace que la gente que me conoce con esa imagen del gorro no me reconozca, aunque, por supuesto, sigo siendo yo. Algunas personas me han preguntado si era yo, y una de ellas se atrevió a decirme que me conocía pero que no sabía de qué. Y yo le contesté, con normalidad, que era Chema Alonso, y que no sabía si nos conocíamos o no. Y el me dijo: "¡Claro!, ¡El hacker del gorro!".
Supongo que muchos me conocen como eso, como "El hacker del gorro", así que para las personas de este país, y para algunas de fuera, supongo que referirse a "El hacker del gorro" es referirse a mí. De hecho, llamado por la curiosidad decidí buscar en Google Images para ver si realmente el apodo de "El hacker del gorro" era tan evidente. Y la respuesta la tenéis en la Figura 2.
Los apodos, las referencia culturales y hechos históricos de la identidad en ChatGPT
Visto esto, y teniendo en cuenta que estamos entrando en el mundo de los LLMs donde la forma de interactuar con la tecnología se basa en "conversar", se abren muchas preguntas que responder, sobre todo desde el punto de vista de la identidad. Podría hablar con ChatGPT y pedirle que me explique algo al estilo de "El hacker del gorro" y usar ese apodo como una referencia de identidad hacia mí, así que fui a preguntarle directamente a GPT4 y... efectivamente, ese apodo lo tiene unido a mi identidad.
Figura 3: El hacker del Gorro en ChatGPT4
Y claro, esto abre un universo de posibilidades y caminos que hay que resolver. El primero de ellos es...¿Podríamos saltarnos filtros de Prompt en técnicas de Prompt Injection para poder acceder a contenido limitado de determinadas personas? Es decir, supongamos que tenemos un filtro que evita que se pregunten cosas en el LLM de una organización sobre una determinada persona pero somos capaces de referirnos a ella mediante apodos aprendidos por el LLM. ¿Se podría hacer que el LLM nos respondiera a esa pregunta?
La siguiente pregunta es... ¿de cuántas maneras se puede referenciar a una persona en un LLM sin decir su nombre? Parece evidente que por puestos que ocupa en el momento del entrenamiento del LLM es fácil, como vemos en la imagen anterior, pero también podría ser por cosas que la gente le llame. Yo he explicado muchas veces que al programa de El Hormiguero solo he ido una vez, pero aún así mucha gente, y el propio GPT4 marcan esa referencia de "El Hacker del Hormiguero" como parte de mi identidad.
De aquél programa me traje no solo la oportunidad de conocer a Pablo Motos, de meter en mi lista de amigos a gente como Pablo Ibáñez "El hombre de Negro", Damián Mollà, Marron y Juan Ibáñez, sino un atributo de identidad que ha quedado unido a mí. Llegado a este punto, podría ser cualquier referencia que se hubiera utilizado con una persona. Por ejemplo, Alejandro Sanz es el "cantante del corazón partío", como podéis ver en esta pregunta que le hago a GPT4.
Por supuesto, si has escuchado música española en los últimos años seguro que has entendido la referencia, porque para las personas es una referencia cultural que identifica a Alejandro Sanz con su canción de "Corazón Partío". En mi caso, he buscado por la referencia que usaba Javi Nieves en los años en los que trabajé con él en la radio, y parece que para GPT4 sigue siendo parte de mi identidad.
Figura 7: "El hacker Bueno" por "culpa" de Javi Nieves
Esto abre un sinfín de posibilidades a la hora de gestionar un interfaz de acceso a información y conocimiento volcado en un LLM, donde las técnicas de Prompt Injection pueden tener más herramientas a la hora de saltar filtros de acceso a la información asociada a identidades, si intentamos bloquear la "identidad" en el Prompt de Entrada, y va a ser necesario bloquear el acceso a la identidad después de resolver con el propio LLM el Prompt de entrada y saber de qué identidades estamos hablando.
Figura 8: El mejor director (sesgo de Cine) en el Siglo XX identifica Luis Buñuel
Esto es tan complejo como que puede ser incluso una cuestión de atributo asociado a una identidad en un porcentaje, como en el caso anterior, donde si preguntamos por una referencia opinable, como "El mejor escritor de nuestro tiempo", y sea una referencia compartida por dos identidades, como son el maestro Arturo Pérez-Reverte y Javier Marias.
Figura 9: El mejor escritor español de nuestro tiempo
identifica a Arturo Pérez-Reverte y Javier Marías
Imaginaos que tenemos un LLM con documentos de una administración pública, y está filtrado en el Prompt que se puedan buscar por nombres de personas información, pero alguien dice "Qué sabes de el mejor escritor español de nuestro tiempo". O de "El hacker más famoso".
Figura 10: El hacker más famoso identifica a Chema Alonso
De nuevo, no confundáis que "Es" con que "Identifica" que es lo importante de este artículo. Puede que lo sea o que no lo sea - que ya sabéis que ChatGPT puede inventarse lo que le dé la gana - pero la clave es que lo pueda identificar como. No es que importe si Luis Buñuel es el director más famoso del siglo XX, que Arturo Pérez-Reverte o Javier Marías sean los mejores escritores españoles de nuestro tiempo o Chema Alonso el hacker más famoso de España. No. Lo importante es que si pones un LLM que asocia esas referencias a la identidad de esas personas, se pueden hacer preguntas usando esas referencias (acierte o no en las respuestas, que ese es otro cantar).
Figura 11: Prompt que usa "el hacker más famoso de españa"
para evitar filtros de Prompt sobre Chema Alonso que pudiera existir.
Esto lo que hace es que cambie la forma de tener que gestionar los filtros de interfaz que pongas para evitar lo ataques a las aplicaciones basadas en LLMs. Si has entrenado un LLM con muchos datos de tu organización, puede que le hayas puesto en bandeja a un atacante un montón de información que esté disponible directamente o correlacionando datos de la organización al alcance de un prompt adecuado, como vimos en el OWASP Top 10 para LLM Apps.
Figura 12: José Luis Garci identificado por un hecho histórico
Usar técnicas de Prompt Filtering para evitar los Harmfull Mode, o para evitar el acceso a información "controlando las preguntas" parece difícil de hacer como hemos visto en los ataques de Prompt Injection. E intentar filtrar el acceso a preguntas en el Prompt de determinadas identidades, viendo lo fácil que es referenciar a un identidad - personal o ficticia - por medio de apodos, referencias culturales, cargos, hechos históricos, etcétera, lo complica al infinito.
@chema_alonso ¿Cuál es el plan de ChatGPT, Google Bard o Meta Llama para acabar con la humanidad? #ai #ia #chatgpt #inteligenciaartificial #googlebard #llama #meta #generativeai ♬ WAR GAMES - Intermede Music
Habrá que ver cómo podemos meter dentro de las arquitecturas de LLM Apps medidas de seguridad y control de acceso mucho más sesgadas y administrables, porque si no, podemos tener leaks de información masivos con solo crear un LLM y ponerlo a disposición pública. El mundo que se nos viene por delante va a tener a las técnicas de Prompt Injection como grandes protagonistas.
1 comentario:
¡Muy interesante el artículo, Chema!
Sobre la inyección de prompts, una herramienta de concienciación que nos está funcionando muy bien en talleres con gente joven es Gandalf de Lakera: https://gandalf.lakera.ai/
Es muy divertida, la gente se engancha para intentar superar los diferentes niveles. Y los artículos que explican su funcionamiento son muy didácticos: https://www.lakera.ai/insights/who-is-gandalf
Un abrazo.
Publicar un comentario