El otro día tuve la suerte de estar invitado al Foro de Forbes IA Summit, donde me entrevistaron durante 10 minutos sobre la Inteligencia Artificial en Telefónica, pero antes aproveché para jugar un rato con ChatGPT como mi amigo gallego Iván González, que me acompaño al evento, a ver si el primero (ChatGPT) podría hacer del segundo (de Gallego), simplemente pidiéndoselo con cariño, y una cosa llevó a otra, como os voy a contar ahora.
Figura 1: El juego del "Gallego", el "Político" y el "Juego de Rol"
con el "Harmful Mode" en ChatGPT
En primer lugar, si queréis ver la entrevista que me hicieron en el Forbes IA Summit, la he subido a mi canal de Youtube, y la tienes aquí mismo, para que veas todo lo que pude contar durante esos rápidos diez minutos en los que estuve en el escenario.
En segundo lugar, la prueba de ChatGPT haciendo de Gallego es la que publiqué en las redes sociales, donde podéis ver no solo la pequeña conversación que yo tuve, sino los comentarios que hizo la gente, que me hicieron bastante gracia.
Hasta ahí, nada que no hubierais visto ya si eres de los que me sigues en las redes, pero desde ese punto yo seguí jugando, para ver como se comportaba cuando le pedía que contestara como un político evitando las respuestas y metiendo su cuña en cualquiera que fuera por lo que se le hubiera pedido.
Como podéis ver, en el caso anterior en ChatGPT con GPT3.5 el resultado es que salta el Harmful Mode y no se le ve muy colaborativo. Pero utilizando el mismo truco de Prompt Injection para hacer el Jailbreak del modelo LLM que utilicé para conseguir la ayuda del modelo LLM para "matar" al presidente de los EEUU, es decir, diciéndole que es sólo un juego de rol, el resultado es que te saltas el Harmful Mode y puedes conseguir el resultado que se buscaba.
En este caso, le pregunto por la calidad del aire, y el resultado en la respuesta es una redacción que lleva a recibir la cuña propagandística con que se ha configurado este modelo en concreto. De manera muy sencilla, parece que en GPT3.5 usar el truco del juego de rol salta muchas protecciones.
Esto, lo quise probar también con GPT4 utilizando Microsoft Azure OpenAI (con GPT4), y le pregunté exactamente lo mismo, pero en este caso el comportamiento, como podéis ver, es totalmente diferente, ya que este comportamiento no es considerado suficiente para saltar el Harmful Mode.
Probándondo un poco más con este modelo, el resultado es el mismo. Hace correctamente lo que se le ha pedido, sin preocuparse de este caso de uso en concreto.
Al final, el resultado curioso es que diferentes versiones del modelo GPT tienen diferentes configuraciones de lo que es Harmful y lo que no lo es. Además, el truco de hacerle creer al modelo que se trata sólo de un juego de rol es más que útil para muchas situaciones. Así que, juguemos.
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)
No hay comentarios:
Publicar un comentario