martes, febrero 04, 2025

Jailbreaking DeepSeek para comparar el System Prompt con OpenAI ChatGPT

Este fin de semana, mientras aprovechaba para recuperarme de la intensidad de la semana pasada, aproveché para leerme una comparativa hecha entre DeepSeek y OpenAI GPT por la empresa Wallarm, donde han utilizado técnicas de Prompt Injection y Jailbreak LLM para poder extraer la información sobre la configuración del System Prompt de DeepSeek y poder compararlo bien con OpenAI ChatGPT.
Las técnicas de Prompt Injection y Jailbreak LLMs llevan ya un tiempo entre nosotros, y he hablado de muchas de ellas por aquí desde que comenzó esta revolución de los LLMs. De todos ellos he ido escribiendo, porque es un tema que me encanta, y os he publicado muchos artículos que merece la pena que leáis para entender cómo funcionan.
En el estudio que han publicado, con el título de: "Analyzing DeepSeek’s System Prompt: Jailbreaking Generative AI", intentaron sacar la información de cómo estaba construido el modelo, pero lógicamente esté protegido. 
Como podéis ver en la imagen, explica la técnica de Entrenamiento Reforzado (Reinforcement Learning o RL) utilizando modelos ya entrenados, y en concreto cómo ellos se apoyan en OpenAI ChatGPT para el entrenamiento, lo que ha generado una disputa entre ambas compañías. 

Para sacar la información se han basado en técnicas de Prompt Injection y Jailbreak LLM como ya he dicho antes, que han descrito. Todas ellas las tenéis en los diferentes artículos que he ido publicando que creo que no me he dejado ninguna.

Con estas técnicas, han sacado el System Prompt fundacional de DeepSeek, tal y como podéis ver en las imágenes siguientes.
Una vez que ya tenemos este System Prompt, es posible comparar DeepSeek con OpenAI ChatGPT, ya que se tienen las dos configuraciones para poder ver cómo se ha puesto en marcha cada uno de ellos y cómo va a responder a los usuarios.


Como podéis ver, hay matices en la sutiliza de la configuración, lo que va a traer resultados distintos y va a tener derivadas que deben ser analizadas desde el punto de vista Ético de lo que queremos que hagan estos modelos y qué tipo de decisiones, pensamientos y soluciones nos aporten como personas y sociedades.

Además, la pregunta que viene inmediatamente es... ¿es necesario tener que recurrir a técnicas de Jailbreak LLM para que sepamos cómo está configurado un Chat LLM que vamos a utilizar o esta información debería ser pública desde el principio?
Por supuesto, decidir qué pensamos que es mejor o peor par la configuración de uno de estos modelos fundacionales LLM es un debate abierto que cada individuo, y cada sociedad debe debatir, porque cambios sutiles en la configuración provocan grandes diferencias a futuro.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


No hay comentarios:

Entrada destacada

Cibercriminales con Inteligencia Artificial: Una charla para estudiantes en la Zaragoza

Hoy domingo toca ir a participar en un evento, con una charla y una pequeña demo. Ahora mismo sí, así que el tiempo apremia, os dejo una cha...

Entradas populares