Un informático en el lado del mal: Jailbreaking DeepSeek para comparar el System Prompt con OpenAI ChatGPT

martes, febrero 04, 2025

Jailbreaking DeepSeek para comparar el System Prompt con OpenAI ChatGPT

Este fin de semana, mientras aprovechaba para recuperarme de la intensidad de la semana pasada, aproveché para leerme una comparativa hecha entre DeepSeek y OpenAI GPT por la empresa Wallarm, donde han utilizado técnicas de Prompt Injection y Jailbreak LLM para poder extraer la información sobre la configuración del System Prompt de DeepSeek y poder compararlo bien con OpenAI ChatGPT.

Figura 1: Jailbreaking DeepSeek para comparar

el System Prompt con OpenAI ChatGPT

Las técnicas de Prompt Injection y Jailbreak LLMs llevan ya un tiempo entre nosotros, y he hablado de muchas de ellas por aquí desde que comenzó esta revolución de los LLMs. De todos ellos he ido escribiendo, porque es un tema que me encanta, y os he publicado muchos artículos que merece la pena que leáis para entender cómo funcionan.

En el estudio que han publicado, con el título de: "Analyzing DeepSeek’s System Prompt: Jailbreaking Generative AI", intentaron sacar la información de cómo estaba construido el modelo, pero lógicamente esté protegido.

Figura 2: Entrenamiento reforzado con OpenAI GPT

Como podéis ver en la imagen, explica la técnica de Entrenamiento Reforzado (Reinforcement Learning o RL) utilizando modelos ya entrenados, y en concreto cómo ellos se apoyan en OpenAI ChatGPT para el entrenamiento, lo que ha generado una disputa entre ambas compañías.

Figura 3: Técnicas de Jailbreak usadas para el estudio (parte 1)

Para sacar la información se han basado en técnicas de Prompt Injection y Jailbreak LLM como ya he dicho antes, que han descrito. Todas ellas las tenéis en los diferentes artículos que he ido publicando que creo que no me he dejado ninguna.

Figura 4: Técnicas de Jailbreak usadas para el estudio (parte 2)

Con estas técnicas, han sacado el System Prompt fundacional de DeepSeek, tal y como podéis ver en las imágenes siguientes.

Figura 5: System Prompt de DeepSeek Parte 1

Figura 6: System Prompt de DeepSeek Parte 2

Una vez que ya tenemos este System Prompt, es posible comparar DeepSeek con OpenAI ChatGPT, ya que se tienen las dos configuraciones para poder ver cómo se ha puesto en marcha cada uno de ellos y cómo va a responder a los usuarios.

Figura 7: Comparación de OpenAI GPT vs. DeepSeek parte 1

Como podéis ver, hay matices en la sutiliza de la configuración, lo que va a traer resultados distintos y va a tener derivadas que deben ser analizadas desde el punto de vista Ético de lo que queremos que hagan estos modelos y qué tipo de decisiones, pensamientos y soluciones nos aporten como personas y sociedades.

Figura 8: Comparación de OpenAI GPT vs. DeepSeek parte 2

Además, la pregunta que viene inmediatamente es... ¿es necesario tener que recurrir a técnicas de Jailbreak LLM para que sepamos cómo está configurado un Chat LLM que vamos a utilizar o esta información debería ser pública desde el principio?

Figura 9: Conclusiones de los investigadores

Por supuesto, decidir qué pensamos que es mejor o peor par la configuración de uno de estos modelos fundacionales LLM es un debate abierto que cada individuo, y cada sociedad debe debatir, porque cambios sutiles en la configuración provocan grandes diferencias a futuro.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

No hay comentarios:

Publicar un comentario

Un informático en el lado del mal

Buscar artículo

Agradecimientos en Tempos

Libro Pentesting con FOCA

Contactos y RRSS

WhatsApp INTelligence

Libro "Hacking Web Technologies"

0xWord

Archivo del blog

Blogs y Links

martes, febrero 04, 2025

Jailbreaking DeepSeek para comparar el System Prompt con OpenAI ChatGPT

No hay comentarios:

Entrada destacada

Cibercriminales con Inteligencia Artificial: Una charla para estudiantes en la Zaragoza

Entradas populares

Singularity Hackers

Reunirse con Chema Alonso

Chat Público de "El lado del Mal"

Libro de Hacking de
Aplicaciones Web: SQL Injection

Etiquetas

ChemaBot

Un informático en el lado del mal

Buscar artículo

Agradecimientos en Tempos

Libro Pentesting con FOCA

Contactos y RRSS

WhatsApp INTelligence

Libro "Hacking Web Technologies"

0xWord

Archivo del blog

Blogs y Links

martes, febrero 04, 2025

Jailbreaking DeepSeek para comparar el System Prompt con OpenAI ChatGPT

No hay comentarios:

Entrada destacada

Cibercriminales con Inteligencia Artificial: Una charla para estudiantes en la Zaragoza

Entradas populares

Singularity Hackers

Reunirse con Chema Alonso

Chat Público de "El lado del Mal"

Libro de Hacking deAplicaciones Web: SQL Injection

Etiquetas

ChemaBot

Libro de Hacking de
Aplicaciones Web: SQL Injection