Un informático en el lado del mal: Los LLMs del Futuro: Mercury Coder, un Diffusion LLM (dLLM)

jueves, marzo 13, 2025

Los LLMs del Futuro: Mercury Coder, un Diffusion LLM (dLLM)

En los últimos años, los Large Language Models (LLMs) han surgido como una de las herramientas más transformadoras en el campo de la Inteligencia Artificial. Gracias a su capacidad para procesar, generar y comprender el lenguaje humano con gran precisión y satisfacción del usuario, estos modelos están redefiniendo cómo interactuamos con la tecnología.

Figura 1: Los LLMs del Futuro: Mercury Coder, un Diffusion LLM (dLLM)

Desde la generación de contenido hasta la atención al cliente automatizada, así como la mejora de la accesibilidad y la personalización de servicios, los LLMs están siendo aprovechados de diferentes maneras innovadoras en diversas industrias.

Figura 2: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen Torrano, Fran Ramírez, Paloma Recuero, José Torres y Santiago Hernández

Este rápido crecimiento y la creciente adopción de los LLMs no solo demuestran su utilidad en tareas cotidianas, sino que también subrayan su importancia en el futuro de la Inteligencia Artificial, impulsando avances que permiten crear experiencias más fluidas, inteligentes y humanas.

Transformers

Los LLMs están basados en las arquitecturas de Transformer. La estructura básica está compuesta por un Encoder y un Decoder. El Encoder toma como input una secuencia de texto vectorizado, y el Decoder devuelve como output la secuencia de texto de respuesta. Esta puede ser una respuesta a una pregunta, una traducción de texto o la predicción del texto a continuación.

Figura 2: Arquitectura básica del Transformer

A diferencia de modelos anteriores como las RNNs (Recurrent Neural Networks), no leen el texto de manera secuencial. Los Transformers pueden procesar todo el texto al mismo tiempo y así capturar las relaciones entre las palabras o tokens de manera más eficiente, capturando el contexto completo de una frase. Algunos artículos interesantes si queréis explicaciones más detalladas:

“Attention is all you need”: La investigación que revolucionó la Inteligencia Artificial con los Transformers

¿Qué es un transformer?

¿Cómo funciona un LLM?

Los puntos débiles de los LLMs tradicionales

Los principales problemas de los LLMs actuales son la complejidad computacional, el requerimiento de cantidades masivas de datos para su entrenamiento y su capacidad limitada de razonamiento bi-direccional.

Figura 3: Artículo “Attention Is All You Need”

En él se describen por primera vez los Transformers para LLMs

A pesar de que los LLMs sí que pueden leer el input completo, el output se va produciendo de manera secuencial (autoregresiva). Los LLMs actuales predicen un token a cada paso, basándose en el texto anterior.

Figura 4: Arquitectura de un Transformer

Esto hace que el número de iteraciones necesarias para generar un texto sea proporcional al número de tokens del output deseado. Debido a esta formulación, se podría apuntar que los LLMs autorregresivos pierden cierta capacidad de relación sobre el output que devuelven.

¿Qué son los modelos de difusión?

Los modelos de difusión son un tipo de arquitectura que genera datos (típicamente imágenes, aunque también se aplican para otro tipo de datos como vídeo y audio) empezando con ruido aleatorio que luego se va eliminando gradualmente, hasta obtener un resultado claro. Este proceso inverso de eliminar el ruido paso a paso permite crear imágenes realistas a partir de datos aleatorios o ruidosos.

Figura 5: Proceso de difusión

Algunos modelos basados en difusión que son ampliamente usados y que obtienen excelentes resultados son Sora, Dalle-2, Stable Diffusion, Midjourney o Riffusion, capaces de generar contenido de alta calidad en formato de imagen, vídeo y audio. Puedes leer más sobre este tema en el artículo: ¿Qué son los modelos de difusión? Una guía rápida y completa

¿Cómo funciona un Diffusion LLM (dLLM)?

Un Diffusion LLM es un modelo de lenguaje que combina la técnica de difusión con procesamiento de texto. Funciona generando texto o completando tareas lingüísticas de manera similar a cómo los modelos de difusión generan imágenes. Empieza con ruido (texto aleatorio o blanks) y, paso a paso, lo va refinando hasta obtener un texto coherente y preciso. Los dLLMs son entrenados con grandes cantidades de texto.

El primer paso de entrenamiento es, igual que en un LLM tradicional, aprender las relaciones lingüísticas generales. Esto se consigue haciendo masking (reemplazando un token por un carácter en blanco) al input con una probabilidad definida como parámetro, y pidiendo al modelo que prediga los valores de los tokens que hemos eliminado. El segundo paso, similar al de un LLM tradicional, sería un refinamiento en el que incluiríamos una pregunta y su respectiva respuesta, haciendo masking de tokens de la respuesta únicamente.

Figura 6: Mercurity haciendo código

La mejora más intuitiva de un LLM basado en difusión sería su capacidad de devolver un output sin necesidad de seguir un orden temporal, es decir, que pueden devolver más de un token en cada paso y en la posición que deseen. Esto permite que sean mejores razonando, estructurando y comprendiendo sus propias respuestas.

Son capaces de mirar su respuesta en cada iteración, revisándola y modificándola a cada paso, pudiendo prevenir errores y eliminando instancias de alucinación. Algunos comparan este proceso al pensamiento humano, durante el cual vamos refinando una idea inicial hasta llegar a nuestra formulación final.

Mercury de Inception, el primer dLLM de escala comercial

Inception, una empresa fundada por profesores pioneros en difusión de Standford, Cornell y UCLA, ha publicado recientemente el primer diffusion LLM de escala comercial. Mercury Coder, el primer dLLM que se puede comparar en rendimiento a los LLMs públicos como GPT, Gemini, Claude o DeepSeek, está refinado para la generación de código. Su principal ventaja es la velocidad, siendo de 5 a 10 veces más rápido que los LLM de generación actuales. La necesidad de menos iteraciones para la generación viene mano en mano con la reducción de complejidad computacional y costes.

Figura 7: Mercury comparado con Claude y ChatGPT

Sus resultados en benchmarks de generación de código son mejores en comparación a modelos mini siendo muchísimo menos costoso. Esta velocidad de respuesta, pudiendo ser de hasta 1000 tokens por segundo, sólo ha podido ser obtenida anteriormente usando hardware especializado, aunque Inception lo consigue optimizando el algoritmo de generación. Para leer más sobre el tema visita los siguientes links:

En definitiva, los Diffusion LLMs representan un avance significativo en el procesamiento del lenguaje natural, ofreciendo mayor eficiencia sin sacrificar calidad. Su impacto se reflejará en una adopción más amplia y en el desarrollo de soluciones más accesibles y sostenibles.

Saludos,

Autor: Afina Nurorva, Investigadora Telefónica Innovación Digital

Contactar con Afina Nurova

No hay comentarios:

Publicar un comentario

Un informático en el lado del mal

Buscar artículo

Singularity Hackers

Libro Pentesting con FOCA

Contactos y RRSS

WhatsApp INTelligence

Libro "Hacking Web Technologies"

Libros de 0xWord

Archivo del blog

Blogs y Links

jueves, marzo 13, 2025

Los LLMs del Futuro: Mercury Coder, un Diffusion LLM (dLLM)

No hay comentarios:

Entrada destacada

Cibercriminales con Inteligencia Artificial: Una charla para estudiantes en la Zaragoza

Entradas populares

Chat Público de "El lado del Mal"

Reunirse con Chema Alonso

Agradecimientos en Tempos

Libro de Hacking de
Aplicaciones Web: SQL Injection

Etiquetas

ChemaBot

Un informático en el lado del mal

Buscar artículo

Singularity Hackers

Libro Pentesting con FOCA

Contactos y RRSS

WhatsApp INTelligence

Libro "Hacking Web Technologies"

Libros de 0xWord

Archivo del blog

Blogs y Links

jueves, marzo 13, 2025

Los LLMs del Futuro: Mercury Coder, un Diffusion LLM (dLLM)

No hay comentarios:

Entrada destacada

Cibercriminales con Inteligencia Artificial: Una charla para estudiantes en la Zaragoza

Entradas populares

Chat Público de "El lado del Mal"

Reunirse con Chema Alonso

Agradecimientos en Tempos

Libro de Hacking deAplicaciones Web: SQL Injection

Etiquetas

ChemaBot

Libro de Hacking de
Aplicaciones Web: SQL Injection