Los LLMs del Futuro: Mercury Coder, un Diffusion LLM (dLLM)
En los últimos años, los Large Language Models (LLMs) han surgido como una de las herramientas más transformadoras en el campo de la Inteligencia Artificial. Gracias a su capacidad para procesar, generar y comprender el lenguaje humano con gran precisión y satisfacción del usuario, estos modelos están redefiniendo cómo interactuamos con la tecnología.
Desde la generación de contenido hasta la atención al cliente automatizada, así como la mejora de la accesibilidad y la personalización de servicios, los LLMs están siendo aprovechados de diferentes maneras innovadoras en diversas industrias.
Figura 1: Los LLMs del Futuro: Mercury Coder, un Diffusion LLM (dLLM)
Desde la generación de contenido hasta la atención al cliente automatizada, así como la mejora de la accesibilidad y la personalización de servicios, los LLMs están siendo aprovechados de diferentes maneras innovadoras en diversas industrias.
![]() |
Figura 2: Libro de Machine Learning aplicado a Ciberseguridad de Carmen Torrano, Fran Ramírez, Paloma Recuero, José Torres y Santiago Hernández |
Este rápido crecimiento y la creciente adopción de los LLMs no solo demuestran su utilidad en tareas cotidianas, sino que también subrayan su importancia en el futuro de la Inteligencia Artificial, impulsando avances que permiten crear experiencias más fluidas, inteligentes y humanas.
Transformers
Los LLMs están basados en las arquitecturas de Transformer. La estructura básica está compuesta por un Encoder y un Decoder. El Encoder toma como input una secuencia de texto vectorizado, y el Decoder devuelve como output la secuencia de texto de respuesta. Esta puede ser una respuesta a una pregunta, una traducción de texto o la predicción del texto a continuación.
A diferencia de modelos anteriores como las RNNs (Recurrent Neural Networks), no leen el texto de manera secuencial. Los Transformers pueden procesar todo el texto al mismo tiempo y así capturar las relaciones entre las palabras o tokens de manera más eficiente, capturando el contexto completo de una frase. Algunos artículos interesantes si queréis explicaciones más detalladas:
Los puntos débiles de los LLMs tradicionales
Figura 3: Artículo “Attention Is All You Need”
Esto hace que el número de iteraciones necesarias para generar un texto sea proporcional al número de tokens del output deseado. Debido a esta formulación, se podría apuntar que los LLMs autorregresivos pierden cierta capacidad de relación sobre el output que devuelven.
¿Qué son los modelos de difusión?
Los modelos de difusión son un tipo de arquitectura que genera datos (típicamente imágenes, aunque también se aplican para otro tipo de datos como vídeo y audio) empezando con ruido aleatorio que luego se va eliminando gradualmente, hasta obtener un resultado claro. Este proceso inverso de eliminar el ruido paso a paso permite crear imágenes realistas a partir de datos aleatorios o ruidosos.
¿Qué son los modelos de difusión?
Los modelos de difusión son un tipo de arquitectura que genera datos (típicamente imágenes, aunque también se aplican para otro tipo de datos como vídeo y audio) empezando con ruido aleatorio que luego se va eliminando gradualmente, hasta obtener un resultado claro. Este proceso inverso de eliminar el ruido paso a paso permite crear imágenes realistas a partir de datos aleatorios o ruidosos.
Algunos modelos basados en difusión que son ampliamente usados y que obtienen excelentes resultados son Sora, Dalle-2, Stable Diffusion, Midjourney o Riffusion, capaces de generar contenido de alta calidad en formato de imagen, vídeo y audio. Puedes leer más sobre este tema en el artículo: ¿Qué son los modelos de difusión? Una guía rápida y completa
¿Cómo funciona un Diffusion LLM (dLLM)?
Un Diffusion LLM es un modelo de lenguaje que combina la técnica de difusión con procesamiento de texto. Funciona generando texto o completando tareas lingüísticas de manera similar a cómo los modelos de difusión generan imágenes. Empieza con ruido (texto aleatorio o blanks) y, paso a paso, lo va refinando hasta obtener un texto coherente y preciso. Los dLLMs son entrenados con grandes cantidades de texto.
¿Cómo funciona un Diffusion LLM (dLLM)?
Un Diffusion LLM es un modelo de lenguaje que combina la técnica de difusión con procesamiento de texto. Funciona generando texto o completando tareas lingüísticas de manera similar a cómo los modelos de difusión generan imágenes. Empieza con ruido (texto aleatorio o blanks) y, paso a paso, lo va refinando hasta obtener un texto coherente y preciso. Los dLLMs son entrenados con grandes cantidades de texto.
El primer paso de entrenamiento es, igual que en un LLM tradicional, aprender las relaciones lingüísticas generales. Esto se consigue haciendo masking (reemplazando un token por un carácter en blanco) al input con una probabilidad definida como parámetro, y pidiendo al modelo que prediga los valores de los tokens que hemos eliminado. El segundo paso, similar al de un LLM tradicional, sería un refinamiento en el que incluiríamos una pregunta y su respectiva respuesta, haciendo masking de tokens de la respuesta únicamente.
La mejora más intuitiva de un LLM basado en difusión sería su capacidad de devolver un output sin necesidad de seguir un orden temporal, es decir, que pueden devolver más de un token en cada paso y en la posición que deseen. Esto permite que sean mejores razonando, estructurando y comprendiendo sus propias respuestas.
Figura 6: Mercurity haciendo código
La mejora más intuitiva de un LLM basado en difusión sería su capacidad de devolver un output sin necesidad de seguir un orden temporal, es decir, que pueden devolver más de un token en cada paso y en la posición que deseen. Esto permite que sean mejores razonando, estructurando y comprendiendo sus propias respuestas.
Son capaces de mirar su respuesta en cada iteración, revisándola y modificándola a cada paso, pudiendo prevenir errores y eliminando instancias de alucinación. Algunos comparan este proceso al pensamiento humano, durante el cual vamos refinando una idea inicial hasta llegar a nuestra formulación final.
Mercury de Inception, el primer dLLM de escala comercial
Inception, una empresa fundada por profesores pioneros en difusión de Standford, Cornell y UCLA, ha publicado recientemente el primer diffusion LLM de escala comercial. Mercury Coder, el primer dLLM que se puede comparar en rendimiento a los LLMs públicos como GPT, Gemini, Claude o DeepSeek, está refinado para la generación de código. Su principal ventaja es la velocidad, siendo de 5 a 10 veces más rápido que los LLM de generación actuales. La necesidad de menos iteraciones para la generación viene mano en mano con la reducción de complejidad computacional y costes.
Sus resultados en benchmarks de generación de código son mejores en comparación a modelos mini siendo muchísimo menos costoso. Esta velocidad de respuesta, pudiendo ser de hasta 1000 tokens por segundo, sólo ha podido ser obtenida anteriormente usando hardware especializado, aunque Inception lo consigue optimizando el algoritmo de generación. Para leer más sobre el tema visita los siguientes links:
Mercury de Inception, el primer dLLM de escala comercial
Inception, una empresa fundada por profesores pioneros en difusión de Standford, Cornell y UCLA, ha publicado recientemente el primer diffusion LLM de escala comercial. Mercury Coder, el primer dLLM que se puede comparar en rendimiento a los LLMs públicos como GPT, Gemini, Claude o DeepSeek, está refinado para la generación de código. Su principal ventaja es la velocidad, siendo de 5 a 10 veces más rápido que los LLM de generación actuales. La necesidad de menos iteraciones para la generación viene mano en mano con la reducción de complejidad computacional y costes.
Figura 7: Mercury comparado con Claude y ChatGPT
Sus resultados en benchmarks de generación de código son mejores en comparación a modelos mini siendo muchísimo menos costoso. Esta velocidad de respuesta, pudiendo ser de hasta 1000 tokens por segundo, sólo ha podido ser obtenida anteriormente usando hardware especializado, aunque Inception lo consigue optimizando el algoritmo de generación. Para leer más sobre el tema visita los siguientes links:
- Mercury de Inception
- What is Diffusion LLM and why It matters
- LLaDA: The Diffusion Model That Could Redefine Language Generation
No hay comentarios:
Publicar un comentario