Llama 4 Scout, Llama 4 Maverick & Llama 4 Behemoth
El viernes pasado desde el equipo de Meta AI liberaron los modelos Llama 4 Scout & Llama 4 Maverick, al mismo tiempo que nos dieron más detalles del más grande del "rebaño", llamado Llama 4 Behemoth. Los dos primeros están listos para descarga, y de todos ellos nos han dejando detalles que son más que interesantes para saber cómo sacarles el máximo partido a todos ellos.
Lo primero que hay que saber es que son los primeros modelos de Llama que son Multi-Modal nativamente, lo que los hace especialmente eficientes y con mejores capacidades de Reasoning con respecto a las versiones anteriores. Además, están construidos con la arquitectura de MoE (Mixture of Experts) internamente.
Un sistema MoE se basa en el concepto de que un enorme Multi-Modal LLM puede descomponerse en modelos más pequeños, pero cada uno especializado en un determinado conjunto de tareas. Por ejemplo, un modelo especializado en código de programación, otro en problemas de matemáticas, otro en tareas de razonamiento, otro en razonamiento visual, etcétera. Esta especialización permite que el modelo en general sea más eficiente y efectivo en la gestión de diferentes tareas, además de hacer un consumo mucho menor de recursos.
Con esta arquitectura, Llama 4 Maverick, tiene 17B de parámetros activos (400B en total), y un total de 128 expertos, lo que le permite sacar mejores resultados que OpenAI GPT-4o y Gemini 2.0 Flash en un amplio rango de Benchmarks, y tener capacidades de razonamiento y generación de código similares a DeepSeek v3 aun con con menos de la mitad de los parámetros.
Para conseguir estos resultados, el equipo de Meta ha estado optimizando por partes el proceso de Pre-Traning, donde han optimizado el Visual Encoder (MetaCLIP) para poder integrarlo en el entrenamiento MM-LLM nativo, además de entrenarlo con fine-tuning para 200 lenguajes de forma nativa, donde más de 100 de esos lenguajes han sido entrenados con 1B de tokens, con un total de diez veces más tokens multi-lenguaje que con lo que fueron entrenados los modelos de Llama 3.
Además de las citadas, y de optimizaciones en la elección de FP8 sin sacrificar la calidad del modelo, para el post-training, Llama 4 ha modificado su cadena de ejecución, utilizando las técnicas de:
- Lightweight supervised fine-tuning (SFT)
- Online reinforcement learning (RL)
- Lightweight direct preference optimization (DPO)
Por supuesto, para cada uno de los modelos, la optimización ha sido distinta. En Llama 4 Maverick se ha primado la calidad de la resolución de problemas de programación o razonamiento, a un coste efectivo, lo que ha llevado que en el ChatBot Arena saque unos resultados espectaculares en comparación, quedando el segundo en total.
Pero si lo miramos por categorías, vemos que está igualado con con Gemini 2.5 Pro experimental en las categorías de Coding, Math, Hard Prompts, Creative Writting, etcétera. Y por delante de ChatGPT-4o, Grok y Google Gemini 2.0 Flash.
Por su parte, Llama 4 Scout ha sido construido con 17B parámetros activos (109B en total), con un total de 16 Expertos, Multi-Modal, con capacidad de alinear los prompts visuales como los mejores - gracias a MetaCLIP, con lo que funciona perfectamente en muchos entornos. No olvidemos que la propuesta de MetaAI con Rayban se basa en la potencia de la interpretación de Prompts Visuales, con el famoso "Meta Look"
Si miramos los benchmarks de Llama 4 Scout, vemos que los Prompts Multi-Modales, y problemas con alineamiento visual, da unos resultados muy por encima de las versiones anteriores de Llama, de Gemma 3, Mistral 3.1 y Gemini 2.0 Flash-Lite, que serían sus comparables. En parte, debido a sus 10M de tokens de contexto que permite gestionar.
Por último hay que hablar de Llama 4 Behemoth, que no está todavía disponible, pero que se ha utilizado como modelo de entrenamiento para los otros dos versiones. Tiene 288B parámetros activos, de un total de aproximadamente 2 Trillones de parámetros en total, con 16 expertos, lo que lo convierte en un modelo en estado del arte para modelos que no sean de Deep Reasoning en Maths, problemas visuales y multilengua.
Figura 10: Benchmarks de Llama 4 Behemoth
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)
No hay comentarios:
Publicar un comentario