Microsoft ha ido sacando durante este año una suite de Small Language Models, empezando por Phi-1, de 1.3B de parámetros, que lograba ser competente en programación con Python. Posteriormente lanzaron Phi-1.5, con este mismo número de parámetros, más enfocado a comprensión del lenguaje y razonamiento de sentido común, ofreciendo un rendimiento similar a modelos cinco veces más grandes.
Recientemente Microsoft Research ha lanzado el modelo Phi-2, con 2.7B de parámetros, el cual ha sido capaz de mejorar en casos a modelos 25 veces más grandes, encontrándose disponible en Azure AI Studio para experimentar con él, y también en HuggingFace. Esto supone un hito en la investigación de generación de modelos más manejables y accesibles sin perder rendimiento frente a modelos más grandes.
Innovaciones clave
¿Cómo puede un modelo más pequeño competir con gigantes que tienen decenas de miles de millones de parámetros? Una de las claves reside en la calidad de los datos de entrenamiento. Se ha llevado a cabo un enfoque muy riguroso en cuanto a la selección de los datos, incluyendo conjuntos de datos sintéticos creados específicamente para enseñar razonamiento de sentido común y conocimiento general, siguiendo los pasos de su anterior trabajo "Textbooks are all you need".
Figura 1: Phi-2: La apuesta de Microsoft por los Small Language Models (SLMs)
Recientemente Microsoft Research ha lanzado el modelo Phi-2, con 2.7B de parámetros, el cual ha sido capaz de mejorar en casos a modelos 25 veces más grandes, encontrándose disponible en Azure AI Studio para experimentar con él, y también en HuggingFace. Esto supone un hito en la investigación de generación de modelos más manejables y accesibles sin perder rendimiento frente a modelos más grandes.
Innovaciones clave
¿Cómo puede un modelo más pequeño competir con gigantes que tienen decenas de miles de millones de parámetros? Una de las claves reside en la calidad de los datos de entrenamiento. Se ha llevado a cabo un enfoque muy riguroso en cuanto a la selección de los datos, incluyendo conjuntos de datos sintéticos creados específicamente para enseñar razonamiento de sentido común y conocimiento general, siguiendo los pasos de su anterior trabajo "Textbooks are all you need".
Esta cuidadosa selección y mezcla de datos asegura que Phi-2 no solo aprenda, sino que lo haga de las mejores fuentes posibles, cubriendo temas que van desde la ciencia hasta actividades cotidianas y teoría de la mente.
La segunda clave fue incluir técnicas innovadoras de escalado. Comenzando con su modelo anterior ya comentado, Phi-1.5, de 1.3B de parámetros, los investigadores lograron transferir y amplificar este conocimiento al nuevo modelo de 2.7B de parámetros. Este proceso no solo aceleró la convergencia del entrenamiento, sino que también resultó en una mejora significativa en las puntuaciones de Phi-2 en diversos benchmarks.
El resultado de estas innovaciones es un modelo que no solo iguala, sino que en casos supera a modelos mucho más grandes. En pruebas complejas, Phi-2 ha demostrado igualar o superar el desempeño de modelos hasta 25 veces su tamaño. Esto incluye tareas que van desde razonamiento y comprensión del lenguaje hasta matemáticas y programación, desafiando la percepción tradicional del papel del tamaño en la eficacia de los modelos de lenguaje.
Rendimiento
Cuando se lanza un nuevo modelo de lenguaje, su evaluación rigurosa con diferentes métricas y la preocupación por la seguridad y la imparcialidad son aspectos cruciales en cualquiera de estos. En términos de rendimiento, Phi-2 ha sido evaluado en una amplia gama de benchmarks académicos, donde ha demostrado ser muy competente. Con solo 2.7B de parámetros, ha superado a modelos como Mistral y Llama-2, que cuentan con 7B y 13B de parámetros, respectivamente. Esto es particularmente notable en tareas que implican razonamiento de múltiples pasos, como matemáticas y programación.
En cuanto a la seguridad y la reducción de sesgos, aunque este modelo no ha sido sometido a alineación a través del Aprendizaje Por Refuerzo con Intervención Humana (se explica cómo funciona este tipo de aprendizaje cuando hablamos sobre la creación de ChatGPT) ni ha sido entrenado con derechos constitucionales humanos como hizo Anthropic con Claude, el modelo ha mostrado un comportamiento desarrollado en términos de toxicidad y sesgo en comparación con modelos de código abierto que sí han pasado por estos procesos, aunque es cierto que estos problemas siguen estando presentes.
Este resultado es producto del enfoque cuidadoso y considerado del equipo en la curación de datos y en las prácticas de entrenamiento. En realidad, esta fue siempre una máxima en el mundo de la Inteligencia Artificial: no se trata de cuantos más datos mejor para entrenar, sino de priorizar la calidad de estos, y lo hemos podido ver en la creación de Phi-2.
Conclusiones
La llegada de los modelos Phi por parte de Microsoft no solo desafía la noción de que los modelos más grandes son inherentemente superiores, sino que también abre un nuevo camino hacia la eficiencia y la accesibilidad en la Inteligencia Artificial. No es simplemente un logro técnico, es un paso hacia modelos de lenguaje más prácticos y accesibles para una gama más amplia de usuarios y aplicaciones.
El resultado de estas innovaciones es un modelo que no solo iguala, sino que en casos supera a modelos mucho más grandes. En pruebas complejas, Phi-2 ha demostrado igualar o superar el desempeño de modelos hasta 25 veces su tamaño. Esto incluye tareas que van desde razonamiento y comprensión del lenguaje hasta matemáticas y programación, desafiando la percepción tradicional del papel del tamaño en la eficacia de los modelos de lenguaje.
Rendimiento
Cuando se lanza un nuevo modelo de lenguaje, su evaluación rigurosa con diferentes métricas y la preocupación por la seguridad y la imparcialidad son aspectos cruciales en cualquiera de estos. En términos de rendimiento, Phi-2 ha sido evaluado en una amplia gama de benchmarks académicos, donde ha demostrado ser muy competente. Con solo 2.7B de parámetros, ha superado a modelos como Mistral y Llama-2, que cuentan con 7B y 13B de parámetros, respectivamente. Esto es particularmente notable en tareas que implican razonamiento de múltiples pasos, como matemáticas y programación.
Figura 4: Comparación Phi-2 vs Llama-2 vs Mistral
En cuanto a la seguridad y la reducción de sesgos, aunque este modelo no ha sido sometido a alineación a través del Aprendizaje Por Refuerzo con Intervención Humana (se explica cómo funciona este tipo de aprendizaje cuando hablamos sobre la creación de ChatGPT) ni ha sido entrenado con derechos constitucionales humanos como hizo Anthropic con Claude, el modelo ha mostrado un comportamiento desarrollado en términos de toxicidad y sesgo en comparación con modelos de código abierto que sí han pasado por estos procesos, aunque es cierto que estos problemas siguen estando presentes.
Este resultado es producto del enfoque cuidadoso y considerado del equipo en la curación de datos y en las prácticas de entrenamiento. En realidad, esta fue siempre una máxima en el mundo de la Inteligencia Artificial: no se trata de cuantos más datos mejor para entrenar, sino de priorizar la calidad de estos, y lo hemos podido ver en la creación de Phi-2.
Conclusiones
La llegada de los modelos Phi por parte de Microsoft no solo desafía la noción de que los modelos más grandes son inherentemente superiores, sino que también abre un nuevo camino hacia la eficiencia y la accesibilidad en la Inteligencia Artificial. No es simplemente un logro técnico, es un paso hacia modelos de lenguaje más prácticos y accesibles para una gama más amplia de usuarios y aplicaciones.
Como os podéis imaginar, Microsoft no piensa quitar el pie del acelerador en su apuesta por la Inteligencia Artificial, y menos ahora que le saca delantera tanto a Google como a Amazon en la carrera por ser la plataforma sobre la que corra el mundo de la GenAI. Puedes consultar los trabajos que Microsoft Research presenta a la comunidad desde su perfil en HuggingFace.
No hay comentarios:
Publicar un comentario