12 Days of OpenAI: Let’s dive in! [ Días 7 a 12 ]
En la primera parte de este artículo titulada: "12 Days of OpenAI: Let’s dive in! [ Días 1 a 6 ]" respasamos los seis primeros días del particular Calendario de Adviento de OpenAI con que nos regaló este año. El anuncio de o1, o1 Mode Pro y o1-mini, Reinforcement Fine-Tunning, el anuncio de la disponibilidad de Sora, Canvas, ChatGPT en Apple Intelligence, y el uso de ChatGPT con acceso a la cámara y la pantalla del terminal - además de la voz de Papá Noel -, fue lo que nos dio de sí la primera parte de este proyecto.
Ahora vamos con la segunda parte de este Calendario de Adviento de doce días de OpenAI y repasamos lo que se anunció desde el día 7 al 12.
Día 7: Projects
El día siete trajo una funcionalidad llamada “Projects” para organizar los chats y trabajar (como su nombre indica) con proyectos dentro de ChatGPT. Esto permite otorgar contexto a un proyecto mediante el uso de ficheros o de ciertas instrucciones dadas.
Imagina un proyecto sobre una página web al cual le hemos compartido documentación técnica del framework utilizado y nuestro código. Lo cual nos permite rápidamente iterar sobre ese contenido sin necesidad de enviar todo el contexto al modelo cada vez que se inicia un nuevo chat.
Día 8: ChatGPT Search
El día ocho presentaron el buscador de ChatGPT Search, algo similar a lo que ya tenía Perplexity y que incluso tienes disponible en Movistar+ para usar con Aura. Esta funcionalidad en ChatGPT ya la veníamos disfrutando algunos usuarios seleccionados, pero a partir de este día ya está disponible para todos los usuarios autenticados.
Figura 12: 12 Days of OpenAI: Let’s dive in! [ Días 7 a 12 ]
Ahora vamos con la segunda parte de este Calendario de Adviento de doce días de OpenAI y repasamos lo que se anunció desde el día 7 al 12.
Día 7: Projects
El día siete trajo una funcionalidad llamada “Projects” para organizar los chats y trabajar (como su nombre indica) con proyectos dentro de ChatGPT. Esto permite otorgar contexto a un proyecto mediante el uso de ficheros o de ciertas instrucciones dadas.
Figura 13: Using Projects in ChatGPT
Imagina un proyecto sobre una página web al cual le hemos compartido documentación técnica del framework utilizado y nuestro código. Lo cual nos permite rápidamente iterar sobre ese contenido sin necesidad de enviar todo el contexto al modelo cada vez que se inicia un nuevo chat.
Día 8: ChatGPT Search
El día ocho presentaron el buscador de ChatGPT Search, algo similar a lo que ya tenía Perplexity y que incluso tienes disponible en Movistar+ para usar con Aura. Esta funcionalidad en ChatGPT ya la veníamos disfrutando algunos usuarios seleccionados, pero a partir de este día ya está disponible para todos los usuarios autenticados.
Nos permite como su nombre indica buscar en Internet mediante una pregunta en lenguaje natural y nos responderá a partir del contexto provisto por dicha búsqueda, además de referencias y enlaces a diferentes sitios web.
Figura 15: Buscando con ChatGPT Search
Según OpenAI el modelo detrás de este buscador se trata de un GPT-4o “finetuneado” para extraer información de la red, mejorar las habilidades de búsqueda (qué términos buscar) y expresar la respuesta en lenguaje natural respondiendo la pregunta formulada.
Día 9: Developers Day - APIs & WebRTC
Este día estuvo dedicado a los desarrolladores y a la API, las principales novedades fueron que el modelo de OpenAI o1, presentado el primer día, ya está disponible mediante la API permitiendo salidas estructuradas, conexión a datos externos y APIs e incluso capacidad de visión.
Además se ha introducido soporte a WebRTC, se trata de un estándar que permite la transmisión en tiempo real de audio, vídeo y datos entre navegadores y dispositivos. Esto es básicamente lo que utilizan muchas de las aplicaciones de videollamadas o streaming en vivo que usamos a diario para intercambiar datos entre los peers.
En la imagen anterior te dejo un ejemplo de cómo crear una sesión WebRTC usando JavaScript. Además se ha reducido el coste de GPT-4o en un 60%, se introduce una nueva técnica de fine-tuning basada en las preferencias del usuario y desarrollador, y se ponen disponibles nuevos SDKs para Java y Go.
Día 10: ChatGPT en WhatsApp
Una noticia curiosa pero tranquila, ChatGPT ya está en WhatsApp y mediante teléfono. Un movimiento que Meta ya había hecho meses antes pudiendo conversar con los modelos Llama directamente por WhatsApp, a partir de este día también puedes hacer lo mismo con ChatGPT.
Figura 17: Preguntando a ChatGPT desde WhatsApp
Día 11: ChatGPT para macOS
Este día es algo agridulce, básicamente han actualizado la versión de escritorio de ChatGPT en macOS - además de para Windows - permitiendo la integración con más aplicaciones. Entre ellas: Warp, Notion, Notes, Xcode, Terminal, ...
Figura 18: ChatGPT para macOS
Y digo lo de agridulce, porque básicamente cuando salió el video del día 11, el título era éste, en el que aparece una integración que luego no está:
Figura 19: Integración con Tasks
Sin embargo, al cabo de unos minutos ese título cambió desapareciendo la parte de “Tasks”, por lo que se cree que OpenAI tenía algo que mostrarnos pero que en una decisión de última hora retiró.
Día 12: Llega o3
Y, por último, el día que ha hecho que AGI sea tendencia en Google. El hype por este último día entre los seguidores de OpenAI era bajo, los últimos días fueros presentaciones de “novedades” ya conocidas o features que nada tienen que ver con el poder de la Inteligencia Artificial.
La gente pensaba que iban a presentar las “Tasks” que retiraron el día anterior. Pero nada que ver, OpenAI presentó “o3” y “o3 mini”.
¿Y qué es “o3?, pues nada más y nada menos que el sucesor del modelo razonador “o1” que fue presentado días antes y que da un salto de calidad increíble. ¿Y por qué “o3” y no “o2”? Pues parece que "alguien" tiene registrada dicha marca y no la pueden usar. 😉
Os pongo en contexto, los MM-LLMs miden su rendimiento en benchmarks que, por cierto, son cada vez más complejos. Las pruebas que los componen suelen mantenerse en secreto para evitar que los desarrolladores ajusten los modelos específicamente para superarlas y obtener mejores puntuaciones. Sin embargo, a "o3" no le ha hecho mucha falta; ha logrado superar prácticamente todos estos benchmarks sin mucho esfuerzo.
Pero hay un benchmark especial, uno en el que el modelo de OpenAI “o1” (el más avanzado hasta el momento) apenas conseguía superar más de un 32%, y que este modelo “o3” ha elevado esa puntuación hasta el 87,5%, se trata del benchmark “ARC-AGI”.
“ARC-AGI” es un benchmark que incluye pruebas de tipo puzzle y ofrece un premio de 1M USD para quién logre desarrollar un modelo capaz de resolverlas. Estas pruebas son similares a las utilizadas en psicología para evaluar el coeficiente intelectual de una persona. Consisten en analizar una serie de ejemplos con figuras y tratar de resolver un escenario planteado. El desafío no solo busca soluciones a los problemas del benchmark, sino también fomentar el desarrollo de modelos de inteligencia artificial con capacidades de razonamiento abstracto similares a las humanas.
Y “o3” se ha acercado a ese razonamiento, tanto que por ello se ha comenzado a hablar de la AGI (Inteligencia Artificial General) y como ha superado el IQ promedio humano (85-115) . Esto obviamente hay que cogerlo con “muchas” pinzas.
Figura 21: Iban a llamarlo O2 pero prefirieron
O3 por respeto a sus amigos de Telefónica
Os pongo en contexto, los MM-LLMs miden su rendimiento en benchmarks que, por cierto, son cada vez más complejos. Las pruebas que los componen suelen mantenerse en secreto para evitar que los desarrolladores ajusten los modelos específicamente para superarlas y obtener mejores puntuaciones. Sin embargo, a "o3" no le ha hecho mucha falta; ha logrado superar prácticamente todos estos benchmarks sin mucho esfuerzo.
Figura 22: Benchmark ARC-AGI
Pero hay un benchmark especial, uno en el que el modelo de OpenAI “o1” (el más avanzado hasta el momento) apenas conseguía superar más de un 32%, y que este modelo “o3” ha elevado esa puntuación hasta el 87,5%, se trata del benchmark “ARC-AGI”.
“ARC-AGI” es un benchmark que incluye pruebas de tipo puzzle y ofrece un premio de 1M USD para quién logre desarrollar un modelo capaz de resolverlas. Estas pruebas son similares a las utilizadas en psicología para evaluar el coeficiente intelectual de una persona. Consisten en analizar una serie de ejemplos con figuras y tratar de resolver un escenario planteado. El desafío no solo busca soluciones a los problemas del benchmark, sino también fomentar el desarrollo de modelos de inteligencia artificial con capacidades de razonamiento abstracto similares a las humanas.
Figura 24: Resultados con o3
Despedida y cierre
Y esto ha sido todo sobre los 12 días de OpenAI, ¿qué te parece? Reconoce que lo que más te ha gustado es el modo de voz de Santa Claus, no mientas. ;)
No obstante, OpenAI quiere más y más y ya está su CEO, Sam Altman recogiendo feedback e ideas para tener un 2025 con una IA más capaz que en 2024 (aunque el listón está bastante alto).
Saludos y feliz año nuevo hackers,
Saludos y feliz año nuevo hackers,
Autor: Javier del Pino, Investigador d IA en Ideas Locas
No hay comentarios:
Publicar un comentario