martes, junio 03, 2025

Physical AI para Robots: Training con Digital Twins, Digital "Cousins" y Digital "Nomads" para pasar el Physical Turing Test

Este fin de semana me pasaron el vídeo de la presentación de Jim Fan de NVIDIA, sobre el entrenamiento y la construcción de modelos de Physical AI para la generación de robots que puedan interactuar de forma autónoma en el mundo físico, como si fueran humanos. La charla es más que interesante, y podéis verla en Youtube, pero yo os he hecho un resumen de ella para los que disfrutáis de la lectura.
La charla comienza planteando lo que para los investigadores de este campo significa el Physical Turing Test, que básicamente se trata de, dados dos escenarios, uno de origen y otro de final, no ser capaz de detectar que la tarea que ha hecho que se pase del primero al segundo ha sido hecha por un humano o un robot.
El planteamiento está claro, ahora hay que conseguir entrenar a los robots a hacer las tareas. Y para ello, necesitamos humanos que le enseñen a robots a hacer las cosas, y que ellos aprendan. Este proceso se puede realizar como podéis ver, donde un humano con unas gafas VR controla al robot, y este aprende lo que el humano realiza, como cuando una persona le enseña a otro moviéndole las manos.
Este entrenamiento es costoso, y lento. Los datos para entrenar un modelo de Inteligencia Artificial que pueda enfrentarse a un mundo físico complejo, con miles de variaciones, se hace imposible. En realidad, los humanos contamos con miles de millones de humanos enseñando a los demás, pero cuando estás entrenando a un robot, necesitas escalar el entrenamiento, y para ello, hay que pasar al mundo de la Simulación y los Digital Twins (Gemelo Digital).
En la imagen anterior se puede ver un gemelo digital de una mano robótica a la que se le está enseñando mediante simulación a mover un palito con los dedos, como cuando jugamos con los lápices en clase, o cuando los bateristas de las bandas de música lo hacen con las baquetas. Esto permite hacer millones de entrenamientos en mundos digitales.

Si se consigue entrenar a un modelo de IA que va a dar inteligencia a un robot en 1M de mundos virtuales, este entrenamiento se puede transferir directamente al mundo físico, que sería el 1.000.001, y hacerlo en tiempo infinitamente más lento. El problema aquí es otro, hacer un Digital Twin del mundo al que se va a enfrentar el modelo con una física perfecta, y esto también tiene sus retos.
Para hacer un entrenamiento efectivo en el mundo virtual, se necesita hacer un gemelo digital lo más perfecto en cuanto a física posible, al mismo tiempo que lo más completo en cuanto a variedad de escenarios que se puedan encontrar después en el mundo real todos los robots. Este un el ejemplo para entrenar a caminar a los robots.
Y sobre ese escenario puedes hacer saltos y movimientos de todo tipo, que luego puedes transferir al mundo real. En este vídeo tienes los ejemplos de cómo se transfieren al mundo real para simular algunos movimientos como el de la celebración mítica de Cristiano Ronaldo.

Figura 8: Robot aprendiendo a celebrar como Cristiano Ronaldo

Pero.. ¿cómo crear un millón de escenarios diferentes? Hacer un millón de objetos de cocina diferentes, un millón de calles de ciudades diferentes, un millón de habitaciones desordenadas diferentes con un millón de elementos diferentes en ellas es un trabajo para los diseñados, y para solucionarlo, la Inteligencia Artificial Generativa viene a dar algunas soluciones, como lo que ellos llaman los "Digital Cousins" o "Primos Digitales", que no son hermanos, pero si muy cercanos. 
Usar el concepto de Digital Cousin, permite entrenar a un modelo de IA que va a dar inteligencia a un robot, a que se enfrente a una gran cantidad de entornos donde puede aprender. Además, estos entrenamientos pueden automatizarse basado también en GenAI. En el año 2023 se publicó el trabajo de investigación de "Imitating Human Behavior With Diffusion Models", donde se les enseñaba a los modelos a resolver escenarios visualmente con modelos de GenAI.

Uno de estos sistemas de aprendizaje copiando a humanos en entornos simulados, es el de Groot Mimic, donde se mete un replica de los robots con los modelos de AI que van a ser entrenados para hacer tareas en el mundo virtual.

Figura 11: Groot Mimic

Teniendo ya algoritmos de GenAI para generar elementos en el mundo virtual donde se va a entrenar a un Modelo de AI para un robot concreto, es posible crear frameworks para esta tarea, como es el caso de Robocasa, una plataforma para entrenar robos en tareas domésticas a escala mediante la simulación masiva de hogares. 

Figura 12: Robocasa

Y sobre esos entornos masivos, se pueden empezar los proceso de entrenamiento utilizando las técnicas de aprendizaje basadas en modelos de difusión aprendiendo de los humanos. La resolución de problemas visuales en el mundo de la simulación, mediante órdenes concretas, como un si fueran "prompts".
Así que, a partir de un único entrenamiento hecho por un humano para hacer una tarea en un sólo mundo, multiplicado por la generación del N escenarios, da una matriz de N x M entrenamientos de resoluciones, lo que permite que el modelo de IA se puede entrenar a infinidad de realidades.
Pero aún así, el mundo de los Digital Cousins tiene también sus retos, porque escenarios a los que nos enfrentamos los humanos son también muy complejos de resolver con el 3D, la simulación y la GenAI 3D, como el que podéis ver a continuación.
Para resolver estos problemas, surge la idea de los "Digital Nomads" o "Nomadas Digitales", donde se utiliza la idea de resolver el problema mediante no la ejecución de movimientos en el escenario "virtual 3D", sino en un escenario "de sueños" creado como una película por medio de Vídeo Generado por IA. El mundo de la GenAI puede hacer estos vídeos, como se demostró en el trabajo en el que los investigadores generaban vídeos con IA de movimientos por el mundo de DOOM, titulado: "Diffusion Models Are Real-Time Game Engines".

A partir de este momento, el entrenamiento de un Digital Nomad consiste en "soñar" un vídeo rasterizado que resuelva el problema. De todos los multiversos en forma de vídeo que puede crear, que cree el vídeo que venza al Prompt y una vez vencido, aprenda lo que ha hecho en ese vídeo.

Figura 17: El aprendizaje consiste en generar un
vídeo que responda el prompt

Con esto, se pueden generar un millón de escenarios de origen con GenAI en las que el robot (el Digital Nomad) es parte del escenario de origen y tiene que crear un millón de vídeos con GenAI en el que él resuelve el problema.
Una vez resuelto el prompt, tenemos un millón de vídeos sobre los que aprender, y esto hace que el aprendizaje pueda aplicarse sobre elementos que hacer en Digital Twin o Digital Cousin sería más costoso. Por último se hace la transferencia del aprendizaje al mundo real.


Si se comparan estas tres técnicas, es decir, usar Digital Twins en entornos de simulación, usar Digital Cousins para incrementar la diversidad de escenarios de aprendizaje usando GenAI para la generación de escenarios, y usando Digital Nomads para el aprendizaje usando GenAI videos, tenemos cuatro soluciones que cubren un abanico completo.

Como se puede ver en la gráfica, los Digital Cousins y los Digital Nomads son más lentos en entrenamiento, pero aumentan la diversidad de los problemas a los que se preparan, por lo que elegir el mejor modelo de entrenamiento, o la mezcla de estos, es lo que ayudará a evolucionar las capacidades de cada uno de los modelos de AI para robots que serán parte de nuestra vida. 

Pero llegará un momento que, aunque sean más lentos, estos modelos de Simulación 2.0 basados en Digital Nomads sean más inteligentes que cualquiera, debido a que se han preparado en más entornos que ningunos. Para ello han creado un VALM (Visual Actions Language Model) que genera las soluciones a partir de un VLM (Visual Language Model), que genera soluciones con algoritmos de difusión que, una vez entregada en vídeo, se convierte en una serie de acciones asociadas al robot.

Figura 23: Groot N1

Pasar de un vídeo a una lista de acciones, se trata de hacer una descripción del vídeo (un problema de Computer Vision resuelto hace tiempo), en el que se reconocen objetos, características físicas, etcétera, por lo que hacer el Motor de Acciones se apoya también en soluciones de Inteligencia Artificial, pero todo esto nos va a llevar a una nueva economía basada en soluciones para resolver problemas en el mundo físico.
La charla me ha encantado, y si tienes 17 minutos, merece la pena que la veas completa, pero espero que el artículo os ayude algo a entenderla. Aquí tenéis el vídeo.

Figura 25: The Physical Turing Test

Desde luego, el mundo en el que estamos entrando gracias a la construcción de tecnología sobre los modelos de IA, uno a uno, está haciendo que la aceleración del futuro con robots que soñó Isaac Asimov estén cada vez más cerca.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


Entrada destacada

Inteligencia Artificial (Hacking & Security): Links, Posts, Talks & Papers

Durante los últimos años he publicado muchas artículos en este blog, y he dejado muchas referencias a otros artículos y papers académicos d...

Entradas populares