Un informático en el lado del mal: "Talking Heads" creadas con Few-Shots Adversarial Learning

Hoy quería hablaros de este último trabajo en el mundo de la Inteligencia Artificial centrado en modelos de Visión Artificial, o mejor dicho, de recreación de objetos y personas tal y como si fueran "imaginadas" a partir de algunas fotografías. Al más puro estilo de cómo funcionan nuestros recuerdos o nuestra mente creando realidad animada en nuestro cerebro a partir de unas pocas imágenes.

Figura 1: "Talking Heads" creadas con Few-Shots Adversarial Learning

El trabajo se acaba de publicar en un artículo académico llamado "Few-Shots Adversarial Learning of Realistic Neural Talking Heads Models" y se basa, como us nombre indica, en el uso un sistema de "Adversarial Learning" en el que se enfrenta un Generador del vídeo que debe ir creando los frames de la animación a partir unas pocas capturas de la realidad y un Discriminador que debe ir validando el trabajo, al tiempo que fuerza a mejorar, en cada uno de los píxeles.

Figura 2: Artículo sobre el algoritmo de "Few-Shots Adversarial Learning
for Realistic Neural Talking Head Models"

El funcionamiento es muy similar al de otros modelos con GANs que explicamos en los sistemas con Autoencoders para hacer FaceSwapping o para hacer un modelo de generación de personas en tiempo real. En aquel caso se cambiaba cada cara en cada fotograma en un estado latente que luego se iba entrenado, y se podía hacer un vídeo con la cara sustituida. Pero también se podía hacer un sistema que en tiempo real generase a la persona.

Figura 3: Demo de generación de Chema Alonso en tiempo real

En ese trabajo, los datos de entrada del algoritmo era un vídeo de una persona - a la que se quería crear y que soy yo en el ejemplo de arriba - para sacar de él todas las caras en todos los gestos posibles. Con el trabajo de ahora se puede hacer con mucho menos material de información. Si pensamos en un vídeo, hay muchas caras y muchos gestos de la persona a re-crear, pero ... ¿Y si solo tuviéramos una foto, u ocho, o treinta y dos?

Figura 4: Modelo de generación de imágenes con Adversarial Learning

Con este trabajo lo que se hace es, a partir de una sola foto, de ocho y de treinta y dos, crear una "Talking Head" - cabeza que habla - siguiendo un modelo generado por una persona real. Es decir, el algoritmo tiene un modelo de habla con el que crear la "Talking Head" y luego un conjunto de fotos de la persona a crear, y lo que va haciendo es convencer al Discriminador de que es la persona en cada fotograma.

Figura 5: Si se compara la imagen de la columna de "Ground truth" con
la imagen de la columna "Ours-FT after fine-tunning", el resultado es sorprendente.

Como se puede ver en la tabla, tenemos una columna a la izquierda que son los datos de entrada. En algunos son solo una foto - empezando por la fila de abajo -, en la segunda son ocho, en la tercera dieciséis y en la última treinta y dos. Y lo que tendríamos es la realidad (extraída del vídeo completo), y la que se consigue con tres algoritmos diferentes. La foto de la derecha da la obtenida con este algoritmo. Como se puede ver, el resultado es sorprendente.

Figura 6: Living Portraits

A partir de ese momento, se pueden crear lo que ellos llaman "Living Portraits", es decir, crear una "Talking Head" a partir de una foto del pasado o hasta un retrato, tal y como se pueden ver en este vídeo que explica el trabajo completo.

Figura 7: Vídeo demostrativo de las Talking Heads

El uso de las Inteligencias Artificiales para crear realidades que no existen está avanzando día a día, y por supuesto abre muchas incertidumbres. Para saber si es auténtico o no un vídeo de estos - que podría ser utilizado en una campaña de Fake News - se van a tener que empezar a utilizar sistemas de Inteligencia Artificial para que empiecen a analizar los "gestos menores" de una persona que no puedan ser recreados fácilmente, porque si no, lo que veamos en el mundo digital en el futuro.... podría ser todo inventado.

Más referencias relacionadas

- Generative Adversarial Networks: Inteligencia Artificial y Ciberseguridad
- LUCA Innovation Day: Generative Adversarial Networks
- Cómo la AI ayuda a reconocer a personas en fotos píxeladas
- DeepFakeApp: Una AI de Face Swapping al servicio de las fantasías sexuales
- ¿Es el ajedrez un juego para humanos?
- Cómo hacer un Face Swapping entre Axl Rose & Chema Alonso para Fake News
- Autoencoders, GANs y otros chicos (buenos y malos) del montón
- StyleGAN: Una GAN para crear perfiles de personas que no existen

Saludos Malignos!

Un informático en el lado del mal

sábado, mayo 25, 2019

"Talking Heads" creadas con Few-Shots Adversarial Learning

No hay comentarios:

Publicar un comentario