martes, agosto 03, 2021

Una historia de Blade Runners & Virtual Replicants (Parte 3 de 5)

En las partes anteriores hablamos de los conceptos principales en el mundo de las DeepFakes, desde las técnicas de FaceSwapping en vídeos, hasta el entrenamiento de GANs para tener un Virtual Replicant que se pueda utilizar en tiempo real en una vídeo conferencia. También vimos algunos ejemplos de Lip Sync, como se hizo en el ejemplo del vídeo de Barack Obama, y cómo se puede fabricar un IA con la voz de una víctima entrenada, utilizando Cognitive Services.

Figura 21: Una historia de Blade Runners & Virtual Replicants (Parte 3 de 5)

En esta parte del artículo de hoy queremos hablar del proceso de democratización de las técnicas de DeepFakes que hemos visto en estos últimos años, desde los primeros intentos donde se necesitaba gran capacidad de cómputo, con los costes de energía, tiempo y dinero asociados. Todo ello por la complejidad de los algoritmos y el tiempo necesario para su entrenamiento. Sin embargo, hoy en día esto ya no es así. Gracias a los sucesivos estudios y publicaciones, el mundo de las DeepFakes se ha democratizado para todo el mundo. 
Este artículo cientíico, titulado: "Deepfakes Generation and Detection: State-of-the-art, open challenges, countermeasures, and way forward" habla del presente y futuro tanto en la generación de DeepFakes como de las técnicas de detección de las mismas que veremos en la siguiente parte de este artículo. En este artículo, centrados en la parte de la democratización de las tecnologías, recoge este cronograma donde se pueden ver algunos de los hitos más importantes en la evolución de las DeepFakes que, como podéis ver, se han acelerado en los últimos cuatro años de manera exponencial.


Como podemos ver, desde el año 2014, cuando se descubrieron las GANs, se abrió un nuevo mundo que desbloqueo esta rama de estudio. A partir de 2016 todo se aceleró. En el mismo artículo se recoge esta  lista de software para la generación, o al menos para ayudar, a la creación de Deepfakes. Además de poder ver el software, la tabla recoge qué algoritmo o técnica se utiliza en cada una de ellas.


Pero desde el punto de vista de seguridad, hemos visto crecer esta democratización con unos hitos más destacados que los demás, y vamos a recogerlos en los siguientes puntos, que tenemos a continuación.

2018 - DeepFakeApp, DeepFakeLab y DeepFakeCreator

Con la aplicación de las primeras GANs al mundo de las DeepFakes, en el año 2018 aparecieron las primeras apps públicas para que todo el mundo pudiera hacer vídeos con FaceSwapping. Sorprendentemente, los objetivos con esa democratización, donde el tiempo de entrenamiento marcaba la calidad del resultado, se enfocaron principalmente a dos mundos: El primero, al mundo del humor, apareciendo muchos vídeos divertidos en los que se cambiaba a los personajes de las películas más famosas por políticos, otros actores, etcétera. 

Figura 25: Cara de la actriz de Star Wars en el cuerpo de una actriz de cine X

El segundo fue el mundo de las fantasías sexuales, donde comenzaron a aparecer algo que ya es tendencia en la red, que son escenas de cine X en las que se cambian la caras de las actrices para poner la cara de una determinada estrella de Hollywood en lugar de la actriz original, generando mucho revuelo en la opinión pública en una primera instancia.

2019 – StyleGAN

Hasta el momento hemos hablado de la suplantación, pero también existe un camino realmente apasionante derivado de la utilización de estas tecnologías llamado StyleGans o Style-Based GAN. En concreto estos algoritmos nos permiten crear personas que no existen, con todas sus características y complementos, lo que en el mundo de la seguridad informático abrió un interesante mundo para crear perfiles falsos en redes sociales y servicios de Internet.

La base de esta tecnología es el FaceSwaping que ya hemos comentado en más de una ocasión. Pero esta vez el proceso parte de personas que existen (sería el dataset inicial) y a partir de él se generan los estilos para finalmente lograr crear personas totalmente creíbles que no existen. De hecho, ya hay una página web donde puedes ir generando imágenes de este tipo simplemente accediendo a ella llamada ThisPersonDoesNotExists.


El funcionamiento se basa en que se generan dos estados latentes de dos fotografías de esas personas y se le pasa el "estilo" de una a la otra. El Generador hace una imagen y se la envía al Discriminador que tiene que decir si es una persona real o no. Este vídeo lo explica perfectamente:


Figura 28: Explicación de StyleGANs

Estas personas ficticias pueden ser utilizadas por ejemplo, para crear perfiles falsos en redes sociales por ejemplo. Y apartir de aquí crear toda una vida artificial. De hecho no solamente está la opción de crear personas, también podemo crear gatos, muebles, habitaciones, paisajes … que no existen. Así ya tenemos completa la vida artificial para nuestra persona que no existe. Puedes verlo en This X does not exit.

2019 – Talking Heads

Hasta este momento, para poder generar una DeepFake era necesario entrenar muchas horas (o mejor dicho, días) una red neuronal para poder imitar de una forma creíble a otra persona. Pero en 2019 apareció un artículo científico llamado "Few-Shots Adversarial Learning for Realistic Neural Talking Head Models" el cual abrió la primera puerta a reducir drásticamente el entrenamiento que antes hemos mencionado. En concreto, esta aproximación permitía utilizar un número reducido de imágenes de la persona a suplantar. De esta forma se crea lo que denominan “Talking Head”, o “Cabeza parlante” pero esta vez partiendo de ese número reducido de imágenes.

Figura 29: Artículo sobre el algoritmo de "Few-Shots Adversarial Learning
for Realistic Neural Talking Head Models"

El proceso es prácticamente idéntico a las anteriores aproximaciones, pero al tener un número menor de dataset de entrada, la salida limita los movimientos de la persona. Es decir, mientras que con un entrenamiento completo partiendo de un vídeo de varios minutos podríamos detectar diferentes posiciones de toda la cabeza, en este caso nos limitamos a los landmarks asociados a los diferentes rasgos faciales detectados (básicamente contorno, ojos y boca) en la/s foto/s de entrada. A pesar de esta limitación si las imágenes de entrada tienen la suficiente resolución, el resultado es bastante espectacular. Y lo mejor de todo, abrió la posibilidad de generar DeepFakes de una manera sencilla sin necesidad de entrenamiento previo.

Figura 30: Modelo de generación de imágenes con Adversarial Learning

Para poder conseguir estos resultados sin necesidad de entrenamiento, se basa en un modelo ya entrenado denominado First Order Motion Model creado por Aliaksandr Siarohin. Este modelo ya tiene pre-entrenado todo tipo de movimientos, tanto de cuerpo como de cara o cabeza, por lo que cualquier entrada (por ejemplo, la webcam) que encaje con alguno de los modelos ya entrenados (cabeza, cuerpo humano, etc) y por lo tanto poder simular su movimiento. Es decir First Order Motion Model tiene todos los movimientos que faltan en el dataset de entrada (recordemos que sólo es una foto o varias) y por lo tanto sólo tiene que limitarse a superponer los landmarks de la cara.

2019 – Living Portraits & Deep Nostalgia

Siguiendo la estela de las “Talking Heads” y la maravillosa aportación del First Order Motion Model, aparece una aplicación la cual ha tenido bastante repercusión mediática: los Living Portraits. Como ya hemos comentado antes, utilizando el First Order Motion Model es posible utilizar una sola foto para simular todo el movimiento completo (o al menos gran parte) de la cara y parte de la cabeza. Por lo tanto, podemos conseguir imágenes de personas fallecidas o incluso ficticias y simular movimiento, dándoles un soplo de vida.

A partir de esta publicación comenzaron a aparecer diferentes simulaciones de Living Portraits utilizando a gente ya fallecida famosa (Einstein, Alan Turing, etcétera) con un resultado que es la vez espectacular e inquietante. Incluso existe una web llamada Deep-Nostalgia que te permite online, subir cualquier foto y darle movimiento. Algo realmente espectacular ya que podemos ver una aproximación real de cómo serían esas personas si estuvieran delante de una cámara de vídeo en aquella época.

2019 a 2021 - Social DeepFakes: Wombo AI, Reface, ZAO

Llegados a este punto, entendemos que lo mostrado hasta el momento muestra la evolución de la tecnología, del Faceswapping o de las GANs, pero la democratización real de estas tecnologías ha ido llegando poco a poco por la parte más social y podemos decir que en el año 2021 es real debido a la cantidad de apps y herramientas que existen para hacer DeepFakes de alta calidad y bajo coste.

Entendemos la democratización de una tecnología cuando puede ser utilizada al completo por cualquier persona, es decir, se acerca a cualquiera con un uso sencillo y accesible al conocimiento de cada individuo. En otras palabras, cualquiera puede hacer uso de esta tecnología gracias a las apps móviles que han ido saliendo o a las aplicaciones de escritorio que simplifican el entrenamiento o los datos de entrada de los que hay que dotar a las aplicaciones.


Si antes veíamos que necesitamos horas de entrenamiento, recortes de fotogramas, landmarks en frames para identificar puntos de la cara, etcétera. Hoy día tenemos en el bolsillo aplicaciones que permiten, fácilmente, con una solo foto poder hacer una GAN con un modelo pre-entrenado o poder hacer un faceswapping en un video de forma sencilla y rápida. Este tipo de tecnología ha avanzado muy rápido, con todo lo bueno y con todo lo malo que esto puede traer.

(Continúa en la parte 4 de este artículo)

No hay comentarios:

Entrada destacada

Cibercriminales con Inteligencia Artificial: Una charla para estudiantes en la Zaragoza

Hoy domingo toca ir a participar en un evento, con una charla y una pequeña demo. Ahora mismo sí, así que el tiempo apremia, os dejo una cha...

Entradas populares