Voces clonadas con DeepFakes y el viral de WhatsApp con la DeepFake de Iker Jiménez en Horizonte
Este jueves, en mi periplo por el mundo, más afónico que nada, y desde la habitación del hotel en el que me encontraba con mi equipo de Telefónica Innovación Digital en unas jornadas de offsite, me conecté al programa de Iker Jiménez y Carmen Porter, para hablar con ellos unos minutos sobre el archi-famoso audio viral hecho con la voz clonada de Iker Jiménez que ha circulado como el fuego por WhatsApp, principalmente porque hablamos hace muchos meses en el programa de que esto iba a suceder.
Por supuesto, Iker Jiménez está más que acostumbrado a saber que su voz - y la de toda persona pública - puede ser clonada por cualquiera en cuestión de unos minutos. Lo cierto es que clonar la voz de cualquier persona sin su permiso y utilizarlo para hacer un viral como éste es algo que está tipificado como delito de suplantación de identidad, pero es tan fácil hoy en día, que el número de herramientas con esta capacidad va a ser imposible de controlar.
De este asunto hablé en mi charla de la RootedCON 2023 de este año, en la charla de "Are you talking ta' me?", de la que luego publiqué un largo artículo donde explicaba cómo se podía clonar la voz con diferentes plataformas y servicios, y cómo las protecciones que daban eran solo hacer un check en las políticas de la compañía diciendo que tenías autorización para clonar esa voz. Además, trabajamos en entrenar algoritmos de Machine Learning para detectar esos audios de voces clonados.
Figura 4: Detección de voz clonada y voz real con Machine Learning
De todo ello hablamos en Horizonte, y aunque en la charla de RootedCON 2023 hacerlo en Español era un poco más costoso, ya se podía hacer bastante bien, y clonamos mi voz con los servicios de Microsoft Azure, en un proceso que me llevó una horita larga de decir frases a un micrófono. Con ello hicimos los vídeos con los chistes, haciendo también el Lip Sync, y usando las imágenes que te puedes crear en el Servicio de Stable Diffusion de MyPublicInbox.
Con el paso de los meses pasó lo que todos esperábamos, y clonar la voz en español se hizo igual de sencillo y rápido, y por eso cuando presentamos a Chucky Alonso, ya clonaba las voces - la de Iker Jiménez incluida - en español. De hecho, en el programa de Horizonte donde me llevé a Chucky Alonso usamos la voz de Iker Jiménez clonada.
Una de las cosas que probamos, es una herramienta que ya permitía clonar una voz de un audio de WhtasApp, y generar un audio con el mensaje que quisieras, para explicar cómo de fácil es hacer lo que vemos que se está haciendo hoy, que son grabaciones de contratos hechos con DeepFakes de voz. Esto, que parece una cosa muy moderna, no es más que el equivalente a falsificar la firma en un contrato a boli, o pegarla y manipularla con una herramienta de edición de gráficos como Photoshop, pero en este caso utilizando Inteligencia Artificial.
Figura 7: Clonar la voz y falsificar un contrato vocal
Y la semana pasada, tuvimos el primer audio viral hecho con voz clonada, en este caso usando la voz del gran Iker Jiménez, donde alguien preparó un texto humorístico, para el que utilizó la reconocida voz del periodista para llamar más la atención, y corrió como la pólvora. No es el primer famoso que es usado para conseguir más atención sobre alto - en este caso difusión - e incluso Tom Hanks tuvo que avisar a todos de que él no había hecho un anuncio de una clínica dental, en el que habían viralizado un vídeo hecho con DeepFakes.
Así que, de todo esto hablamos este pasado jueves en el programa de Horizonte, donde comentamos esto para que la gente esté un poco más enterada del mundo que tenemos, de lo que viene por delante, y de cómo son las precauciones que tenemos que tomar.
Figura 10: El viral de Iker Jiménez hecho con voz clonada en Horizonte
De hecho, para terminar el programa, enseñamos rápidamente una herramienta que está haciendo el equipo de Ideas Locas en Discovery de Telefónica Innovación Digital que se llama Verifai, donde lo que hacemos es integrar todos los algoritmos de detección de GenAI y DeepFakes en un portal, en el que puedes comprar textos, vídeos y audios.
Figura 11: Prototipo de VerifAI hecho por TID
De momento es una versión interna en modo prototipo, pero la pondremos disponible para todos no tardando mucho, que ya llevamos varios meses con ella. Porque hasta que estas medidas estén integradas en todas las plataformas (en Youtube, WhatsApp, e-mail, etcétera), vamos a tener que ser los usuarios los que verifiquemos el contenido y la información que nos llega por todos esos canales.
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)
1 comentario:
¡Buenas! Con la nueva versión de Coqui, XTTS v2 ya se puede clonar la voz de una manera mucho más realista y mucho más limpia, parece que igual va a ser menos de medio año para lograr resultados hiper realistas en Español :D
¡Gracias por compartir este post!
Publicar un comentario