Un informático en el lado del mal: AutoVerifAI: Un servicio de análisis online para detectar GenAI en Vídeos, Textos o Imágenes

Cuando aparecieron las DeepFakes con voces clonas de nuestro querido Iker Jiménez, yo hablé en el programa Horizonte de un proyecto interno de Telefónica Innovación Digital orientado a detectar rastros de algoritmos de GenAI en voces, vídeos, y textos, utilizando algoritmos de Inteligencia Artificial para detectarlos. Este proyecto es AutoVerifAI.

Figura 1: AutoVerifAI: Un servicio de análisis online para

detectar GenAI en Vídeos, Textos o Imágenes

Llevamos años trabajando en estas técnicas, y os hemos hablado muchas veces de estos trabajos en forma de nuestro Test de Voigh-Kampff para detectar Deepfakes, que dio lugar a Deed Fake Detector, o los algoritmos para detectar voces clonadas que os conté en el trabajo de Are You Talkin' ta me?, así cómo los detectores de textos generados por LLMs de los que os he estado hablando en un artículo.

Figura 2: Web pública de AutoVeriFAI

Todas estas investigaciones y trabajos nos llevaron a crear herramientas internas, que ahora hemos querido abrir, parcialmente al público, para que las probéis, y tener datos de cómo funcionan nuestras implementaciones, en un servicio que se llama AutoVerifAI. Este servicio tiene una versión privada con muchas más capacidades para empresas, y hemos abierto esta versión para que la podáis probar vosotros.

Figura 3: How we detect DeepFake in video

La web no exige registrarse, y queremos que la podáis probar subiendo vídeos, imágenes o textos generados con modelos de GenAI para ver si los resultados son correctos o no, pues lo que estamos haciendo es afinar los algoritmos de detección en el backend.

Figura 4: Vídeo de DeepFake detectado con AutoVerifAI

En la imagen anterior tenéis el resultado después de analizar un vídeo de DeepFake que ha sido analizado con AutoVerifAI y que ha obtenido un resultado de ser un Fake.

Figura 5: How we detect AI-Generated images

Lo mismo para las imágenes, donde podéis subir imágenes y ver si los algoritmos que hemos implementados las detectan o no. En este caso la famosa del Papa con el abrigo blanco.

Figura 6: Imagen GenAI detectada con AutoVerifAI

El objetivo que tenemos tras este servicio es jugar a la guerra entre el "gato y el ratón" para detectar lo máximo posible los contenidos generados por GenAI que puedan ser utilizados para cosas negativas, como DeepNudes, FakeNews, o Difamación de personas.

Figura 7: How we detect AI-Generated texts

Con los textos el trabajo también lo estamos haciendo, aunque con la aparición de tantos LLMs hoy en día, es uno de los más complejos, pero aún así puedes generar un texto con cualquiera de ellos, por ejemplo este cuento hecho con ARIA, el LLM de Opera, y ver si lo detecta o no como generado por GenAI.

Figura 8: Cuento generado por ARIA LLM de Opera

Y en este caso concreto, el servicio de AutoVerifAI lo ha detectado, pero como está en pruebas, pude ser que a veces no lo detecte. De hecho, hemos limitado a 800 palabras, lo que hace que sea más complejo todavía. Pero aún así, funciona más o menos bien.

Figura 9: Texto AI-Generated detectado por AutoVerifAI

Por supuestos, por costes en cómputo no hemos activado todos los modelos de detección de DeepFakes en vídeos o de detección de GenAI en imágenes y textos, donde iremos cambiando los modelos periódicamente para ir viendo cómo de bien o mal funcionan. Estos se activan todos en la versión empresarial de la herramienta.

Figura 10: Un vídeo Prototipo de AutoVerifAI hecho por TID

Esperamos que os guste el servicio, que ahora es solo un proyecto de investigación e innovación pura, pero que no descartamos en convertirlo en un servicio que permita lanzar todos los algoritmos de detección posibles con algún tipo de suscripción por computo, que es lo costoso de estos modelos de detección.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

Un informático en el lado del mal

martes, enero 30, 2024

AutoVerifAI: Un servicio de análisis online para detectar GenAI en Vídeos, Textos o Imágenes

No hay comentarios:

Publicar un comentario