lunes, marzo 10, 2025

Sentimetrics: Detector de Deepfakes basado en las emociones de la comunicación al estilo Blade Runner

Continuando con la charla de "Laife gets better", si la primera parte era para la película TRON y el BASIC 1.0 Copilot para AMSTRAD CPC 6128, la segunda parte era para nuestra querida Blade Runner y la detección de DeepFakes. Esta es un área de investigación que hemos estado trabajando durante un largo periodo de tiempo, y de la que hablado en muchos artículos y conferencias.
En la película Blade Runner sale el Test de Voigh-Kampff, que nosotros llevamos tiempo creando para la detección de Deepfakes en vídeos, en tiempo real en vídeo conferencias, o vía API. En esta escena se ve cómo funciona dicha prueba para detectar a los replicantes.

Figura 2: Test de Voigh-Kampff en Blare Runner

En el caso de las DeepFakes, igual que se apalancan en la Inteligencia Artificial para ser creadas, la Inteligencia Artificial se puede utilizar para detectarlas. Hay muchas técnicas, y en esta charla de "Blade Runners on GenAI" yo hablé de muchas de ellas.


Figura 3: Blade Runners on GenAI

Pero si queréis leer algunos artículos y papers sobre ellas, os dejo la lista de los que he ido publicando por mi blog a lo largo de estos últimos años.


Son muchos los artículos y charlas que he dado de este tema, e incluso hemos puesto en producción el servicio de Análisis Forense de Imágenes, Vídeos y Audios manipulados con IA llamado Tu VerifAI que te da un completo informe pasando todos los algoritmos que conocemos hoy en día. El informe que hace de un vídeo lo tenéis en este ejemplo que os he subido a SlideShare.


Figura 4: Informe del Análisis Forense completo

Pero llevábamos tiempo trabajando en una idea para detectar DeepFakes en tiempo real o en vídeos, haciendo un cruzado de los sentimientos que se pueden leer con Inteligencia Artificial de las expresiones faciales, del mensaje que se dice, y del tono que hay en la onda de sonido portadora del mensaje. Y así nació Sentimetrics.

Sentimetrics: Un detector de Deepfakes basado en el sentimiento de la comunicación

Sentimetrics es un proceso de detección de Deepfakes por incongruencia en las emociones que se capturan en una conversación por diferentes canales, como son:
  • Expresión facial
  • Mensaje comunicado
  • Tono del audio utilizado
Este proceso permite cruzar en un time-line cuáles son los puntos emocionales que tienen congruencia o que no lo tiene, con lo que se tiene un vector nuevo para encontrar indicios de la existencia de no-humano detrás de la conversación. Al igual que el Test de Voigh-Kampff se trata de la búsqueda de reacciones emocionales que no concuerdan, como podéis ver en este vídeo.
En el ejemplo del vídeo anterior podemos ver que la expresión facial es normal, el tono del audio es neutro, pero el texto del mensaje parece alegre. Algo que suena extraño. De hecho, nuestro compañero Fran ha tenido que hacer auténticos ejercicios de teatro para controlar las tres piezas de la comunicación y conseguir los ejemplos para las demos. Aquí le tenemos en otra inconsistencia.
En este caso la expresión facial, y el tono del audio es alegre, pero el texto del mensaje es triste, así que hay incongruencia. Esta búsqueda de incongruencias es un vector más de detección de DeepFakes, que puede ser de utilidad en una vídeo conferencia en tiempo real, pero también en vídeos manipulados.

Figura 7: Análisis de Congruencias en casos reales y DeepFakes

Como podéis ver, la distribución de eomociones congruentes y no congruentes tiene picos y muestran menos congruencia que los vídeos sin manipular, donde ese valor de congruencia es mayor. En el siguiente ejemplo tenéis lo mismo en inglés.
Para probar la tecnología, hemos hecho una captura de vídeo y grabamos el audio con PyAudio. El audio lo procesamos con Whisper para sacar el contenido del mensaje y este lo analizamos con PySentimiento. En pantalla puedes ver la onda de audio que se hace para confirmar su grabación, y después se hace un espectrograma del audio con Librosa para acabar haciendo un análisis de la emoción del audio con Hubert-Base for Emotion Recognition.

Figura 9: Patente de Sentimetrics

La patente, como podéis ver, la depositamos en diciembre del año pasado, y una de las cosas que hemos estado trabajando es cómo detectar los falsos positivos que se pueden dar por el uso de la Ironía o el Sarcasmo, algo que puede ser difícil para la Inteligencia Artificial. Aquí un ejemplo de Sarcasmo en inglés.
Para el análisis del Sarcasmo utilizamos el modelo de twitter-roberta-base-irony y para la Ironía, la propia PySentimiento ofrece ese análisis. En el vídeo siguiente os he dejado todas las pruebas hechas seguidas para que podáis ver alguna más en español e inglés. 


Figura 11: Sentimetrics - Demos y ejemplos

Al final, si los tres elementos, es decir, expresión facial, emoción del mensaje, emoción de la voz en la transmisión del mensaje, coinciden, entonces la congruencia es un Match, y no se detecta como una inconsistencia. Si se detectan que el audio va por un sitio (mensaje y tono) y no coincide con la expresión facial, es un No Match, y si las tres difieren, entonces es una Inconsistencia.

¿Y el audio clonado?

En la siguiente parte hablamos de los audios clonados y de nuestros trabajos de HashVoide & Clone Detector que os voy a contar el próximo día. Por hoy sólo Sentimetrics

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


No hay comentarios:

Entrada destacada

Cibercriminales con Inteligencia Artificial: Una charla para estudiantes en la Zaragoza

Hoy domingo toca ir a participar en un evento, con una charla y una pequeña demo. Ahora mismo sí, así que el tiempo apremia, os dejo una cha...

Entradas populares