viernes, enero 10, 2025

VideoIndexer con Facial Recognition: Análisis de vídeos con Inteligencia Artificial

Hace poco Microsoft puso en sus servicios de Azure una nueva versión de VideoIndexer, un analizador de vídeos basado en Inteligencia Artificial que te analiza todo lo que aparece en un determinado archivo, buscando todos los detalles que te puedas imaginar, incluidas las personas que en él aparece. Esto es algo que quería probar, sobretodo pensando en cómo hacer herramientas de análisis forense que pudieran extraer el máximo de información en forma de metadatos.

Figura 1: VideoIndexer con Facial Recognition.
Análisis de vídeos con Inteligencia Artificial

Por supuesto, para plataformas de vídeo contenido esto es algo muy valioso porque permite indexar, buscar, crear, enlazar, referenciar y disponibilizar contenido para los usuarios de forma mucho más eficiente, así que quise probar esta característica y, sobre todo, ver los sistemas de reconocimiento facial.

Figura 2: Cargar un vídeo en VideoIndexer

Para probar el funcionamiento básico cargué el vídeo del anuncio que hice con Mi Survivor con Movistar Home y la final de la Supercopa de Europa entre el Real Madrid y el Atlético de Madrid que ganaron los rojiblancos. 


Figura 3: "Gopa Atleti"

Cuando lo subes, tienes una lista de modelos de Visión Artificial que se van a activar. Como podéis ver en esta imagen siguiente, la lista de modelos que se utilizan es larga. Desde reconocimiento de efectos de audio, títulos, textos que aparecen en cualquier parte de las imágenes usando OCR, reconocimiento de caras (celebrities), reconocimiento facial personalizable, escenas, entidades, objetos, créditos, personas que hablan, temas de los que se hablan, transcripción de audios a textos, reconocimiento de músicas, etc...

Figura 4: Modelos de Visión Artificial que se utilizan

Con esto, lo que tendremos es un time-line del vídeo con todo lo que aparece y se puede ver en él extraído por esos modelos, que supongo que irán creciendo con el tiempo, pudiendo añadir referencias de fechas, referencias culturales, cinética de objetos, valoración emocional de las escenas, descripciones de escenas, secuencias, etcétera.

Figura 5: Disclaimer para el Departamento Policial de Estados Unidos

Los servicios de reconocimiento facial deben ser activados, y no en la versión gratuita, y exigen un descargo legal para garantizar que el Departamento de Policía de los Estados Unidos no se va a beneficiar en ninguna medida de estos servicios de reconocimiento facial.

Figura 6: Time-Line del vídeo analizado con IA

Como podéis ver, en la imagen a mí me tiene ya en la base de datos - ya sé que estoy en la base de datos de Celebrities de los Congnitive Services de Microsoft desde hace mucho tiempo -, pero no está mi hija, a la que no reconoce... por ahora. 

Figura 7: Instantes exactos en los que sale una persona

Sin embargo, VideoIndexer permite extender los modelos añadiendo más modelos entrenados de reconocimiento de más personas, o directamente reconocer personas de vídeos subidos y etiquetarlos - al estilo de los carretes de fotos de Android e iOS - para tenerlos en el futuro y reconocerlos en todos los vídeos.

Figura 8: Extensión de modelos de reconocimiento facial

Como reconoce a personalidades famosas, he querido probarlo con el vídeo creado por Deep Live Cam donde se hacen DeepFakes de personas famosas en vídeo-conferencias. En el ejemplo del vídeo sale Mark Zuckerberg, George Clooney o Hugh Grant, y como tal los reconoce.
Figura 9: Detección de personas famosas en un vídeo de deepfakes

Pero no da ningún aviso de que estos vídeos son DeepFakes, tal y como pudimos comprobar con los modelos de VerifAI Premium donde se detectan los algoritmos que identifican como creados por GenAI estas personas.
Al final, el análisis automático para KYC, para realizar Análisis Forense de vídeos o el procesado de vídeo para crear servicios digitales tiene en la Inteligencia Artificial y en los modelos de Vision Artificial muchas posibilidades. 
Recordad que en la charla de "Cognitve Services & Cyber Security" de la RootedCON de hace un par de años hicimos muchas cosas con estos modelos, desde teclear códigos de seguridad con la pupila, hasta levantar alarmas silenciosas con reconocimiento de gestos de manos o personas. Y cada día, veremos más.
El asunto es que, sistemas de vídeo-vigilancia que utilicen estos análisis con IA pueden acabar con la privacidad de las personas, y gente como yo que estamos en esa base de datos de "Celebrities" podríamos ser vigilados en todo momento.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


No hay comentarios:

Entrada destacada

Cibercriminales con Inteligencia Artificial: Una charla para estudiantes en la Zaragoza

Hoy domingo toca ir a participar en un evento, con una charla y una pequeña demo. Ahora mismo sí, así que el tiempo apremia, os dejo una cha...

Entradas populares