El procesamiento de audio ha experimentado grandes logros en los últimos años gracias a la inteligencia artificial (IA), especialmente en el ámbito del Deep Learning y la IA Generativa. Estos avances se han centrado sobre todo en la industria musical, permitiendo a los ingenieros de sonido y productores separar voces, instrumentos y otros componentes de una mezcla de audio con una gran precisión, o en el mundo de la ciberseguridad donde el clonado de voz se ha convertido en un riesgo a tener en cuenta, como vimos con nuestro proyecto de "Chucky" Alonso y el trabajo de "Are You Talkin' ta me?" que presentamos en RootedCON 2023.
Figura 1: Cómo usar la Inteligencia Artificial para el
Análisis Forense y la Ciberinvestigación de Audios
Pero este no es el único dominio donde podemos aplicar estos avances, en el mundo del Análisis Forense Digital, la capacidad de separar diferentes fuentes de audio en una grabación puede ser una herramienta disruptiva para la investigación y la obtención de pruebas sonoras, llevando a otro nivel a la resolución de todo tipo de casos. Éste es un buen ejemplo el cual demuestra el uso de la IA en el mundo de la ciberseguridad. Y si quieres aprender más sobre cómo aplicar la IA en la Ciberseguridad, este libro es buen comienzo:
La separación de pistas de audio permite a los investigadores forenses analizar las grabaciones de manera detallada, aislando sonidos específicos como voces en una multitud, ruidos de fondo en una escena del crimen, ruidos de coches, trenes o aislando interferencias electrónicas en comunicaciones para obtener una mayor nitidez. Estas capacidades logran mejorar significativamente la calidad de las pruebas sonoras (para por ejemplo descifrar conversaciones), llevando a los investigadores a presentar análisis más precisos en contextos legales y de investigación, que al final ayudarán a resolver el caso con nuevas pruebas aún más concluyentes.
¿Cómo funciona?
La separación de fuentes de audio utilizando IA tiene es un proceso bastante avanzado, ya se utilizan una gran variedad de arquitecturas de IA en general y también de IA Generativa. Algunas de estas arquitecturas son:
En el análisis forense digital, la separación de audio es una herramienta que nos ofrece un cambio radical en la obtención de resultados espectaculares en un ámbito de investigación. Como ya he comentado antes, permite a los investigadores descomponer grabaciones complejas en componentes más manejables, facilitando la identificación de eventos, identificación de ruidos o voces clave en situaciones con ruido ambiental alto.
Figura 2: Libro de Machine Learning aplicado a Ciberseguridad de Carmen Torrano, Fran Ramírez, Paloma Recuero, José Torres y Santiago Hernández |
¿Cómo funciona?
La separación de fuentes de audio utilizando IA tiene es un proceso bastante avanzado, ya se utilizan una gran variedad de arquitecturas de IA en general y también de IA Generativa. Algunas de estas arquitecturas son:
- Redes Neuronales Convolucionales (CNN): esta es posiblemente la más utilizada, ya que son la base para procesar espectrogramas de audio (la fuente de datos no olvidemos que son al final imágenes, en concreto espectrogramas). Estas redes pueden identificar patrones complejos y distinguir entre diferentes tipos de sonidos en una mezcla.
Figura 3: Espectrograma del audio que luego analizaremos más adelante
- Redes Recurrentes (RNN) y LSTM: Son perfectas para el procesamiento de secuencias temporales, estas redes capturan la dinámica temporal del audio, mejorando la precisión de la separación en pistas que suelen varían con el tiempo.
- Transformers: esta arquitectura es la más utilizada hoy en día en una gran variedad de proyectos de IA, y también se aplican en la segmentación de audio para gran diversidad de funciones.
- IA Generativa: Herramientas como las GAN (Generative Adversarial Networks) se pueden utilizar para generar muestras de audio sintéticas para luego mejorar los modelos que se dedican a la separación, aumentando la diversidad y calidad de los datos de entrenamiento.
En el análisis forense digital, la separación de audio es una herramienta que nos ofrece un cambio radical en la obtención de resultados espectaculares en un ámbito de investigación. Como ya he comentado antes, permite a los investigadores descomponer grabaciones complejas en componentes más manejables, facilitando la identificación de eventos, identificación de ruidos o voces clave en situaciones con ruido ambiental alto.
Figura 4: Libro "Técnicas de Análisis Forense Informático para Peritos Judiciales Profesionales" de Pilar Vila en 0xWord. |
Por ejemplo, en un entorno urbano ruidoso, un analista forense puede utilizar estas técnicas para aislar una conversación específica entre el tráfico y otros ruidos de fondo. O en una grabación telefónica poder identificar sonidos de fondo que puedan ayudar por ejemplo, a la localización del punto desde donde se realizó.
El proceso empieza con la conversión de la grabación en un espectrograma (como hemos comentado antes, analizar audio implica analizar imagen), que es una representación visual que captura la intensidad de las frecuencias del sonido a lo largo del tiempo.
El proceso empieza con la conversión de la grabación en un espectrograma (como hemos comentado antes, analizar audio implica analizar imagen), que es una representación visual que captura la intensidad de las frecuencias del sonido a lo largo del tiempo.
Las técnicas de Deep Learning se aplican luego para identificar patrones específicos dentro de este espectrograma, para poder separar y reconstruir las diferentes fuentes de audio. Este aislamiento luego se utiliza para:
- Reconocimiento de Voces: Identificar y verificar la presencia de individuos en una grabación.
- Análisis de Ruidos de Fondo: Determinar la ubicación o el contexto de una grabación mediante la identificación de sonidos ambientales.
- Detección de ruidos específicos: por ejemplo, el ruido de cristales, vehículos, disparos, etcétera.
- Detección de Anomalías: Identificar alteraciones o manipulaciones en grabaciones, que pueden ser indicativas de interferencia o falsificación.
Por ejemplo, en el control de multitudes o situaciones de emergencia, la capacidad de identificar sonidos como explosiones, disparos o alarmas puede activar automáticamente protocolos de seguridad, movilizando recursos de manera más rápida y precisa.
Por otro lado, en el ámbito de la ciberseguridad, la tecnología de separación de audio se utiliza para analizar comunicaciones interceptadas, donde la detección de sonidos inusuales o la identificación de códigos sonoros puede proporcionar información crucial sobre actividades ilícitas.
Algunas herramientas disponibles
1.- Profesionales
Algunas herramientas disponibles
1.- Profesionales
- LALAL.AI: Una herramienta en línea que utiliza IA para separar pistas vocales e instrumentales en cualquier archivo de audio. Fácil de usar y precisa, adecuada para investigadores que necesitan resultados rápidos sin configuraciones complejas.
- Auphonic: Ofrece servicios de mejora de audio que incluyen normalización y eliminación de ruido. Es ideal para limpiar grabaciones (fase de procesamientod el audio) y mejorar la calidad antes del análisis forense con IA.
Figura 6: Ejemplo de separación de pistas con Auphonic.
- Moises.ai: Esta plataforma permite a los usuarios separar y manipular pistas de audio utilizando IA avanzada, proporcionando herramientas útiles para analizar y extraer información de grabaciones complejas.
Figura 7: Moises.ai separando la voz de la música del
fondo en una conversación en una discoteca.
- eMastered: Aunque está más enfocada en la masterización de música, su tecnología puede aplicarse para mejorar y clarificar grabaciones antes de un análisis detallado en investigaciones forenses (al igual que Auphonic).
- pyAudioAnalysis: Una biblioteca de Python para la clasificación de audio, segmentación y extracción de características. Es útil para pre-procesamiento y análisis detallado de las características del audio.
Figura 8: Libro de Python para Pentesters 2ª Edición en 0xWord
por Daniel Echeverri Montoya a.k.a. Adastra
- Open-Unmix: Ofrece modelos de separación de audio basados en deep learning que pueden adaptarse para separar diferentes componentes de audio, no solo música.
- Spleeter: Desarrollada por Deezer, esta herramienta permite separar audio en múltiples componentes usando modelos preentrenados. Es especialmente útil en el análisis forense para aislar voces u otros elementos de fondo.
- Demucs: Utiliza un enfoque de deep learning para separar audio en diferentes componentes con alta calidad. Demucs es ideal para investigaciones que requieren una separación precisa de múltiples fuentes sonoras.
- Wave-U-Net: Implementa un modelo de red neuronal que separa las fuentes de audio directamente en el dominio de la onda, ofreciendo una alternativa única para el análisis forense.
Happy Hacking Hackers!!!
Autor: Fran Ramírez, es investigador de seguridad y miembro del equipo de Ideas Locas en CDO en Telefónica, co-autor del libro "Microhistorias: Anécdotas y Curiosidades de la historia de la informática (y los hackers)", del libro "Docker: SecDevOps", también de "Machine Learning aplicado a la Ciberseguridad” además del blog CyberHades. Puedes contactar con Fran Ramirez en MyPublicInbox.
Contactar con Fran Ramírez en MyPublicInbox |
No hay comentarios:
Publicar un comentario